https://geminiplanet.cn/%E6%95%B0%E5%AD%A6%E5%BB%BA%E6%A8%A1%E7%AE%97%E6%B3%95%E6%B1%87%E6%80%BB/

高校大模型网络架构 高校建模_神经网络

  • 1 、优化模型
  • 1.1 数学规划模型
  • 1.2 微分方程组模型
  • 1.3 图论与网络优化问题
  • 1.4 概率模型
  • 1.5 组合优化经典问题
  • 现代优化算法:禁忌搜索;模拟退火;遗传算法;人工神经网络
  • 2、分类模型
  • 2.1 判别分析
  • 2.2 聚类分析
  • 2.3 神经网络分类方法
  • 3、评价模型
  • 3.1 层次分析法(AHP)
  • 3.2 灰色综合评价法(灰色关联度分析)
  • 3.3 模糊综合评价法
  • 3.4 BP神经网络综合评价法
  • 3.5 数据包络法(DEA)
  • 3.6 组合评价法
  • 4、预测模型
  • 4.1 回归分析法
  • 4.2 时间序列分析法
  • 4.3 灰色预测法
  • 4.4 BP神经网络法
  • 4.5 支持向量机法
  • 4.6 组合预测法

 

1 、优化模型

1.1 数学规划模型

线性规划、整数线性规划、非线性规划、多目标规划、动态规划。

1.2 微分方程组模型

阻滞增长模型、SARS传播模型。

1.3 图论与网络优化问题

最短路径问题、网络最大流问题、最小费用最大流问题、最小生成树问题(MST)、旅行商问题(TSP)、图的着色问题。

1.4 概率模型

决策模型、随机存储模型、随机人口模型、报童问题、Markov链模型。

1.5 组合优化经典问题

  • 1.5.1 多维背包问题(MKP)
  • 背包问题:个物品,对物品,体积为,背包容量为。如何将尽可能多的物品装入背包。
    多维背包问题:个物品,对物品,价值为,体积为,背包容量为。如何选取物品装入背包,是背包中物品的总价值最大。
    多维背包问题在实际中的应用有:资源分配、货物装载和存储分配等问题。该问题属于难问题。
  • 1.5.2 二维指派问题(QAP)
  • 工作指派问题:个工作可以由个工人分别完成。工人完成工作的时间为。如何安排使总工作时间最小。
    二维指派问题(常以机器布局问题为例):台机器要布置在个地方,机器与之间的物流量为,位置与之间的距离为,如何布置使费用最小。
    二维指派问题在实际中的应用有:校园建筑物的布局、医院科室的安排、成组技术中加工中心的组成问题等。
  • 1.5.3 旅行商问题(TSP)
  • 旅行商问题:有个城市,城市与之间的距离为,找一条经过个城市的巡回(每个城市经过且只经过一次,最后回到出发点),使得总路程最小。
  • 1.5.4 车辆路径问题(VRP)
  • 车辆路径问题(也称车辆计划):已知个客户的位置坐标和货物需求,在可供使用车辆数量及运载能力条件的约束下,每辆车都从起点出发,完成若干客户点的运送任务后再回到起点,要求以最少的车辆数、最小的车辆总行程完成货物的派送任务。
    TSP问题是VRP问题的特例。
  • 1.5.5 车间作业调度问题(JSP)
  • 车间调度问题:存在个工作和台机器,每个工作由一系列操作组成,操作的执行次序遵循严格的串行顺序,在特定的时间每个操作需要一台特定的机器完成,每台机器在同一时刻不能同时完成不同的工作,同一时刻同一工作的各个操作不能并发执行。如何求得从第一个操作开始到最后一个操作结束的最小时间间隔。

现代优化算法:禁忌搜索;模拟退火;遗传算法;人工神经网络

2、分类模型

判别分析是在已知研究对象分成若干类型并已经取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析。

聚类分析则是给定的一批样品,要划分的类型实现并不知道,正需要通过局内分析来给以确定类型的。

2.1 判别分析

  • 2.1.1 距离判别法
  • 基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第类的重心距离最近,就认为它来自第类。
    至于距离的测定,可以根据实际需要采用欧氏距离、马氏距离、明科夫距离等。
  • 2.1.2 Fisher判别法
  • 基本思想:从两个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个判别函数或称判别式。其中系数确定的原则是使两组间的区别最大,而使每个组内部的离差最小。
    对于一个新的样品,将它的p个指标值代人判别式中求出 y 值,然后与判别临界值(或称分界点(后面给出)进行比较,就可以判别它应属于哪一个总体。在两个总体先验概率相等的假设下,判别临界值一般取:
  • 最后,用统计量来检验判别效果,若则认为判别有效,否则判别无效。
    以上描述的是两总体判别,至于多总体判别方法则需要加以扩展。
    Fisher判别法随着总体数的增加,建立的判别式也增加,因而计算比较复杂。
  • 2.1.3 Bayes判别法
  • 基本思想:假定对所研究的对象有一定的认识,即假设个总体中,第个总体的先验概率为,概率密度函数为。利用bayes公式计算观测样品来自第个总体的后验概率,当时,将样本判为总体。
  • 2.1.4 逐步判别法
  • 基本思想与逐步回归法类似,采用“有进有出”的算法,逐步引入变量,每次引入一个变量进入判别式,则同时考虑在较早引入判别式的某些作用不显著的变量剔除出去。

2.2 聚类分析

聚类分析是一种无监督的分类方法,即不预先指定类别。根据分类对象不同,聚类分析可以分为样本聚类(Q型)和变量聚类(R型)。样本聚类是针对观测样本进行分类,而变量聚类则是试图找出彼此独立且有代表性的自变量,而又不丢失大部分信息。变量聚类是一种降维的方法。

  • 2.2.1 系统聚类法(分层聚类法)
  • 基本思想:开始将每个样本自成一类;然后求两两之间的距离,将距离最近的两类合成一类;如此重复,直到所有样本都合为一类为止。
    适用范围:既适用于样本聚类,也适用于变量聚类。并且距离分类准则和距离计算方法都有多种,可以依据具体情形选择。
  • 2.2.2 快速聚类法(K-均值聚类法)
  • 基本思想:按照指定分类数目,选择个初始聚类中心;计算每个观测量(样本)到各个聚类中心的距离,按照就近原则将其分别分到放入各类中;重新计算聚类中心,继续以上步骤;满足停止条件时(如最大迭代次数等)则停止。
    使用范围:要求用户给定分类数目,只适用于样本聚类(Q型),不适用于变量聚类(R型)。
  • 2.2.3 两步聚类法(智能聚类方法)
  • 基本思想:先进行预聚类,然后再进行正式聚类。
    适用范围:属于智能聚类方法,用于解决海量数据或者具有复杂类别结构的聚类分析问题。可以同时处理离散和连续变量,自动选择聚类数,可以处理超大样本量的数据。
  • 2.2.4 模糊聚类分析
  • 2.2.5 与遗传算法、神经网络或灰色理论联合的聚类方法

2.3 神经网络分类方法

3、评价模型

3.1 层次分析法(AHP)

基本思想:是定性与定量相结合的多准则决策、评价方法。将决策的有关元素分解成目标层、准则层和方案层,并通过人们的判断对决策方案的优劣进行排序,在此基础上进行定性和定量分析。它把人的思维过程层次化、数量化,并用数学为分析、决策、评价、预报和控制提供定量的依据。

基本步骤:构建层次结构模型;构建成对比较矩阵;层次单排序及一致性检验(即判断主观构建的成对比较矩阵在整体上是否有较好的一致性);层次总排序及一致性检验(检验层次之间的一致性)。

优点:它完全依靠主观评价做出方案的优劣排序,所需数据量少,决策花费的时间很短。从整体上看,AHP在复杂决策过程中引入定量分析,并充分利用决策者在两两比较中给出的偏好信息进行分析与决策支持,既有效地吸收了定性分析的结果,又发挥了定量分析的优势,从而使决策过程具有很强的条理性和科学性,特别适合在社会经济系统的决策分析中使用。

缺点:用AHP进行决策主观成分很大。当决策者的判断过多地受其主观偏好影响,而产生某种对客观规律的歪曲时,AHP的结果显然就靠不住了。

适用范围:尤其适合于人的定性判断起重要作用的、对决策结果难于直接准确计量的场合。要使AHP的决策结论尽可能符合客观规律,决策者必须对所面临的问题有比较深入和全面的认识。另外,当遇到因素众多,规模较大的评价问题时,该模型容易出现问题,它要求评价者对问题的本质、包含的要素及其相互之间的逻辑关系能掌握得十分透彻,否则评价结果就不可靠和准确。

改进方法

(1) 成对比较矩阵可以采用德尔菲法获得。

(2) 如果评价指标个数过多(一般超过9个),利用层次分析法所得到的权重就有一定的偏差,继而组合评价模型的结果就不再可靠。可以根据评价对象的实际情况和特点,利用一定的方法,将各原始指标分层和归类,使得每层各类中的指标数少于9个。

3.2 灰色综合评价法(灰色关联度分析)

基本思想:灰色关联分析的实质就是,可利用各方案与最优方案之间关联度大小对评价对象进行比较、排序。关联度越大,说明比较序列与参考序列变化的态势越一致,反之,变化态势则相悖。由此可得出评价结果。

基本步骤:建立原始指标矩阵;确定最优指标序列;进行指标标准化或无量纲化处理;求差序列、最大差和最小差;计算关联系数;计算关联度。

优点:是一种评价具有大量未知信息的系统的有效模型,是定性分析和定量分析相结合的综合评价模型,该模型可以较好地解决评价指标难以准确量化和统计的问题,可以排除人为因素带来的影响,使评价结果更加客观准确。整个计算过程简单,通俗易懂,易于为人们所掌握;数据不必进行归一化处理,可用原始数据进行直接计算,可靠性强;评价指标体系可以根据具体情况增减;无需大量样本,只要有代表性的少量样本即可。

缺点:要求样本数据且具有时间序列特性;只是对评判对象的优劣做出鉴别,并不反映绝对水平,故基于灰色关联分析综合评价具有“相对评价”的全部缺点。

适用范围:对样本量没有严格要求,不要求服从任何分布,适合只有少量观测数据的问题;应用该种方法进行评价时,指标体系及权重分配是一个关键的问题,选择的恰当与否直接影响最终评价结果。

改进方法

(1) 采用组合赋权法:根据客观赋权法和主观赋权法综合而得权系数。

(2) 结合TOPSIS法:不仅关注序列与正理想序列的关联度,而且关注序列与负理想序列的关联度,依据公式计算最后的关联度。

3.3 模糊综合评价法

基本思想:是以模糊数学为基础,应用模糊关系合成的原理,将一些边界不清、不易定量的因素定量化,从多个因素对被评价事物隶属等级(或称为评语集)状况进行综合性评价的一种方法。综合评判对评判对象的全体,根据所给的条件,给每个对象赋予一个非负实数评判指标,再据此排序择优。

基本步骤:确定因素集、评语集;构造模糊关系矩阵;确定指标权重;进行模糊合成和做出评价。

优点:数学模型简单,容易掌握,对多因素、多层次的复杂问题评判效果较好。模糊评判模型不仅可对评价对象按综合分值的大小进行评价和排序,而且还可根据模糊评价集上的值按最大隶属度原则去评定对象所属的等级,结果包含的信息量丰富。评判逐对进行,对被评对象有唯一的评价值,不受被评价对象所处对象集合的影响。接近于东方人的思维习惯和描述方法,因此它更适用于对社会经济系统问题进行评价。

缺点:并不能解决评价指标间相关造成的评价信息重复问题,隶属函数的确定还没有系统的方法,而且合成的算法也有待进一步探讨。其评价过程大量运用了人的主观判断,由于各因素权重的确定带有一定的主观性,因此,总的来说,模糊综合评判是一种基于主观信息的综合评价方法。

应用范围:广泛地应用于经济管理等领域。综合评价结果的可靠性和准确性依赖于合理选取因素、因素的权重分配和综合评价的合成算子等。

改进方法:采用组合赋权法:根据客观赋权法和主观赋权法综合而得权系数。

3.4 BP神经网络综合评价法

基本思想:是一种交互式的评价方法,它可以根据用户期望的输出不断修改指标的权值,直到用户满意为止。因此,一般来说,人工神经网络评价方法得到的结果会更符合实际情况。

优点:神经网络具有自适应能力,能对多指标综合评价问题给出一个客观评价,这对于弱化权重确定中的人为因素是十分有益的。在以前的评价方法中,传统的权重设计带有很大的模糊性,同时权重确定中人为因素影响也很大。随着时间、空间的推移,各指标对其对应问题的影响程度也可能发生变化,确定的初始权重不一定符合实际情况。再者,考虑到整个分析评价是一个复杂的非线性大系统,必须建立权重的学习机制,这些方面正是人工神经网络的优势所在。针对综合评价建模过程中变量选取方法的局限性,采用神经网络原理可对变量进行贡献分析,进而剔除影响不显著和不重要的因素,以建立简化模型,可以避免主观因素对变量选取的干扰。

缺点: ANN在应用中遇到的最大问题是不能提供解析表达式,权值不能解释为一种回归系数,也不能用来分析因果关系,目前还不能从理论上或从实际出发来解释ANN的权值的意义。需要大量的训练样本,精度不高,应用范围是有限的。最大的应用障碍是评价算法的复杂性,人们只能借助计算机进行处理,而这方面的商品化软件还不够成熟。

适用范围:神经网络评价模型具有自适应能力、可容错性,能够处理非线性、非局域性的大型复杂系统。在对学习样本训练中,无需考虑输入因子之间的权系数,ANN通过输入值与期望值之间的误差比较,沿原连接权自动地进行调节和适应,因此该方法体现了因子之间的相互作用。

改进方法

采用组合评价法:对用其它评价方法得出的结果,选取一部分作为训练样本,一部分作为待测样本进行检验,如此对神经网络进行训练,知道满足要求为止,可得到更好的效果。

3.5 数据包络法(DEA)

3.6 组合评价法

4、预测模型

定性研究与定量研究的结合,是科学的预测的发展趋势。在实际预测工作中,应该将定性预测和定量预测结合起来使用,即在对系统做出正确分析的基础上,根据定量预测得出的量化指标,对系统未来走势做出判断。

4.1 回归分析法

基本思想:根据历史数据的变化规律,寻找自变量与因变量之间的回归方程式,确定模型参数,据此预测。回归问题分为一元和多元回归、线性和非线性回归。

特点:技术比较成熟,预测过程简单;将预测对象的影响因素分解,考察各因素的变化情况,从而估计预测对象未来的数量状态;回归模型误差较大,外推特性差。

适用范围:回归分析法一般适用于中期预测。回归分析法要求样本量大且要求样本有较好的分布规律,当预测的长度大于占有的原始数据长度时,采用该方法进行预测在理论上不能保证预测结果的精度。另外,可能出现量化结果与定性分析结果不符的现象,有时难以找到合适的回归方程类型。

4.2 时间序列分析法

基本思想:把预测对象的历史数据按一定的时间间隔进行排列,构成一个随时间变化的统计序列,建立相应的数据随时间变化的变化模型,并将该模型外推到未来进行预测。

适用范围:此方法有效的前提是过去的发展模式会延续到未来,因而这种方法对短期预测效果比较好,而不适合作中长期预测。一般来说,若影响预测对象变化各因素不发生突变,利用时间序列分析方法能得到较好的预测结果;若这些因素发生突变,时间序列法的预测结果将受到一定的影响。

4.3 灰色预测法

基本思想:将一切随机变量看作是在一定范围内变化的灰色变量,不是从统计规律角度出发进行大样本分析研究,而是利用数据处理方法(数据生成与还原),将杂乱无章的原始数据整理成规律性较强的生成数据来加以研究,即灰色系统理论建立的不是原始数据模型,而是生成数据模型。

适用范围:预测模型是一个指数函数,如果待测量是以某一指数规律发展的,则可望得到较高精度的预测结果。影响模型预测精度及其适应性的关键因素,是模型中背景值的构造及预测公式中初值的选取。

4.4 BP神经网络法

人工神经网络的理论有表示任意非线性关系和学习等的能力,给解决很多具有复杂的不确定性和时变性的实际问题提供了新思想和新方法。

利用人工神经网络的学习功能,用大量样本对神经元网络进行训练,调整其连接权值和闭值,然后可以利用已确定的模型进行预测。神经网络能从数据样本中自动地学习以前的经验而无需繁复的查询和表述过程,并自动地逼近那些最佳刻画了样本数据规律的函数,而不论这些函数具有怎样的形式,且所考虑的系统表现的函数形式越复杂,神经网络这种特性的作用就越明显。

误差反向传播算法(BP算法)的基本思想是通过网络误差的反向传播,调整和修改网络的连接权值和闭值,使误差达到最小,其学习过程包括前向计算和误差反向传播。它利用一个简单的三层人工神经网络模型,就能实现从输入到输出之间任何复杂的非线性映射关系。目前,神经网络模型已成功地应用于许多领域,诸如经济预测、财政分析、贷款抵押评估和破产预测等许多经济领域。

优点:可以在不同程度和层次上模仿人脑神经系统的结构及信息处理和检索等功能,对大量非结构性、非精确性规律具有极强的自适应功能,具有信息记忆、自主学习、知识推理和优化计算等特点,其自学习和自适应功能是常规算法和专家系统技术所不具备的,同时在一定程度上克服了由于随机性和非定量因素而难以用数学公式严密表达的困难。

缺点:网络结构确定困难,同时要求有足够多的历史数据,样本选择困难,算法复杂,容易陷入局部极小点。

4.5 支持向量机法

支持向量机是基于统计学习的机器学习方法,通过寻求结构风险化最小,实现经验风险和置信范围的最小,从而达到在统计样本较少的情况下,亦能获得良好统计规律的目的。 其中支持向量机是统计学习理论的核心和重点。支持向量机是结构风险最小化原理的近似,它能够提高学习机的泛化能力,既能够由有限的训练样本得到小的误差,又能够保证对独立的测试集仍保持小的误差,而且支持向量机算法是一个凸优化问题,因此局部最优解一定是全局最优解,支持向量机就克服了神经网络收敛速度慢和局部极小点等缺陷。 核函数的选取在SVM方法中是一个较为困难的问题,至今没有一定的理论方面的指导。

4.6 组合预测法

在实际预测工作中,从信息利用的角度来说,就是任何一种单一预测方法都只利用了部分有用信息,同时也抛弃了其它有用的信息。为了充分发挥各预测模型的优势,对于同一预测问题,往往可以采用多种预测方法进行预测。不同的预测方法往往能提供不同的有用信息,组合预测将不同预测模型按一定方式进行综合。根据组合定理,各种预测方法通过组合可以尽可能利用全部的信息,尽可能地提高预测精度,达到改善预测性能的目的。

优化组合预测有两类概念,一是指将几种预测方法所得的预测结果,选取适当的权重进行加权平均的一种预测方法,其关键是确定各个单项预测方法的加权系数;二是指在几种预测方法中进行比较,选择拟合度最佳或标准离差最小的预测模型作为最优模型进行最优模型进行预测。组合预测是在单个预测模型不能完全正确地描述预测量的变化规律时发挥其作用的。

 

 

 

 

第一篇:方法适用范围

一、统计学方法

1.1 多元回归

1、方法概述:

在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可

以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归

方程可以求出因变量的估计值,从而可以进行预测等相关研究。

insking:大量mc,tb,ea策略源代码zhuanlan.zhihu.com

insking:500G程序化和量化交易视频分享zhuanlan.zhihu.com

2、分类

分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一

定的变化转化为线性回归,比如:y=lnx 可以转化为 y=u u=lnx 来解决;所以这

里主要说明多元线性回归应该注意的问题。

3、注意事项

在做回归的时候,一定要注意两件事:

(1) 回归方程的显著性检验(可以通过 sas 和spss 来解决)

(2) 回归系数的显著性检验(可以通过 sas 和spss 来解决)

检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的

优劣,是完整论文的体现,所以这点大家一定要注意。

4、使用步骤:

(1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间

的大致关系;

(2)选取适当的回归方程;

(3)拟合回归参数;

(4)回归方程显著性检验及回归系数显著性检验

(5)进行后继研究(如:预测等)

 

1.2 聚类分析

1、方法概述

该方法说的通俗一点就是,将 n 个样本,通过适当的方法(选取方法很多,

大家可以自行查找,可以在数据挖掘类的书籍中查找到,这里不再阐述)选取m

聚类中心,通过研究各样本和各个聚类中心的距离Xij,选择适当的聚类标准,

通常利用最小距离法(一个样本归于一个类也就意味着,该样本距离该类对应的

中心距离最近)来聚类,从而可以得到聚类结果,如果利用sas 软件或者spss 软

件来做聚类分析,就可以得到相应的动态聚类图。

这种模型的的特点是直观,容易理解。

2、分类

聚类有两种类型:

(1) Q 型聚类:即对样本聚类;

(2) R 型聚类:即对变量聚类;

通常聚类中衡量标准的选取有两种:

(1) 相似系数法

(2) 距离法

聚类方法:

(1) 最短距离法(2) 最长距离法

(3) 中间距离法

(4) 重心法

(5) 类平均法

(6) 可变类平均法

(7) 可变法

(8) 利差平均和法

在具体做题中,适当选区方法;

3、注意事项

在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景

知识和相关的其他方法辅助处理。

4、方法步骤

(1)首先把每个样本自成一类;

(2)选取适当的衡量标准,得到衡量矩阵,比如说:距离矩阵或相似性矩

阵,找到矩阵中最小的元素,将该元素对应的两个类归为一类,

(3)重新计算类间距离,得到衡量矩阵

(4)重复第2 步,直到只剩下一个类;

补充:聚类分析是一种无监督的分类,下面将介绍有监督的分类。

 

1.3 数据分类

1、方法概述

数据分类是一种典型的有监督的机器学习方法,其目的是从一组已知类别的

数据中发现分类模型,以预测新数据的未知类别。这里需要说明的是:预测和分

类是有区别的,预测是对数据的预测,而分类是类别的预测。

2、分类方法:

(1)神经网路

(2)决策树(这里不再阐述,有兴趣的同学,可以参考数据挖掘和数据仓

库相关书籍)

3、注意事项

神经网路适用于下列情况的分类:

(1) 数据量比较小,缺少足够的样本建立数学模型;

(2) 数据的结构难以用传统的统计方法来描述

(3) 分类模型难以表示为传统的统计模型

神经网路的优点:

分类准确度高,并行分布处理能力强,对噪声数据有较强的鲁棒性和容

错能力,能够充分逼近复杂的非线性关系,具备联想记忆的功能等。

神经网路缺点:

需要大量的参数,不能观察中间学习过程,输出结果较难解释,会影响

到结果的可信度,需要较长的学习时间,当数据量较大的时候,学习速度会制约

其应用。

4、步骤

(1)初始化全系数

(2)输入训练样本

(3)计算实际输出值

(4)计算实际输出值和期望输出值之间的误差

(5)用误差去修改权系数

(6)判断是否满足终止条件,如果满足终止,否则进入第二步

 

1.4 判别分析

1、概述

其是基于已知类别的训练样本,对未知类别的样本判别的一种统计方法,也

是一种有监督的学习方法,是分类的一个子方法!

具体是:在研究已经过分类的样本基础上,根据某些判别分析方法建立判别式,

然后对未知分类的样本进行分类!

2、分类

根据判别分析方法的不同,可分为下面几类:

(1) 距离判别法

(2) Fisher 判别法

(3) Bayes 判别法

(4) 逐步判别法

关于这几类的方法的介绍,大家可以参考《多元统计学》,其中比较常用的

是bayes 判别法和逐步判别法

3、注意事项:

判别分析主要针对的是有监督学习的分类问题。共有四种方法,这里重点注

意其优缺点:

(1) 距离判别方法简单容易理解,但是它将总体等概率看待,没有差

异性;

(2) Bayes 判别法有效地解决了距离判别法的不足,即:其考虑了先

验概率——所以通常这种方法在实际中应用比较多!

(3) 在进行判别分析之前,应首先检验各类均值是不是有差异(因为

判别分析要求给定的样本数据必须有明显的差异),如果检验后某两个总体的差

异不明显,应将这两个总体合为一个总体,再由剩下的互不相同的总体重现建立

判别分析函数。

(4) 这里说明下 Fisher 判别法和bayes 判别法的使用要求:两者对总

体的数据的分布要求不同,具体的,Fishe 要求对数据分布没有特殊要求,而bayes

则要求数据分布是多元正态分布,但实际中却没有这么严格!

(5) 可以利用 spss,sas 等软件来轻松实现

4、方法步骤

这里以 bayes 判别法为例讲述

(1) 计算各类中变量的均值 xj 及均值向量xh,各变量的总均值xi 及均值

向量x

(2) 计算类内协方差及其逆矩阵

(3) 计算 bayes 判别函数中,各个变量的系数及常数项并写出判别函数

(4)计算类内协方差矩阵及各总协方差矩阵做多个变量的全体判别效果的

检验

(5) 做各个变量的判别能力检验

(6) 判别样本应属于的类别

 

1.5 主成分分析

1、概述

主成分分析是一种降维数的数学方法,具体就是,通过降维技术立将多个变

量化为少数几个主成分的统计分析方法。在建模中,主要用于降维,系统评估,

回归分析,加权分析等等。

2、分类(无)

3、注意事项

在应用主成分分析时候,应该注意:

(1) 综合指标彼此独立或者不想关

(2)每个综合指标所反映的各个样本的总信息量等于对应特征向量的

特征值。

通常要选取的综合指标的特征值贡献率之和应为 80%以上

(3) 其在应用上侧重于信息贡献影响力的综合评价

(4) 当主成分因子负荷的符号有正也有负的时候,综合评价的函数意

义就不明确!

4、方法步骤

大家可以参考《多元统计学》这本书籍,在这里就不做阐述

 

1.6 因子分析

1、概述

其是也是将变量总和为数量较少的几个因子,是降维的一种数学技术!它和

主成分分析的最大区别是:其是一种探索性分析方法,即:通过用最少个数的几

个不可观察的变量来说明出现在可观察变量中的相关模型(有点类似于前面讲述

的分类和聚类的区别)它提供了一种有效的利用数学模型来解释事物之间的关

系,体现出数据挖掘的一点精神!他可以用来解决降维,系统评估,加权分析等

方法。

2、分类

因子分析是 R 型,即对变量研究

3、注意事项

(1)其不是对研究总体的变量的降维,而是根据原始变量信息构造新的变

量,作为共同因子

(2)它通过旋转可以使得因子变量具有可解释性

(3)因子分析和主成分分析的区别和联系

<1>两者都是降维数学技术,前者是后者的推广和发展

<2>主成分分析只是一般的变量替换,其始终是基于原始变量研究

数据的模型规律;而因子分析则是通过挖掘出新的少数变量,来研究的一种方法,

有点像数据挖掘中的关联关则发现!

4、方法步骤

(略)大家可以去论坛上下载相关电子资源,也可以参考《多元统计学》

 

1.7 残差分析

1、概述

在实际问题中,由于观察人员的粗心或偶然因素的干扰。常会使我们所得到

的数据不完全可靠,即出现异常数据。有时即使通过相关系数或F 检验证实回归

方程可靠,也不能排除数据存在上述问题。残差分析的目的就在于解决这一问题。

所谓残差是指实际观察值与回归估计值的差。

2、分类

3、应用

(1)通过残差分析来排除异常数据

(2)通过残差分析来检验模型的可靠性

还有很多应用,大家在使用过程中据情况选取,灵活应用!

 

1.8 典型相关分析

1、概述

前面介绍的方法主要是一个变量和多个变量之间的关系,而典型相关分析研

究的是多个变量和多个变量之间的关系,或者是一组变量和一组变量之间关系!

其可以揭示两组变量之间的关系,从而供大家研究两个现象之间的关系,例如:

蔬菜的产出水平和影响产出水平的变量之间的关系!

2、分类

多对多的变量关系研究!

3、注意事项

(1)其可以很好地解决组合相关性的问题

(2)其还局限于两组变量的研究,而且要求这两组变量都是连续变量且需

服从多元正态分布

 

1.9 时间序列

1、概述

时间序列预测法是一种定量分析方法,它是在时间序列变量分析的基础上,

运用一定的数学方法建立预测模型,使时间趋势向外延伸,从而预测未来市场的

发展变化趋势,确定变量预测值。

其基本特点是:假定事物的过去趋势会延伸到未来;预测所依据的数据具有

不规则性;撇开市场发展之间的因果关系。

2、分类

时间序列的变动形态一般分为四种:长期趋势变动,季节变动,循环变动,

不规则变动。

方法分类:

(1) 平均数预测(简单算术平均法,加权算术平均法,几何平均数法)

(2) 移动平均数预测(一次移动平均法,二次移动平均法)

(3) 指数平滑法预测(一次,二次,三次指数平滑法)

(4) 趋势法预测(分割平均法,最小二乘法,三点法)

(5) 季节变动法(简单平均法,季节比例法)

3.注意事项

(1)季节变动法预测需要筹集至少三年以上的资料

(2)移动平均法在短期预测中较准确,长期预测中效果较差;

(3)移动平均可以消除或减少时间序列数据受偶然性因素干扰而产生的随

机变动影响。

(4)一次移动平均法适用于具有明显线性趋势的时间序列数据的预测;一次

移动平均法只能用来对下一期进行预测,不能用于长期预测,必须选择合理的移

动跨期,跨期越大对预测的平滑影响也越大,移动平均数滞后于实际数据的偏差

也越大。跨期太小则又不能有效消除偶然因素的影响。跨期取值可在3~20 间选

取。

(5)二次移动平均法与一次移动平均法相比,其优点是大大减少了滞后偏差,

使预测准确性提高;二次移动平均只适用于短期预测。而且只用于的情形。

(6)最小二乘法即适用于直线趋势的预测,也适用于曲线趋势的预测。

还有一些注意事项,这里就不在意义罗列

 

二、优化方法

1、概述

在一系列的条件限制下,寻求最优方案,使得目标达到最优的问题统称为优

化问题。解决这类问题的方法,自然就称之为优化方法,又成为数学规划!其是

运筹学的一个重要分支!

2、分类

优化问题可以归结为优化模型,按照优化模型求解方法的不同,可以分为以

下类别:

(1) 按照有无约束条件:无约束和约束最优化问题

(2) 按照决策变量是否取之连续分为:

a) 数学规划或连续规划:LP,NLP,QP

b) 离散优化或组合优化:IP

(3) 单目标规划和多目标规划

(4) 确定性规划和不确定性规划

(5) 目标规划,动态规划,非线性规划,多目标规划等

3、注意事项

(1)约束优化问题可以转化为无约束优化问题来解决

(2)多目标规划可以通过适当的方法转化为但目标规划来解决

(3)非线性规划,在一定的条件下,可以近似为线性规划来解决

(4)不确定性规划可以通过适当的技巧转化为确定性方法解决这些转化,

大家可以参阅优秀论文,注意学取人家的经验,从而建立自己的能力提升!

也可以参考相关优化书籍和运筹学书籍来学习,书上都有介绍!

4、步骤

简要概括

(1)建立规划模型

(2)选择方法

(3)结果解释

 

三、排队论

1.概述

在我们的生活中,经常会做和排队想关的事情,比如:银行等待取钱,医院

挂号排队,理发排队等等,都会涉及到排队问题,并且2009 年国赛B 题第五小

题就考了和排队论相关的问题。

排队论是一门研究拥挤现象的学科,具体就是研究各种排队系统概率基础

上,解决相应的排队系统的最优设计和最优控制问题(注意:其实解决排队最优

设计和最优控制的问题)

2、分类

(1)泊松输入-指数服务排队模型

(2)M/M/1 等待排队模型

(3)M/M/S/inf 模型(2009 年B 题的排队就是一个这种模型)

3、注意事项

(1)排队系统常见的优化问题在于

a)确定最优服务率

b)确定最佳服务台数量

c)选择最为合适的服务规则

d)确定上述几个量的最优组合

(2)在使用时候,应该注意模型的选择,模型选择好后,注意顾客到达和

服务时间分布的选择和检验

 

四、智能算法的优化应用

遗传算法,蚁群算法,贪婪算法,模拟退火算法,回溯法,分支定界法,禁

忌搜索算法,粒子群算法等启发式算法。

这类算法在实际中应谨慎使用,固然这类算法有其好处,但是其不确定远远

大于其确定性,所以大家在比赛中慎重使用,最好使用成熟的算法!

 

五、微分建模

1、使用背景介绍

我们通常会在研究一些问题时候,涉及到某些变量的变化率或导数,这样所

得到的变量之间的关系就是微分方程模型,其反映的是变量之间的间接关系,通

过求解方程,就可以得到直接关系!

2、分类

按照求解方法的不同分为:精确求解,求数值解,定性分析方法

3、注意事项

(1)微分方程的集中建立方法:

A、根据规律建立方程

B、微元法

C、模拟近似

(2)几种常见的微分方程模型:

人口增长模型,传染病模型,捕鱼模型等

六、差分方程

1、使用背景的介绍

它是研究离散变量的变化规律,具体就是:根据实际的规律性质,平衡关系

等,建立离散变量所满足的平很关系式,从而建立差分方程模型。通过求出和分

析解,研究方程解的性质,比如,平稳性,渐进性,振动性,周期性等等

2、分类

几个重要的差分方程模型:

商业贷款,离散形式的人口模型,汽车租赁,动物养殖问题等经典模型,

大家可以参考,然后对差分方程模型有个全面的认识

 

七、图论

由于图论设计的内容比较多,系统庞杂,而且模型比较灵活,所以在这里不做介

绍,大家可以自行研究。

 

八、其他方法介绍

灰色系统主要用来解决少数据的预测问题;层次分析法主要用来解决综合分

析类的问题;模糊数学可以用来做模糊综合评判,模糊聚类分析和模糊线性规划;

蒙特卡洛方法主要是一种计算机仿真方法,通常在排队论问题使用;神经网路可

以用来分类,预测,建立模型等等。

 

预测方法的比较:

一般小样本内部预测用插值和拟合,大样本内部预测用回归模型。

移动平均法属于时间序列分析的内容,时间序列分析一般用作大样本外部预测,

就是对未来的预测,灰色理论用于小样本的外部预测,神经网络用于超大样本的

未来预测。

 

第二篇《数学建模思想方法大全》

在数学建模中常用的方法:类比法、二分法、量纲分析法、差分法、变分法、

图论法、层次分析法、数据拟合法、回归分析法、数学规划(线性规划,非线性

规划,整数规划,动态规划,目标规划)、机理分析、排队方法、对策方法、决

策方法、模糊评判方法、时间序列方法、灰色理论方法、现代优化算法(禁忌搜

索算法,模拟退火算法,遗传算法,神经网络)。

 

用这些方法可以解下列一些模型:优化模型、微分方程模型、统计模型、概

率模型、图论模型、决策模型。

 

拟合与插值方法(给出一批数据点,确定满足特定要求的曲线或者曲面,从

而反映对象整体的变化趋势):matlab 可以实现一元函数,包括多项式和非线性

函数的拟合以及多元函数的拟合,即回归分析,从而确定函数; 同时也可以用

matlab 实现分段线性、多项式、样条以及多维插值。

在优化方法中,决策变量、目标函数(尽量简单、光滑)、约束条件、求解

方法是四个关键因素。其中包括无约束规则(用fminserch、fminbnd 实现)线性

规则(用linprog 实现)非线性规则、( 用 fmincon 实现)多目标规划(有目标

加权、效用函数)动态规划(倒向和正向)整数规划。

 

回归分析:对具有相关关系的现象,根据其关系形态,选择一个合适的数学

模型,用来近似地表示变量间的平均变化关系的一种统计方法(一元线性回归、

多元线性回归、非线性回归),回归分析在一组数据的基础上研究这样几个问题:

建立因变量与自变量之间的回归模型(经验公式);对回归模型的可信度进行检

验;判断每个自变量对因变量的影响是否显著:判断回归模型是否适合这组数据;

利用回归模型对进行预报或控制。相对应的有线性回归、多元二项式回归、非线

性回归。

 

逐步回归分析:从一个自变量开始,视自变量作用的显著程度,从大到地依

次逐个引入回归方程:当引入的自变量由于后面变量的引入而变得不显著时,要

将其剔除掉;引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一

步;对于每一步都要进行值检验,以确保每次引入新的显著性变量前回归方程中

只包含对作用显著的变量;这个过程反复进行,直至既无不显著的变量从回归方

程中剔除,又无显著变量可引入回归方程时为止。(主要用SASmatlab matlab

来实现,也可以用mmaattllaabb 软件来实现)。

 

聚类分析:所研究的样本或者变量之间存在程度不同的相似性,要求设法找

出一些能够度量它们之间相似程度的统计量作为分类的依据,再利用这些量将样

本或者变量进行分类。

 

系统聚类分析:将n 个样本或者n 个指标看成n 类,一类包括一个样本或者

指标,然后将性、质最接近的两类合并成为一个新类,依此类推。最终可以按照

需要来决定分多少类,每类有多少样本(指标)。

系统聚类方法步骤:

1. 计算n 个样本两两之间的距离

2. 构成n 个类,每类只包含一个样品

3. 合并距离最近的两类为一个新类

4. 计算新类与当前各类的距离(新类与当前类的距离等于当前类与组合类中

包含的类的距离最小值),若类的个数等于1,转5,否则转3

5. 画聚类图

6. 决定类的个数和类。

 

判别分析:在已知研究对象分成若干类型,并已取得各种类型的一批已知样

品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进

行判别分类。

距离判别法—首先根据已知分类的数据,分别计算各类的重心,计算新个体

到每类的距离,确定最短的距离(欧氏距离、马氏距离)

Fisher 判别法—利用已知类别个体的指标构造判别式(同类差别较小、不同

类差别较大),按照判别式的值判断新个体的类别

Bayes 判别法—计算新给样品属于各总体的条件概率,比较概率的大小,然

后将新样品判归为来自概率最大的总体

 

模糊数学:研究和处理模糊性现象的数学(概念与其对立面之间没有一条

明确的分界线)与模糊数学相关的问题:模糊分类问题—已知若干个相互之间不

分明的模糊概念,需要判断某个确定事物用哪一个模糊概念来反映更合理准确;

模糊相似选择 —按某种性质对一组事物或对象排序是一类常见的问题,但是用

来比较的性质具有边界不分明的模糊性;模糊聚类分析—根据研究对象本身的属

性构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系;模糊层次

分析法—两两比较指标的确定;模糊综合评判—综合评判就是对受到多个因素制

约的事物或对象作出一个总的评价,如产品质量评定、科技成果鉴定、某种作物

种植适应性的评价等,都属于综合评判问题。由于从多方面对事物进行评价难免

带有模糊性和主观性,采用模糊数学的方法进行综合评判将使结果尽量客观从而

取得更好的实际效果。

 

时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列—通过对

预测目标自身时间序列的处理,来研究其变化趋势(长期趋势变动、季节变动、

循环变动、不规则变动)

自回归模型:一般自回归模型AR(n)—系统在时刻t 的响应X(t)仅与其以前

时刻的响应X(t-1),…,X(t-n)有关,而与其以前时刻进入系统的扰动无关;移动

平均模型MA(m)—系统在时刻t 的响应X(t),与其以前任何时刻的响应无关,而

与其以前时刻进入系统的扰动a(t-1),…,a(t-m)存在着一定的相关关系;自回归移

动平均模型 ARMA(n,m)—系统在时刻t 的响应X(t),不仅与其前n 个时刻的自

身值有关,而且还与其前m 个时刻进入系统的扰动存在一定的依存关系。

时间序列建模的基本步骤

1. 数据的预处理:数据的剔取及提取趋势项

2. 取n=1,拟合ARMA(2n,2n-1)(即ARMA(2,1))模型

3. n=n+1,拟合ARMA(2n,2n-1)模型

4. 用F 准则检验模型的适用性。若检验显著,则转入第2 步。若检验不显著,

转入第5 步。

5. 检查远端时刻的系数值的值是否很小,其置信区间是否包含零。若不是,

则适用的模型就是ARMA(2n,2n-1)。若很小,且其置信区间包含零,则拟合

ARMA(2n-1,2n-2)。

6. 利用F 准则检验模型ARMA(2n,2n-1)和ARMA(2n-1,2n-2) ,若F 值不显

著,转入第7 步;若F 值显著,转入第8 步。

7. 舍弃小的MA 参数,拟合m<2n-2 的模型ARMA(2n-1,m),并用F 准则进

行检验。重复这一过程,直到得出具有最小参数的适用模型为止

8. 舍弃小的MA 参数,拟合m<2n-1 的模型ARMA(2n,m),并用F 准则进行

检验。重复这一过程,直到得出具有最小参数的适用模型为止。

 

图论方法:

最短路问题:两个指定顶点之间的最短路径—给出了一个连接若干个城镇的

铁路网络,在这个网络的两个指定城镇间,找一条最短铁路线(Dijkstra 算法)

每对顶点之间的最短路径(Dijkstra 算法、Floyd 算法)。

最小生成树问题:连线问题—欲修筑连接多个城市的铁路设计一个线路图,

使总造价最低(prim 算法、Kruskal 算法)。

图的匹配问题:人员分派问题:n 个工作人员去做件n 份工作,每人适合做

其中一件或几件,问能否每人都有一份适合的工作?如果不能,最多几人可以有

适合的工作?(匈牙利算法)。

遍历性问题:中国邮递员问题—邮递员发送邮件时,要从邮局出发,经过他

投递范围内的每条街道至少一次,然后返回邮局,但邮递员希望选择一条行程最

短的路线

最大流问题,运输问题:

最小费用最大流问题:在运输问题中,人们总是希望在完成运输任务的同时,

寻求一个使总的运输费用最小的运输方案

 

在数学建模中常用的算法:

1:蒙特卡罗算法;

2:数据拟合、参数估计、插值等数据处理算法(常用matlab 实现);

3:线性规划、整数规划、多元规划、二次规划(用lingo、lingdo、matlab 即

可实现);

4:图论算法(包括最短路、网络流、二分图);

5:动态规划、回溯搜索、分治算法、分支界定;

6:最优化理论的三大经典算法(模拟退火算法、神经网络算法、遗传算法);

7:网格算法和穷举法;

8:连续数据离散化;

9:数值分析算法;

10:图象处理算法(常用matlab 来实现)。

 

高校大模型网络架构 高校建模_聚类_02