美赛不要用灰色关联分析,国赛可以用
什么是灰色关联分析
对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,作为衡量因素间关联程度的一种方法。
数理统计中的回归分析,方差分析,主成分分析等都是用来进行系统分析的方法,这些方法的不足之处:
- 需要大量数据,数据量少难以找到统计规律。
- 要求样本服从某个典型的概率分布,要求各因素数据与系统特征数据之间呈线性关系,且各因素之间彼此无光。(要求较高,往往难以满足)
- 可能出现量化结果与定性分析结果不符现象,导致系统的关系与规律遭到歪曲和颠倒。(内生性)
- 计算量大。
灰色关联分析的基本思想:
根据序列曲线几何图形的相似程度来判断其联系是否紧密。曲线越接近,相应的序列之间关联度越大,反之越小。
如何应用
应用一:系统分析
例一:
年份 | 国内生产总值 | 第一产业 | 第二产业 | 第三产业 |
2000 | 1988 | 386 | 839 | 763 |
2001 | 2061 | 408 | 846 | 808 |
2002 | 2335 | 422 | 960 | 953 |
2003 | 2750 | 482 | 1258 | 1010 |
2004 | 3356 | 511 | 1577 | 1268 |
2005 | 3806 | 561 | 1893 | 1352 |
第一步:
利用Excel画成折线图:
第二步:确定分析数列
(1)母序列:又称参考数列,能反映系统行为特征的数据序列。此例中,国内生产总值就是母序列。
(2)子序列:又称比较数列,影响系统行为的因素组成的数据序列。此例中,第一二三产业就是子序列。第三步:对变量进行预处理(两个目的:去量纲,缩小变量范围简化计算)
预处理:先求出每个指标的均值,再用该指标中的每个元素都除以该均值。(约定俗成)
第四步:计算子序列各个指标与母序列的关联系数
用母序列减去相应各子序列,会产生:
两极最小差:
两极最大差:
有关联系数公式:
p是分辨系数,一般p=0.5
这里,a和b是由上表得出的两极最大最小差,正是上表,所以所有参数都已知的情况下,我们可以得出所有子序列参数与母序列关联系数:
第五步:灰色关联度
每一列求一个算术平均,就是每一个子序列与母序列的关联程度:
通过上图比较灰色关联程度,我们可以发现,第三产业对国内生产总值的影响最大。
讨论:
- 什么时候用标准化回归,什么时候用灰色关联分析?
当样本比较大时,一般采用标准化回归;当样本数量较少时,采用灰色关联分析。 - 如果母序列中含有多种指标时,应该如何分析?
例如y1和y2是两个母序列,x1,x2,x3…xm是子序列时:
那么我们分别计算y1与x1,x2,x3…xm的灰色关联分析,然后计算y2与x1,x2,x3…xm的灰色关联分析。(分开讨论影响)
应用二:综合评价
例二:(TOPSIS中的河流评价问题)
- 指标正向化(相关方法参见TOPSIS)
- 对正向化后的矩阵进行预处理(相关方法参见本文上半部分),得到新矩阵
- 将预处理后的矩阵中的每一列的最大值拿出来组成新的一列作为母序列。(因为评价类问题中所有的指标都是评价指标,所以我们构造一个母序列)
- 计算各个指标与母序列的灰色关联程度。
- 计算每个指标的权重(自身的关联程度/总的关联程度)
- 第k个样本的得分:关联度 * 对应指标参数
- 对得分进行归一化(好比较)