相关矩阵-相关系数
与协方差的区别是:协方差的绝对值大小不能评判相关性强弱,而相关系数弥补了这个缺点。
相关矩阵也叫相关系数矩阵,是由矩阵各列间的相关系数构成的。也就是说,相关矩阵第i行第j列的元素是原矩阵第i行和第j列的相关系数。这里的相关系数是指皮尔逊相关系数。
著名统计学家卡尔·皮尔逊设计了统计指标——相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
- 相关系数(判定系数):反映两变量间线性相关关系,判定系数为相关系数的平方
- 非线性相关系数(非线性判定系数):反映两变量间曲线相关关系
- 复相关系数(复判定系数):反映多元线性相关关系
相关系数用r表示,它的基本公式(formula)为:
相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:
- 当r>0时,表示两变量正相关,r<0时,两变量为负相关。
- 当|r|=1时,表示两变量为完全线性相关,即为函数关系。
- 当r=0时,表示两变量间无线性相关关系。
- 当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。
一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。
多维对应分析
多维对应分析(Multiple correspondence analysis), 是一种变量统计分析技术,可以揭示多个变量各个类别之间的对应关系。它是一种视觉化的数据分析方法,它能够将多组看不出任何联系的数据,通过定位图展现出来。
主成分分析
主成分分析(Principal Component Analysis,PCA), 是指将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
主成分分析