1.相关系数介绍
很多实物之间是相互有联系的,如:身体与体重、年龄与血压、高中成绩与高考成绩等,这些有关系的现象中,它们之间联系的程度和性质也各不相同。
相关分析属于数据分析流程前端的探索性分析,探究变量间关系及性质,其结果在于指导下一步采取何种方法,是数据挖掘之前的基础工作。
相关的含义
客观现象之间的数量联系存在者函数关系和相关关系。
当一个或者几个变量取定值时,另一个变量有确定的值与之对应,称为函数关系,可用Y=f(X)
- 当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。
- 相关关系不一定是因果关系
场景
相关分析之前,有必要搞清楚变量的类型,根据具体类型选择合适的相关系数。Pearson相关系数适用于两变量的度量水平都是尺度数据,并且两变量的总体是正态分布或者近似正态分布的情况,还有说法认为其样本量应大于30,可供参考,在这些条件之外的,考虑选择spearman系数或者kendall系数。
2.线性相关——Pearson相关系数
在统计学中,皮尔逊积矩相关系数(Pearson product-moment correlation coefficient),有时也简称为PMCC,通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系(线性相关)的,取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相关性的强弱,它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础发展起来的,但是发展后原想法相似但略有不同的,这种相关系数常被称为“Pearson的r”。
Pearson线性相关系数只是许多可能中的一种情况,为了使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。如果这两条件不符合,一种可能就是采用Spearman秩相关系数来代替Pearson线性相关系数。
步骤:
进行定性分析→绘制相关图→计算相关系数→相关系数检验
散点图
为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。
有以下相关类型:
作用: 粗略地给出了两个变量的相关类型与程度
通过相关散点图的形状,我们大概可以判断变量之间相关程度的强弱、方向和性质,但并不能得知其相关的确切程度。
为精确了解变量间的相关程度,还需作进一步统计分析,求出描述变量间相关程度与变化方向的量数,即相关系数。总体相关系数用p表示,样本相关系数用r表示。
3.相关系数r
变量的取值区间越大,观测值个数越多,相关系数受抽样误差的影响越小,结果就越可靠,如果数据较少,本不相关的两列变量,计算结果可能相关。
相关系数取值:-1<r<1
|r|表明两变量间相关的程度,r>0表示正相关,r<0表示负相关,r=0表示零相关。
|r|越接近于1,表明两变量相关程度越高,他们之间的关系越密切。
4.Pearson相关系数的计算
适用条件:
- 两变量均应由测量得到的连续变量。
- 两变量所来自的总体都应是正态分布,或接近正态的单峰对称分布。
- 变量必须是成对的数据。
- 两变量间为线性关系。
- 离均差平方和、离均差积和的展开
5.相关系数的假设检验
在判断样本的r是否有意义,需与总体相关系数ρ=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于0是由于抽样误差所致,还是两个变量之间确实存在相关关系。
步骤:
- 提出假设
H0:P=0 无关
H1:p≠0 相关 - 确定显著水平 α=0.05
如果从相关系数ρ=0的总体中取得r值的概率P>0.05,我们就接受假设,认为此r值很可能是从此总体中取得的。因此判断两变量间无显著关系;
如果取得r值的概率P<=0.05或P<=0.01,我们就在α=0.05或α=0.01水准上拒绝检验假设,认为该r值不是来自ρ=0的总体,而是来自ρ≠0 的另一个总体,因此就判断两变量间有显著关系。 - 计算检验统计量,查表得到P值。拒绝H0,则两变量相关。否则,两变量无关。
t检验法
计算检验统计量tr,查t界值表,得到P值
6.相关注意事项
- 线性相关的前提条件是X、Y都服从正态分布(双变量正态分布)
- 当散点图有线性趋势时,才可进行线性相关分析
- 必须在假设检验认为相关的前提下才能以r的大小判断相关程度
- 相关关系不一定是因果关系,有可能是伴随关系
参考:https://wenku.baidu.com/view/31ab645377a20029bd64783e0912a21614797ffa.html
https://wenku.baidu.com/view/a75bc2b89ec3d5bbfd0a74d9.html