1. 从协方差到线性相关系数

对于变量x,y,其协方差计算公式为

线性相关系数 python 线性相关系数R2怎么算_数理统计

将x,y进行标准化,计算得到的协方差即为相关系数。

 

2. 线性相关系数及其置信区间

Pearson相关系数(r)给出了两个变量之间线性相关大小的度量指标,当r大于0时,说明两个变量之间存在正向的线性相关;当r小于0时,说明两个变量之间存在负向的线性相关;当r等于0时,说明两个变量之间没有线性相关。

 

3. 如何比较两个线性相关系数有无差异

第一种,两个独立样本之间的比较,如男性中体重与血压的相关系数r1和女性中体重与血压的相关系数r2进行比较,采用Z检验。

第二种,同一个样本中两个相关系数的比较,如体重与血压的相关系数rxy,和体重与血糖的相关系数rxz进行比较,采用t分布。

 

4. 分类资料的相关系数

∅系数、Cramer V系数、Pearson列联系数、lambda系数、Yule的Q系数。

 

5. 基于秩次的相关系数

基于秩次的相关系数通常可用于两种场合:第一,当连续资料不满足正态分布时,一般不用Person相关系数,通常的做法是将连续资料进行排序,基于排序后的秩次进行相关分析;第二,当数据为等级资料时,尽管仍为分类资料,但对等级的赋值是有意义的,此时也相当于秩次,只不过每个等级的例数很多而已。

常用的基于秩次的相关系数有:Spearman相关系数、Kendall的tau系数、Gamma系数。

 

6. 相关分析中的几个陷阱

(1)P值小不一定表示强相关;

(2)线性相关系数小不等于没有相关;

(3)存在异常值的时候要谨慎对待相关性大小;

(4)分析两个变量的相关性,相关与回归;

(5)两个变量的相关性高并不代表一致性好。