1. 从协方差到线性相关系数
对于变量x,y,其协方差计算公式为
将x,y进行标准化,计算得到的协方差即为相关系数。
2. 线性相关系数及其置信区间
Pearson相关系数(r)给出了两个变量之间线性相关大小的度量指标,当r大于0时,说明两个变量之间存在正向的线性相关;当r小于0时,说明两个变量之间存在负向的线性相关;当r等于0时,说明两个变量之间没有线性相关。
3. 如何比较两个线性相关系数有无差异
第一种,两个独立样本之间的比较,如男性中体重与血压的相关系数r1和女性中体重与血压的相关系数r2进行比较,采用Z检验。
第二种,同一个样本中两个相关系数的比较,如体重与血压的相关系数rxy,和体重与血糖的相关系数rxz进行比较,采用t分布。
4. 分类资料的相关系数
∅系数、Cramer V系数、Pearson列联系数、lambda系数、Yule的Q系数。
5. 基于秩次的相关系数
基于秩次的相关系数通常可用于两种场合:第一,当连续资料不满足正态分布时,一般不用Person相关系数,通常的做法是将连续资料进行排序,基于排序后的秩次进行相关分析;第二,当数据为等级资料时,尽管仍为分类资料,但对等级的赋值是有意义的,此时也相当于秩次,只不过每个等级的例数很多而已。
常用的基于秩次的相关系数有:Spearman相关系数、Kendall的tau系数、Gamma系数。
6. 相关分析中的几个陷阱
(1)P值小不一定表示强相关;
(2)线性相关系数小不等于没有相关;
(3)存在异常值的时候要谨慎对待相关性大小;
(4)分析两个变量的相关性,相关与回归;
(5)两个变量的相关性高并不代表一致性好。