1. pearson
pearson系数的取值范围为之间,接近0表示无相关性,接近1或-1表示强相关
- 皮尔森相关性系数对数据的要求较高:
(1)实验数据通常假设是成对地来自正态分布的总体。因为在求得皮尔森相关性系数之后,通常会用t检验之类的方法来进行皮尔森相关性系数检验,而t检验是基于数据呈正太分布的假设。
(2)实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值影响较大。
ps:分母部分是两个变量的标准差之积,不能为0。因此任何一个变量都不能是恒定不变的。
2. spearman
表示数据总量,表示两种数据次序的差值。斯皮尔曼相关性系数的范围为。
- 简介:斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数,是一种等级相关系数。用于衡量两个变量的依赖性非参数指标,常用希腊字母表示。利用单调方程评价两个统计变量的相关性。若数据中没有重复值,并且当两个变量完全单调相关时,斯皮尔曼相关性系数为+1或-1。这里的“秩”可以理解为一种顺序或排序。即斯皮尔曼相关性系数的值是与两种变量的排序相关的,因此这种表示没有皮尔森的那些限制。
- 计算:
对两组数据分别进行排序,每个数据排序后的位置称为秩次,秩次次的差值就是 - 在计算斯皮尔曼系数时,不需要计算两个变量的值究竟相差多少,只需计算每个值所处的位置的差值便可以求解。另外,斯皮尔曼系数可以很好地处理变量值没有变化的情况,而且即使出现了异常值,对于斯皮尔曼的相关性系数的影响也非常小,因为异常值通常过大或过小,秩次不会发生明显的变化。
此外,斯皮尔曼由于计算要求不高,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究,因此适用的范围很广。尤其是在生物实验数据分析中,适用频率很高。
3. kendall
- 简介:肯德尔相关性系数,又称肯德尔秩相关性系数,也是等级相关性系数,常用希腊字母表示,取值范围。表示两个随机变量拥有完全相反的等级相关性;表示两个随机变量是相互独立的
- 计算
(1)公式1
C表示XY中拥有一致性的元素对数(两个元素为一对);D表示XY中拥有不一致性的元素对数。公式一仅适用于集合X与Y中均不存在相同元素的情况(元素唯一)
(2)公式2
适用于集合X或Y中存在相同元素的情况(当X和Y中均不存在相同元素,则公式2等同于公式1)
(3)公式3
公式3没有再考虑集合X或Y中存在相同元素为最后的统计值带来的影响,仅适用于用表格表示的随机变量X,Y之间的相关系数的计算