皮尔森相关系数是统计学中比较重要的概念,它能够计算衡量出 2 个随机变量的相关性。在我们特征选择时特别重要,现在给出维基百科上的介绍





[1] is a measure of the linear correlation between two variables X and Y. It has a value between +1 and -1, where 1 is total positive linear correlation, 0 is no linear correlation, and -1 is total negative linear correlation. It is widely used in the sciences. It was developed by Karl Pearson from a related idea introduced by Francis Galton in the 1880s. [2]





Pearson's rPearson product-moment correlation coefficient (皮尔森积矩相关系数), 或者 bivariate correlation (双变量相关系数)。它能够度量 2 个随机变量 X 和 Y 之间的线性关系,它的取值在 -1 和 1 之间。当其取 0 时,表示二者线性不相关;当其取值 1 时,表示完全的正相关;当其取值 -1






1. 背景知识





[5]





java 皮尔森 相关系数公式 皮尔森相关系数分析_java 皮尔森 相关系数公式




期望平均值 的概念。这里参见知乎上的回答 [6]。 平均值其实是统计学上的概念,期望是概率论里的概念。假设你现在拥有一些实验数据,那么平均数是这些数据统计得到的,而期望是实验前根据概率分布“推理”出的平均值 (很多人称之为"上帝视角")。





java 皮尔森 相关系数公式 皮尔森相关系数分析_百度_02





协方差 (Covariable) 是概率论和统计学中用于衡量两个变量的总体误差的度量。它的定义如下 [4]





java 皮尔森 相关系数公式 皮尔森相关系数分析_概率论_03





[8]





[7],计算公式如下,大家就不要纠结到底根号里是 1/N 还是 1/(N-1) 了,都有各自的意义。





java 皮尔森 相关系数公式 皮尔森相关系数分析_概率论_04





标准差 o(delta) 相当于依次累加每一项与平均值的平方差,再求累加和的平均值,再开方累加和。我们一般认为标准差越大,数据的波动幅度越大,即越不稳定。





[2]





java 皮尔森 相关系数公式 皮尔森相关系数分析_概率论_05





Cov (covariance) 表示 X 和 Y 的斜方差, (delta) 表示 X 和 Y 的标准差。由此,一言以蔽之, 随机变量 X 和 Y 的皮尔森相关系数就是二者的协方差除以二者标准差的乘积。





2. 其他相关系数





所以, 从本质上, 皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进。





1. Cosine Similarity 余弦相似度。余弦相似度衡量的是 2 个向量之间的夹角 [9],即向量的点积除以向量模的乘积,注意余弦相似度的范围也是 [-1,1]。当值为 1 时表示 2 个向量完全一样,或重复。当值越远离 1 时,表示 2 个向量越不一样 (我们不一样...)。





java 皮尔森 相关系数公式 皮尔森相关系数分析_协方差_06





由上图可知,在三角形中,向量 a = (x1, y1) ,向量 b = (x2, y2),根据三角形的余弦定理:2 |a|*|b|*cos(\theta) = |a|^2 + |b|^2 - |c|^2,故可推导出下式,及证明余弦相似度的来源。




java 皮尔森 相关系数公式 皮尔森相关系数分析_java 皮尔森 相关系数公式_07





2. Spearman Correlation 斯皮尔曼相关系数。Spearman Correlation 则是将变量排名之后,再进行计算的。首先对于随机变量 X 和 Y,将其进行排序,如按 Xi 排序。然后计算 rank(Xi) 和 rank(Yi) 的差值 di 。最后根据公式 [10]





java 皮尔森 相关系数公式 皮尔森相关系数分析_协方差_08





以下给出一个例子来计算斯皮尔曼相关系数的过程。假设 X 和 Y 分别是长度为 6 的 2 个随机变量,如下表,





java 皮尔森 相关系数公式 皮尔森相关系数分析_java 皮尔森 相关系数公式_09




= 1 - 6*(1^2+0^2+1^2+0^2+1^2+(-3)^2)/6(6^2-1) = 1- 6*12/35 =





------------------



【引用】





[1] 知乎. 如何理解皮尔森相关系数.  https://www.zhihu.com/question/19734616.



[2] Wekipedia. Pearson's Correlation Coefficient.  https://en.wikipedia.org/wiki/Pearson_correlation_coefficient.




[4] 百度百科. 协方差.  https://baike.baidu.com/item/协方差/285936?fr=aladdin.



[5] 百度百科. 数学期望.  https://baike.baidu.com/item/数学期望/5362790?fr=aladdin&fromid=10318906&fromtitle=期望.



[6] 知乎. 期望和平均数有什么区别? h ttps://www.zhihu.com/question/25391960.



[7] 百度百科. 标准差.  https://baike.baidu.com/item/标准差/1415772?fr=aladdin.


.