在概率论中学到的二维随机变量的协方差公式到底对应什么物理意义呢,为什么就能度量两个随机变量之间之间相关性了呢?这里带着大家,结合随机变量取值图像来实际理解这个公式,从此以后不再是死记硬背,而是通熟易懂的理解了它的实际意义我们就能更好地使用它,这个在统计学,机器学习等方面都有运用。文章简短,一看就会!!!

先上公式:

协方差:Cov(X,Y) = E[(X-E[X]) (Y-E[Y])]

相关系数:r(X,Y) = Cov(X,Y) / ( sqrt(Var[X]) * sqrt(Var[Y] )     注:Var[X]代表随机变量X的方差

 

从相关系数公式可以看出,相关系数公式只是把 协方差算出来的值 除以了 两个方差的开根号值,也就是相关系数跟协方差是一种正比例关系

关于二维随机向量分布的协方差与相关系数的物理意义理解_协方差

     注:图中分别有两个随机变量X,Y,其中x1,x2.....xn 是X变量的所有取值,y1,y2.....yn 是Y变量的所有取值

红色的线代表自己的均值,▲X代表X变量当前取值和自己均值的差,▲Y代表X变量当前取值和自己均值的差

 

从相关这个词语的意思可以知道,如果两个变量X,Y相关性越大,那么他两的取值方式(都同时取了均值之上呢还是相反呢应该越像:如上图所示

比如X变量当前取值x1是小于自己的均值E[X]的(▲x1 = x1-E[X] <0),同时Y当前取值y1也是小于自己的均值E[Y]的      (▲y1 = y1-E[X] <0),那我们就说X,Y当前的的取值方式一样,x1,y1两点正相关

比如X变量当前取值x2是大于自己的均值E[X]的(▲x2 = x2-E[X] >0),同时Y当前取值y2也是大于自己的均值E[Y]的         (▲y2 = y2-E[X] >0),那我们还是说X,Y当前的取值x2,y2正相关,因为取值方式确实还是一样的,都是在均值之上。

正相关判定性:上述两个式子等价于这个式子▲X*▲Y=(xi-E[X])* (yi-E[Y])>0

很明显上面图中X,Y两个随机变量所有的取值应该是正相关的,因为X,Y两个随机变量取值与均值差的正负性完全相同,那么总体上肯定就是正相关。就是上下波动性相同

关于二维随机向量分布的协方差与相关系数的物理意义理解_概率论_02

既然我们知道如何判断正相关,同理,判断负相关就是,两者的取值方式是否刚好相反,

比如上图所示:xi取值在均值下方,此时的yi在均值上方,那我们就说他们取值方式相反,即负相关

或者 xi取值在均值上方,此时的yi在均值下方,那我们就说他们取值方式相反,也是负相关

负相关判定性:就等价于这个式子▲X*▲Y=(xi-E[X])* (yi-E[Y])<0

很明显上面图中X,Y两个随机变量所有的取值应该是负相关的,因为X,Y两个随机变量取值与均值差的正负性完全相反,那么总体上肯定就是负相关。也就是波动性相反

由于随机变量X,Y可以取很多个可能的值,上面我们已经得到了每个点的正负相关性,但是我们需要分析X,Y的整体相关性,所以我们需要把他们每个点的相关性都累加起来,然后取个平均值,就可以知道X,Y的整体相关性了

也就是:( ((x1-E[X])*y1-E[Y]) +  ((x2-E[X])*y2-E[Y]) +........((xn-E[X])*(yn-E[Y]) ) / n          (1)

其中x1,x2.....xn 是X变量的可能取值,E[X]是X变量的均值,即E[X] = (x1+x2+...xn) / n

其中y1,y2.....yn 是Y变量的可能取值,E[Y]是X变量的均值,即E[Y] = (y1+y2+...yn) / n

 

根据 均值 E[Z] = (z1+z2+z3+.....zn) / n 的定义公式,上面这个公式(1)不就是 E[(X-E[X]) (Y-E[Y])] 嘛,这个就是协方差的公式呀,所以协方差就是度量了X,Y两变量的整体相关性,即X,Y取值的方式相似性,都同时取了均值之上呢还是相反呢。

然后 Cov(X,Y) / ( sqrt(Var[X]) * sqrt(Var[Y] ),就是把协方差除以两个变量各自的方差(方差是常数),

这样操作后,可以理解为使得相关系数就是协方差被归一化了为【0,1】之间取值了(有兴趣自己去测试一下),更便于我们进行各种计算。

 

上面两图,如果题目给出了具体的值x1,x2...xn,y1.y2...yn,我们就可以进行计算相关系数了,

上面第一个图因为两变量取值方式完全相同,即完全正相关,相关系数算出来肯定=1

上面第二个图因为两变量取值方式完全相反,即完全负相关,相关系数算出来肯定=-1

关于二维随机向量分布的协方差与相关系数的物理意义理解_概率论_03

如上图所示:如果左边一部分取值负相关,右边一部分正相关,也就是左边X和Y在均值上下取刚好相反,右边部分的同时在均值之上,总体算出来,X,Y相关系数可能是0(即不相关),也可能是0.2等,也可能是-0.3等等,即相关性没那么强。

 

总结:所以,协方差是两个变量X,Y相关性的一种度量,而相关系数就是协方差归一化的表现,

协方差正值越大代表正相关性越强,即X,Y同时取均值之上或者之下的值更多,整体来看,X,Y上下波动性(图像走势)同向(不太严谨,但是便于通俗理解)。

协方差负值越大代表负相关性越强,即X,Y一个取均值之上,同时另一个取均值之下的值更多(图像走势相反)。

如果协方差为0,代表不相关,整体来看,X,Y取值方式相反的点相互抵消了,即一部分上下波动同向,一部分反向,总体就相互抵消了

因此,相关性就是度量了X,Y两变量的整体相关性,即X,Y取值的方式相似性,都同时取了均值之上呢还是相反呢。大概理解上来说,就是指随机变量X,Y取值的上下波动方向性(走势)相同的程度