二维正态分布的表达式:
其中 为均值,
为方差,
为相关系数,且
。
先用一些大致的图像来感受相关系数对二维正态分布的影响
三维立体图
散点图
从图象上我们大致可以看出,当 从
向无限接近于
变化的过程中,图像越来越向 直线
集中;当
从
向无限接近于
变化的过程中,图像越来越向 直线
对表达式进行分析
为了分析简单,我采用控制变量法,令.
此时有
我们把式子改写为:
从上式我们可以看出,当 取一定的值的时候,
是关于
对称的,也就是关于
的类正态分布(叫类正态分布是因为它的形状和正态分布基本一样,但是前面系数多了个
,所以概率密度的积分不唯一)。
若 图像就退化成
的一维正态分布,若
, 图像就退化成
的类正态分布,但只要
, 关于
的类正态分布的中心点是不受
用一句更直接的话说,当固定 的值,关于
的类正态分布的中心点一定在
这条直线上,也就是说,点(X,Y)出现概率最高的点一定在
我们可以看到,上式中出现的地方除了在分子
中,还出现在了指数的分母和左边系数的分母中,这其实是一维正态分布方差出现的位置,甚至我们可以这样说:
在上面我们抽离出来分析的表达式中, 起到的是方差的作用,而
起到的是均值的作用,所以当
越接近于0,该表达式的方差越大,关于
的正态分布的图像越平,当
越接近于1,该表达式的方差越接近于0,关于
的正态分布的图像越尖。
这基本从表达式的角度说明了,为什么当 从 0 向
变化的过程中,图像从环状的散点图,变成了集中于
的线状的散点图。
另外由于系数 的中
项的存在,位于图像的绝对中心点
附近出现的概率密度总是最大的。举例来说,固定
和固定
,关于
的类正态分布形状几乎一模一样,但是
的图像比
的图像矮。这也解释了为什么散点图总是一个椭圆状,而不是长方形状。
总结
如果把 和
对图像的影响加入进来,讨论要复杂一些,但是
对图像的影响的基本方向不会变,有集中程度和对称中心两方面的影响。其实
也不过是把图像的对称中心从
转移到了
,而
若是不相等,就是
时的圆环状散点图会变成椭圆环状散点图,之后将
从
到