本片博文介绍多元正态分布,我们以n维随机变量为主,但给出n=2时二元情况的一些实例。与上篇文章一样,我们首先介绍标准情况然后扩展到一般情况,当然这里会用到向量与矩阵符号。
考虑随机向量Z=(Z1,…,Zn)′,其中Z1,…,Zn是独立同分布的N(0,1)随机变量,那么对z∈Rn,Z的密度为
fZ(z)=∏i=1n12π‾‾‾√exp{−12z2i}=(12π)n/2exp{−12∑i=1nz2i}=(12π)n/2exp{−12z′z}(1)
因为Zi的均值为0,方差为1且不相关,所以Z的均值与协方差矩阵为
E[Z]=0,Cov[Z]=In(2)
其中In表示n阶单位矩阵。回忆一下Zi为expt2i/2,因为Zi是独立的,所以对于所有的t∈Rn,Z的mgf为
MZ(t)=E[exp{t′Z}]=E[∏i=1nexp{tiZi}]=∏i=1nE[exp{tiZi}]=exp{12∑i=1nt2i}=exp{12t′t}(3)
我们称Z是均值为0协方差矩阵为In的多元正态分布,简写成Z满足Nn(0,In)分布。
对于一般情况,假设Σ是n×n的对称,半正定矩阵(psd),那么根据线性代数的知识,我们总能将Σ分解为
Σ=Γ′ΛΓ(4)
其中Λ是对角矩阵,Λ=diag(λ1,λ2,…,λn),λ1≥λ2≥⋯λn≥0是Σ的特征值,Γ′的列v1,v2,…,vn是相应的特征向量,这个分解叫做Σ的谱分解,矩阵Γ是正交矩阵,即Γ−1=Γ′因此ΓΓ′=I。另外还可以将谱分解写成如下形式:
Σ=Γ′ΛΓ=∑i=1nλiviv′i(5)
因为λi是非负的,所以我们能定义对角矩阵Λ1/2=(λ1‾‾‾√,…,λn‾‾‾√),那么Γ的正交性就意味着
Σ=Γ′Λ1/2ΓΓ′Λ1/2Γ
定义矩阵Σ的平方根为
Σ1/2=Γ′Λ1/2Γ(6)
其中Λ1/2=diag(λ1‾‾‾√,…,λn‾‾‾√),注意Σ1/2是对称psd矩阵,假设Σ是正定的(pd);即它的特征值都为正,那么很容易说明
(Σ1/2)−1=Γ′Λ−1/2Γ(7)
我们可以将等式左边写成Σ−1/2。
Z满足N(0,In)分布,令Σ是对称半正定矩阵且μ是n×1的常向量,随机向量X定义为
X=Σ1/2Z+μ(8)
根据(2)可得
E[X]=μ,Cov[X]=Σ1/2Σ1/2=Σ(9)
进一步X的mgf为
MX(t)=E[exp{t′X}]=E[exp{t′Σ1/2Z+t′μ}]=exp{t′μ}E[exp{(Σ1/2t)′Z}]=exp{t′exp{(1/2)(Σ1/2t)′Σ1/2t}=exp{t′exp{(1/2)t′Σt}(10)
这就产生了下面的定义:
定义1:我们称n维随机变量X是多元正态分布,当且仅当对所有的t∈Rn,它的mgf为
MX(t)=exp{t′μ+(1/2)t′Σt}(11)
其中Σ是对称半正定矩阵且μ∈Rn,我们简单称X满足Nn(μ,Σ)分布。
注意这里我们是对半正定矩阵进行定义,一般情况Σ是正定的,这种情况下我们可以进一步得到X的密度。如果Σ是正定的,那么Σ1/2也是正定的,它的逆就是(7),所以X,Z之间的变换(8)是一对一的变换,它的逆变换为
Z=Σ−1/2(X−μ)
雅可比为|Σ−1/2|=|Σ|−1/2,因此通过化简得到X的pdf为
fX(x)=1(2π)n/2|Σ|1/2exp{−12(x−μ)′Σ(x−μ)}(12)
下面的两个定理非常有用,第一个是说多元正态随机向量的线性变换满足多元正态分布。
定理1:假设X满足Nn(μ,Σ)分布,令Y=AX+b,其中A是m×n矩阵且b∈Rm,那么Y满足Nm(Aμ+b,AΣA′)。
证明:根据(11),对所有的t∈Rm,Y的mgf为
MY(t)=E[exp{t′Y}]=E[exp{t′(AX+b)}]=exp{t′b}E[exp{(A′t)′X}]=exp{t′b}exp{(A′t)′μ+(1/2)(A′t)′Σ(A′t)}=exp{t′(Aμ+b)+(1/2)t′AΣA′t}
这是Nm(Aμ+b,AΣA′)分布的mgf。||
该定理简单的推论给出了多元正态随机变量的边缘分布,令X1是X的任意子向量,维数m<n,因为我们能够重排均值与相关性,不失一般性,X可以写成
X=[X1X2](13)
其中X2的维数为p=n−m,利用同样的方法拆分X的均值与协方差矩阵得:
μ=[μ1μ2]Σ=[Σ11Σ21Σ12Σ22](14)
注意Σ11是X1得协方差矩阵,Σ12包含X1,X2元素之间的所有协方差,现在定义A为矩阵
A=[Im⋮Omp]
其中Omp是一个m×p的零矩阵,那么X1=AX。因此在这个变换上应用定理1可以得到下面的推论:
推论1:假设X满足Nn(μ,Σ)分布,将其分成(13),(14)的形式,那么X1满足Nm(μ1,Σ11)分布。
这是个非常有用的结论,因为它说明X的任何边缘分布也是正态分布,进一步它的均值与协方差矩阵与其部分向量的均值与方差有关。
例1:本例展示n=2的多元正态情况,这种情况的分布称为二元正态,我们使用常用的符号(X,Y)而不是(X1,X2),所以假设(X,Y)满足N2(μ,Σ)分布,其中
μ=[μ1μ2]Σ=[σ21σ12σ12σ22](15)
这里μ1,σ21分别是X的均值与方差;μ2,σ22分别是Y的均值与方差;σ12是X,Y之间的协方差,回顾一下σ12=ρσ1σ2,其中ρ是X,Y之间的相关系数。将ρσ1σ2代入Σ中的σ12,很容易看出Σ的行列式为σ21σ22(1−ρ2)。另外ρ2≤1,接下里我们假设ρ2<1,这时候Σ是可逆的(也是正定的),进一步因为Σ是一个2×2矩阵,所以它的逆很容易定义为
Σ−1=1σ21σ22(1−ρ2)[σ22−ρσ1σ2−ρσ1σ2σ21](16)
利用这个表达式,(X,Y)的pdf可以写成
f(x,y)=12πσ1σ21−ρ2‾‾‾‾‾‾√e−q/2, −∞<x<∞, −∞<y<∞(17)
其中,
q=11−ρ2[(x−μ1σ1)2−2ρ(x−μ1σ1)(y−μ2σ2)+(y−μ2σ2)2](18)
如果X,Y是独立的随机变量,那么它们的相关系数为0。如果它们是正态的,根据推论1,X满足N(μ1,σ21)分布,Y满足N(μ2,σ22)分布。进一步,基于(17),对于(X,Y)的联合pdf,如果相关系数为0,那么X,Y是独立的。即对于二元正态情况,独立等价于ρ=0,多元正态情况同样成立。
一般而言,如果两个随机变量是独立的,那么它们的协方差为0,但是反过来不一定对。然而对于正态情况却为真。
定理2:假设X满足Nn(μ,Σ)分布,且如(13),(14)那样划分,那么X1,X2是独立的,当且仅当Σ12=O。
证明:首先注意到Σ21=Σ12′,X1,X2的联合mgf为
MX1,X2(t1,t2)=exp{t1′μ1+t2′μ2+12(t′1Σ11t1+t′2Σ22t2+t′2Σ21t1+t′1Σ12t2)}(19)
其中t=(t′1,t′2)是与μ一样的划分,根据推论1,X1满足Nm(μ1,Σ11)分布,X2满足Np(μ2,Σ22)分布,因此它们边缘mgf的乘积为:
MX1(t1)MX2(t2)=exp{t′1μ1+t′2μ2+12(t′1Σ11t1+t′2Σ22t2)}(20)
X1,X2是独立的,当且仅当(19),(20)想等。如果Σ12=O,那么表达式想等且X1,X2独立。如果X1,X2独立,那么它们元素之间的协方差为0;即Σ12=O,Σ21=O。
推论1说明多元正态的边缘分布是正态分布,条件分布同样如此。结合定理1与定理2可以得出下面的定理。
定理3:假设X满足Nn(μ,Σ)分布,划分成(13),(14),假设Σ是正定的,那么X1|X2的条件分布为
Nm(μ1+Σ12Σ−122(X2−μ2),Σ11−Σ12Σ−122Σ21)(21)
证明:考虑随机变量W=X1−Σ12Σ−122X2与X2的联合分布,这个分布是通过下面的变换得到的
[WX2]=[ImO−Σ12Σ−122Ip][X1X2]
因为这是一个线性变换,所以根据定理1可知联合分布为多元正态,且E[W]=μ1−Σ12Σ−122μ2,E[X2]=μ2,协方差矩阵为
[ImO−Σ12Σ−122Ip][Σ11Σ21Σ12Σ22][Im−Σ−122Σ21OIp]=[Σ11−Σ12Σ−122Σ21OOΣ22]
因此根据定理2,随机向量W,X2是独立的,故W|X2的条件分布与W的边缘分布一样;即
W|X2满足Nm(μ1−Σ12Σ−122μ2,Σ11−Σ12Σ−122Σ21),进一步因为独立性,给定X2,W+Σ12Σ−122X2的分布为
Nm(μ1−Σ12Σ−122μ2+Σ12Σ−122X2,Σ11−Σ12Σ−122Σ21)(22)
得证。||
例2:依然考虑例1的二元情况,我们反转下变量,使得Y=X1,X=X2,给定X=x,Y的条件分布根据(21)可知为
N[μ2+ρσ2σ1(x−μ1),σ22(1−ρ2)](23)
因此而与二元正态分布,给定X=x,Y的条件均值是x的线性函数
E(Y|x)=μ2+ρσ2σ1(x−μ1)
线性条件均值E(Y|x)中x的系数为ρσ2/σ1。在一般线性条件均值E(Y|x)中x的系数为相关系数与σ2/σ1的乘积。
虽然给定X=x,Y的条件分布均值依赖x(除非ρ=0),但是方差σ22(1−ρ2)对所有x值都是一样的,同样的方式我们可以给出Y=y,X的条件分布为
N[μ1+ρσ1σ2(y−μ2),σ21(1−ρ2)]
回忆一下,如果随机变量X满足N(μ,σ2)分布,那么随机变量[(X−μ)/σ]2满足χ2(1)分布,多元情况类似,如下定理所述。
定理4:假设X满足Nn(μ,Σ)分布,其中Σ是正定矩阵,那么随机变量W=(X−μ)′Σ−1(X−μ)满足χ2(n)分布。
证明:将Σ写成Σ1/2Σ1/2,其中Σ1/2定义为(6),那么Z=Σ−1/2(X−μ)满足Nn(0,In),令W=Z′Z=∑ni=1Z2i,因为对于i=1,2,…,n,Zi满足N(0,1)分布,所以Z2i满足χ2(1)分布,因为Z1,…,Zn是独立的标准正态分布,所以∑i=1Z2i=W满足χ2(n)分布。