文章目录

  • ​​1. 定义​​
  • ​​2. 理解​​
  • ​​2.1 几何意义​​
  • ​​2.2 参数数量​​
  • ​​3. 特征函数​​
  • ​​4. 性质​​
  • ​​4.1 边缘分布​​
  • ​​4.2 分量独立性​​
  • ​​4.3 线性变换​​
  • ​​5. 综合例题​​

1. 定义

  • 随机过程(2.2)—— 多维高斯分布_随机过程 维 r.v. 随机过程(2.2)—— 多维高斯分布_n元高斯分布_02 的概率密度函数为
    随机过程(2.2)—— 多维高斯分布_随机过程_03 其中 随机过程(2.2)—— 多维高斯分布_随机过程_04随机过程(2.2)—— 多维高斯分布_随机过程 阶实对称正定矩阵(所有特征值 > 0),则称随机向量 随机过程(2.2)—— 多维高斯分布_n元高斯分布_02 服从期望为 随机过程(2.2)—— 多维高斯分布_多维高斯分布_07,协方差矩阵为 随机过程(2.2)—— 多维高斯分布_随机过程_04 的多维正态分布,记为 随机过程(2.2)—— 多维高斯分布_多元高斯分布_09
  • 注意这里 随机过程(2.2)—— 多维高斯分布_随机过程_04 是一个协方差矩阵,展开为
    随机过程(2.2)—— 多维高斯分布_正态分布_11 显然它 随机过程(2.2)—— 多维高斯分布_多维高斯分布_12 是实对称矩阵,通常情况下(只要 随机过程(2.2)—— 多维高斯分布_n元高斯分布_13。这种实对称正定矩阵是一种正定 hermitian 矩阵,可以做乔里斯基分解 随机过程(2.2)—— 多维高斯分布_n元高斯分布_14随机过程(2.2)—— 多维高斯分布_多维高斯分布_15
  • 显然 随机过程(2.2)—— 多维高斯分布_多元高斯分布_16 在任意取值下都是非负的,下面证明 随机过程(2.2)—— 多维高斯分布_多维高斯分布_17,这个证明中用到两个技巧
  1. 上面提到的 随机过程(2.2)—— 多维高斯分布_正态分布_18
  2. 向量对向量求导会得到一个 Jacobi 行列式,令 随机过程(2.2)—— 多维高斯分布_多元高斯分布_19,则 随机过程(2.2)—— 多维高斯分布_正态分布_20

2. 理解

2.1 几何意义

  • 随机过程(2.2)—— 多维高斯分布_多元高斯分布_09 的概率密度函数 随机过程(2.2)—— 多维高斯分布_多元高斯分布_22,关注其中的指数部分,这是一个二次型,设为 随机过程(2.2)—— 多维高斯分布_多维高斯分布_23
    1. 首先明确 随机过程(2.2)—— 多维高斯分布_正态分布_24 尺寸为 随机过程(2.2)—— 多维高斯分布_随机过程_25随机过程(2.2)—— 多维高斯分布_多维高斯分布_26 尺寸为 随机过程(2.2)—— 多维高斯分布_多元高斯分布_27随机过程(2.2)—— 多维高斯分布_多维高斯分布_28,可以看作 随机过程(2.2)—— 多维高斯分布_随机过程_29随机过程(2.2)—— 多维高斯分布_随机过程_30

    2. 注意 随机过程(2.2)—— 多维高斯分布_多元高斯分布_31 是实对称矩阵,一般情况下(随机过程(2.2)—— 多维高斯分布_多维高斯分布_32

      1. 正定对称 随机过程(2.2)—— 多维高斯分布_多元高斯分布_33 ​​乔里斯基分解​​:随机过程(2.2)—— 多维高斯分布_正态分布_34,其中 随机过程(2.2)—— 多维高斯分布_n元高斯分布_35
      2. 正定对称 随机过程(2.2)—— 多维高斯分布_多元高斯分布_33 ​​LDL分解​​:随机过程(2.2)—— 多维高斯分布_n元高斯分布_37,其中 随机过程(2.2)—— 多维高斯分布_多元高斯分布_38 是一个对角阵,随机过程(2.2)—— 多维高斯分布_n元高斯分布_35
      3. 实对称 随机过程(2.2)—— 多维高斯分布_多元高斯分布_33 随机过程(2.2)—— 多维高斯分布_n元高斯分布_41 ​​正交相似于其特征值组成的对角阵​​,即 随机过程(2.2)—— 多维高斯分布_n元高斯分布_42,其中 随机过程(2.2)—— 多维高斯分布_多维高斯分布_43 是正交矩阵(有 随机过程(2.2)—— 多维高斯分布_正态分布_44),其列向量为 随机过程(2.2)—— 多维高斯分布_多元高斯分布_45 的特征向量,随机过程(2.2)—— 多维高斯分布_多维高斯分布_46随机过程(2.2)—— 多维高斯分布_随机过程_47随机过程(2.2)—— 多维高斯分布_多元高斯分布_45 的特征值)。这是因为 随机过程(2.2)—— 多维高斯分布_多元高斯分布_49 阶实对称矩阵的所有特征值都是实数,各个特征值的代数重数和几何重数相等(有 随机过程(2.2)—— 多维高斯分布_多元高斯分布_49 个线性无关特征向量),且所有特征向量相互正交(​​参考此处​​)。此结论也可理解为 Schur 定理在实数域上的推论
      4. 可相似对角化 随机过程(2.2)—— 多维高斯分布_多元高斯分布_33 随机过程(2.2)—— 多维高斯分布_n元高斯分布_41 可以 ​​谱分解​​:随机过程(2.2)—— 多维高斯分布_n元高斯分布_53,其中 随机过程(2.2)—— 多维高斯分布_随机过程_54 的列向量是 随机过程(2.2)—— 多维高斯分布_多元高斯分布_45 的(右)特征向量,随机过程(2.2)—— 多维高斯分布_n元高斯分布_56 的行向量是 随机过程(2.2)—— 多维高斯分布_多元高斯分布_45 的左特征向量(参考此处),随机过程(2.2)—— 多维高斯分布_多维高斯分布_46随机过程(2.2)—— 多维高斯分布_随机过程_47随机过程(2.2)—— 多维高斯分布_多元高斯分布_45 的特征值)。注意性质 3 中的 随机过程(2.2)—— 多维高斯分布_多维高斯分布_43 是正交矩阵,有 随机过程(2.2)—— 多维高斯分布_多维高斯分布_62,因此实对称矩阵 随机过程(2.2)—— 多维高斯分布_多元高斯分布_63

      利用上述性质 3/4 分析 随机过程(2.2)—— 多维高斯分布_多维高斯分布_64,可如下展开(其中 随机过程(2.2)—— 多维高斯分布_多元高斯分布_65 是列向量,尺寸 随机过程(2.2)—— 多维高斯分布_随机过程_25
      随机过程(2.2)—— 多维高斯分布_n元高斯分布_67

  • 进一步考虑多元高斯分布指数部分的二次型
    随机过程(2.2)—— 多维高斯分布_多维高斯分布_68 可见 随机过程(2.2)—— 多维高斯分布_多维高斯分布_69 时,随机过程(2.2)—— 多维高斯分布_随机过程_70随机过程(2.2)—— 多维高斯分布_多元高斯分布_71 维空间中一个超椭圆。注意到 随机过程(2.2)—— 多维高斯分布_n元高斯分布_72,可以看作先把 随机过程(2.2)—— 多维高斯分布_多维高斯分布_73 沿 随机过程(2.2)—— 多维高斯分布_多维高斯分布_07 方向平移,然后向 随机过程(2.2)—— 多维高斯分布_n元高斯分布_75 方向上的投影。不妨在 随机过程(2.2)—— 多维高斯分布_n元高斯分布_75 方向设置坐标轴 随机过程(2.2)—— 多维高斯分布_n元高斯分布_77,二维情况(随机过程(2.2)—— 多维高斯分布_随机过程_78)的示意图如下
  • 随机过程(2.2)—— 多维高斯分布_随机过程_79

  • 可见随着 随机过程(2.2)—— 多维高斯分布_随机过程_80 值变化,随机过程(2.2)—— 多维高斯分布_随机过程_81 对应到空间中一系列超椭圆,若把 随机过程(2.2)—— 多维高斯分布_随机过程_80。进一步考虑整个 n 元高斯分布的概率密度函数 随机过程(2.2)—— 多维高斯分布_正态分布_83,前面分数部分是个常数,随机过程(2.2)—— 多维高斯分布_多元高斯分布_84 则是和 随机过程(2.2)—— 多维高斯分布_多元高斯分布_85 正相关,所以概率密度函数 随机过程(2.2)—— 多维高斯分布_多元高斯分布_16
  • 可以如下绘制二维情况下 随机过程(2.2)—— 多维高斯分布_n元高斯分布_87 图像,这里设置期望为 随机过程(2.2)—— 多维高斯分布_随机过程_88,协方差矩阵为 随机过程(2.2)—— 多维高斯分布_随机过程_89
  • %matplotlib notebook
    import numpy as np
    import scipy.stats as st
    import matplotlib.pylab as plt
    from mpl_toolkits.mplot3d import Axes3D

    mu = np.array([0,0])
    cov = np.array([[0.8, 0.2],
    [0.2, 0.2]])

    fig = plt.figure(figsize = (10,5))
    a0 = fig.add_subplot(1,2,1,label='a0',projection='3d')
    a1 = fig.add_subplot(1,2,2,label='a1',projection='3d')

    x, y = np.mgrid[-2.5:2.5:.1, -2.5:2.5:.1]
    pos = np.empty(x.shape + (2,))
    pos[:, :, 0] = x; pos[:, :, 1] = y
    rv = st.multivariate_normal(mu, cov) # 生成多元正态分布
    a0.scatter(x, y, rv.pdf(pos),s=1,alpha=0.5,cmap="rainbow")
    a1.plot_surface(x, y, rv.pdf(pos),alpha=0.5,cmap=plt.cm.cool)

随机过程(2.2)—— 多维高斯分布_随机过程_90


随机过程(2.2)—— 多维高斯分布_正态分布_91

2.2 参数数量

  • 考察上述 随机过程(2.2)—— 多维高斯分布_随机过程_04 矩阵的参数个数,由于 随机过程(2.2)—— 多维高斯分布_随机过程_04 是对称矩阵,当尺寸为 随机过程(2.2)—— 多维高斯分布_n元高斯分布_94 时,参数有 随机过程(2.2)—— 多维高斯分布_n元高斯分布_95 个,这时所有参数都非零,意味着 随机过程(2.2)—— 多维高斯分布_随机过程 元高斯随机变量 随机过程(2.2)—— 多维高斯分布_n元高斯分布_97 中任意两个维度 随机过程(2.2)—— 多维高斯分布_n元高斯分布_98 相关。举例来说,期望为 随机过程(2.2)—— 多维高斯分布_正态分布_99,协方差矩阵为 随机过程(2.2)—— 多维高斯分布_随机过程_89 时属于这种情况,此时 随机过程(2.2)—— 多维高斯分布_随机过程_81,如下所示
  • %matplotlib notebook
    import numpy as np
    import scipy.stats as st
    import matplotlib.pylab as plt
    from mpl_toolkits.mplot3d import Axes3D

    mu = np.array([1,2])
    cov = np.array([[0.8, 0.2],
    [0.2, 0.2]])

    fig = plt.figure(figsize = (10,5))
    a0 = fig.add_subplot(1,2,1,label='a0',projection='3d')
    a1 = fig.add_subplot(1,2,2,label='a1')

    x, y = np.mgrid[-1.5:3.5:.1, -0.5:4.5:.1]
    pos = np.empty(x.shape + (2,))
    pos[:, :, 0] = x; pos[:, :, 1] = y
    rv = st.multivariate_normal(mu, cov) # 生成多元正态分布
    a0.scatter(x, y, rv.pdf(pos),s=1,alpha=0.5,cmap="rainbow")
    a1.contourf(x, y, rv.pdf(pos)) # 等高线
    a1.grid(alpha=0.5) # 坐标网格

随机过程(2.2)—— 多维高斯分布_多维高斯分布_102

  • 希望减少参数数量,可以假设 随机过程(2.2)—— 多维高斯分布_随机过程 元高斯随机变量 随机过程(2.2)—— 多维高斯分布_n元高斯分布_97 中任意两个维度 随机过程(2.2)—— 多维高斯分布_n元高斯分布_98 相互独立,这时 随机过程(2.2)—— 多维高斯分布_随机过程_04 除了主对角元素外其他元素都是 随机过程(2.2)—— 多维高斯分布_多元高斯分布_107,参数减少到 随机过程(2.2)—— 多维高斯分布_随机过程 个。举例来说,期望为 随机过程(2.2)—— 多维高斯分布_正态分布_99,协方差矩阵为 随机过程(2.2)—— 多维高斯分布_多元高斯分布_110 时属于这种情况,此时 随机过程(2.2)—— 多维高斯分布_随机过程_81,如下所示

随机过程(2.2)—— 多维高斯分布_随机过程_112

  • 进一步减少参数数量,可以假设 随机过程(2.2)—— 多维高斯分布_随机过程 元高斯随机变量 随机过程(2.2)—— 多维高斯分布_n元高斯分布_97 中任意两个维度 随机过程(2.2)—— 多维高斯分布_n元高斯分布_98 相互独立各向同性,这时 随机过程(2.2)—— 多维高斯分布_随机过程_04 除了主对角元素外其他元素都是 随机过程(2.2)—— 多维高斯分布_多元高斯分布_107,且主对角线元素都为相等正数,参数减少到 随机过程(2.2)—— 多维高斯分布_n元高斯分布_118 个。举例来说,期望为 随机过程(2.2)—— 多维高斯分布_正态分布_99,协方差矩阵为 随机过程(2.2)—— 多维高斯分布_n元高斯分布_120 时属于这种情况,此时 随机过程(2.2)—— 多维高斯分布_随机过程_81,如下所示

随机过程(2.2)—— 多维高斯分布_多维高斯分布_122

  • 可以使用极大似然估计来估计多维高斯分布的参数,请参考:一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇
3. 特征函数
  • 注意到 随机过程(2.2)—— 多维高斯分布_随机过程 元正态分布函数的概率密度函数很复杂,要计算 随机过程(2.2)—— 多维高斯分布_随机过程_04
  • 普通一元正态分布 随机过程(2.2)—— 多维高斯分布_随机过程_125 的特征函数为(证明见 ​​4.2​​ 节分量独立性证明)
    随机过程(2.2)—— 多维高斯分布_多维高斯分布_126
  • 随机过程(2.2)—— 多维高斯分布_随机过程 元正态分布 随机过程(2.2)—— 多维高斯分布_多元高斯分布_09 的特征函数为
    随机过程(2.2)—— 多维高斯分布_多维高斯分布_129 详细证明过程如下
  • 随机过程(2.2)—— 多维高斯分布_多元高斯分布_130


4. 性质

4.1 边缘分布

  1. “多元正态随机向量” 的每个元素是 “一个正态随机变量”​​:随机过程(2.2)—— 多维高斯分布_多维高斯分布_131
  2. “多元正态随机向量” 的部分向量仍为 “多元正态随机向量”​​:若 随机过程(2.2)—— 多维高斯分布_随机过程_132,则其第 随机过程(2.2)—— 多维高斯分布_n元高斯分布_133 分量组成的随机向量满足
    随机过程(2.2)—— 多维高斯分布_随机过程_134 其中 随机过程(2.2)—— 多维高斯分布_多元高斯分布_135 是保留 随机过程(2.2)—— 多维高斯分布_随机过程_04 的第 随机过程(2.2)—— 多维高斯分布_n元高斯分布_133 行列所得的 随机过程(2.2)—— 多维高斯分布_多元高斯分布_138 矩阵,随机过程(2.2)—— 多维高斯分布_多元高斯分布_139随机过程(2.2)—— 多维高斯分布_多维高斯分布_07 的第 随机过程(2.2)—— 多维高斯分布_n元高斯分布_133 分量拼成的向量。从特征函数角度证明如下
  3. 随机过程(2.2)—— 多维高斯分布_多维高斯分布_142


4.2 分量独立性

  • 独立性​​:若 随机过程(2.2)—— 多维高斯分布_随机过程_143,以下陈述等价(注: 随机变量 ​​互不相关​​ 指没有线性关系,即协方差为0;​​独立​​ 指没有一切关系)

    1. 随机过程(2.2)—— 多维高斯分布_多维高斯分布_144 相互独立
    2. 随机过程(2.2)—— 多维高斯分布_多维高斯分布_144 两两独立
    3. 随机过程(2.2)—— 多维高斯分布_多维高斯分布_144 两两互不相关
    4. 随机过程(2.2)—— 多维高斯分布_多元高斯分布_31对角阵(即不同的两个元协方差为0)
  • 证明:随机过程(2.2)—— 多维高斯分布_随机过程_148 显然;随机过程(2.2)—— 多维高斯分布_多维高斯分布_149 是随机变量性质;随机过程(2.2)—— 多维高斯分布_多元高斯分布_150 是互不相关定义;只需证明 随机过程(2.2)—— 多维高斯分布_正态分布_151 即得四者等价
  • 随机过程(2.2)—— 多维高斯分布_n元高斯分布_152

4.3 线性变换

  • 一组正态分布随机变量的线性组合(多元正态随机向量的线性变换)仍然服从正态分布
    1. 设有 随机过程(2.2)—— 多维高斯分布_随机过程_153 元随机向量 随机过程(2.2)—— 多维高斯分布_随机过程_154,则对 随机过程(2.2)—— 多维高斯分布_n元高斯分布_155
      随机过程(2.2)—— 多维高斯分布_随机过程_156 这里 随机过程(2.2)—— 多维高斯分布_随机过程_157 其实就是对 随机过程(2.2)—— 多维高斯分布_随机过程_158 中所有正态随机变量 随机过程(2.2)—— 多维高斯分布_多维高斯分布_32 线性组合得到的一元正态随机变量。上式从特征函数角度可证明如下
    2. 随机过程(2.2)—— 多维高斯分布_n元高斯分布_160

    3. 注意,这里 随机过程(2.2)—— 多维高斯分布_随机过程_161 是 n 元正态分布的特征函数;随机过程(2.2)—— 多维高斯分布_随机过程_162
    4. 设有 随机过程(2.2)—— 多维高斯分布_随机过程_153 元随机向量 随机过程(2.2)—— 多维高斯分布_随机过程_154随机过程(2.2)—— 多维高斯分布_n元高斯分布_165随机过程(2.2)—— 多维高斯分布_多维高斯分布_166 矩阵,且行向量线性无关,则
      随机过程(2.2)—— 多维高斯分布_多维高斯分布_167 其实这里 随机过程(2.2)—— 多维高斯分布_n元高斯分布_165 中的每一行都对应了一个 1 中的线性组合。上式可以用特征函数证明如下
    5. 随机过程(2.2)—— 多维高斯分布_正态分布_169

    6. 注意,随机过程(2.2)—— 多维高斯分布_随机过程_170 表示的是 随机过程(2.2)—— 多维高斯分布_随机过程_153 元正态分布的特征函数;随机过程(2.2)—— 多维高斯分布_随机过程_172 表示的是 随机过程(2.2)—— 多维高斯分布_多维高斯分布_173 元正态分布的特征函数(随机过程(2.2)—— 多维高斯分布_随机过程_174随机过程(2.2)—— 多维高斯分布_随机过程_153 元的 随机过程(2.2)—— 多维高斯分布_随机过程_176 变换为 随机过程(2.2)—— 多维高斯分布_多维高斯分布_173
5. 综合例题

随机过程(2.2)—— 多维高斯分布_正态分布_178

随机过程(2.2)—— 多维高斯分布_多维高斯分布_179

随机过程(2.2)—— 多维高斯分布_随机过程_180