协方差矩阵的特征值
由于求协方差矩阵的特征值具有非常重要的地位,为此,我们专讨论它。
(0)随机变量的方差、两随机变量的协方差
对于随机变量的观察值(样本)集,有均值和方差(许多同学总是把方差(估值)中的系数错误地记成了):
注:若定义随机变量的数学期望和方差分别为,则这里的样本均值和样本方差分别为其对应的估值,这时为区别,这里就应改用,后续情况类似。
若数据集已“中心化” ,则
设随机变量与的样本集分别为、,则可定义
其中,对应于式(D1),对应于式(D2),其余类推。
(1)随机向量样本集的协方差矩阵
现在把随机变量扩展成随机向量,样本集为,每个分量均为随机变量,将样本集作为矩阵
其中,矩阵每列是一个向量样本(共个样本),每行是一个分量的样本集,分量的样本集为,
依上述定义,每个分量有上述样本均值和样本方差,两分量间有协方差和相关系数。
现在假定对向量样本集的各分量作中心化(即对行作中心化)得到向量样本集为,
则由式(D1)、式(D2)有
其中,右侧除了系数外,矩阵的主对角线为分量的方差,其他元素为两分量的协方差,因此,定义为样本集的协方差矩阵。
(2)求协方差矩阵不必中心化
设由中心化所得,即
其中,为元素全为1的(列)向量,定义向量,定义各列全为向量的矩阵
其中,。
由此,协方差矩阵
这说明不需要显式的中心化过程,即可通过式(D10)右边求出样本集的协方差矩阵。
(3)通过的奇异值分解得到的特征分解
我们讨论如何通过矩阵的奇异值分解得到的特征分解。
由【西瓜书附录式(A.33)】,的奇异值分解表述为如下:
其中,为对角矩阵。
则
式(D12)即为的特征分解,其中,对角阵
因为,由式(D12)有
即
由式(D15)及特征向量的定义可知,为特征向量,为对应的特征值,这就通过的奇异值分解实现了的特征分解,且特征值为奇异值的平方,次序为从大到小排序。
实际问题(例如,10.2 低维嵌入(立交桥就是嵌入三维空间中的二维)特征分解进行降维的技巧的式(10.17)中)中,往往最终不是求协方差矩阵(求它只是过程中的过渡),而是要求出协方差矩阵的特征值(特征矩阵),由(1)知,只需求出的特征分解。
由(2)知,只需通过(视作)的奇异值分解来实现的特征分解。 即协方差矩阵的特征分解归结为的奇异值分解,而奇异值分解又有现成的计算工具。
综上,求样本集(不必中心化)协方差矩阵的特征矩阵的方法:对进行奇异值分解,得,再由组成特征矩阵。