文章目录
- 十八、主成分分析
- 1.寻找主成分
- 2.主成分的性质
- 3.样本的主成分
- 回顾总结
十八、主成分分析
1.寻找主成分
主成分分析是一种“降维”的方式,将高维空间中的信息嵌入到低维空间的同时,尽可能保留原始样本中的信息。这样做的好处,主要是降低问题研究的复杂性,因为维数过高不论是在空间存储上,还是在运算时间上,都是一种浪费。如果能够将部分不重要的分量加以组合,形成一个更有用的分量,自然能降低运算的负担。
这样的降维有两个主要目标:一是尽可能地压缩样本空间的维数,二是尽可能多地保留样本的信息。主成分分析的方法,是用总体不同维度的线性组合,构成新的变量(变量组),从而用这个低维的变量(变量组)来代替原来的样本。而线性组合总可以用一个权重向量来表示。
比如说,总体是,就引入一个向量用来表达一个线性组合。因为这个向量具有“权重”性,我们施以约束,这样就可以用这个向量代表线性组合中各个分量的重要性。信息的保留程度用方差来刻画,如果一个线性组合的方差越大,就说明保留的信息越完整。因此,如果,寻找主成分就变成如下的规划问题:
用Lagrange乘数法很容易求出合适的,也就是
求偏导得到
这说明就是的某个特征向量,为了确定具体是哪一个特征向量,要从其方差入手,注意到
所以要使最大实际是要让最大,因此,是最大特征值对应的特征向量。
如果一个线性组合,即使它是最好的,也压缩了过多的信息,我们自然会想着用多个线性组合作补充。为了避免信息的冗余,我们会限制两个线性组合之间不相关,也就是,在此要求下,结合的限制,寻找使得最大的向量。
结合刚才Lagrange乘子法的表现,我们已经知道了,向量必定是的特征向量(即使施加了不相关约束,原有的步骤也是不变的),且对应的特征值就是线性组合的方差。结合不同特征值对应的特征向量线性无关的特点,自然会想到次大的特征值对应的特征向量,或者同样是对应特征值最大但与线性无关的特征向量。我们将寻找主成分的步骤归结如下:
主成分:设为维随机向量,称为的第主成分,如果:
- (权重性约束);
- 当时,(不相关性约束);
- (最大方差约束)。
寻找主成分:设是维随机向量,是其协方差阵,且其特征值为,相应的单位正交向量是,则的第主成分为
主成分矩阵:设是维随机向量,则其分量是的第主成分的充要条件是:
- ,这里为正交矩阵,这表明是的正交线性组合,且两两不相关。
- ,即协方差阵是对角阵,这说明两两不相关。
- 。
2.主成分的性质
现在,我们已经知道给定总体如何求出其主成分了,主成分是对总体的正交变换,也恰好是总体自协方差矩阵的线性无关特征向量,因此,具有以下的性质。
主成分的协方差:,即个主成分的方差为,且互不相关。
既然主成分是一种信息压缩的表征,那么如何衡量主成分压缩过程中信息的保留程度就是值得注意的。因为主成分的方差就是特征值,因此我们会从特征值出发,定义信息的保留程度。假设原总体的自协方差矩阵为,则的主对角线之和代表原总体的总方差,就视为原总体蕴含的信息量。
总方差:定义为原总体的总方差,或总惯量。
在主成分分解下,可以用前个特征值来近似逼近原总体的总方差,即,这也就达到了降维的同时充分保留信息的目的。一般我们会要求信息保留超过70%,也就是选择使得
这一概念可以用贡献率来描述。
贡献率:称主成分的贡献率为,主成分的累计贡献率为
贡献率描述的是主成分对整体的贡献,接下来的定义则注重于总体的某一个维度。
因子载荷:定义主成分与原始变量的相关系数为因子载荷量,也就是
因子载荷的性质:
有了因子载荷,结合其关于某一维度的平方为1的特点,可以定义主成分对原始变量的贡献率,这表示每个变量被提取信息的多少。
主成分对原始变量的贡献率:定义为与前个主成分的相关系数的平方,即
3.样本的主成分
在实际生活中,总体的协方差矩阵往往未知,需要通过样本来估计。总体的协方差矩阵可以用样本协方差阵来估计,设数据阵为,样本数为,则样本协方差阵为
将作为的估计后,就可以求的特征值与特征向量,也就是个主成分。每一个主成分对每个样本的发挥不同,把第个样品代入第个主成分,得到的值为称为第个样品在第个主成分的得分,构成矩阵,它与数据矩阵是同规模的,这里第行是第个样品在个主成分的得分(记作),第列是第主成分对个样品的得分(记作)。
样本主成分也具有贡献率、累计贡献率,并且有以下的性质:
正交性:,且当时,也就是不同主成分得分向量相互正交。
得分向量的模:,这里是样本协方差阵的第特征值。
不仅如此,样本主成分还能最小化残差平方和,这里的残差平方和指的是选取个主成分作回归:
找一个使得残差平方和最小,而这里每一个维度,都有个观测值作为样本。
最优分解:样本主成分具有使残差平方和最小的优越性。
回顾总结
- 主成分分析的目的是,用少数几个指标值代替高维样本空间,在降维的同时尽可能保留信息,一般希望保留的信息达到70%以上。
- 总体的主成分,就是自协方差矩阵的按大小排列特征值的对应特征向量,记每个主成分的贡献为
前个主成分的累计贡献率就是各自贡献率的加总。 - 定义第个主成分与第个维度变量的相关系数为因子载荷,有。用因子载荷衡量主成分对某个变量的贡献率,即
- 用样本协方差阵替代总体协方差阵计算特征值和特征向量,能得到样本主成分,且样本主成分具有使残差平方和最小的特性。