文章目录

  • 十八、主成分分析
  • 1.寻找主成分
  • 2.主成分的性质
  • 3.样本的主成分
  • 回顾总结


十八、主成分分析

1.寻找主成分

主成分分析是一种“降维”的方式,将高维空间中的信息嵌入到低维空间的同时,尽可能保留原始样本中的信息。这样做的好处,主要是降低问题研究的复杂性,因为维数过高不论是在空间存储上,还是在运算时间上,都是一种浪费。如果能够将部分不重要的分量加以组合,形成一个更有用的分量,自然能降低运算的负担。

这样的降维有两个主要目标:一是尽可能地压缩样本空间的维数,二是尽可能多地保留样本的信息。主成分分析的方法,是用总体不同维度的线性组合,构成新的变量(变量组),从而用这个低维的变量(变量组)来代替原来的样本。而线性组合总可以用一个权重向量来表示。

比如说,总体是主回归里要放中介变量吗 主成分回归的优点_线性代数,就引入一个向量主回归里要放中介变量吗 主成分回归的优点_特征向量_02用来表达一个线性组合主回归里要放中介变量吗 主成分回归的优点_主成分_03。因为这个向量具有“权重”性,我们施以约束主回归里要放中介变量吗 主成分回归的优点_线性代数_04,这样就可以用这个向量代表线性组合中各个分量的重要性。信息的保留程度用方差来刻画,如果一个线性组合的方差越大,就说明保留的信息越完整。因此,如果主回归里要放中介变量吗 主成分回归的优点_特征向量_05,寻找主成分就变成如下的规划问题:
主回归里要放中介变量吗 主成分回归的优点_特征值_06
用Lagrange乘数法很容易求出合适的主回归里要放中介变量吗 主成分回归的优点_特征值_07,也就是
主回归里要放中介变量吗 主成分回归的优点_特征值_08
求偏导得到
主回归里要放中介变量吗 主成分回归的优点_主成分_09
这说明主回归里要放中介变量吗 主成分回归的优点_特征值_07就是主回归里要放中介变量吗 主成分回归的优点_特征值_11的某个特征向量,为了确定具体是哪一个特征向量,要从其方差入手,注意到
主回归里要放中介变量吗 主成分回归的优点_主成分_12
所以要使主回归里要放中介变量吗 主成分回归的优点_特征值_13最大实际是要让主回归里要放中介变量吗 主成分回归的优点_线性代数_14最大,因此,主回归里要放中介变量吗 主成分回归的优点_特征值_07最大特征值对应的特征向量

如果一个线性组合,即使它是最好的,也压缩了过多的信息,我们自然会想着用多个线性组合作补充。为了避免信息的冗余,我们会限制两个线性组合之间不相关,也就是主回归里要放中介变量吗 主成分回归的优点_特征值_16,在此要求下,结合主回归里要放中介变量吗 主成分回归的优点_线性代数_17的限制,寻找使得主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_18最大的向量主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_19

结合刚才Lagrange乘子法的表现,我们已经知道了,向量主回归里要放中介变量吗 主成分回归的优点_特征值_07必定是主回归里要放中介变量吗 主成分回归的优点_特征值_11的特征向量(即使施加了不相关约束,原有的步骤也是不变的),且对应的特征值就是线性组合的方差。结合不同特征值对应的特征向量线性无关的特点,自然会想到次大的特征值对应的特征向量,或者同样是对应特征值最大但与主回归里要放中介变量吗 主成分回归的优点_特征向量_22线性无关的特征向量。我们将寻找主成分的步骤归结如下:

主成分:设主回归里要放中介变量吗 主成分回归的优点_主成分_23主回归里要放中介变量吗 主成分回归的优点_线性代数_24维随机向量,称主回归里要放中介变量吗 主成分回归的优点_主成分_25主回归里要放中介变量吗 主成分回归的优点_线性代数_26的第主回归里要放中介变量吗 主成分回归的优点_特征值_27主成分主回归里要放中介变量吗 主成分回归的优点_线性代数_28,如果:

  1. 主回归里要放中介变量吗 主成分回归的优点_线性代数_29(权重性约束);
  2. 主回归里要放中介变量吗 主成分回归的优点_特征值_30时,主回归里要放中介变量吗 主成分回归的优点_特征值_31(不相关性约束);
  3. 主回归里要放中介变量吗 主成分回归的优点_线性代数_32(最大方差约束)。

寻找主成分:设主回归里要放中介变量吗 主成分回归的优点_主成分_23主回归里要放中介变量吗 主成分回归的优点_线性代数_24维随机向量,主回归里要放中介变量吗 主成分回归的优点_特征值_35是其协方差阵,且其特征值为主回归里要放中介变量吗 主成分回归的优点_特征向量_36,相应的单位正交向量是主回归里要放中介变量吗 主成分回归的优点_主成分_37,则主回归里要放中介变量吗 主成分回归的优点_线性代数_26的第主回归里要放中介变量吗 主成分回归的优点_特征值_27主成分为
主回归里要放中介变量吗 主成分回归的优点_线性代数_40
主成分矩阵:设主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_41主回归里要放中介变量吗 主成分回归的优点_线性代数_24维随机向量,则其分量主回归里要放中介变量吗 主成分回归的优点_特征值_43主回归里要放中介变量吗 主成分回归的优点_线性代数_26的第主回归里要放中介变量吗 主成分回归的优点_特征值_27主成分的充要条件是:

  1. 主回归里要放中介变量吗 主成分回归的优点_特征向量_46,这里主回归里要放中介变量吗 主成分回归的优点_特征向量_47为正交矩阵,这表明主回归里要放中介变量吗 主成分回归的优点_特征值_48主回归里要放中介变量吗 主成分回归的优点_线性代数_49的正交线性组合,且两两不相关。
  2. 主回归里要放中介变量吗 主成分回归的优点_特征向量_50,即协方差阵是对角阵,这说明主回归里要放中介变量吗 主成分回归的优点_特征值_48两两不相关。
  3. 主回归里要放中介变量吗 主成分回归的优点_特征向量_52

2.主成分的性质

现在,我们已经知道给定总体如何求出其主成分了,主成分是对总体的正交变换,也恰好是总体自协方差矩阵的线性无关特征向量,因此,具有以下的性质。

主成分的协方差:主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_53,即主回归里要放中介变量吗 主成分回归的优点_线性代数_24个主成分的方差为主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_55,且互不相关。

既然主成分是一种信息压缩的表征,那么如何衡量主成分压缩过程中信息的保留程度就是值得注意的。因为主成分的方差就是特征值,因此我们会从特征值出发,定义信息的保留程度。假设原总体的自协方差矩阵为主回归里要放中介变量吗 主成分回归的优点_主成分_56,则主回归里要放中介变量吗 主成分回归的优点_特征值_11的主对角线之和代表原总体的总方差,就视为原总体蕴含的信息量。

总方差:定义主回归里要放中介变量吗 主成分回归的优点_特征值_58为原总体主回归里要放中介变量吗 主成分回归的优点_线性代数_26的总方差,或总惯量。

在主成分分解下,可以用前主回归里要放中介变量吗 主成分回归的优点_特征值_60个特征值来近似逼近原总体的总方差,即主回归里要放中介变量吗 主成分回归的优点_线性代数_61,这也就达到了降维的同时充分保留信息的目的。一般我们会要求信息保留超过70%,也就是选择主回归里要放中介变量吗 主成分回归的优点_特征值_60使得
主回归里要放中介变量吗 主成分回归的优点_特征值_63

这一概念可以用贡献率来描述。

贡献率:称主成分主回归里要放中介变量吗 主成分回归的优点_线性代数_64的贡献率为主回归里要放中介变量吗 主成分回归的优点_线性代数_65,主成分主回归里要放中介变量吗 主成分回归的优点_主成分_66的累计贡献率为
主回归里要放中介变量吗 主成分回归的优点_特征向量_67

贡献率描述的是主成分对整体的贡献,接下来的定义则注重于总体的某一个维度。

因子载荷:定义主成分主回归里要放中介变量吗 主成分回归的优点_线性代数_64与原始变量主回归里要放中介变量吗 主成分回归的优点_线性代数_69的相关系数主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_70为因子载荷量,也就是
主回归里要放中介变量吗 主成分回归的优点_线性代数_71
因子载荷的性质:
主回归里要放中介变量吗 主成分回归的优点_线性代数_72

有了因子载荷,结合其关于某一维度的平方为1的特点,可以定义主成分对原始变量的贡献率,这表示每个变量被提取信息的多少。

主成分对原始变量主回归里要放中介变量吗 主成分回归的优点_线性代数_69的贡献率:定义为主回归里要放中介变量吗 主成分回归的优点_线性代数_69与前主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_75个主成分主回归里要放中介变量吗 主成分回归的优点_主成分_66的相关系数的平方,即
主回归里要放中介变量吗 主成分回归的优点_主成分_77

3.样本的主成分

在实际生活中,总体的协方差矩阵往往未知,需要通过样本来估计。总体的协方差矩阵可以用样本协方差阵来估计,设数据阵为主回归里要放中介变量吗 主成分回归的优点_特征值_78,样本数为主回归里要放中介变量吗 主成分回归的优点_主成分_79,则样本协方差阵为
主回归里要放中介变量吗 主成分回归的优点_特征向量_80
主回归里要放中介变量吗 主成分回归的优点_特征值_81作为主回归里要放中介变量吗 主成分回归的优点_特征值_11的估计后,就可以求主回归里要放中介变量吗 主成分回归的优点_特征值_81的特征值主回归里要放中介变量吗 主成分回归的优点_特征向量_84与特征向量主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_85,也就是主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_86个主成分主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_87。每一个主成分对每个样本的发挥不同,把第主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_88个样品主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_89代入第主回归里要放中介变量吗 主成分回归的优点_特征向量_90个主成分主回归里要放中介变量吗 主成分回归的优点_特征值_91,得到的值为主回归里要放中介变量吗 主成分回归的优点_特征向量_92称为第主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_88个样品在第主回归里要放中介变量吗 主成分回归的优点_主成分_94个主成分的得分,构成矩阵主回归里要放中介变量吗 主成分回归的优点_特征值_95,它与数据矩阵是同规模的,这里第主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_88行是第主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_88个样品在主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_86个主成分的得分(记作主回归里要放中介变量吗 主成分回归的优点_特征值_99),第主回归里要放中介变量吗 主成分回归的优点_特征向量_90列是第主回归里要放中介变量吗 主成分回归的优点_特征向量_90主成分对主回归里要放中介变量吗 主成分回归的优点_主成分_79个样品的得分(记作主回归里要放中介变量吗 主成分回归的优点_特征值_103)。

样本主成分也具有贡献率、累计贡献率,并且有以下的性质:

正交性:主回归里要放中介变量吗 主成分回归的优点_线性代数_104,且当主回归里要放中介变量吗 主成分回归的优点_线性代数_105主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_106,也就是不同主成分得分向量相互正交。

得分向量的模:主回归里要放中介变量吗 主成分回归的优点_线性代数_107,这里主回归里要放中介变量吗 主成分回归的优点_线性代数_108是样本协方差阵的第主回归里要放中介变量吗 主成分回归的优点_特征值_27特征值。

不仅如此,样本主成分还能最小化残差平方和,这里的残差平方和指的是选取主回归里要放中介变量吗 主成分回归的优点_特征值_60个主成分作回归:
主回归里要放中介变量吗 主成分回归的优点_主回归里要放中介变量吗_111
找一个主回归里要放中介变量吗 主成分回归的优点_特征值_112使得残差平方和主回归里要放中介变量吗 主成分回归的优点_特征值_113最小,而这里每一个维度,都有主回归里要放中介变量吗 主成分回归的优点_主成分_79个观测值作为样本。

最优分解:样本主成分具有使残差平方和最小的优越性。

回顾总结

  1. 主成分分析的目的是,用少数几个指标值代替高维样本空间,在降维的同时尽可能保留信息,一般希望保留的信息达到70%以上。
  2. 总体的主成分,就是自协方差矩阵主回归里要放中介变量吗 主成分回归的优点_特征值_115的按大小排列特征值的对应特征向量,记每个主成分的贡献为
    主回归里要放中介变量吗 主成分回归的优点_主成分_116
    主回归里要放中介变量吗 主成分回归的优点_主成分_117个主成分的累计贡献率就是各自贡献率的加总。
  3. 定义第主回归里要放中介变量吗 主成分回归的优点_特征向量_118个主成分与第主回归里要放中介变量吗 主成分回归的优点_特征向量_119个维度变量的相关系数为因子载荷主回归里要放中介变量吗 主成分回归的优点_线性代数_120,有主回归里要放中介变量吗 主成分回归的优点_主成分_121。用因子载荷衡量主成分对某个变量的贡献率,即
    主回归里要放中介变量吗 主成分回归的优点_特征值_122
  4. 用样本协方差阵替代总体协方差阵计算特征值和特征向量,能得到样本主成分,且样本主成分具有使残差平方和最小的特性。