主成分分析
- 概要
- 1:什么是主成分分析
- 2:为什么做主成分分析
- 3:步骤
- 4:优缺点
概要
本文章分为三部分
1:什么是主成分分析;
2:为什么做主成分分析;
3:步骤;
4:优缺点;
1:什么是主成分分析
主成分分析方法,是一种数据降维算法(非监督的机器学习方法)。
其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异(就是找出属性中相关性小的几个属性。),发现更便于人类理解的特征。也可以用来削减回归分析和聚类分析中变量的数目。
2:为什么做主成分分析
因为在数据分析时收集的属性都是多维度的变量。并且多变量之间可能存在相关性,从而增加了问题分析的复杂性。
所以我们需要减少需要分析的指标数量。并且如果对每个指标进行单独分析,其分析结果往往是孤立的,不能完全利用数据中的信息,因此如果盲目减少指标会损失很多有用的信息,从而产生错误的结论。
所以我们需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析就属于这类降维算法。
3:步骤
第一步:样本归0
将样本进行均值归0(demean),即所有样本减去样本的均值。样本的分布没有改变,只是将坐标轴进行了移动。
第二步:找到样本点映射后方差最大的单位向量ω
4:优缺点
优点:
1、以方差衡量信息的无监督学习,不受样本标签限制。
2、由于协方差矩阵对称,因此k个特征向量之间两两正交,也就是各主成分之间正交,正交就肯定线性不相关,可消除原始数据成分间的相互影响
3. 可减少指标选择的工作量
4.用少数指标代替多数指标,利用PCA降维是最常用的算法
5. 计算方法简单,易于在计算机上实现。
缺点:
1、主成分解释其含义往往具有一定的模糊性,不如原始样本完整
2、贡献率小的主成分往往可能含有对样本差异的重要信息,也就是可能对于区分样本的类别(标签)更有用