关于主成分分析在模型中的运用主要有以下几个方面:

(1)降维;尤其是在面对大量数据时,可以借助PCA方法提取有效的数据成分;其原理,简单的理解就是将众多变量和指标通过一定方法提取出少数几个有代表性的且互相相关性系数较低的变量。

(2)处理变量之间多重共线性的问题;

(3)确定变量的权重,将多个变量组合成“一个”变量(这在计量经济学论文中常用到,在此不做介绍)。

1.主成分在spss中的实现。

步骤:分析—降维—因子分析

(1)在提取—方法中农,我选择主成分即可。




主成分回归命令 主成分回归怎么做_pca主成分分析结果解释


(2)在得分中,我们选择计算因子得分的方法为回归。其余保持默认即可:


主成分回归命令 主成分回归怎么做_因子分析_02


2.结果解释

(1)总方差解释表


主成分回归命令 主成分回归怎么做_主成分回归命令_03


本案例导入的变量有7个,通过正交矩阵变换,产生了7个新的变量,每个新变量对原数据的解释方差程度不同。这7个新变量的解释比例加总为100%。在实际中,我们要选取能够解释原始数据方差比例高的变量。通常有两个判断标准:

  1. 特征值大于1;
  2. 累计方差贡献率为80%以上。

本案例仅选择特征值在1以上的新变量作为主成分。从表中可以看出,前三个成分的特征值都在1以上,分别为1.037、1.168、2.664,累计方差贡献率为69.551%;也即是前三个变量解释了69.551%的总方差。当然,读者也可以根据自己的需要,选择方差累计贡献率在80%的前4个成分。

(2)成分矩阵


主成分回归命令 主成分回归怎么做_因子分析_04


说明:纠正一个误区,很多文章在建模过程中会采用成分矩阵的成分系数作为各主成分的表达式的系数,虽然这没有改变主成分的性质,但是其实这并不是主成分表达式的系数。主成分回归表达式的系数为:

成分矩阵系数/特征根的平方根

如第一主成分的int_rate回归系数=第一成分矩阵系数(-0.965)/第一个特征根的平方根(2.664)。

一般而言,我们可以从这个成分系数看出新生成的各成分对于各个变量的主要解释能力。系数越高,代表对该变量的解释能力越强。如:

第一主成分当中:int_rate/grade/fico这三个变量的系数较高,说明第一主成分可以主要解释这三个变量,也即是可以“代表”这三个变量;

第二主成分当中:debt_to_income/loan_to_income这两个变量的系数较高,说明第二主成分可以“代表”这两个变量;

第三主成分当中:home/employment这两个变量的系数较高,则第三主成分主要“代表”这两个变量。

由此我们可以知晓,在这三个主成分主要“代表”那些变量,也即是那些变量在各主成分当中的重要程度是多少。

对于各主成分的系数,读者可自行将成分矩阵的系数与特征根粘贴复制在excel中去计算,在此不做演示。

(3)成分得分系数


主成分回归命令 主成分回归怎么做_pca主成分分析结果解释_05


该成分系数的计算方法为:成分矩阵系数/特征根。

如第一成分int_rate的成分得分系数=-0.965/2.664=-0.362,以此类推。

该表格最主要的作用是打出各变量的得分。首先写出得分函数:

第一主成分F1=-0.362*int_rate+0.358*grade+0.073*home-0.021*employment+0.314*fico_score-0.073*debt_to_income-0.08*loan_to_income。

以此类推,可以写出第二主成分和第三主成分的函数式F2、F3

只需要将原始数据各变量进行标准化后,带入这三个得分方程式就可以得到新的变量得分了。Spss软件已经将该得分计算出来,限于篇幅,仅展示部分:


主成分回归命令 主成分回归怎么做_特征值_06


通过该得分我们就可以在实际运用中,我们就可以知晓客户的信用的得分,违约风险高低;也可以与原来的被解释变量进行回归,得到新的回归方程,有效的解决多重共线性问题。

与主成分方法密切相关的另一个方法是因子分析,关于因子分析将在以后的推文中再做阐述。