造成多重共线性的原因有一下几种:
1、解释变量都享有共同的时间趋势;
2、一个解释变量是另一个的滞后,二者往往遵循一个趋势;
3、由于数据收集的基础不够宽,某些解释变量可能会一起变动;
4、某些解释变量间存在某种近似的线性关系;
多重共线性的检验;
1、相关性分析,相关系数高于0.8,表明存在多重共线性;但相关系数低,并不能表示不存在多重共线性;
2、容忍度(tolerance)与方差扩大因子(VIF)。某个自变量的容忍度等于1减去该自变量为因变量而其他自变量为预测变量时所得到的线性回归模型的判定系数。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数。显然,VIF越大,多重共线性越严重。一般认为VIF大于10时,存在严重的多重共线性。
3、回归系数的正负号与预期的相反。
解决方法:
1、增加样本容量:多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因此追加样本信息是解决该问题的一条有效途径。
2、如果要在模型中保留所有的自变量,那就应该:避免根据t统计量对单个参数β进行检验;对因变量y值的推断限定在自变量样本值的范围内。
3、删除一个或几个共线变量:实际操作中常用逐步法作为自变量筛选方法。
4、岭回归法;岭回归法是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法。
5、主成分分析法。
处理多重共线性的原则:
1、 多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施;
2、 严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。
3、 如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。
采用两种方法检验自变量之间的多重共线性
自变量之间的回归系数
从表可以得知GDP与RD_exp之间的回归系数为0.94大于0.8,存在严重的共线性问题;GDP与rel之间的回归系数为0.824大于0.8,存在严重的共线性问题;RD_exp与rel之间的回归系数为0.745,存在轻微的多重共线性,因为多重共线性普遍存在,所以轻微的多重共线性问题可不采取措施。
方差扩大因子(VIF)检验
从表可以得知GDP的方差扩大因子为12.29大于10,存在严重的多重共线性。
由回归系数检验和方差扩大因子检验可知,导致多重共线性的原因,由控制变量GDP引起,因此可以可通过删掉这个变量,再次进行共线性检验。
PS:这个图太丑了,哪位大神知道怎么优化这一块。