回归诊断主要用于检验关于回归假设是否成立,以及检验模型形式是否错误,否则我们通过最小二乘法求得的回归方程就缺乏理论依据。这些检验主要探究的问题为

* 残差是否为随机性、是否为正态性、是否不为异方差。

* 高度相关的自变量是否引起了共线性。

* 模型的函数形式是否错误或在模型中是否缺少重要的自变量。

* 样本数据中是否存在异常值。

 

1.残差图分析

所谓残差图就是以残差

回归 残差分析 python 回归分析残差检验_正态分布

为纵坐标,某一个合适的自变量为横坐标的散点图。残差中包含了许多有关数据和模型的信息,它是研究回归诊断最基本及最重要的统计量。残差图分析的基本思想是,在回归模型的假设中,我们总是假定误差项是独立的正态分布随机变量,且均值为零,方差为σ2。如果模型适合于观察到的数据,那么残差

回归 残差分析 python 回归分析残差检验_数据_02

作为误差εt的无偏估计

回归 残差分析 python 回归分析残差检验_数据_03

,应基本反映误差εt的假设习性。即残差图应该在零点附近对称地密布,越远离零点的地方就越疏散,并在图像上近似有正态趋势,则我们常认为模型与数据拟合得很好。见下图所示,是残差的各种可能出现情况。

回归 残差分析 python 回归分析残差检验_方差_04

若残差图呈现如上图(a)所示的形式,残差是随机的且不表现出一定的趋势或形式,则认为我们所做的回归模型诊断没有太大的问题。更进一步的诊断应该采用学生化残差鉴别是否正态性。一个简单的思想就是,如果模型假设正确的话,残差就应该是误差的良好估计,那么残差全体构成的直方图应当与正态曲线很相似。我们可以求出估计残差的方差Var(

回归 残差分析 python 回归分析残差检验_数据_05

),且符合正态分布

回归 残差分析 python 回归分析残差检验_正态分布_06

那么学生化残差

回归 残差分析 python 回归分析残差检验_数据_07

则遵循标准正态分布。在实际应用中,学生化残差常与

回归 残差分析 python 回归分析残差检验_回归 残差分析 python_08

配合作图,具有更好的直观判断效果。

若残差图呈现如上图(b)所示的形式,有一个对既定模型偏离很大的观察数据点,称为异常点。如果怀疑异常点是由于记录数据中发生的错误或者在测量过程中采用了拙劣的技巧,我们理应从数据集中删除,重新回归模型。但对异常点的处理须持谨慎态度,因为异常点的出现可能代表了相当重要的某些数据,它恰好成为我们探究某些事先不清楚或许是更为重要的因素的线索。

若残差图呈现如上图(c)所示的形式,残差随x的增大而增大,如上图(d)所示的形式,残差随x的增大而先增后减,则蕴含着残差乃至误差对于不同的观察值具有不同的方差变化,称为异方差。在这种场合应该考虑在回归之前对数据y或x进行变换,实现方差稳定后再拟合回归模型。原则上,当误差方差变化不太快时取变换

回归 残差分析 python 回归分析残差检验_方差_09

,当误差方差变化较快时取变换logy或lny,当误差方差变化很快时取变换1/y。当然还存在着不少其他变换,如著名的Box-Cox幂变换

回归 残差分析 python 回归分析残差检验_回归 残差分析 python_10


若残差图呈现如上图(e)所示的形式,则表示模型本身具有非线性趋势,或者提示人们在模型中是否忽略了若干重要的变量,如上图(f)所示的形式,则表示模型本身具有线性趋势。同样表示了模型的错误选定。

 

2.共线性

回归研究中很容易发生模型中两个或两个以上的自变量高度相关,从而造成最小二乘估计的不精确。高度相关的自变量以及由它们所引起的估计问题合在一起称之为共线性(collinearity)问题。为什么共线性会引起参数估计的不精确呢?主要原因是最小二乘法所利用的数据信息,如果存在共线性,就可能已经被其他的自变量说明了大部分,因此用剩余的少量数据估计参数,将产生估计参数的方差很大,置信区间也会很大,假设检验也使人缺乏信任感。在实际中最常见的问题是一些重要的自变量很可能由于在假设检验中t值不显著而被不恰当地剔除了。共线性诊断问题就是要找出哪些变量间存在共线性关系。

 

3.误差的独立性

在回归诊断中,有一个非常重要的回归模型假设需要诊断和检验,那就是回归模型中的误差项的对立性。如果误差项不独立,那么我们对回归模型的许多处理,包括误差项估计、假设检验等等都将没有推导依据。由于残差是误差的合理估计,因此检验统计量通常是建立在残差的基础上。检验误差独立性的最常用方法,是对残差的一阶自相关性进行Durbin-Watson检验。原假设H0:误差项是相互独立的,备选假设H1:误差项是相关的。检验统计量为:

回归 残差分析 python 回归分析残差检验_正态分布_11

我们可以通过简单不等式证明

回归 残差分析 python 回归分析残差检验_方差_12

因此DW统计量应满足

回归 残差分析 python 回归分析残差检验_正态分布_13

如果DW接近于0,表示残差中存在正自相关;如果DW接近于4,表示残差中存在负自相关;如果DW接近于2,表示残差独立性。在给定显著性水平α下,我们可以查Durbin-Watson表得到不能拒绝独立性原假设的区间

回归 残差分析 python 回归分析残差检验_回归 残差分析 python_14