伍德里奇在第三章第三节中介绍了关于多元线性回归(Multiple Linear Regression Model)的四个假设(MLR1-4),OLS的无偏性定理(Unbiasedness of OLS),无关变量(Irrelevant Variables)和变量缺失的问题(Omitted Variable)
关于多元线性回归的假设一共有五个,他们被统称为高斯-马尔科夫假设(Gauss-Markov Assumption),前四个假设分别是:MLR 1 参数线性(Linear in Parameters)
即可,其中,y和x均可替换为变量的任何函数形式,比如指数、对数、幂、平方等,即我们可以理解为
MLR 2 随机抽样(Random Sampling)随机抽样的假设是对我们数据收集的基本要求,它要求进行OLS回归的样本数据必须为独立同分布(independently identically distribution,i.i.d.),也就是说每一组数据的取值必须独立于其它数据组
如上式中样本组X1,X2,...,Xn的取值均互不影响,相互独立(关于独立同分布的问题我看到后面第五章详细讲到了,如果这里理解的不对,请各位大佬拨冗指正)。
在3-2中我们注意到,ols选取特定的,残差u的均值为零,每个自变量与残差样本的相关系数(correlation)为零的样本来估计模型的截距和斜率。MLR 3 无完全共线性(No Perfect Collinearity)无完全共线的假设要求自变量之间不能有完全的线性关系,注意,该假设仅要求各自变量之间不能有完全的线性相关关系,但允许各自变量间是相关(correlated)的。
常见的线性相关有:
1、变量x与cx(c为常数)的;
2、变量log(x)与log(x^n)的;
3、变量具有x1+x2=x3关系的;
另外,当变量过少时也可能会导致MLR3不成立,这种情况可以理解为将多个样本组代入方程,构造有n个方程式的k+1(y,x1,x2,...,xk)元一次方程组并求解
时必须满足方程式的个数n大于未知数个数k+1,即
如果我们以解方程组的思想去理解MLR3 ,则可以解释为如果两个方程式不独立时无法求解所有未知数,也就是线性代数中的不满秩。
(MLR2是否也可以这样理解呢?是否可以概括为:MLR2规定的是方程式与方程式之间的关系,MLR3规定的是未知数与未知数之间的关系)MLR 4 零条件均值(Zero Conditional Mean)零条件均值意味着u与解释变量x之间没有任何关系,即u中不再包涵解释变量x相关的任何内容。缺失或包含过多变量和变量格式的错误都会引起MLR4的不成立。
零条件均值假设将会是今后衡量基于样本的模型是否能够准确的描述整体情况的重要假设,对于这个假设的完善,伍德里奇将会在第9、15、16章进行详细的讲解。稍后在第三章第三节第三部分我们将会看到关于缺失变量及包含无关变量的讨论。