文章目录
- 十、多元线性回归
- 1.多元线性回归概述
- 2.最小二乘法
- 3.最小二乘估计量的性质
- 回顾总结
十、多元线性回归
1.多元线性回归概述
多元回归研究的是因变量与个自变量之间的相互依赖关系的,这里假定是随机变量,而是一般变量(视为非随机的),不能由完全决定,但是可以用的函数进行估计。而多元线性回归中的,指的是关于“参数”的线性,我们一般可以把数据写成这样的线性模型:
这就是经典多元线性回归模型,这里是偏差,可以将其视为一个与变量无关的白噪声,满足,还可以进一步假定其为正态白噪声,即相互独立。
大型的式子都可以用向量、矩阵形式表达,多元线性回归模型也不例外,这里进行以下定义:
这样就有,其中。要能够估计出个参数,就至少要有个样本,也就是;同时我们要求各个自变量之间是不相关的,因为如果存在相关性,则自变量可以由其他自变量表出,所需要的回归系数就可以减少,所以我们的要求是。
2.最小二乘法
在给定模型后,我们的目的是估计回归系数,在多元线性回归中常用的方法是最小二乘法。最小二乘法的思想就是让偏差平方和达到最小,偏差平方和即
如果令为的第行,为的第行,则
所以
要使得最小,就有
这里用到的矩阵微商公式有:
所以让导数为0,就得到
在刚才的推导中,我们得到了最小二乘法估计的参数值,结合我们的多元线性回归模型,在已知时的预测值就应该是
这里的被称为帽子矩阵,可以看到
并且,此时的偏差为,残差平方和就是
3.最小二乘估计量的性质
最小二乘估计量是的最小方差线性无偏估计(BLUE),对这个词做一些说明。
首先,很明显是一个随机变量(因为被假定为随机向量,被视为普通向量,所以应该被视为常数阵,视为随机向量),而线性性,指的就是可以被所线性表示,这里的就是其线性表示系数。线性性的好处是,一些对于随机变量数字特征的对于独立随机变量的线性情形是有计算公式的,这样就可以很好地写出的表现形式及其数字特征。
其次,无偏性指的是,注意这里的是客观存在的,是不随抽样改变的常数,而是随着我们抽取样本进行观测,根据样本的观测值算出的统计量,它是一个具有两重性的统计量。而
最后,最小方差性,指的是在所有的线性无偏估计中,是方差最小的一个。假设还有其他的线性无偏估计量,记作,为了满足无偏性,有
而,所以。于是
由于是正定的,所以,所以,这就证明了的最小方差性。
这就说明是最小方差的。
因为是的最小方差线性无偏估计,所以对于的线性组合,其最小方差线性无偏估计依然是。实际应用时,我们会得到一组数,要用它预报,实际上就是对分量的线性组合,这也是我们用作为的预测值的理由。
接下来探讨作为一个随机变量时的分布。首先由线性性,是的分量的线性组合,而的每一个分量中随机部分都是分量,在我们假定是正态白噪声的情况下,的各个分量应该是相互独立且服从正态分布的,即,所以
即。
最后简要提一下白噪声方差的估计,由最大似然估计法,的极大似然估计依然是,还可以得到的最大似然估计是
但这个估计量不是无偏的,所以我们对其作修正,就得到了最小二乘估计
回顾总结
- 多元线性回归模型指的是这样的模型:,其中,。即使不是正态白噪声,也至少应当满足零均值、同方差、序列不相关性。
- 使用最小二乘法求解多元线性回归模型,得到的最小二乘估计量是,基于此估计量和数据估计,将称为帽子矩阵。
- 是的最佳线性无偏估计(BLUE),即满足线性性、无偏性、最小方差性。且其分布是
- 在获得后,残差平方和为,可以用残差平方和估计,其无偏估计为。