线性模型
简单线性回归
最简单的线性回归模型假设被预测变量y和单个预测变量 x之间存在如下线性关系:
其中系数β0和β1分别表示回归线的截距和斜率。β0表示当x=0时,y的预测值;斜率β1表示当x增加一个单位时,y的平均变化。
从上图可以看出,观测值并不全部落在回归线上,而是分布在回归线的周围。即:每个观测值yt都包含可解释部分β0+β1xt和随机误差项εt。随机误差项并不意味着错误,而是指观测值与线性模型的偏差。它捕捉到了除xt外其他影响yt的信息。
多元线性回归
当预测变量有两个甚至更多时,模型被称为多元线性回归模型多元线性回归模型的一般形式如下:
其中,y是被预测变量,x1,…,xk是k个预测变量,每个预测变量都必须为数值型变量。系数β1,…,βk分别衡量了在保持其他所有预测变量不变的情况下,该预测变量对被预测变量的影响程度。因此,系数衡量了对应预测变量对被预测变量的边际影响。
当我们想要使用线性回归模型时,需要对变量做出一些基本假设。
首先,我们假设线性模型是对现实情况的合理近似;也就是说,预测变量和被预测变量之间的关系基本满足这个线性方程。
其次,我们对误差项(ε1,…,εT)做出如下假设:
- 期望为零;否则预测结果会产生系统性偏差。
- 随机误差项彼此不相关;否则预测效果会很差,因为这表明数据中尚有很多可用信息没有包含在模型中。
- 与预测变量不相关;若误差项与预测变量相关,则表明模型的系统部分中应该包含更多信息。
为了方便得到预测区间,我们还需要假设随机误差项服从方差为σ2的正态分布。
线性回归模型还有一个重要的假设是预测变量x不是随机变量。在进行模拟实验时,我们可以控制每个x的值(所以x不会是随机的)并观察y的结果值。但在实际生活中,我们只能得到观察数据(包括商业和经济学中的大多数据),而不能控制x的值。因此,我们需要做出如上假设。
逐步回归
当我们处理多个独立变量时,就使用逐步回归。在这种技术中,独立变量的选择是借助于自动过程来完成的,不涉及人工干预。
逐步回归的做法是观察统计值,例如 R-square、t-stats、AIC 指标来辨别重要的变量。基于特定标准,通过增加/删除协变量来逐步拟合回归模型。常见的逐步回归方法如下所示:
- 标准的逐步回归做两件事,每一步中增加或移除自变量。
- 前向选择从模型中最重要的自变量开始,然后每一步中增加变量。
- 反向消除从模型所有的自变量开始,然后每一步中移除最小显著变量。
这种建模技术的目的是通过使用最少的自变量在得到最大的预测能力。它也是处理高维数据集的方法之一。
岭回归
岭回归是当数据遭受多重共线性(独立变量高度相关)时使用的一种技术。在多重共线性中,即使最小二乘估计是无偏差的,但是方差很大,使得观察智远离真实值。岭回归通过给回归估计中增加额外的偏差度,能够有效减少方差。
在线性方程中,预测误差可以分解为两个子分量。首先是由于偏颇,其次是由于方差。预测误差可能由于这两个或两个分量中的任何一个而发生。这里将讨论由于方差引起的误差。岭回归通过收缩参数 λ 解决了多重共线性问题。请看下面的方程式:
上面这个公式中包含两项。第一个是最小平方项,第二个是系数 β 的平方和项,前面乘以收缩参数 λ。增加第二项的目的是为了缩小系数 β 的幅值以减小方差。
总结:
- 除非不假定正态性,岭回归与最小二乘回归的所有假设是一样的。
- 岭回归缩小了系数的值,但没有达到零,这表明它没有特征选择特征。
- 这是一个正则化方法,使用了 L2 正则化。
弹性回归
弹性回归是岭回归和套索回归的混合技术,它同时使用 L2 和 L1 正则化。当有多个相关的特征时,弹性网络是有用的。套索回归很可能随机选择其中一个,而弹性回归很可能都会选择:
权衡岭回归和套索回归的一个优点是它让弹性回归继承了一些岭回归在旋转状态下的稳定性。
总结:
- 在高度相关变量的情况下,它支持群体效应。
- 它对所选变量的数目没有限制
- 它具有两个收缩因子
和
。