如果数据集的特征比样本点还多()怎么办?是否还可以使用线性回归来做预测?答案是否定的,因为在计算 岭回归 特征重要性分析_岭回归

为了解决这个问题,统计学家引入了岭回归(ridge regression)的概念。简单说来,岭回归就是在矩阵 岭回归 特征重要性分析_线性回归_02 上加一个 岭回归 特征重要性分析_正则_03 使得矩阵非奇异,进而能对 岭回归 特征重要性分析_线性回归_04

岭回归 特征重要性分析_岭回归 特征重要性分析_05

岭回归最先用来处理特征数多于样本数的情况,现在也用于在估计中加入偏差,从而得到更好的估计。这里通过引入 $\lambda $ 限制了所有 岭回归 特征重要性分析_岭回归_06 之和,通过引入该惩罚项,能够减少不重要的参数。这个技术在统计学上也叫作缩减(shrinkage)。

不难证明,在增加如下约束时,普通的最小二乘法回归会得到与岭回归一样的公式:
岭回归 特征重要性分析_岭回归 特征重要性分析_07

上式限定了所有回归系数的平方和(二范数的平方)不能大于 岭回归 特征重要性分析_岭回归 特征重要性分析_08,使用普通的最小二乘法回归(线性回归)在当两个或更多的特征相关时,可能会得出一个很大的正系数和一个很大的负系数(回归系数)。正是因为上述限制的存在,使用岭回归可以避免这个问题。

与岭回归类似,另一个缩减(Shrinkage)LASSO 也对回归系数做了限定,对应的约束条件如下:
岭回归 特征重要性分析_线性回归_09

唯一的不同点在于,这个约束条件使用绝对值取代了平方和。虽然约束形式只是稍作变化,结果却大相径庭:当 $\lambda $ 足够小的时候,一些系数会因此缩减到 0.

1. 正则化的眼光

  • 过度拟合与参数正则:
  • 大的系数可以将输入 X 的微小变动放大,进一步通过多个正负项的叠加尽量把每一个点都拟合上(包括那些离群点)
  • 换句话说,如果系数大得离谱,且有正有负,多半是因为过拟合了;
  • 对系数进行约束,也即对模型进行正则,便可以有效地解决过拟合问题;
  • Ridge Regression ⇒ 岭回归 特征重要性分析_线性回归_10
  • Lasso Regression ⇒ 岭回归 特征重要性分析_岭回归_11