目录
L1惩罚 & L2惩罚
Lasso估计
岭回归 Ridge Regression
Ridge 估计
图示lasso和Ridge的差异
从统计学的语言描述,lasso( least absolute shrinkage and selection operator)最小化残差平方和并使系数的绝对值之和小于某个常数,即对损失函数添加一个L1罚函数使一些指标的系数为0,从而获得一个精简的模型:
lasso回归也等价于,对所有回归系数w的绝对值进行大小限制,也就是缩减技术。L1正则化倾向于将越多的参数变为0,使最终的近似解只依赖于很少的变量。
Lasso 和岭回归最重要的区别是,随着惩罚项λ的增加,岭回归中所有回归系数都会减小为非零值,最终模型保留了所有的变量,而lasso回归中越来越多的参数直接变为0. 稀疏的模型变量更具有可解释性。
L1惩罚 & L2惩罚
Lasso估计
岭回归 Ridge Regression
Ridge 估计
图示lasso和Ridge的差异
左图为Lasso方法 右图为Ridge方法
以二维数据空间为例说明lasso和Ridge的差异,如上图所示,两个图是对应于两种方法的等高线与约束域。
红色的椭圆代表的是随着λ的变化所得到的残差平方和,
为椭圆的中心点,为对应普通线性模型的最小二乘估计。
左右两个图的区别在于约束域,即对应的蓝色区域。 等高线和约束域的切点就是目标函数的最优解,Ridge方法对应的约束域是圆,其切点只会存在于圆周上,不会与坐标轴相切,则在任一维度上的取值都不为0,因此没有稀疏;对于Lasso方法,其约束域是正方形,会存在与坐标轴的切点,使得部分维度特征权重为0,因此很容易产生稀疏的结果。
所以,Lasso方法可以达到变量选择的效果,将不显著的变量系数压缩至0,而Ridge方法虽然也对原本的系数进行了一定程度的压缩,但是任一系数都不会压缩至0。
【论文】Robert Tibshirani ,1996,Regression Shrinkage and Selection via the lasso