岭回归特征重要性分析

转载

蓝月亮 2024-11-06 12:01:25

如果数据集的特征比样本点还多（）怎么办？是否还可以使用线性回归来做预测？答案是否定的，因为在计算 $岭回归特征重要性分析_岭回归$

为了解决这个问题，统计学家引入了岭回归（ridge regression）的概念。简单说来，岭回归就是在矩阵 $岭回归特征重要性分析_线性回归_02$ 上加一个 $岭回归特征重要性分析_正则_03$ 使得矩阵非奇异，进而能对 $岭回归特征重要性分析_线性回归_04$

$岭回归特征重要性分析_岭回归特征重要性分析_05$

岭回归最先用来处理特征数多于样本数的情况，现在也用于在估计中加入偏差，从而得到更好的估计。这里通过引入 $\lambda $ 限制了所有 $岭回归特征重要性分析_岭回归_06$ 之和，通过引入该惩罚项，能够减少不重要的参数。这个技术在统计学上也叫作缩减（shrinkage）。

不难证明，在增加如下约束时，普通的最小二乘法回归会得到与岭回归一样的公式：
$岭回归特征重要性分析_岭回归特征重要性分析_07$

上式限定了所有回归系数的平方和（二范数的平方）不能大于 $岭回归特征重要性分析_岭回归特征重要性分析_08$ ，使用普通的最小二乘法回归（线性回归）在当两个或更多的特征相关时，可能会得出一个很大的正系数和一个很大的负系数（回归系数）。正是因为上述限制的存在，使用岭回归可以避免这个问题。

与岭回归类似，另一个缩减（Shrinkage）LASSO 也对回归系数做了限定，对应的约束条件如下：
$岭回归特征重要性分析_线性回归_09$

唯一的不同点在于，这个约束条件使用绝对值取代了平方和。虽然约束形式只是稍作变化，结果却大相径庭：当 $\lambda $ 足够小的时候，一些系数会因此缩减到 0.

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

岭回归 特征重要性分析