线性回归和岭回归岭回归共线性

转载

勇往直前的巨人 2024-04-17 13:28:09

文章标签 线性回归和岭回归机器学习正则化 Lasso 岭回归 文章分类 机器学习人工智能

其他线性模型

1 共线性与L2正则化
2 Lasso回归
3 多任务Lasso回归
4 弹性网络
5 随机梯度下降
6 回归模型的评价标准
7 岭回归交叉验证
8 岭回归调参

1 共线性与L2正则化

L2正则化，可以使系数w的绝对值变小，使对应的特征项对结果的影响变小。如果数据没有问题，多元线性回归和多项式回归中，才有使用正则化的必要，一元线性回归不需要L2正则化。

在岭回归中，经常能看到共线性（collinearity）这个词，其实就是特征之间线性相关。

$线性回归和岭回归岭回归共线性_机器学习$

这里假如m表示样本数量，n表示特征数，那么 $线性回归和岭回归岭回归共线性_Lasso_02$ 均为列向量，若 $线性回归和岭回归岭回归共线性_Lasso_02$ 线性相关，则说明特征之间存在共线性。

因此当特征之间存在共线性时，X不可逆， $线性回归和岭回归岭回归共线性_岭回归_04$ 也不可逆，那么正规方程 $线性回归和岭回归岭回归共线性_机器学习_05$ 就不能使用，L2正则化，就是为了解决这个问题而诞生的，即令 $线性回归和岭回归岭回归共线性_岭回归_06$ I是单位矩阵，λ是超参数

在线性回归的损失函数中，添加一个L2正则化项，即为岭回归的损失函数，为

线性回归和岭回归岭回归共线性_正则化_07

对J2(θ)求导

线性回归和岭回归岭回归共线性_岭回归_08

其中，J1(θ)是没加L2正则化项时的损失函数，即

线性回归和岭回归岭回归共线性_机器学习_09

当 $线性回归和岭回归岭回归共线性_岭回归_06$ 时，

线性回归和岭回归岭回归共线性_岭回归_11

具体过程详见这篇知乎文章：https://zhuanlan.zhihu.com/p/32488420

2 Lasso回归

岭回归是在构建损失函数的时候，在普通线性回归损失函数的基础上加上L2正则化项，如果加的不是L2正则化项，而是L1正则化，那么就是Lasso回归。

关于L1正则化，详见这篇知乎文章：https://zhuanlan.zhihu.com/p/38309692

Lasso回归的目标函数为：

线性回归和岭回归岭回归共线性_正则化_12

3 多任务Lasso回归

先说一下何为多任务，如果要用同一条数据做多个预测，比如用一个人的身高、体重预测他的体脂率、血压、血糖等信息，这就是多任务，说白了，就是目标值不止一个。

而多任务Lasso回归，其实就是对每个目标值都用Lasso回归进行预测。

多任务Lasso回归的目标函数：

线性回归和岭回归岭回归共线性_正则化_13

这里Fro表示弗伦尼乌斯范数

线性回归和岭回归岭回归共线性_岭回归_14

正则化项为L1和L2的混合范数

线性回归和岭回归岭回归共线性_线性回归和岭回归_15

4 弹性网络

弹性网络的正则化项综合了L1和L2范数，其目标函数为

线性回归和岭回归岭回归共线性_正则化_16

5 随机梯度下降

随机梯度下降，在每次迭代参数时，都只使用一个样本，而非遍历所有训练样本，这样与普通梯度下降比起来，计算量就会小很多，从而使得参数快速接近局部最优解。但随机梯度下降仅以当前样本点进行梯度更新，通常无法达到真正局部最优解，只能比较接近，属于用精度换效率。

sklearn.linear_model.SGDRegressor()

线性回归和岭回归岭回归共线性_机器学习_17

可以通过参数，指定正则化方法（L1，L2，elasticnet等），学习率是常数还是衰减（如果要指定学习率是多少，那么learning_rate=‘constant’ 而非具体的值，eta0才是指定具体的值），是否早停等。关于参数的详细说明，请查阅scikit-learn官方文档（这个还是去读源文档吧，一个个介绍参数真的太花时间，但这个方法中不少参数确实有必要看）。

关于在函数中出现参数 * ，可以阅读这个问题下的回答：https://www.zhihu.com/question/287097169