机器学习 RandomForest正则化

转载

hackernew 2025-01-05 18:28:35

机器学习 RandomForest正则化_正则化

正则化之所以能够降低过拟合的原因在于，正则化是结构风险最小化的一种策略实现。

给loss function加上正则化项，能使得新得到的优化目标函数h = f+normal，需要在f和normal中做一个权衡（trade-off），如果还像原来只优化f的情况下，那可能得到一组解比较复杂，使得正则项normal比较大，那么h就不是最优的，因此可以看出加正则项能让解更加简单，符合奥卡姆剃刀理论，同时也比较符合在偏差和方差（方差表示模型的复杂度）分析中，通过降低模型复杂度，得到更小的泛化误差，降低过拟合程度。

L1正则化和L2正则化：

L1正则化就是在loss function后边所加正则项为L1范数，加上L1范数容易得到稀疏解（0比较多）。L2正则化就是loss function后边所加正则项为L2范数的平方，加上L2正则相比于L1正则来说，得到的解比较平滑（不是稀疏），但是同样能够保证解中接近于0（但不是等于0，所以相对平滑）的维度比较多，降低模型的复杂度。

作图说明

摘录自

机器学习 RandomForest正则化_正则化_02

从等高线和取值空间的交点可以看到L1更容易倾向一个权重偏大一个权重为0。L2更容易倾向权重都较小。

而通过求导数可以看出，对于两种正则带来的梯度更新：

L1减少的是一个常量，L2减少的是权重的固定比例
孰快孰慢取决于权重本身的大小，权重刚大时可能L2快，较小时L1快
L1使权重稀疏，L2使权重平滑，一句话总结就是：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0

正则化理解之最大后验概率估计（MAP）

在最大似然估计中¹

设 $机器学习 RandomForest正则化_正则_03$ 、 $机器学习 RandomForest正则化_权重_04$ 为训练样本和相应的标签， $机器学习 RandomForest正则化_正则_05$ 是一组抽样数据，满足独立同分布假设（i.i.d），假设权重 $机器学习 RandomForest正则化_正则化_06$ 是未知的参数，从而求得对数似然函数:
$机器学习 RandomForest正则化_正则_07$
通过假设 $机器学习 RandomForest正则化_正则化_08$ 的不同概率分布，即可得到不同的模型（即变成已知模型形式，拟合模型参数的问题，w的写法是前面加分号，表示它是某一固定参数值，而不是概率条件！）。例如若假设 $机器学习 RandomForest正则化_正则化_09$ 的高斯分布（ $机器学习 RandomForest正则化_正则_10$ 也是一系列随机向量，随机向量的每个分量都对 $机器学习 RandomForest正则化_正则化_08$ 有影响，若随机向量的维度很大，可以认为 $机器学习 RandomForest正则化_正则化_08$ 服从正态分布，而一般正态分布可以转化成标准正态分布求解），则有：
$机器学习 RandomForest正则化_正则化_13$
式子中 $机器学习 RandomForest正则化_正则_14$ 是常数项，常数项和系数项不影响求最大值，因而可令 $机器学习 RandomForest正则化_正则_15$ 即可得到线性回归的代价函数。这里我们可以看到，使用假设y^{i}服从正态分布的极大似然估计方法和均方误差最小化求解线性回归的结果是一样的！
那么同理，如果我们假设误差满足拉普拉斯分布，则利用最大似然估计后将与用绝对值误差（L1范数）求解线性回归是等效的！

在最大后验概率估计中

将权重 $机器学习 RandomForest正则化_正则化_06$ 看作随机变量，也具有某种分布，从而有：
$机器学习 RandomForest正则化_权重_17$
上面式子中 $机器学习 RandomForest正则化_正则化_18$ 等对于特定问题已经是固定值了，与 $机器学习 RandomForest正则化_正则化_06$ 无关，所以求的 $机器学习 RandomForest正则化_权重_20$ 正比于 $机器学习 RandomForest正则化_权重_21$ 。
那我们利用最大后验概率估计求参数 $机器学习 RandomForest正则化_正则化_06$ 的时候，同样取对数有²³：
$机器学习 RandomForest正则化_权重_23$
可以看出后验概率函数为在似然函数的基础上增加了一项 $机器学习 RandomForest正则化_权重_24$ 。 $机器学习 RandomForest正则化_正则化_25$ 的意义是对权重系数 $机器学习 RandomForest正则化_正则化_06$ 的概率分布的先验假设,在收集到训练样本{ $机器学习 RandomForest正则化_正则_27$ }后，则可根据w在{ $机器学习 RandomForest正则化_正则_27$ }下的后验概率对 $机器学习 RandomForest正则化_正则化_06$ 进行修正，从而可以对 $机器学习 RandomForest正则化_正则化_06$ 更好地估计。

这里补充一下周志华老师的西瓜书149页的知识：
概率学派认为参数虽然未知，但确实是客观存在的固定值，而贝叶斯学派则认为参数是未观察到的随机变量，其本身也有分布。因此可以先假定参数服从某个先验分布（没有观测到任何当前的数据前的先验知识），然后基于当前的观测值来计算参数的后验分布。

若假设 $机器学习 RandomForest正则化_权重_31$ 的先验分布为0均值的高斯分布，即 $机器学习 RandomForest正则化_权重_32$ ，

则有：

$机器学习 RandomForest正则化_权重_33$

机器学习 RandomForest正则化_正则_34

可以看到，在高斯分布下 $机器学习 RandomForest正则化_正则化_35$ 的效果等价于在代价函数中增加 $机器学习 RandomForest正则化_权重_36$ 正则项，也就是说在MAP中使用一个高斯分布的先验等价于在MLE中采用L2的正则。从上图可以看出 $机器学习 RandomForest正则化_正则化_06$ 值取到0附近的概率特别大。也就是说我们提前先假设了 $机器学习 RandomForest正则化_正则化_06$ 的解更容易取到0的附近。

若假设 $机器学习 RandomForest正则化_权重_31$ 服从均值为0、参数为b的拉普拉斯分布，即： $机器学习 RandomForest正则化_正则_40$

则有：

$机器学习 RandomForest正则化_权重_41$

机器学习 RandomForest正则化_权重_42

可以看到，在拉普拉斯分布下 $机器学习 RandomForest正则化_正则化_35$ 的效果等价于在代价函数中增加 $机器学习 RandomForest正则化_正则_44$ 正则项。从下图可以看出 $机器学习 RandomForest正则化_正则化_06$ 值取到0的概率特别大。也就是说我们提前先假设了 $机器学习 RandomForest正则化_正则化_06$ 的解更容易取到0。

我们得到对于 $机器学习 RandomForest正则化_正则_44$ 、 $机器学习 RandomForest正则化_权重_36$ 正则化的一种最大后验角度理解

$机器学习 RandomForest正则化_权重_49$ 正则化可通过假设权重 $机器学习 RandomForest正则化_正则_50$
$机器学习 RandomForest正则化_正则_51$ 正则化可通过假设权重 $机器学习 RandomForest正则化_正则_50$

$机器学习 RandomForest正则化_正则化_53$ 。对于离散的用分布律P，对于连续型的变量在数学中已知模型表达式则用概率密度函数f ↩︎
辨析：MLP（Maximum A Posteriori）-最大似然估计（概率学派）； MAP（Maximum Likelihood Estimation）：最大后验概率估计（贝叶斯学派）请参考 ↩︎
这里应该是省略的写法，比如 $机器学习 RandomForest正则化_正则化_54$ ，里面三个都是随机变量，实际上对于一个具体的训练样本完整的写法应该是 $机器学习 RandomForest正则化_正则化_55$ ↩︎