提升树模型:

提升方法实际采用加法模型(即基函数的线形组合)与前向分步算法。以决策树为基函数的提升方法称为提升树。对分类问题决策树是二叉分类树。提升树模型可以表示为决策树的加法模型:fMx=m=1MT(x;θm),其中T(x;θm)表示决策树;θm为决策树的参数;M为树的个数。

提升树算法采用前向分步算法。首先确定初始提升树f0x=0,第m步的模型是fmx=fm-1x+T(x;θm),其中fm-1x为当前模型,通过经验风险极小化确定下一棵决策树的参数θm

  1. 回归模型的提升树

假设采用平方误差损失函数时,

如何提高随机森林泛化率的方法 随机森林 梯度提升树_方差

对回归问题的提升树算法来说,只需简单拟合当前模型的残差。

但对一般损失函数而言,往往每一步优化并不那么容易,针对这一问题,Freidman提出了梯度提升算法,这是利用最速下降法的近似方法,其关键是利用损失函数的负梯度在当前模型的值。作为回归问题提升树算法中的残差的近似值拟合一个回归树。

如何提高随机森林泛化率的方法 随机森林 梯度提升树_方差_02

  1. 随机森林与梯度提升树

在算法层面,随机森林通过对数据集进行随机采样来构建训练样本,认为随机化有利于模型在测试集上的泛化性能。而梯度提升树根据训练数据寻找所有决策树的最优的线形组合。

随机森林比梯度提升树更容易训练,随机森林只需要设置一个超参数即可,每个结点上随机选取的特征数量,大多数情况下设置为log2的特征总数或特征总数的平方根,就可以取得不错的效果。而梯度提升树参数则包括了提升树的数量、深度和学习率等。

随机森林比梯度提升树更难过拟合。

梯度提升树对噪声异常敏感,从偏差与方差的角度,如果数据是嘈杂的,boosting算法可能会呈现出较高的模型方差,然而在其他情况下,boosting算法往往能够取得较好的效果。而随机森林并不基于模型残差来构建集成模型,往往能够取得很低的方差。