集成学习两个流派:

bagging派系,各个弱学习器之间没有依赖关系,可以并行拟合。

boosting派系,各个弱学习器之间有依赖关系。

1.Bagging的策略

Bagging:

  • 从样本集中重采样(有重复的,有放回采样)选出n个样本,n为原始样本集的样本个数;
  • 在所有特征上,对这个n个样本建立基本分类器(分类器如ID3、C4.5、CART、SVM、Logistic回归等。在这里,均称为弱分类器。);
  • 重复以上两步m次,即获得m个分类器;
  • 将数据放在这m个联合分类器上(m个分类器组成了一个强分类器),最后根据这m个分类器的投票结果,决定数据属于哪一类。

bagging的集合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常使用简单平均法,对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。

由于Bagging算法每次都进行采样来训练模型,因此泛化能力很强,对于降低模型的方差很有作用。当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些。

2.随机森林算法

随机森林是在bagging的基础上做了修正之后的算法,使用了CART决策树作为弱学习器。随机森林对样本和特征都随机选取,这样做是为了防止过拟合。

随机森林:

  • 从样本集中有放回地采样选出n个样本;
  • 从所有特征中随机选择k个特征,然后选择最佳分割特征作为决策树的左右子树划分,建立CART决策树;
  • 重复以上两步m次,即建立了m棵CART决策树;
  • 这m个CART树形成了随机森林,通过投票表决结果,决定数据属于哪一类别。

3.随机森林优缺点

优点:

1) 训练可以高度并行化,对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。

2) 由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。

3) 在训练后,可以给出各个特征对于输出的重要性

4) 由于采用了随机采样,训练出的模型的方差小,泛化能力强。

5) 相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。

6) 对部分特征缺失不敏感。

缺点:

1)在某些噪音比较大的样本集上,RF模型容易陷入过拟合。

2) 取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。