一、集成学习

在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。

集成方法是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果。并且其输出的类别是由个别树输出的类别的众数而定。

随机森林加入交叉验证 随机森林需要交叉验证_数据集

集成学习在各个规模的数据集上都有很好的策略:

  • 数据集大:划分成多个小数据集,学习多个模型进行组合
  • 数据集小:利用Bootstrap方法进行抽样,得到多个数据集,分别训练多个模型再进行组合

1、集合方法可分为两类:

  • 序列集成方法,其中参与训练的基础学习器按照顺序生成(例如 AdaBoost)。序列方法的原理是利用基础学习器之间的依赖关系。通过对之前训练中错误标记的样本赋值较高的权重,可以提高整体的预测效果。
  • 并行集成方法,其中参与训练的基础学习器并行生成(例如 Random Forest)。并行方法的原理是利用基础学习器之间的独立性,通过平均可以显著降低错误。

2、总结一下,集成学习法的特点:

①  将多个分类方法聚集在一起,以提高分类的准确率。(这些算法可以是不同的算法,也可以是相同的算法。)

②  集成学习法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投票来进行分类

③  严格来说,集成学习并不算是一种分类器,而是一种分类器结合的方法。

④  通常一个集成分类器的分类性能会好于单个分类器

⑤  如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。

二、随机森林

机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造决策树的集合。

1、学习算法

根据下列算法而建造每棵树 :

  1. N来表示训练用例(样本)的个数,M表示特征数目。
  2. 输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M
  3. N个训练用例(样本)中以有放回抽样的方式,取样N次(样本有可能重复),形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
  4. 对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。
  5. 每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用。

(1)为什么要随机抽样组成训练集?

如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的。

(2)为什么要有放回地抽样?

如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是“有偏的”,都是绝对的“片面的”(当然这样说可能不对),也就是说每棵树训练出来都是有很大差异的:而随机森林最后分类取决于(弱分类器)的投票表决。

2、随机森林API

随机森林加入交叉验证 随机森林需要交叉验证_集成学习_02

3、随机森林优点

首先,在当前所有的算法中,具有极好的准确率,能够处理具有高维特征的输入样本,而且不需要降维。

1)对于很多种资料,它可以产生高准确度的分类器;

2)它可以处理大量的输入变数; 

3)它可以在决定类别时,评估变数的重要性;

4)在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计;

5)它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度;

6)它提供一个实验方法,可以去侦测variable interactions;

7)对于不平衡的分类资料集来说,它可以平衡误差;

8)它计算各例中的亲近度,对于数据挖掘、侦测离群点(outlier)和将资料视觉化非常有用;

9)使用上述。它可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料;

10)学习过程是很快速的。

三、泰坦尼克号数据再预测

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction import DictVectorizer
import pandas as pd

def randomForest():
    """
    随机森林对泰坦尼克号数据进行再处理
    :return: None
    """
    #读取数据
    titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")

    #处理数据
    x = titan[['pclass', 'age', 'sex']] #特征值
    y = titan['survived'] #目标值
    x['age'].fillna(x['age'].mean(), inplace=True) #缺失值处理
    print(x)

    #分割数据集
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

    # 进行处理(特征工程)特征——>类别——>one-hot编码
    dict = DictVectorizer(sparse=False)
    x_train = dict.fit_transform(x_train.to_dict(orient='records'))  # 将数据转换成字典格式
    print(dict.get_feature_names())
    x_test = dict.transform(x_test.to_dict(orient='records'))
    print(x_train)

    #随机森林进行预测(超参数调优)
    rf = RandomForestClassifier()
    #网格搜索与交叉验证 (调优)
    gc = GridSearchCV(rf, param_grid={'n_estimators':[120, 200, 300, 500, 800, 1200], 'max_depth':[5, 8, 15, 25, 30]}, cv=2)
    gc.fit(x_train, y_train)

    print("准确率:", gc.score(x_test, y_test))
    print("查看选择的参数模型", gc.best_params_)
    return None

if __name__ == '__main__':
    randomForest()

随机森林加入交叉验证 随机森林需要交叉验证_随机森林加入交叉验证_03