随机森林受数据不平衡影响严重吗

转载

GhostLover 2024-11-15 17:22:34

文章标签 机器学习数据集权重 bootstrap 文章分类 机器学习人工智能

1、集成学习

将几种机器学习技术组合成一个预测模型的元算法，以达到减小方差、偏差或改进预测的效果。
集成学习生成多个分类器，各自独立地学习和作出预测。根据这些预测最后结合成组合预测。

from sklearn.ensemble import VotingClassifier
voting_clf = VotingClassifier(estimators=[
    ('log_clf', LogisticRegression()), 
    ('svm_clf', SVC()),
    ('dt_clf', DecisionTreeClassifier(random_state=666))],
                             voting='hard')
#voting='hard'：不依概率  voting='soft':依概率

voting_clf.fit(X_train, y_train)
voting_clf.score(X_test, y_test)

Bagging（装袋法）

是一种有放回的抽样方法，目的为了得到统计量的分布以及置信区间。

from sklearn.ensemble import BaggingClassifier
bagging_clf = BaggingClassifier(DecisionTreeClassifier(),
                           n_estimators=500, max_samples=100,
                           bootstrap=True,oob_score=True)  
#n_estimators:子模型个数  max_samples：每个模型的样本数     bootstrap：放回取样

oob 数据集：把部分没有取到的样本称为 oob 数据集；
Bagging 取样方式的集成学习算法，可以不对数据集进行 train_test_split ，而是使用 oob 数据集作为验证数据集；
可以直接oob_score_ 变量，查看模型在 oob 数据集上的准确率

bagging_clf.oob_score_

2、随机森林

随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定

from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(n_estimators=500, oob_score=True, random_state=666, n_jobs=-1)
rf_clf.fit(X, y)

n_estimators：森林里的树木数量
Criterion：string，可选（default =“gini”）分割特征的测量方法
max_depth：integer或None，可选（默认=无）树的最大深度
max_features="auto”,每个决策树的最大特征数量
bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样
min_samples_split:节点划分最少样本数
min_samples_leaf:叶子节点的最小样本数

ExtraTrees

from sklearn.ensemble import ExtraTreesClassifier

et_clf = ExtraTreesClassifier(n_estimators=500, bootstrap=True, oob_score=True, random_state=666, n_jobs=-1)
et_clf.fit(X, y)

3、解决回归问题

from sklearn.ensemble import BaggingRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import ExtraTreesRegressor

4、Boosting

Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。

AdaBoosting

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier

ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=2), n_estimators=500)
ada_clf.fit(X_train, y_train)

GradientBoosting

from sklearn.ensemble import GradientBoostingClassifier

gb_clf = GradientBoostingClassifier(max_depth=2, n_estimators=30)
gb_clf.fit(X_train, y_train)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。