随机森林模型参数调优

转载

智能创新者 2025-01-07 15:37:34

文章标签 随机森林模型参数调优决策树机器学习随机森林数据 文章分类 机器学习人工智能

交叉验证与网格搜索

①交叉验证（训练集划分—训练集、验证集）–将所有数据分成n等分—并不具备调参能力
4等分就是4折交叉验证；一般采用10折交叉验证

随机森林模型参数调优_机器学习

②网格搜索—调参数（与交叉验证一同使用）

随机森林模型参数调优_随机森林_02

如果有多个超参数：采用排列组合的方式，组合进行调参—穷举法

随机森林模型参数调优_随机森林_03

随机森林模型参数调优_机器学习_04

估计器就是算法

param中有多少个超参数需要调整就输入多少个字典

随机森林模型参数调优_决策树_05

决策树

基础知识：信息论

通信的数学原理，奠定了现代信息论的基础；信息的单位：比特

随机森林模型参数调优_机器学习_06

在不知道哪个球队夺冠概率大（即所有球队夺冠概率相等的情况下），获取冠军需要的代价是5比特信息熵：

反应获取信息的代价。信息熵越大、不确定性越大（信息和消除不确定性相关）

随机森林模型参数调优_随机森林_07

这是在不知道哪个球队强的情况下，信息量最多是5；所以如果有先前数据，哪信息量应该小于5

信息增益

得知一个特征条件之后，减少的信息熵大小。
信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

随机森林模型参数调优_数据_08

随机森林模型参数调优_数据_09

决策树的分类依据：信息增益（信息增益最大的作为决策树第一个）三种划分方法：

随机森林模型参数调优_数据_10

API

随机森林模型参数调优_数据_11

Gini系数把所有值当成连续值进行—很细

***缺点：***将所有在决策树走完后，全都可以正确定义，数据越多，树越来越复杂，为了使每个训练样本都能正确分类

决策树的优缺点：
优点：
①简单的理解和解释，树木可视化。
②需要很少的数据准备，其他技术通常需要数据归一化，
缺点：
①决策树学习者可以创建不能很好地推广数据的过于复杂的树，被称为过拟合。
②决策树可能不稳定，因为数据的小变化可能会导致完全不同的树被生成
改进：
①剪枝cart算法—删除叶子节点
②随机森林