交叉验证与网格搜索
①交叉验证(训练集划分—训练集、验证集)–将所有数据分成n等分—并不具备调参能力
4等分就是4折交叉验证;一般采用10折交叉验证
②网格搜索—调参数(与交叉验证一同使用)
如果有多个超参数:采用排列组合的方式,组合进行调参—穷举法
估计器就是算法
param中有多少个超参数需要调整就输入多少个字典
决策树
基础知识:信息论
通信的数学原理,奠定了现代信息论的基础;信息的单位:比特
在不知道哪个球队夺冠概率大(即所有球队夺冠概率相等的情况下),获取冠军需要的代价是5比特信息熵:
反应获取信息的代价。信息熵越大、不确定性越大(信息和消除不确定性相关)
这是在不知道哪个球队强的情况下,信息量最多是5;所以如果有先前数据,哪信息量应该小于5
信息增益
得知一个特征条件之后,减少的信息熵大小。
信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
决策树的分类依据:信息增益(信息增益最大的作为决策树第一个)三种划分方法:
API
Gini系数把所有值当成连续值进行—很细
***缺点:***将所有在决策树走完后,全都可以正确定义,数据越多,树越来越复杂,为了使每个训练样本都能正确分类
决策树的优缺点:
优点:
①简单的理解和解释,树木可视化。
②需要很少的数据准备,其他技术通常需要数据归一化,
缺点:
①决策树学习者可以创建不能很好地推广数据的过于复杂的树,被称为过拟合。
②决策树可能不稳定,因为数据的小变化可能会导致完全不同的树被生成
改进:
①剪枝cart算法—删除叶子节点
②随机森林
随机森林
集成学习:
通过建立几个同样的模型组合的来解决单一预测问题;它的工作原理是生成多个同样分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。
随机森林:
建立多个决策树,每个树的结果去投票
单个树建立过程:
①随机在n个样本当中选择一个样本,重复n次
②随机在M个特征当中选出m个特征—随机有放回的抽样—bootstrap抽样
API:
超参数:
①n_estimators
②max_depth
③max_feature
优点:
在当前所有算法中,具有极好的准确率
能够有效地运行在大数据集上
能够处理具有高维特征的输入样本,而且不需要降维
能够评估各个特征在分类问题上的重要性对于缺省值问题也能够获得很好得结果
分类算法(数据划分\转换器、估计器\KNN\贝叶斯\决策树\随机森林\模型评估\调超参)