算法竞赛入门笔记4
- Task4 模型调参
- 逻辑回归模型
- 树模型
- 集成模型
- 模型对比与性能评估
- 总结
Task4 模型调参
逻辑回归模型
- 理解逻辑回归模型
逻辑回归的原理: - 逻辑回归模型的应用
逻辑回归模型常用于二分类问题。也用与文本分类、数据挖掘,疾病自动诊断,经济预测等领域。 - 逻辑回归的优缺点
- 优点
- 训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;
- 简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;
- 适合二分类问题,不需要缩放输入特征;
- 内存资源占用小,只需要存储各个维度的特征值;
- 缺点
- 逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】;
- 不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的;
- 对多重共线性数据较为敏感,且很难处理数据不平衡的问题;
- 准确率并不是很高,因为形式非常简单,很难去拟合数据的真实分布;
树模型
- 理解树模型
树模型的原理: - 树模型的应用
树模型也常用分类问题,同时也应用到各个领域中,在现在什么都是神经网络的现状下,传统的机器学习算法有更好的数学理论做基础。但是就神经网络在一些领域表现更出色。就感觉有点矛盾吧。 - 树模型的优缺点
- 优点
- 简单直观,生成的决策树可以可视化展示
- 数据不需要预处理,不需要归一化,不需要处理缺失数据
- 既可以处理离散值,也可以处理连续值
- 缺点
- 决策树算法非常容易过拟合,导致泛化能力不强(可进行适当的剪枝)
- 采用的是贪心算法,容易得到局部最优解
集成模型
- 基于bagging思想的集成模型
- 随机森林模型
- 基于boosting思想的集成模型
- XGBoost模型
- LightGBM模型
- CatBoost模型
- Baggin和Boosting的区别总结如下:
- 样本选择上: Bagging方法的训练集是从原始集中有放回的选取,所以从原始集中选出的各轮训练集之间是独立的;而Boosting方法需要每一轮的训练集不变,只是训练集中每个样本在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整
- 样例权重上: Bagging方法使用均匀取样,所以每个样本的权重相等;而Boosting方法根据错误率不断调整样本的权值,错误率越大则权重越大
- 预测函数上: Bagging方法中所有预测函数的权重相等;而Boosting方法中每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重
- 并行计算上: Bagging方法中各个预测函数可以并行生成;而Boosting方法各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
- 个人心得
集成模型顾名思义,就是多个模型的的叠加(不是简单的叠加)。此时,这里就会有两种出现。同一种模型的集成和不同模型的集成。这所有的目的都是为了提升模型。虽然我在很多地方都见过这些集成模型,但老实说,其实没有真的明白它。我想这里是个好机会,让我们一起将其拿下。冲!
模型对比与性能评估
- 回归模型/树模型/集成模型
不同的模型拥有不同的性能评估方法。 - 模型评估方法
- 模型评价结果
不知道这里可以直接理解为损失函数的最优解不? - 模型调参
- 贪心调参方法
它每一步都选择当下最优的情况,这种方法很容易陷入局部最优解。 - 网格调参方法
当你算法模型效果不是很好时,可以通过该方法来调整参数,通过循环遍历,尝试每一种参数组合,返回最好的得分值的参数组合比。简单的说就是暴力搜索,来找到最优的参数。但往往需要很大的计算资源,所以对于超大的数据量不建议使用。 - 贝叶斯调参方法
总结
这次的内容全都是干货,并且任务量有点大,需要消化的东西还挺多。感觉就是一本西瓜书。反正对于新手来说,难度还是挺大,虽然之前有看过西瓜书。但是理解得还不够。正是这样可以发现自己的不足,这对我自己来说是很好的一个过程。那么接下来就是好好沉下心来学。但是最近又一直被毕业论文分走大量的时间,所以总感觉自己学得不太爽(笑脸)。