- 通用流程:
- 问题建模
- 解决一个机器学习问题都是从问题建模开始:
- 首先需要收集问题的资料,深入理解问题
- 然后将问题抽象成机器可预测的问题(在这个过程中要明确业务指标和模型预测目标,根据预测目标选择适当的评估指标)
- 接着从原始数据中选择最相关的样本子集用于模型训练
- 对样本子集划分训练计和测试集,应用交叉验证的方法对模型进行选择和评估
- 特征工程
- 完成问题建模、对数据进行筛选和清洗之后,就是抽取数据特征,即特征工程。
- 模型选择
- 当我们经过特征工程得到一份高质量的特征之后,还需要考虑哪个模型能够更准确的从数据中学习到相应规律
- 模型融合
- 不同模型会有很大差别,能够学习到的规律也会不同。我们可以采用模型融合的方法,充分利用不同模型的差异,以进一步优化目标。