• 通用流程:
  • 问题建模
  • 解决一个机器学习问题都是从问题建模开始:
  • 首先需要收集问题的资料,深入理解问题
  • 然后将问题抽象成机器可预测的问题(在这个过程中要明确业务指标和模型预测目标,根据预测目标选择适当的评估指标)
  • 接着从原始数据中选择最相关的样本子集用于模型训练
  • 对样本子集划分训练计和测试集,应用交叉验证的方法对模型进行选择和评估
  • 特征工程
  • 完成问题建模、对数据进行筛选和清洗之后,就是抽取数据特征,即特征工程。
  • 模型选择
  • 当我们经过特征工程得到一份高质量的特征之后,还需要考虑哪个模型能够更准确的从数据中学习到相应规律
  • 模型融合
  • 不同模型会有很大差别,能够学习到的规律也会不同。我们可以采用模型融合的方法,充分利用不同模型的差异,以进一步优化目标。