• 简要的翻译,做一下笔记
  • 不推荐看~

直接将阈值设置成0.5 有什么不合理的?

​The problem is that the default threshold may not represent an optimal interpretation of the predicted probabilities.​

默认的threshold可能不是预测概率的最优的解释,导致这个问题的原因有:

  • 预测的概率没有校准,例如那些由​​svm​​​ 或者​​决策树​​ 得到的结果。【不明白】
  • 用于训练模型的metric与评测模型的metric可能不一致
  • 类分布严重倾斜
  • 一种类型的错误分类比另一种类型的错误分类的成本更大

更加糟糕的是,上述几个问题可能同时出现,例如在一个不平衡的分类问题上使用一个未校准的神经网络模型。因此,在对模型预测的结果进行翻译时,需要经常有改变threshold的需求。

threshold 对分类的效果有非常大的影响。

有许多处理类别不平衡的分类问题,诸如:从训练数据集中重采样、开发自定义的机器学习算法。


当在处理不平衡数据的问题时,如果使用没有调整threshold的机器学习模型可能是一个重大的失误。


选择一个替代默认决策阈值的方法的原因有很多: