- 简要的翻译,做一下笔记
- 不推荐看~
直接将阈值设置成0.5 有什么不合理的?
The problem is that the default threshold may not represent an optimal interpretation of the predicted probabilities.
默认的threshold可能不是预测概率的最优的解释,导致这个问题的原因有:
- 预测的概率没有校准,例如那些由
svm
或者决策树
得到的结果。【不明白】 - 用于训练模型的metric与评测模型的metric可能不一致
- 类分布严重倾斜
- 一种类型的错误分类比另一种类型的错误分类的成本更大
更加糟糕的是,上述几个问题可能同时出现,例如在一个不平衡的分类问题上使用一个未校准的神经网络模型。因此,在对模型预测的结果进行翻译时,需要经常有改变threshold的需求。
threshold 对分类的效果有非常大的影响。
有许多处理类别不平衡的分类问题,诸如:从训练数据集中重采样、开发自定义的机器学习算法。
当在处理不平衡数据的问题时,如果使用没有调整threshold的机器学习模型可能是一个重大的失误。
选择一个替代默认决策阈值的方法的原因有很多:
- …