我们知道,softmax容易使模型过度自信过拟合,label smoothing作为一种改善方案可以提高模型的泛化能力。

label_smoothing

上篇博客推导过反向求导的结果如下​​softmax求导/label_smoothing求导/知识蒸馏求导​label smoothing理论推导_错误类别
其中
label smoothing理论推导_错误类别_02
求导结果与上面softmax相同
label smoothing理论推导_git_03
令导数等于0,将label smoothing理论推导_概率论_04代入
label smoothing理论推导_机器学习_05
假定错误类别的概率相等,化简上式得:
label smoothing理论推导_git_06
label smoothing理论推导_算法_07时记为label smoothing理论推导_git_08得:
label smoothing理论推导_错误类别_09
所以,使用label smoothing编码,损失函数为交叉熵的话,错误类别的logit不会要求是负无穷,当正确类别和错误类别的logit有一定误差,接近label smoothing理论推导_算法_10的情况下,loss就会很小趋于0。
简单的label smoothing为什么能够涨点呢