交叉熵损失函数 sigmoid 交叉熵损失函数求导

转载

编程小天匠 2024-04-03 08:57:54

文章标签 交叉熵损失函数 sigmoid 交叉熵损失求导 Softmax Sigmoid 文章分类 深度学习人工智能

在深度学习网络训练中，交叉熵损失是一种经常使用的损失函数，这篇文章里我们来推导一下交叉熵损失关于网络输出z的导数，由于二分类是多分类的特殊情况，我们直接介绍多分类的推导过程。

一、Softmax交叉熵损失求导

基于softmax的多分类交叉熵公式为

$交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax$

其中 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_02$ 表示类别总数，包含背景类别， $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_03$ 通过 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_04$ 计算得到， $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_05$ 是网络的输出。 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_06$ 是真实标签，通常由one-hot形式编码，单独一个样本的标签如下:

$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_07$

$交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_08$ 表示这个样本属于 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_08$ 类。

我们拿1个属于c类的样本来举例，网络输出为z，因为总共有 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_10$ 类，所以网络有 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_10$ 个 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_12$ 值， $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_13$ ，然后经过Softmax激活得到 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_10$ 个和为1的概率值 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_15$ ，该样本的真实标签 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_16$ 只有 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_17$ ，其余都为0，每一类的损失是：-1x标签xlog(概率值)，最后求和得到总损失。

交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_18

可以知道， $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_19$ 类样本的标签编码中除了 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_20$ =1外，其他值 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_21$ 都为0，所以这个样本对应的其他类的交叉熵都为0，总损失可以化简为:

$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_22$

下面我们来计算一下损失 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_23$ 对每个 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_24$ 的导数。当 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_25$ ，该类对应的损失为0，求导时无用，但是由于激活函数是Softmax，计算 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_求导_26$ 时 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_24$ 被用到（分母），所以不管 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_21$ 是否为0，对 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_24$ 求导时,都需要考虑 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_19$ 类对应的概率值 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_求导_26$ 。

对 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_24$ 求导需要用到链式求导法则，即
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_33$

当 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_34$ 时，
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_35$
代入 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_36$ 得
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_37$

当 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_求导_38$ 时
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_39$
代入 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_36$ ，
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_41$

所以:

$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_42$

交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_43

二、Sigmoid交叉熵损失求导

sigmoid一般是用在二分类问题中，二分类时，网络只有一个输出值，经过sigmoid函数得到该样本是正样本的概率值。损失函数如下:
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_44$
使用Sigmoid函数做多分类时，相当于把每一个类看成是独立的二分类问题，类之间不会相互影响。真实标签 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_21$ 只表示j类的二分类情况。
基于sigmoid的多分类交叉熵公式如下：
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_求导_46$

$交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_47$
其中 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_48$ 通过 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_49$ 计算得到，即sigmoid函数，表达式如下：
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_50$
sigmoid函数的导数如下:
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_51$

我们拿1个属于c类的样本来举例，网络输出为z，因为总共有 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_10$ 类，所以网络有 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_10$ 个 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_12$ 值， $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_13$ ，然后经过sigmoid激活得到 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_10$ 个独立的概率值 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_15$ ，该样本的真实标签 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_16$ 只有 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_17$ ，其余都为0。每一类都是一个单独的二分类问题，通过二分类交叉熵来计算损失，最后把所有类的损失相加。

交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_60

现在我们计算损失 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_61$ 关于网络输出 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_12$ 的导数 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_63$ ，这里需要用到链式法则，在计算Loss对 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_24$ 的导数时，只需要考虑该类对应的 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_48$ 即可，因为其他类的概率值跟 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_24$ 没有关系。

$交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_67$

当 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Softmax_68$ 时， $交叉熵损失函数 sigmoid 交叉熵损失函数求导_Sigmoid_69$ :
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_70$

当 $交叉熵损失函数 sigmoid 交叉熵损失函数求导_求导_71$ 时, $交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_72$ :
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失函数 sigmoid_73$
所以
$交叉熵损失函数 sigmoid 交叉熵损失函数求导_交叉熵损失_74$