反向传播其实就是链式求导法则的重复使用,链式法则其实就是先计算外层函数的导数,再计算内层函数的导数,一直重复。误差反向传播的过程,就是层层求导的过程。在看RNN的反向传播之前,先看看简单网络的反向传播。

1、反向传播,链式求导

看一个小例子,如下图所示,其中f函数由x,y,z三种变量的组合来决定,x和y并不是直接和f相连。假设,x+y用q来表示,作为中间结果q=x+y。首先来看一下前向传播过程,就是根据当前的所有输入值来得到最后的输出值的过程。也就是f=(-2+5)*(-4)=-12。可以看出,三个输入x,y,z分别对最终的f值起到了不同的影响作用。有的影响大,有些影响小,有些是正的影响,有些是负的影响,因此,如果我们给出了f的真实值,就会出现一个误差,而每个输入x,y,z对这个误差的影响大小以及是正还是负的影响,可以用求导来得到。此处只演示x,y,z对f的影响,若要计算对误差的影响,只需对误差计算导数就可以。

R语言 反向传播 rnn 反向传播_反向传播

这里给出第二个小例子:

R语言 反向传播 rnn 反向传播_R语言 反向传播_02

需要注意的是,误差从输出一层一层往前传播,不可以跳过某些中间步骤,在计算每一步的误差时,需要乘上上一步得到的误差(链式法则,层层相乘)。在传播过程中,如果某一部分可以直接用一整个函数代替,则可以对整块求导,然后将导数值传到上一步,如下图所示,这仍然符合链式求导法则。

R语言 反向传播 rnn 反向传播_反向传播_03

2、RNN中的反向传播

R语言 反向传播 rnn 反向传播_深度学习_04

前向传播过程(黑色箭头方向):

输入为x,

隐层:ly1=sigmoid(x*W0)+pre_ly1*Wh,

由两部分组成,一部分是输入值乘以权重,再经过一个激活函数(这里暂时用sigmoid表示),另一部分是是隐藏层前一个状态保存的结果。

输出层:ly2=sigmoid(ly1*w1),

由隐层输出值和输出权重相乘,经过激活函数得到。

反向传播过程(红色箭头方向):

真实值为Y,输出层输出的预测值为ly2,两者差为:Y-ly2=err,计算得到总误差Err=1/2(Y-ly2)^2,也就是平方误差。接下来就要使用链式求导法则,反向传播误差,首先离误差最近的是输出ly2,则计算Err对ly2的偏导数,得到:

delta_ly2=(Y-ly2)*sigmoid'(ly2),

注意,这里sigmoid函数是对ly2求导。而Y-ly2=err,所以delta_ly2=err*sigmoid(ly2),接下来计算隐层的误差,从图中可以看出,隐层反向传过来的误差有两项,一个是后一个状态的隐层误差:next_ly1*Wh,另一个是输出层传下来的误差:delta_ly1=delta_ly2*W1*sigmoid'(ly1),

这个式子是由链式法则得出,每次计算当前步的误差需要乘上上一步的误差,因此有delta_ly2这一项,然后因为ly2=sigmoid(ly1*W1),根据链式法则计算ly2对ly1的导数,得到W1*singmoid'(ly1)。

然后计算按照下面公式更新参数:

R语言 反向传播 rnn 反向传播_R语言 反向传播_05

需要更新的值也就是当前层的输出值乘以上一层传下来的误差。