rnn输出维度

转载

epeppanda 2024-10-25 15:01:44

文章标签 rnn输出维度 RNN反向传播时间t的梯度推导 RNN中变量与参数的关系图反向传播 文章分类 机器学习人工智能

在上一篇的 MXNet对含隐藏状态的循环神经网络(RNN)的实现文章里面我们熟悉了如何用RNN模型来训练并创作歌词，了解到循环神经网络的一些特点，而对于具体的前向计算与反向传播，有些细节可能不是非常清楚，下面通过图来直观地熟悉模型中参数与变量之间的依赖关系，以及反向传播中的梯度计算。

模型计算图中的依赖关系

rnn输出维度_RNN反向传播

根据上面的依赖关系，我们按照箭头所指的反方向依次计算并存储梯度，将使用到链式法则，其中运算符用prod表示
时间t的反向传播我们从最后面的输出开始计算
1、目标函数L关于输出层变量的梯度：αL/αOt
2、目标函数L关于模型参数Wqh的梯度：αL/αWqh [链式法则]
3、目标函数L关于最终时间步T的隐藏状态的梯度：αL/αhT [链式法则]
4、目标函数L关于时间步t(1<=t<=T)的隐藏状态的梯度：αL/αht [链式法则,展开推导出通用公式]
5、目标函数L关于模型参数Whh的梯度：αL/αWhh [链式法则]
6、目标函数L关于模型参数Whx的梯度：αL/αWhx [链式法则]

rnn输出维度_反向传播_02