在之前对多层感知机的实现过程中,只考虑了感知机在进行前向传播时所进行的计算,对于涉及梯度计算的反向传播并未进行过多赘述,仅调用深度学习框架所提供的反向传播函数进行自动梯度计算。因此在本节内容中,针对深度学习模型在训练时的前向传播以及反向传播过程进行了介绍。
一、前向传播
前向传播过程主要是指按输入层 -> 隐藏层 -> 输出层顺序传递数值进行计算并存储结果的过程。
以上述图中多层感知机结构为例:
从输入层到隐藏层的计算为:
从隐藏层到输出层的计算为:
通过该过程,神经网络可以得到一个输出值,用于计算与训练集中真实值
的误差,该误差会在反向传播过程中用到,来实现对参数
的修正,输出预测值与真实值的误差损失可用
表示:
同时根据之前学到的正则定义,对于参数
,将其视作拓展后的矩阵
,存在给定超参数
,使得正则化项为:
综合损失项和正则化项后,施加在模型上的最终损失为:
这个从输入层到输出层的计算过程,就是多层感知机的前向传播过程。绘制前向传播的计算图,可以有助于对计算中操作符和变量关系的可视化,多层感知机的计算图可用下图表示:
二、反向传播
如果说前向传播是从输入层到输出层的过程,那顾名思义,反向传播就是从输出层反向向输入层传递计算值的过程,该方法根据微积分中的链式规则,按相反的顺序从输出层到输入层遍历网络。本质上,反向传播是一种求梯度的高效方法,可以理解为模型的 “学习” 过程。
前面在前向传播中提到,前向传播中产生的误差损失会在反向传播中使用。具体如下:
- 针对损失项和正则项分别计算损失函数
的梯度
- 根据链式法则,计算目标函数关于输出变量
的梯度,以及关于权重参数
的梯度
- 继续沿梯度图向输入层方向移动,获得关于
的梯度
由于激活函数ReLU在计算时按元素对应进行计算,因此计算中间变量时使用元素乘法
最终得到关于的梯度:
- 根据得到的梯度值对
进行更新,得到最新的权重矩阵
总结: 归根到底,正向传播与反向传播是一个学习参数,计算误差,然后求导对参数更新的过程。可以理解为一次作业的完成过程:写作业(前向传播)-> 老师审阅(计算误差)-> 打回修改(反向传播) -> 完成作业(训练完成)