背景介绍
问题提出:学些更好的网络是否等同于堆叠更多的层呢?答案是否定的,
等同于堆叠更多的层呢?回答这个问题的一个障碍是梯度消失/爆炸。
当更深的网络能够开始收敛时,暴露了一个退化问题:随着网络
深度的增加,准确率达到饱和(这可能并不奇怪),然后迅速下降。 意外的是,这种下降不是由过拟合引起的,并且在适当的深度模型上添加更多的层会导致更高的训练误差。
层数过深的平原网络具有更高的训练误差
较高分辨率空间
一个较深的网络模型不应当具有较高的训练误差
通过构建形成的分辨率:
原始层:由一个已经学会的较浅模型复制得来
附加层:设置为“恒等”
至少具有相同的训练误差
优化难题:随着网络层数不断加深,求解器不能找到解决途径
Highway Networks
所谓Highway Networks,就是输入某一层网络的数据一部分经过非线性变换,另一部分直接从该网络跨过去不做任何转换,就想在高速公路上行驶一样,而多少的数据需要非线性变换,多少的数据可以直接跨过去,是由一个权值矩阵和输入数据共同决定的。下面是Highway Networks的构造公式:
残差网络
思想:“假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加
就是说在训练到很好的情况下无需再调整F(x),只需让x直接前递即可。