resnet50_fpn代码 resnet50原理

转载

数据探索者11 2024-04-20 19:15:06

文章标签 resnet50_fpn代码深度学习计算机视觉卷积神经网络迭代 文章分类 架构后端开发

1.在ResNet出现之前

在2015年ResNet出现之前，CNN的结构大多如下图所示，通俗点说，用“卷积-maxpooling-ReLU”的方式，一卷到底，最后使用全连接层完成分类任务。

resnet50_fpn代码 resnet50原理_迭代

大家普遍认为，卷积神经网络的深度对于网络的性能起着至关重要的作用，所以普遍将网络深度从AlexNet的几层增加到十几层甚至更多，比如VGG16、VGG19，也正如人们所想，增加深度确实增加了模型的性能。

但深度继续增加时，网络的性能逐渐趋于饱和，甚至性能会出现随网络深度急剧下降的现象，一个有力的实验证明如下图所示：

resnet50_fpn代码 resnet50原理_卷积神经网络_02

上图为在CIFAR-10数据集上训练20层网络和56层网络的对比图，图中横轴为迭代次数，单位为 $resnet50_fpn代码 resnet50原理_计算机视觉_03$ ，左图纵轴为训练误差（train error），右图纵轴为测试误差（test error）。

左图表示随着迭代的进行，在训练集上完成分类任务的错误率变化；右图表示随着迭代的进行，在测试集上完成分类任务的错误率变化。

从上面2个图可以看出，无论是在训练集还是测试集，更深的网络（56层）错误率总是要高于浅层的网络（20层），即更深的网络性能更差。

ResNet的巧妙之处就是在卷积神经网络中加入“shortcut connection”，使得深层网络拥有比浅层网络更好的性能。

下面我们从残差学习开始讲起，逐渐引入“shortcut connection”的概念。

2.残差学习（Residual Learning）

考虑CNN中的一个小的网络块，网络块的输入为 $resnet50_fpn代码 resnet50原理_深度学习_04$ ，输出为 $resnet50_fpn代码 resnet50原理_计算机视觉_05$ ，即这个网络块完成了非线性映射 $resnet50_fpn代码 resnet50原理_深度学习_06$ 。

作者设计了一个新的网络块，这个网络块的作用不是将输入特征 $resnet50_fpn代码 resnet50原理_深度学习_04$ 映射为 $resnet50_fpn代码 resnet50原理_计算机视觉_05$ ，而是将其映射为 $resnet50_fpn代码 resnet50原理_迭代_09$ ，将 $resnet50_fpn代码 resnet50原理_迭代_09$ 记作 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ ，即该网络块计算原映射 $resnet50_fpn代码 resnet50原理_计算机视觉_05$ 与输入特征 $resnet50_fpn代码 resnet50原理_深度学习_04$ 的差值 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ ，也可以称作“使得该网络块学习原网络块 $resnet50_fpn代码 resnet50原理_计算机视觉_05$ 与输入特征 $resnet50_fpn代码 resnet50原理_深度学习_04$ 的残差”。如下图所示：

resnet50_fpn代码 resnet50原理_resnet50_fpn代码_17

上图中由2个“weight layer”叠加而成的网络块用来完成从输入特征 $resnet50_fpn代码 resnet50原理_深度学习_04$ 到残差 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ 的映射，将 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ 与上图中右侧的shortcut connection 进行元素级别的加法操作，最终该网络块的输出为 $resnet50_fpn代码 resnet50原理_迭代_21$ ，即上图中整个模块的输出仍为 $resnet50_fpn代码 resnet50原理_计算机视觉_05$ 。

简而言之，不再让“weight layer”输出最终的feature map，而是让“weight layer”输出最终feature map和输入特征的差值 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ ，将 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ 与输入特征 $resnet50_fpn代码 resnet50原理_深度学习_04$ 进行元素级别加法操作得到最终的feature map。

上图中的结构可以表示为如下公式：

$resnet50_fpn代码 resnet50原理_深度学习_26$

上式中的 $resnet50_fpn代码 resnet50原理_深度学习_27$ ， $resnet50_fpn代码 resnet50原理_卷积神经网络_28$ 表示ReLU操作。在完成 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ 和 $resnet50_fpn代码 resnet50原理_深度学习_04$ 的元素加法后，上图中还进行了ReLU操作，即上图中结构的最终输出为 $resnet50_fpn代码 resnet50原理_卷积神经网络_31$ 。

从上述操作可看出，shortcut connection的引入只在原来的基础上增加了元素加法操作，并没有引入大量的额外计算和可学习参数。

考虑一种情况：若在计算残差 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ 时，除了使用卷积层还用了pooling操作，会使得 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ 的尺寸与输入特征 $resnet50_fpn代码 resnet50原理_深度学习_04$ 的尺寸不一致，从而无法进行元素加法操作。为了解决这个问题，当 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ 的尺寸与输入特征 $resnet50_fpn代码 resnet50原理_深度学习_04$ 的尺寸不一致时，使用如下公式代替上文中的公式：

$resnet50_fpn代码 resnet50原理_resnet50_fpn代码_37$

即对输入特征 $resnet50_fpn代码 resnet50原理_深度学习_04$ 使用操作 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_39$ ，使得 $resnet50_fpn代码 resnet50原理_计算机视觉_40$ 的特征尺寸与 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ 一致。在实际使用时， $resnet50_fpn代码 resnet50原理_计算机视觉_40$ 表示在输入特征 $resnet50_fpn代码 resnet50原理_深度学习_04$ 上做步长为2的 $resnet50_fpn代码 resnet50原理_计算机视觉_44$ 卷积，使得其输出特征在尺寸和通道数上与 $resnet50_fpn代码 resnet50原理_resnet50_fpn代码_11$ 一致。

需要注意的是，上图中shortcut connection跨接了2个weight layer，实际在使用时，shortcut connection可以灵活跨接多个卷积层。

3.ResNet网络结构

基于上文中提到的结构，作者构建出5个不同结构的卷积神经网络用于ImageNet数据集分类，并根据它们的深度将它们分别命名为ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152，这些网络的结构如下表所示：

resnet50_fpn代码 resnet50原理_卷积神经网络_46

在上表所示的5个网络中，conv3_1、conv4_1、conv5_1这3个层使用步长为2的卷积层实现下采样功能。

上面5个网络在结构上可以分为2类：一类为ResNet-18和ResNet-34，它们的基本组件为下图中左边的结构；另一类为ResNet-50、ResNet-101和ResNet152，它们的基本组件为下图中右边的结构：

resnet50_fpn代码 resnet50原理_计算机视觉_47

上图中右侧的结构先使用 $resnet50_fpn代码 resnet50原理_计算机视觉_44$ 卷积降低特征通道数，使用 $resnet50_fpn代码 resnet50原理_深度学习_49$ 卷积完成特征提取，然后再使用 $resnet50_fpn代码 resnet50原理_计算机视觉_44$ 卷积增加特征通道数，在深层的网络使用这种结构可以减少计算量。