在残差结构提出之前,根据实验表明,随着网络层不断的加深,模型的准确率起初会不断的提高,达到最大饱和值,然后随着网络深度的继续增加,模型准确率不但不会继续增加,反而会出现大幅度降低现象,即 模型训练过程和测试过程的 error 比浅层模型更高



resnet图片尺寸 resnet18参数_深度学习


原论文将输入X(即input)经过一系列处理之后得到残差F(X),若是在shortcut分支上不经过downsample处理(即不经过conv1x1卷积+BN处理),则在最终得到的残差映射函数为F(X) + X,此种结构一般用在conv_x组块中的非第一层之后的层,即用在不需要改变前后输入输出维度的层。

resnet图片尺寸 resnet18参数_resnet图片尺寸_02

残差结构2提到的类似这种需要在shortcut分支上进行downsample处理的结构,一般用在每个conv_x组块的第一层中,即上一层的输出out_channel不符合此层所需要的in_channel,此时需要用conv1x1卷积进行升维操作,此时得到的残差映射函数为F(X) + G(X),G(X)为shortcut分支上对输入X进行处理后得到的恒等映射。

resnet图片尺寸 resnet18参数_机器学习_03

Residual结构分为两种,BasicBlock和BottleNeck。 BasicBlock应用与ResNet-18、ResNet-34模型,BottleNeck应用与ResNet-50、ResNet-101、ResNet-152模型。

resnet图片尺寸 resnet18参数_深度学习_04

两种结构中,应用downsample的shortcut分支,即在上文提到的在每个conv_x组块中的第一层,此时上一层的输入out_channel 不等于此层所需要的in_channel,因此通过downsample进行维度调整。虚线shortcut分支,即在conv_x组块中经过第一层的downsample调整后in_channel = out_channel,此组块conv_x中的后续层不再需要调整channel_size,因此可以直接恒等映射X(即input)。

resnet图片尺寸 resnet18参数_深度学习_05

resnet图片尺寸 resnet18参数_人工智能_06

 

resnet图片尺寸 resnet18参数_深度学习_07

输入层:接收大小为224x224的RGB图像。

卷积层:共4个卷积层,每个卷积层使用3x3的卷积核和ReLU激活函数,提取图像的局部特征。

残差块:共8个残差块,每个残差块由两个卷积层和一条跳跃连接构成,用于解决深度卷积神经网络中梯度消失和梯度爆炸问题。

全局平均池化层:对特征图进行全局平均池化,将特征图转化为一维向量。

全连接层:包含一个大小为1000的全连接层,用于分类输出。

输出层:使用softmax激活函数,生成1000个类别的概率分布。

resnet图片尺寸 resnet18参数_机器学习_08

resnet图片尺寸 resnet18参数_机器学习_09

原论文ResNet-layer模型

resnet图片尺寸 resnet18参数_机器学习_10


 •ResNet-layer中所有模型的大致结构都基本相似,不同layer的模型区别在于选择使用BasicBlock还是BottleNeck,其次就是在每个Conv_x组块中使用Residual的个数。上图中ResNet-18和ResNet-50的模型中通道数的变化、图像尺寸的变化、是否使用downsample均已标出,可与原论文中给出的具体ResNet_layer模型进行相互对照学习。其它layer模型与这两个模型基本一致。