y = F ( x , Wi )+ x


对于相同的输出特征图尺寸,层具有相同数量的滤波器;( ii )如果特征图尺寸减半,则滤波器数量加倍,以便保持每层的时间复杂度。我们通过步长为 2 的卷积层直接执行下采样。网络以全局平均池化层和具有 softmax 的 1000 维全连接层结束


快捷连接仍然执行恒等映射,额外填充零输入以增加维度。此选项不会引入额外的参数;( B )方程( 2 )中的投影快捷连接用于匹配维度(由 1×1 卷积完成)。对于这两个选项,当快捷连接跨越两种尺寸的特征图时,它们执行时步长为 2 。


在每个卷积之后和激活之前,我们采用批量归一化( BN )


恒等和投影快捷连接

我们已经表明没有参数,恒等快捷连接有助于训练 。三种选项 a 零填充快捷连接用来增加维度,所有的快捷连接是没有参数的(与表 2 和图 4 右相同); (B) 投影快捷连接用来增加维度,其它的快捷连接是恒等的;(C)所有的快捷连接都是投影。

查看resnet的网络参数量 resnet参数数量_机器学习


对于每个残差函数 F ,我们使用三层堆叠而不是两层。三层是 1×1 , 3×3 和 1×1 卷积,其中 1×1 层负责减小然后增加(恢复)维度,使 3×3 层成为具有较小输入 / 输出维度的瓶颈。图 5 展示了一个示例,两个设计具有相似的时间复杂度。


当维度增加(图 3 中的虚线快捷连接)时,我们考虑两个选项:( A )快捷连接仍然执行恒等映射,额外填充零输入以增加维度。此选项不会引入额外的参数;( B )方程( 2 )中的投影快捷连接用于匹配维度(由 1×1 卷积完成)。对于这两个选项,当快捷连接跨越两种尺寸的特征图时,它们执行时步长为 2 。


无参数恒等快捷连接对于瓶颈架构尤为重要。如果 恒等快捷连接被投影替换,则可以显示出时间复杂度和模型大小加倍,因为快捷连接是连接到两个高维端。因此,恒等快捷连接可以为瓶颈设计得到更有效的模型。


这些响应每个 3×3 层的输出,在 BN 之后和其他非线性( ReLU / 加法)之前。


这个 1202 层网络的测试结果比我们的 110 层网络的测试结果更差,虽然两者都具有类似的训练误差。我们认为这是因为过拟合。对于这种小型数据集, 1202 层网络可能是不必要的大


 

查看resnet的网络参数量 resnet参数数量_python_02