Abstract

许多先前的工作解决了定制轻量级结构的挑战,这些结构通过减少网络的深度,宽度和层的容量来降低计算的复杂度。我们提出了一种可替代的方法,在减少计算代价上达到了显著的效果。第一,我们通过一个通用的轻量级结构来作为识别引擎,之后我们采用一个横向的连接的轻量上采样作为恢复预测分辨率的最经济有效的解决方案。最后,提出了用在多分率下融合共有特征来增加感受野。

Introduction

大多数轻量级的模型从零开始初始化训练,因此丢失了由一些大型数据集提供的知识迁移的机会,这样模型就有相当大的过拟合的风险。一般的模型有两个问题:

  1. 较低的分辨率(一般比输入图像小32倍)导致小目标较难识别
  2. 感受野过小对一些大目标难以识别到

有许多技巧可以改善这些问题,如扩张卷积,学习上采样,横向连接和分辨率金字塔等方法,但是并非所有的技巧都适用实时分割。

本文认为基于ImageNet-grade 分类的结构可以权衡模型的精度和速度,我们提出了一种基于共享参数的分辨率金字塔来增加深度模型感受野的新方法。我们的研究表明,通过一个带有横向连接的轻量级编码器,可以有效和准确地提高预测的分辨率。

The proposed segmentation method

Basic building blocks

提出了选用ResNet-18和MobileNet V2作为分割的encoders,其中ResNet支持GPU加速更胜一筹

Upsampling decoder

swift alamofire网络检测 swiftnet_编码器


梯子型的上采样模块有两个输入:低分辨率的特征和来自先前编码器的横向特征

Module for increasing the receptive field

两种可行的增加感受野的方法 1)空间金字塔池化;2)金字塔融合,SPP模块收集编码器在几个池化层产生的特征,并生成具有不同细节级别的表示。该模型SPP block是PSPNet中的简化版本。

Single Scale model

swift alamofire网络检测 swiftnet_swift alamofire网络检测_02

  • 黄色梯形代表卷积组,即编码器的部分,在相同的空间分辨率下工作,每个卷积组下采样一次,分辨率下降两倍,最后为H/32xW/32
  • 绿色的SPP(Spatial Pyramid pooling)来增加模型的感受野
  • 编码器特征维数随下采样路径增加,而蓝色上采样层维度不变,所以需要红色模块进行维度统一

Interleaved pyramid fusion model

swift alamofire网络检测 swiftnet_编码器_03


紧密的编码结构会减小感受野和降低模型容纳能力,提出了一种图像金字塔来解决问题,为了增强梯度在编码器中传播,增加了一个concatenation

Experiment

  • Adam optimizer
  • learning rate set swift alamofire网络检测 swiftnet_编码器_04
  • 448x448 crops CamVid

在Cityscapes上的结果

swift alamofire网络检测 swiftnet_池化_05

在CamVid上的对比结果

swift alamofire网络检测 swiftnet_编码器_06

Conclusion

通过 1)设计了比肩ImageNet上的紧凑编码器 2)轻量级的横向跳跃连接解码器;来实现精度和速度的权衡,另外,提出了一种新的交叉金字塔融合方案,它能够进一步提高对靠近摄像机的大物体的检测结果。