一、个人理解
在正文开始之前,先说说笔者对语义分割的理解,语义分割,其实就是为图片中的每个像素打上相应的标签,即将其所代表的语义具现化,呈现出的视觉效果就是图片中不同的目标有不同的颜色,如下所示:
目前语义分割主要针对的问题是以下几点:
1)如何恢复原有的分辨率
2)如何尽可能的增大感受野
3)如何处理多尺度问题
下面,笔者会以时间为顺序,给出在语义分割领域比较经典的论文。
二、相关论文
1、FCN
这一篇论文应该说是语义分割开始兴起的开山之作,主要贡献如下:
1)针对普通分类网络用于分割效果较差的问题,文章第一次提出抛弃全连接层,使用全卷积神经网络的架构,突破了以往的网络输入图片尺寸必须固定大小的限制,为以后的分割网络所沿用。
2)使用了反卷积操作进行恢复分辨率。
3)为了得到更加精细的分割结果,使用了跳跃连接,通过中层的语义信息来改善分割结果。
在FCN出现之前,大多数的分割网络针对像素进行分类都是找到包含这个像素的一块区域,将这块区域的类别作为像素点的类别,显然这样操作耗费内存,而且区域可能会重叠,效率低下。FCN是第一次尝试从抽象的语义特征直接对像素进行分类。
这篇论文具体解决的问题是如何恢复原有的分辨率,从网络来看,进行了多次的反卷积操作,每一次反卷积之后,找到相对应的池化后的中层信息进行加和,再进行反卷积操作。
2、SegNet
本文较好的阐述了语义分割这种编码-译码的结构,即将不断提取特征看做一个编码过程,而恢复分辨率则看做一个译码的过程。这种结构可以较好的平衡内存与分类精度。本文的贡献如下:
1)利用储存的pooling indices作为译码信息,不仅可以较好的恢复分辨率,而且可以大大减少内存的损耗
3、U-Net
本文也是一种编码-译码结构,是一种为医学图像分割而提出的一种轻量化的网络,其网络结构如下所示:
主要贡献如下:
1)轻量化网络,要求的数据量少且速度也够快(这是由其本身针对的任务所决定的,如果进行迁移学习,很难保证达到应有的效果)
2)译码方式不同,与浅层特征融合采用的是叠加的方式
这种网络较为特殊的一点是要谨慎的选择输入图片的尺寸,要保证在进行池化时其尺寸要为偶数;这种网络较为特殊的一点是需要对特征图进行一定的裁剪,以保证译码过程进行特征融合时尺寸一致。
4、Multi-Scale Context Aggregation by Dilated Convolutions
本文主要贡献如下:
1)利用空洞卷积扩大网络的感受野,又没有降低图像的分辨率
2)提出context module,来聚合多尺度信息,即多个级联的33C的卷积核,但空洞率不同。
5、RefineNet
本文贡献如下:
1)精心设计了译码模块,利用了高层的语义信息
2)使用了残差连接,有效的进行端到端的训练
网络结构如下所示:
6、PSPNet
主要贡献如下:
1)使用金字塔池化来聚合不同尺度的信息
文章认为,有些的分割错误就是因为卷积的感受野远远小于理论值,没有利用全局信息,因此提出了金字塔池化来聚合不同尺度的信息,实现更好的分类效果。即利用池化操作获得不同尺寸的特征图,再经过卷积、上采样等操作,最终聚合相关信息,其网络结构如下:
7、Large kernel matters - Improve semantic segmentation by global convolutional network
主要贡献如下:
1)使用了大卷积核的编码-译码结构
文章认为,大的卷积核是分割这种密集预测任务所必须的,所以在不使得网络变得较为复杂的前提下,精心设计了卷积的模块,如下图所示:
8、Deeplab(v1 & v2 &v3 & v3+)
主要贡献如下:
1)使用了空洞卷积扩大感受野
2)使用空洞金字塔池化处理多尺度问题
3)使用了CRF来改善分割结果,后来又使用了编码译码结构
具体介绍见deelab系列 本文参考深度学习-语义分割总结对qure.ai的翻译,感谢大佬们!