**用于显著目标检测的非局部深度特征

摘要:显著检测目的是突出图像中最相关的物体。当在杂乱背景的顶部描绘显著的物体时,当深度神经网络受到过多的复杂性和缓慢的评估速度的影响时,使用传统的模型的方法就会力不从心。在这篇论文中,我们提出了一种简化的卷积神经网络,它通过多分辨率4×5网格结构将局部信息和全局信息结合起来。与通常情况下使用CRF或超像素来强制实现空间一致性不同,我们实现了一个由Mumfordshah函数激励的损失函数,它惩罚边界上的误差。
我们在MSRA-B数据集中训练了我们的模型并在六个不同的显著性基准数据集上进行了测试。
介绍:显著性检测的目的是模仿人类视觉系统,该系统自然地将场景中的主要物体与图像的其余部分分离开来。几种应用都受益于显著检测,包括图像和视频压缩,背景感知图像重新定位,场景解析,图像大小调整,目标检测,分割。
一个显著物体常常被定义为拥有与图像剩余部分不同的视觉特征并且它的形状遵循一些先验规则的的区域。传统方法通常提取局部像素级或者区域级特征,并把它们和全局特征作比较。该比较的结果被称为显著分数,其被存储在显著图中。最近,深度学习进入了显著性检测领域,并将其迅速确立为事实上的基准。它们的最大的优势与传统的无监督方法相比,是它们可以通过使用简单的结合局部和深度特征的优化函数来端对端地训练。
本文方法:
作者提出的模型是4*5网格的卷积块和反卷积块组成。网格的每一列提取特定分辨率的特征,在每一列中局部对比处理模块强化了局部特征的对比,局部特征和全局特征通过一个score处理模块组合在一起,最终输出输入图片一半分辨率大小的显著图。
流程的大概描述:
该深度卷积网络架构是基于vgg-16的,我们知道vgg-16是有五个池化层的,而本文保留了vgg-16的前13层(即到第五个池化层),后面的三个全连接层去除。由上图可知,是分别从每一个池化层后,将池化后的特征图提取出来,分别作为该分辨率的特征图,这也就是设置五列(五种不同的分辨率特征图)的原因。这里有四行,第一行是vgg-16的前13层,第二行是分别处理五种不同的分辨率特征图的卷积层,目的是通过对来自池化层的特征图学习,得到不同分辨率(多个尺度的)特征图,第三行是为了捕获前景和背景这种差异的信息,增加了局部对比特征。第四行,是为了汇总每一列的局部特征,但由于每一列的局部特征分辨率不同,所以增加了反卷积模块,从分辨率小的局部特征(X5,X5c)从后往前传递,最后通过一个卷积层来得到最后的局部特征。在第一行的最后,通过vgg-16第五个池化层得到的特征图,通过三个卷积层来得到最后的全局特征,最后,局部特征和全局特征分别经过一个卷积层后,再相加得到最终包含局部和全局的特征。这整个网络结构就是一个特征提取器,提取了更为全面的局部和全局特征信息,然后,经过一个softmax函数得到预测的输出。

论文地址

特征提取模块EMBlock 特征提取模块指的是_特征提取模块EMBlock