文章目录
- 一、显著性检测研究现状
- 二、基于谱残差法的显著性检测
- 三、基于全局对比度图像显著性检测(LC)
- 2.1 基于直方图对比度的显著性检测(HC)
- 2.2 基于区域的对比度方法(region-based contrast 简称RC)
- 2.3 显著性检测 FT
- 2.4 显著性检测 AC
github: https://github.com/wenguanwang/SODsurvey
一、显著性检测研究现状
- 建立计算模型进行显著性检测。
思想是:对输入图像首先进行多个特征通道和多尺度分解,再进行滤波得到特征图,再对特征图融合得到最终显著图。
2007年,Hou X等人提出SR方法[2],该方法利用谱残差模型进行显著性检测,该方法认为图像的信息都包含在图像的幅度谱信息中,因此从图像的幅度谱中减去先验知识的幅度谱,剩下的就是显著部分的幅度谱,进而得到显著区域。
一些经典算法,如Itti,SR,FT,GBVS的代码和显著性检测的数据集整理
相位谱法。 - 将显著性检测定义为二元分割问题来处理
2007年,T.Liu等人提出一种将显著性检测作为图像分割问题来处理的思路[3],自此出现了大量的显著性检测模型,掀起了显著性检测的第二波热潮。
2009年,Achanta R等人提出FT模型来进行显著性检测[4],此模型可以输出具有明确定义的边界的全分辨率显著图,通过保留来自原始图像的更多频率内容来保留这些边界。此方法利用颜色和亮度特征的中央周边算子来得到显著图,实施简单,计算效率高
2011年,Cheng M M等人提出了一种基于区域对比度的显著对象提取算法[5]。该算法同时评估全局对比度差异和空间加权相干性得分来确定显著性区域,此算法是简单,高效,多尺度的,并且可以生成全分辨率,高质量的显著图。这些显著图被进一步用于初始化GrabCut的新颖迭代版本,以进行高质量的显著对象分割。
2012年,Perazzi F等人重新考虑了之前方法的一些设计选择,并提出了基于对比度的显著性检测的概念清晰且直观的算法[6]。此算法由四个基本步骤组成:(1)将给定的图像分解为紧凑且感知均匀的元素,以抽象不必要的细节;(2)基于这种抽象,计算两个对比度度量,评估这些元素的独特性和空间分布;(3)从元素对比度中推导出显著性度的度量,该度量生成一个像素精确的显著图,它统一覆盖感兴趣的对象并始终分离前景和背景;(4)文章表明,完整的对比度和显著性估计可以使用高维高斯滤波器统一制定,这有助于此方法的概念简单性,并使其具有线性复杂性的高效实施。 - 基于深度学习进行显著性检测
2015年,开始引入CNN进行显著性检测,与基于对比线索的大多数经典方法不同,基于CNN的方法消除了对手工特征的需求减轻了对中心偏见知识的依赖,因此被许多科研人员所采用。基于CNN的模型通常包含数十万个可调参数和具有可变接受字段大小的神经元。神经元具有较大的接受范围提供全局信息,可以帮助更好地识别图像中最显著的区域。CNN所能实现前所未有的性能使其逐渐成为显著性物体检测的主流方向。
2015年,He S等人提出了一种新的超像素卷积神经网络方法,称为SuperCNN,可以有效地学习显著性的内部表示[7]。与传统的卷积网络相比,SuperCNN有四个主要特性:首先,能够学习分层对比度特征;第二,恢复了超级像素之间的上下文信息;第三,受益于超像素机制,对密集标记的图像所需的预测数量大大减少;第四,通过利用多尺度网络结构检测显著性区域可以不受区域大小的约束。
2017年,Hou Q等人提出了一种新的显著性检测方法,在HED(Holistically-Nested EdgeDetection)的基础上,增加了一种高层信息指导低层信息的Skip Layer结构,从而构建了一种简单,有效,快速的端对端的显著性物体检测网络结构[8]。此方法注意到了边缘检测、语义分割和显著性检测几个领域的一些共性和最新的趋势:
- 从局部分析逐渐过渡到的全局分析,
- HED中的Skip layer结构对高质量的输出很有帮助,
- 显式的让高层语义信息去指导和帮助低层语义信息更好的定位显著性物体位置的同时精确的确定其范围很有帮助。
总而言之:
显著性就是可以快速引起你注意的对象或者物体,在图像或者视频中显著性检测的结果往往是图像或者视频中对象,在神经学科中显著性检测被描述为注意力机制,目的是聚焦或者缩小看到的对象场景重要部分,显著性检测可以自动处理图像中对象表示。
生物皮层对图像对比度比较敏感,通过图像对比度可以实现图像显著性特征提取。
二、基于谱残差法的显著性检测
从信息理论角度:信息可分为冗余部分和变化部分。人们的视觉对变化部分更敏感。视觉系统的一个基本原则就是抑制对频繁出现的特征的响应,同时对非常规的特征保持敏感。那么就将图像分为如下两部分:
作者对图像的 频谱发下了如下规律(log是自然对数):
大量图像的
如图可知大量图像的log频谱和频率的曲线形状,在log-log scale上,几乎是一条直线。文中的log频谱就是对图像傅里叶变换后的振幅谱取自然对数。然后作者又提出了既然大量图像的log振幅谱都差不多趋近一条直线,那么一幅图像的log振幅谱减去平均log振幅谱不就是显著性部分了吗?这就是作者提出的:Spectral Residual理论。(右上图)
作者定义Spectral Residual:
给定图像 首先计算其2维离散傅里叶变换,将其从空间域转换到频域,对幅值取对数后得到 log谱: 由于 曲线满足局部线性条件,所以用局部平均滤波器 对其进行平滑,获得谱的大致形状。 就是图像f的Spectral Residual。计算过程如下表示:
代表2维离散傅里叶变换,|·|代表其幅值, 代表其相位
为输入图像,对其傅里叶变换,并且求出振幅谱为 。
是其相位谱(复数 x+i*y 的相位是arctan(y/x))。
是log振幅谱。h是一个n*n均值滤波的卷积核,作者设n=3。
就是Spectral Residual谱。再将 R(f)+i*P(f)求出自然指数exp。
注意:由欧拉公式可知:
是相位谱。其实 的正余弦也可由傅里叶谱的实部和虚部求出:; 。然后对其,傅里叶反变换,在进行一个高斯模糊滤波就得到了所谓的显著性区域。效果如下:
演示代码:查看matlab以及C++代码请点击
以下代码有点问题。
三、基于全局对比度图像显著性检测(LC)
计算某个像素在整个图像上的全局对比度,即该像素与图像中其他所有像素在颜色上的距离之和作为该像素的显著值。
图像 中某个像素 的显著值计算如下:
其中的取值范围为 , 即为灰度值。
给定一张图像,每个像素的颜色值已知。假定,则上式可进一步重构:
其中,表示图像中第个像素的频数,以直方图的形式表示。
代码演示,【参考原代码请点击】 ,我使用了numpy重写了原函数,优化了代码运行时间,图片分辨率越大越省时间
上述代码中 diag_sym_matrix()
函数演示详情请点击。
2.1 基于直方图对比度的显著性检测(HC)
HC的显著性图生成主要是基于输入图像的颜色值直方图分布,生成像素级别的显著性值,每个像素点的显著性值是它跟剩下全部图像像素点的对比度(色差)来定义的:
其中是空间 L*a*b 中两个像素的颜色距离度量,上式经过扩展像素等级变如下方程:
其中 为图像 中的像素数量。
从上式中看出拥有相同像素的值,得到显著性值会相同,把相同的像素值都归为同一类别,对每种颜色得到显著性值:
其中 是像素的颜色值, 是不同像素颜色的数量,是图像I中像素值出现的频率。这样把上面的像素计算转换为基于直方图的颜色值查找计算。
- 基于直方图的加速
把对每个像素点的全图查找 变换为 ,正常情况直方图的BIN(N)为256,通过对颜色进行量化,每个颜色通道量化为12个不同值。考虑到自然图像中的颜色仅仅包含了全颜色空间中很小的一部分,通过忽略出现频率较低的颜色来进一步减少颜色数量。通过选择高频颜色并且保证这些颜色覆盖图像像素不低于95%的颜色,最终达到了n=85个颜色。剩下的像素颜色,包含不高于5%的图像像素,这部分颜色被直方图中最邻近的颜色替代。
对 Lab 色彩空间只在L上计算,但是这种做法有很大的弊端,就是颜色的区分度下降,色彩空间多维度信息没有有效利用,所以一般会对Lab色彩空间的三个维度同时量化生成 颜色值,然后再根据频次优化出现的颜色值范围。确保这些颜色值可以覆盖95%以上的像素点。 - 颜色空间平滑
以通过建立直方图使用色彩空间量化的方法加速全局对比度的计算,但是量化色彩空间本身就是人为的,有可能把相似的颜色量化成不同的值,为了减少这种现象导致显著性噪声出现,所以对得到显著性值最后完成一个模糊操作,采取一套平滑程序来改善每个颜色的显著值。用相似颜色的显著值加权平均来代替每个颜色(以 L*a*b* 距离测量)的显著值。选择m=n/4。个最近的颜色作为代表来改善颜色c的显著值:
其中,是颜色c和它的m个最近的颜色之间的距离之和,归一化因数来自公式:
在最后的实现中,在RGB颜色空间中进行颜色量化,每个色彩空间均匀量化为12等分,共色彩种类。再在Lab颜色空间中进行距离度量。
1、量化颜色通道。找出图像中一共有多少种颜色以及对应的像素总数。
2、按照像素总数从大到小排序,并同时记录相应颜色。
3、找出像素数目覆盖图像不小于95%的高频颜色,以及其他的不高于5%的颜色种类,假设高频颜色共有maxnum种。
4、把低频颜色的像素归类到与它lab颜色距离相距最近的高频颜色中。
5、在maxnum种颜色中,计算颜色i到所有其他颜色j的颜色距离。并按照距离从小到大排序,记录相应j的颜色种类。
6、按照方程(3)计算每一种颜色的显著值。根据第5步,可以找到距离颜色i相距最近的m种颜色,从而可以根据方程(4)计算每种颜色显著值,即最终的显著值。
7、为图像中每一个像素分配显著值。像素(i,j)是什么颜色,就赋予它相应颜色的显著值。
8、至此,显著图生成。进行归一化、线性空间滤波。
关于色彩量化:理论请点击,github代码请点击 中位颜色切割:github代码请点击 通过随机选择调色板或使用K均值来执行颜色量化:github代码请点击
演示代码:各位老铁这个代码复现断断续续花了我2周,工作忙。我这里放出HC核心代码,特别鸣谢https://mmcheng.net/salobj/。
以下代码使用的颜色量化代码Quantize()
请点击。 测试了一张1920*1080分辨率1.1M的图片,颜色量化耗时1.20s,总耗时:1.35s。待优化。
2.2 基于区域的对比度方法(region-based contrast 简称RC)
上面讲了HC直方图的对比度方法,然而 区域与空间关系在显著性检测中也扮演重要作用,高对比邻近周围通常是显著性区域一个很强的证据,HC是计算像素级别的显著性值,计算开销比较大,基于区域对比度分析的显著性检测通过定义每个区域与其他区域的相似度权重得到区域显著性值,完成显著性检测。RC做法需要首先生成区域,通过基于图的图像分割得到很多图像区域,对一个区域计算显著性值:
其中 表示区域 的权重,表示两个区域之间的颜色距离,其中颜色距离定义如下:
使用稀疏直方图可以加速上述计算。
考虑到不同距离远近对当前区域的影响,基于高斯核函数权重生成,进行适当的权重区域合并得到改进的显著性值计算:
其中: 控制空间权重影响,表示两个区域中心之间的欧氏距离。作者论文采用,像素坐标归一化到0~1之间。
演示代码【请点击】
2.3 显著性检测 FT
图像在频率域可以分成低频部分和高频部分。低频部分反映了图像的整体信息,如物体的轮廓,基本的组成区域。高频部分反映了图像的细节信息,如物体的纹理。显著性区域检测用到的更多的是低频部分的信息。在实际进行计算时,FT方法使用窗口5*5的高斯平滑来实现对最高频的舍去。
论文请点击 像素的显著性可以用下面公式计算:
其中,为图像的平均特征,使用 Lab 颜色特征,后一项为像素p在高斯平滑后的Lab颜色特征,||.||为L2范式,即计算前一项和后一项在了Lab颜色空间的欧氏距离。
1、对图像进行 5*5 的高斯平滑。
2、转换颜色空间。RGB颜色空间转换为CIELAB颜色空间。
3、计算整幅图片的 l、a、b的平均值。
4、按照算法中的公式,计算每个像素l、a、b值同图像三个l、a、b均值的欧氏距离。得到显著图
5、归一化。图像中每个像素的显著值除以最大的那个显著值。得到最终的显著图。
2.4 显著性检测 AC
论文地址:http://www.cs.toronto.edu/~strider/publications/AES_ICVS08.pdf
AC算法也是Achanta等提出的,与FT算法类似,只是在求欧式距离时使用的均值不再是整幅图像的均值,而是通过计算一个感知单元在不同邻域上的局部对比度来实现多尺度显著性计算。内部区域R1,外部区域R2,计算R1和R2的局部对比度时,通过改变R2的大小实现多尺度显著性计算。即:选取不同大小邻域内的均值(三种大小)分别求取欧式距离,再相加得到。
该方法是基于局部对比度的。采用Lab颜色空间计算距离。
感知单元R1可以是一个像素或一个像素块,其邻域为R2,(R1)R2所包含的所有像素的特征值的平均值作为(R1)R2的特征值。设像素p为R1和R2的中心,p所在位置局部对比度为:
1.读取图像,进行高斯滤波,并转换到lab空间
2.分别求取该点附近h/8邻域lab空间的均值L1、A1、B1。以及h/4邻域lab空间的均值L2、A2、B2和h/2邻域lab空间的均值L3、A3、B3。
3.数据融合:
;
;
;
4.显著图:
代码有点问题,待修改
至此:欢迎点击我的github项目。
参考与鸣谢
https://mmcheng.net/salobj/
AC算法: http://blog.sina.com.cn/s/blog_c303278b0101aism.html
图像显著性检测论文及代码汇总
https://github.com/mhaut/pResNet-HSI
全局对比对:https://mmcheng.net/salobj/
参考文献
[1] Itti L, Koch C, Niebur E. A model ofsaliency-based visual attention for rapid scene analysis[M]. IEEE ComputerSociety, 1998.
[2] Hou X, Zhang L. Saliency Detection: ASpectral Residual Approach[C]// Computer Vision and Pattern Recognition, 2007.CVPR '07. IEEE Conference on. IEEE, 2007:1-8.
[3] Liu T,Zheng N, Wei, et al. Video attention: Learning to detect a salient objectsequence[C]// International Conference on Pattern Recognition. IEEE, 2009:1-4.
[4] AchantaR, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[J].2009, 22(9-10):1597-1604.
[5] Cheng MM, Zhang G X, Mitra N J, et al. Global Contrast Based Salient RegionDetection[C]. Computer Vision and Pattern Recognition. IEEE, 2011:409-416.
[6] PerazziF, Krähenbühl P, Pritch Y, et al. Saliency filters: Contrast based filteringfor salient region detection[C]// Computer Vision and Pattern Recognition.IEEE, 2012:733-740.
[7] He S,Lau R W, Liu W, et al. SuperCNN: A Superpixelwise Convolutional Neural Networkfor Salient Object Detection[J]. International Journal of Computer Vision,2015, 115(3):330-344.
[8] Hou Q,Cheng M M, Hu X, et al. Deeply Supervised Salient Object Detection with ShortConnections[J]. IEEE Transactions on Pattern Analysis & MachineIntelligence, 2016, PP(99):1-1.
基于谱残差的显著性检测:Saliency Detection: A Spectral Residual Approach