使用图像级监督学习空间正则化以进行多标签图像分类
摘要
多标记图像分类是计算机视觉中一项基本而又具有挑战性的任务,近年来,标签间语义关系的研究取得了很大进展。但是,传统的方法无法对多标签图像中标签之间的底层空间关系进行建模,因为通常没有标签的空间标注.在本文中,我们提出了一个统一的深度神经网络,该网络仅利用图像级别的监督即可利用标签之间的语义和空间关系。对于多标签图像,我们提出的空间正则化网络(SRN)生成所有标签的注意图,并通过可学习的卷积捕获它们之间的基本关系,利用ResNet-101网络将正则化的分类结果与原始分类结果进行聚合,可以不断提高分类性能,整个深度神经网络只在图像级标注的情况下进行端到端的训练,无需在图像标注上做额外的工作。对3个使用不同类型标签的公共数据集的广泛评估表明,我们的方法显著优于最新技术,具有很强的泛化能力.对学习的SRN模型的分析表明,该模型能够有效地捕捉标签的语义关系和空间关系,提高分类性能。
1、介绍
多标签图像分类是计算机视觉中的一项重要任务,应用范围广泛,如场景识别、多目标识别、人属性识别等。与已经被广泛研究的单标签图像分类相比,多标签问题更具有实用性和挑战性,因为现实世界的图像通常与多个标签相关,如物体或属性。
二值相关性方法是一种简单的扩展单标签算法来解决多标签分类问题的方法,它对每个标签只训练一个二值分类器,针对标签可能涉及整个图像不同视觉区域的问题,提出了将多标签分类问题转化为多个单标签分类任务的方法。然而,这些对现有单标签算法的修改忽略了标签的语义关系
近年来多标签图像分类的研究主要集中在获取标签之间的语义关系上,这种关系或依赖关系可以通过概率图形模型、结构推理神经网络(Learning structured inference neural networks with label relations)或递归神经网络来建模,虽然语义关系的开发取得了很大的进步,但是现有的方法不能捕捉标签的空间关系,因为它们的空间位置没有被标注出来进行训练.在本文中,我们提出在统一框架下通过空间正则化网络捕获标签的语义关系和空间关系(图1),只需要图像级的监督就可以对标签进行端到端的训练,不需要额外的标注。
图1阐释使用提出的空间正则化网(SRN)改善多标签图像分类。在图像级的监督下,SRN从标签注意图中学习语义和空间标签关系,首先是输入一张图片,经过CNN网络可以得到初始的标签置信度得分,此时可以看到红色的标签阳光和岩石预测的值并不是太高,于是将图片输入到一个空间正则化网络,网络当中可以获得对于每一个标签的标签注意图,且标签存在则有高亮,标签不存在则无高亮。从图中我们可以看到对于每个标签,亮的地方就表明网络关注到与标签匹配的区域,然后将获得的图学习空间正则化,将其与原始的标签预测进行乘积,最终获得的结果可以明显的看到预测值提高了不少。
深度卷积神经网络(CNNs)近年来在单标签图像分类方面取得了巨大的成功。由于在大数据集上预先训练的深度CNN模型具有较强的辨别特征的学习能力,因此CNN模型可以很容易地迁移到其他任务中去解决,从而提高其性能,然而,对于具有多个标签的图像,特征表示可能不是最优的,因为一个真实(ground true)标签可能只在语义上与图像的一个小区域相关,多标签图像内容的多样性和复杂性使得学习有效的特征表示和分类器变得困难.
受最近注意力机制在许多视觉任务中获得成功的启发,我们提出了一种用于多标签分类的深度神经网络,它由子网络空间正则化网(SRN)组成,用于仅在图像级监督下学习标签之间的空间正则化.SRN为每个标签学习一个注意图,它将相关图像区域与每个标签关联起来。通过对所有标签的注意图进行可学习的卷积,SRN捕获标签之间的底层语义和空间关系,并为多标签分类提供空间规范化.
本文的贡献如下:
提出了一种用于多标签图像分类的端到端深度神经网络,该网络利用标签的语义关系和空间关系,在标签的注意图上训练可学习的卷积。这种关系只能通过图像级的监督来学习。对所学模型的研究和可视化表明,我们的模型能够有效地捕捉标签的语义和空间关系
2、相关工作
多标签分类在很多领域都有应用,如文档主题分类、音乐标注与检索、场景识别、基因功能分析。在本研究中,我们主要研究基于深度学习技术的多标签图像分类方法。
将现有的单标签方法用于多标签的一个简单方法是为每个标签学习一个独立的分类器,近年来,深入学习特征对单标签图像分类的成功提高了多标签分类的准确率,基于这种深层特征,Gong等对各种损失函数进行了评估,发现加权近似排序损失最适合CNNs。
还提出了学习捕获标签关系的方法。Read等通过训练一个二值分类器链扩展了二值相关性方法,其中每个分类器都根据图像特征和之前预测的标签进行预测,一种更常见的标签关系建模方法是使用概率图形模型,也有确定标签关系图结构的方法,近年来,深度神经网络也被用于学习标签关系,虽然通过学习标签的语义关系,分类准确率得到了很大的提高,但并没有探究标签之间潜在的空间关系。
注意机制在许多视觉任务中被证明是有益的,如视觉跟踪,目标识别,图像标题,图像问题回答,分割,在使用空间相关标签训练深度网络时,空间注意机制自适应地聚焦于图像的相关区域,本文利用注意机制改进多标签图像分类,捕捉标签的底层空间关系,为最终分类结果提供空间正则化。
3.方法
本文提出了一种用于多标记分类的深度神经网络,利用图像级的监督来学习多标记的空间正则化。我们的方法的总体框架如图2所示,主网络具有与ResNet-101相同的网络结构,所提出的空间正则化网络(SRN)以来自主网络的视觉特征作为输入,并学习如何规范标签之间的空间关系。这种关系是基于用于多标签的学习注意力图来获取的。来自主网和SRN的标签信任被聚合以生成最终的分类信任。整个网络是一个统一的框架,以端到端方式进行培训。
图2表示方法的总体框架。(上):主网络遵循ResNet-101的结构,对每个标签学习一个独立的分类器。Res-2048表示一个具有2048个输出通道的ResNet构建块。(下)提出的SRN通过注意机制捕获标签的空间和语义关系。虚线表示注意力图的弱监督预训练。
总结一下,首先输入了一张大小为的图片,然后经过
层,也就是
中的残差前三层,输出了一个大小为
的
,然后同时输入到两个网络当中:
1)扔到原始残差网络的第四层从而获取出大小为的
,通过平均池化与全连接(fc)层(上述整个过程称为
层)从而获取最终的标签预测值
,大小为
2)仅仅通过网络进行预测是不够的,不能够让网络更加关注某一个标签对应的图像具体位置,因此采用机制,先将
通过一个
层(其中包含对每一个通道上
维的矩阵进行
归一化)获得一个大小为
的注意力图
,
中的每一个通道分别对应了一个标签,且每一个通道上对应标签的位置的预测分数会很高,从而能够在输入图片的时候更好的去关注相对应的区域,这里输入的图片称为视觉向量,也就是图片原始的
,通过一个
层来获得了一个置信图
,然后将注意力图
和置信图
进行点乘,这样若图像某个区域出现了某个标签,那么
图中对应此标签的通道就会关注到此区域,点乘后的值就大就会高亮,然后将点乘完的矩阵进行每一个通道的加和,从而获得每一个标签的预测值
。
3)上述方法会存在问题,由于每个通道上的值的总和为1,那么标签
对应的具体位置预测分数始终会很高,假设某一张图上并没有此标签,但是网络仍然会查找到对应的区域并且产生高亮(原因是置信图
上并未有此标签,但是本身值比较高,所以点乘后还是会产生高的值),这样的话其实预测的就不准确,因此提出将置信图
用
归一化到[0,1],称为
,当进行预测标签分数时,即使
图对应此区域的分数高,但是
图中并未有此标签,因此值很小,点乘后值就很小从而不会产生高亮,只有当
图上的值大且
图中的值也大时才能够产生高亮。也就是说
图的目的是能够从一个
的视觉特征中获取出标签能够存在的位置并且赋予高值,而
图目的是降低原始视觉特征值过大对点乘的影响,通过此方式通过一个
层来获得最终的标签预测值
4)最终将与
进行相加获得最终的预测值,这样网络不仅能够从基本的图中学得标签预测分数,还能够从空间位置上获取标签所对应的区域从而更好捕获标签是否存在
3.1用于多标签分类的主干网络
层的14×14 feature map(输入图片大小为224*224)作为SRN的输入,在我们的实验中,该feature map具有足够的分辨率来学习空间正则化。
让代表带有真实标签
的输入图像,其中
表示二值指示,
表示图像
被标记为标签
,否则表示为
,
是数据集中标签的数量,主网络对
中的每一个标签进行二进制分类:
其中是来自于
的特征图,
是主网络对标签信任度的预测,基于
和真值标记
测量了主网的预测误差.
所提出的SRN由两个连续子网络组成,其中第一个子网络利用图像级监督(第3.2节)学习标签注意图,以及第二子网
基于习得的标签注意图,捕捉标签的空间正则化。
3.2.图像级别监督的标签注意
多标签图像由语义上与不同标签相关的多个图像区域组成(意思是每一个标签都分别对应着图中的不同区域)。虽然图像级监督通常不提供区域位置,但在预测一个标签的存在时,应更多地关注相关区域。在我们的工作中,我们的神经网络学会使用注意力机制通过图像级监督来预测每个标签的相关图像区域,学习到的注意力图可以用来学习标签的空间规则.
从主网络的层获得的特征
,我们的目标是为每个单独的标签自动生成标签注意值
其中是
的未归一化的标签注意值,每个通道对应一个标签,用softmax函数对
进行空间归一化,得到最终的标签注意图
(就是为了获得每一个标签中哪个位置的注意力高).
其中表示标签
在
处未归一化和归一化的注意值。直观地看,如果将标签
标记到输入图像上,那么与它相关的图像区域应该被赋予较高的注意值,注意力估计器
被建模为3个卷积层,分别具有512个1×1的内核,512个3×3的内核和
个1×1内核,在前两个卷积层之后执行ReLU非线性操作。
由于没有注意力图的真值注释,仅通过图像级多标签监控学习,令
表示
在位置
处的视觉特征向量(刚开始输入是
,因此将特征向量划分为1024个通道,每一个大小为
,每一个位置对应一个视觉特征向量).在原始的ResNet中,视觉特征在所有空间位置上平均后分类为
(原始的resnet网络最后一层输出的是
,然后将每一层
),因为我们期望每个标签
的注意图
在标签相关区域有更高的值,且对于所有
而言,
,注意图可用于对每个标签
的视觉特征
进行加权平均,如:
与所有标签共享的原始平均视觉特征相比,加权平均视觉特征向量与对应于标签
的图像区域更相关。然后利用每一个这样的特征向量学习一个线性分类器来估计标签的
置信度:
其中和
为标签
的分类器参数。对于所有标签,
,仅使用图像级监督
进行训练,就可以通过最小化
和
之间的交叉熵损失来学习注意力估计器参数(请参见图2中的虚线)
注意估计器网络可以有效地学习每个标签的注意图,一幅图像的学习注意图如图3所示,结果表明,弱监督注意模型能够有效地捕捉到每个标签的相关视觉区域,例如,"太阳镜"侧重于面部区域,而"长裤"则更关注腿部。负面的标签也集中在合理的区域,例如,“帽子"试图在"头部"区域找到"帽子”(但是标签不存在仍然被高亮了).
图3表示从WIDERAttribute数据集中学习注意力图的例子。红色的标签是真实标签。加权注意是通过相应的标签置信度加权得到的注意图(Eq.(8))。
为了有效地学习注意图,回想一下,我们有,可以将Eq.(6)改写为:
这个方程可以看作是将标签特有的线性分类器应用于特征图的每个位置,然后基于注意图对标签置信值进行空间聚合,在我们的实现中,线性分类器被建模为具有大小为1×1的C核的卷积层(图2中的“ conv1”).该层的输出是置信度图
,其中它的第
个通道是
,其中*表示卷积运算。将标签注意图
和置信度图
逐元素相乘,然后在空间上求和以得到标签置信度向量
。 该表示形成了一个易于实现的标签注意学习网络,并生成置信度图以加权SRN中的注意图。
3.3 注意力图的空间正则化
来学习空间正则化:
其中,是sigmoid函数,它将标签信任(分数)
转换到[0,1]范围内(这样),
表示元素的乘法(矩阵元素对应相乘).加权注意力图
编码了每个标签的局部注意力和全局可见性,如图3所示(可以看到,不存在的标签就没有高亮)。
给定加权注意力图,需要一个标签正则化函数来估计基于来自
的标签空间信息的标签置信度:
式中是标签正则化函数预测的标签置信度.
由于所有标签的加权注意图都是空间对齐的,所以通过堆叠卷积操作很容易捕捉到它们的相对关系。卷积应该有足够大的接受域来捕捉标签之间复杂的空间关系.但是,幼稚的实现可能会出现问题。 如果我们仅使用一个具有2048个大小为14×14的滤波器的卷积层,那么附加参数的总数将为0.4C*百万,对于一个有80个不同标签的数据集,额外参数的实际数量将是3200万,相比之下,最初的ResNet-101只包含大约4000万个参数。如此多的附加参数会使网络难以训练.
我们建议将不同卷积层中的语义关系学习和空间关系学习分离。直觉是,一个标签可能只在语义上与少数几个其他标签相关,没有必要用这些不相关的注意图来测量空间关系.实现了三个具有ReLU非线性的卷积层和一个全连接层,如图4所示.前两层捕获2层1×1卷积的标签的语义关系,而第三层使用2048 14×14内核探索空间关系。对第三个卷积层的滤波器进行分组,每组4个内核对应于输入特征图的一个特征通道。 每组4个核分别对同一特征通道进行卷积。同一组中的不同内核捕获语义相关标签的不同空间关系。 实验结果表明,所提出的SRN基于标签的语义和空间关系为分类结果提供了有效的正则化,仅增加了约600万个附加参数。
的详细网络结构,用于从加权注意图学习空间正则化。前两层(conv2和conv3)是多通道滤波器的卷积层,而conv4是由单通道滤波器组成。每4个滤波器对同一特征通道进行卷积,用conv3来限制参数的大小。
3.4 全面的网络和训练方案
,其中α是一个权重因素。虽然此因子可以被学习,但是我们固定
且没有观察到性能下降。整个网络用交叉熵损失进行训练,地面真值标记为
:
我们通过多个步骤训练网络。1)首先,我们在目标数据集上只对主网络进行微调,目标数据集是在ImageNet数据集的1000分类任务上预先训练好的,和
都是通过交叉熵损失
来学习的;2) 其次,我们固定
和
,并着重训练损失为
的
和
(参见图2中的虚线). 3) 通过固定所有其他子网(
),以交叉熵损失
训练
。最后,通过损失
联合对整个网络进行微调。
我们的深度神经网络是由Caffe库实现的。为了避免过拟合,我们采用图像增强策略。输入图像首先被调整到256×256,然后在四角和中心剪裁,最后,裁剪后的图像全部调整为224×224。训练采用随机梯度下降算法,批量大小为96,动量为0.9,权值衰减为0.0005。初始学习率设置为10 3,当验证损失达到饱和时,学习率下降到之前值的1/10,直到。
4.实验
我们的方法使用三个具有不同类型标签的基准数据集进行评估:拥有81个概念标签的NUS-WIDE,拥有80个对象标签的MS-COCO,以及拥有14个人类属性标签的WIDER-Attribute。实验结果表明,我们的方法在所有三个数据集上都有显著的优于最新的研究成果,并对不同类型的标签具有很强的泛化能力。对已学习的深度模型的分析表明,我们的方法能有效地捕获标签的语义关系和空间关系。
4.1 评价指标和比较方法
评价指标 我们使用宏/微观精度、宏/微观召回、宏/微观F1 -测量和平均精度均值(mAP)进行性能比较,对于精度/召回率/ F1测量,如果对任何标签估计的标签可信度大于0.5,则将标签预测为正。宏精度(表示为P-C)是通过平均每个分类的精度来评估的,而微精度(表示为P-O)是一个整体的度量,它计算所有分类的所有图像的真实预测,同样,我们也可以评估宏观/微观召回(R-C / RO)和宏观/微观f1 -测量(F1-C / F1-O)。平均精度均值是每类平均精度的平均值。上述指标并不要求每个图像都有固定数量的标签,一般来说,mAP, F1-C, F1-O更重要。为了公平地与目前的状况进行比较,我们还在使用前3个标签预测每张图像的约束条件下评估了精度、召回率和F1- measure,在我们的方法中,为了得到这样的前3个标签,我们在每幅图像中都得到了confidence值最高的3个标签,即使它们的confidence值小于0.5,但是,我们认为为每个图像输出可变数量的标签对于实际应用程序更实用。因此,我们报告了有和没有top-3标签约束的结果:
比较的方法:对于NUS-WIDE和MS-COCO数据集,我们与最先进的方法进行比较,数据集包括CNN-RNN、WARP和KNN。CNN-RNN探索了标签的语义关系,而其他方法没有.对于我们的方法(表示为ResNet-SRN),还探索了一种变体,它从未加权注意图A而不是U学习空间规则,以评估加权注意图的必要性。表示为ResNet-SRN-att。
我们还设计了三种基线方法来进一步验证我们提出的空间正则化网的有效性。第一个基线是原始的ResNet-101(表示为ResNet-101),在每个数据集上进行了微调.第二基线,因为提出SRN与ResNet - 101相比约有600万名额外的参数,约等于两个ResNet积木2048通道输出特性,我们添加两个这样的残块后的最后一块ResNet - 101(层res5c relu)创建一个ResNet - 107模型,对于第三条基线,我们利用ResNet-101研究了基于标签初始置信度的标签学习语义关系。最初的信任与来自“pool5”层的可视特性连接起来,以编码标签关系,两个2048-神经元和一个C-神经元完全连接的层试图从连接的特征捕获标签语义关系,以生成最终的标签信任。在我们的实验中,我们将这个模型称为ResNet-101-semantic。
4.2 实验结果
NUS-WIDE:
MS-COCO:该数据集主要用于场景理解中的目标识别任务。训练集由82,783张图像组成,其中包含场景中常见的目标。对象被分成80个类,每幅图像约有2.9个对象标签。由于测试集的ground-truth标签不可用,我们对验证集(40,504张图像)上的所有方法进行了评估。在此MS-COCO上,每个图像的标签数量差异很大。
4.3可视化及分析
我们将从SRN的conv4层中学习到的神经元可视化和分析,以说明其学习标签空间规则化的能力。我们观察到习得神经元捕获两种类型的标签空间信息。一种神经元捕捉单个标签的空间位置,而另一种神经元只有在多个标签具有特定的相对位置模式时才被激活。
我们计算了学习神经元的反应与图像中标记位置的相关性,发现一些神经元与单个标记的空间位置高度相关。在图5中,我们展示了两个这样的例子。在(a)中,SRN中conv4的第#425个神经元的响应与宽属性数据集中longHair标签的垂直位置高度相关。在(b) conv4的#1199神经元的激活与标记标志““flag”的垂直位置高度相关。这表明这两个神经元关注特定标签的空间位置
图6,我们展示了来自WIDERAttribute数据集的三幅图像,它们在SRN中对conv4的#786神经元的激活程度最高。图像有共同的标签(男性,长袖,正式,长裤),并有相似的相对标签位置。这表明,该神经元经过训练,能够捕捉四种标签的语义和空间关系,并偏爱它们之间的特定相对位置。
图6表示从宽属性数据集对conv4的神经元#786的前3个激活的图像。真正标签用红色标出。四个标签(男性、长袖、正式、长裤)之间的空间和语义关系被神经元捕获。
5.总结
本文通过探讨标签之间的空间关系来改进多标签图像分类。这是通过在图像层面的监督下学习所有标签的注意图来实现的,然后在加权注意的基础上获取标签的语义关系和空间关系