文章目录

  • 论文基本信息
  • 研究背景
  • 读完摘要后的疑问
  • 读完文章后对上述问题的回答
  • Contribution:
  • 方法
  • 框架
  • 目标函数
  • J1误差
  • J2误差
  • J3误差
  • 实验验证
  • 数据集
  • 评价指标
  • 与最先进的方法的比较
  • 代码分析
  • 存在的疑惑


论文基本信息

  • 标题:Deep Supervised Cross-modal Retrieval
  • 作者:Liangli Zhen∗, Peng Hu∗, Xu Wang, Dezhong Peng†
  • 时间:2019
  • 机构:Machine Intelligence Laboratory, College of Computer Science
    Sichuan University, Chengdu, 610065, China
  • 论文地址:2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
  • code:

研究背景

跨模式检索旨在实现不同模式(如文本与图像)的灵活检索。它将一种类型的数据作为检索另一种类型相关数据的查询。提供的跨不同方式的搜索结果可以帮助用户获得关于目标事件或主题的全面信息。随着互联网上不同类型的媒体数据(如文本、图像和视频)的快速增长,在真实世界的应用程序[32]中,跨模式检索变得越来越重要。近年来,跨模态检索引起了学术界和工业界的广泛关注。跨模态检索的难点在于如何度量不同类型数据之间的内容相似性,即异质性差异[32]。

读完摘要后的疑问

  • 什么是 深度监督跨模态检索(DSCMR)?
  • DSCMR的结构?

读完文章后对上述问题的回答

在本文中提出了一种新颖的跨模式检索方法,称为深度监督跨模式检索(Deep Supervised Cross-modal Retrieval, DSCMR)。它旨在找到一个通用的表示空间,在其中可以直接比较来自不同模态的样本。

Contribution:

  • 提出了一个监督的跨模态学习结构作为不同模态的桥梁。它可以通过保留语义的区分性和模态的不变性有效学习到公共的表达。
  • 在最后一层开发了两个具有权重共享约束的子网,以学习图像和文本模态之间的交叉模态相关性。 此外,模态不变性损失被直接计算到目标函数中,以消除跨模态差异。
  • 应用线性分类器对公共表示空间中的样本进行分类。 这样,DSCM-R 最大限度地减少了标签空间和公共表示空间中的辨别损失,从而使学习到的公共表示具有显着性。
  • 进行了很多的实验。

方法

crossvalscore estimator 参数_模态

框架

  • 包括两个子网络——一个是图像模态,另一个是文本模态,端到端训练
  • 对于图像:利用预训练在 ImageNet 的网络提取出图像的 4096 维的特征作为原始的图像高级语义表达。然后后续是几个全连接层,来得到图像在公共空间中的表达。
  • 对于文本:利用预训练在 Google News 上的 Word2Vec 模型,来得到 k 维的特征向量。一个句子可以表示为一个矩阵,然后使用一个 Text CNN 来得到原始的句子高级语义表达。之后也是同样的形式,后面是几个全连接层来得到句子在公共空间中的表达。
  • 为了确保两个子网络能够为图像和文本学到公共的表达,我们使这两个子网络的最后几层共享权重。直觉上这样可以使得同一类的图片和文本生成尽可能相似的表达
  • 最后面是一层全连接层来进行分类
    这样以后,跨模态的联系可以很好的学到,并且有区分性的特征也可以同时学到。

目标函数

J1误差

第一个目标是一个分类的 loss ,其中 Y 是label 的 one-hot 表示,计算一下分类结果与 Y 的差别。Frobenius norm 是对应元素的平方和再开方(可以理解成矩阵的 L2 范数)。

crossvalscore estimator 参数_深度学习_02


P为线性分类器的投影矩阵,U和V分别代表图像和文本。

J2误差

第二个误差包括三项。其中分别代表模态间的,图像模态的和文本模态的负对数似然。最小化负对数似然相当于最大化概率,这里的概率指的是两个特征属于同一个类别的概率。

crossvalscore estimator 参数_自动驾驶_03

J3误差

第三个误差是两种模态公共空间中的距离度量,最终的损失函数形式是上述三者的组合。

crossvalscore estimator 参数_机器学习_04


其中式(5)中的两个参数是超参数,用于调节各个误差的权重。

实验验证

数据集

在我们的实验中,我们遵循了[22,25]中的数据集划分和特征提取策略。我们采用19层VGGNet[29]学习样本的表示,得到每幅图像由VGGNet fc7层输出的4096维表示向量。为了表示文本样本,我们使用句子CNN[37]来学习每个文本的300维表示向量。三个数据集的统计结果汇总在表1中。值得注意的是,所有的比较方法都采用了与我们方法中使用的CNN架构所获得的图像和文本相同的CNN特征。

crossvalscore estimator 参数_模态_05

评价指标

我们通过对所有四个数据集上所有返回结果的余弦相似度的平均平均精度(mAP)评分来评估比较方法。mAP度量综合考虑了排序信息和精度,是跨模态检索研究中广泛使用的性能评价标准[32,19,30]。在我们的实验中,我们报告了两种不同的跨模式检索任务的mAP评分比较方法:1)使用图像查询检索文本样本(Image2Text)和2)使用文本查询检索图像(Text2Image)。

与最先进的方法的比较

来验证我们提出的方法的有效性,我们比较该方法与十最先进的实验方法,包括五个传统方法,即CCA [8], MCCA [27], MvDA [10], MvDAVC[11]和JRL[40],以及基于五深学习方法,即CMDN [19], CCL [21] DCCA [2], DCCAE[33]和ACMR[30]。
表2-5给出了本文提出的DSCMR的mAP评分以及在四个基准数据集上的比较方法(CCL[21]和CMDN[19]的mAP评分结果由作者提供),从中我们可以看到:

  • 在四种数据集上,DSCMR都显著优于传统的对等方法和基于深度学习的方法。其中,DSCMR在维基百科、Pascal Sentence、NUSWIDE-10k和XMediaNet数据集上的平均mAP评分分别提高了0.018、0.038、0.020和0.050,优于第二好的方法。
  • 基于深度学习方法的非线性变换有助于提高传统方法的性能,如DCCA在前三个数据集上的性能显著优于CCA。
  • 传统的深度特征检索方法也有可能在跨模态检索中获得较高的mAP评分。例如,CCA、MCCA、MvDA、MvDA- vc和JRL线性方法在XMediaNet数据集上获得了较好的结果(平均mAP值分别为0.597、0.618、0.645、0.638和0.582)。这可能是由于图像CNN和文本CNN将输入的图像和文本样本转换为近似线性的子空间,大大降低了原始跨模态学习任务的难度。

代码分析

伪代码如下:

crossvalscore estimator 参数_模态_06

存在的疑惑