以往的视觉语言(Vision Language,VL)研究主要关注视觉语言融合模型的改进,而对目标检测模型的改进很少涉及,但是作者发现视觉特征在VL模型中至关重要。因此,作者详细研究了视觉语言模型中的视觉表示(Visual representations in Vision-Language Models,VinVL)方法,并提出了一种改进的目标检测模型。与广泛使用的bottom-up和top-down模型相比,作者提出的模型更大,能更好地适应VL任务,并且在大规模“图像-文本”语料库上进行了预训练,可以生成更丰富的视觉表示。作者将目标检测模型生成的视觉特征输入VL融合模型OSCAR中,利用改进的OSCAR+方法对VL模型进行预训练,并在下游任务上对其进行了微调。结果表明,OSCAR+与VinVL在7项任务上的结果优于以前的SoTA模型,并且有很大优势。

医学视觉语言模型 视觉语言探析_医学视觉语言模型

如表1所示,作者提出的目标检测模型在广泛的VL任务上都取得了更好的结果。

医学视觉语言模型 视觉语言探析_计算机视觉_02

如图1所示,与其他典型的目标检测模型相比,作者提出的模型能够检测到图像中更多的视觉概念和属性信息,并且检测边框几乎覆盖了全部有语义意义的区域。

医学视觉语言模型 视觉语言探析_医学视觉语言模型_03

表2给出了目标检测预训练的四个数据集,包括COCO、OpenImagesV5、Objects365和Visual Genome。

医学视觉语言模型 视觉语言探析_语言模型_04

医学视觉语言模型 视觉语言探析_语言模型_05

如表4所示,OSCAR+与VinVL在7项任务上的结果优于以前的SoTA模型,并且有很大优势,这说明新的目标检测模型生成的区域特征是有效的。表5到表11分别给出了VQA、GQA、Image Captioning、NoCaps、Image Retrieval 、Text Retrieval、NLVR2七项下游任务的详细结果。

总结

作者提出了一种改进的目标检测模型,能够生成更丰富的视觉表示。作者将目标检测模型生成的视觉特征输入VL融合模型OSCAR中,利用改进的OSCAR+方法对VL模型进行预训练,并在下游任务上对其进行了微调。