医学视觉语言模型视觉语言探析

转载

数码精灵abc 2024-03-29 12:12:12

文章标签 医学视觉语言模型语言模型深度学习计算机视觉目标检测 文章分类 NLP 人工智能

以往的视觉语言（Vision Language，VL）研究主要关注视觉语言融合模型的改进，而对目标检测模型的改进很少涉及，但是作者发现视觉特征在VL模型中至关重要。因此，作者详细研究了视觉语言模型中的视觉表示（Visual representations in Vision-Language Models，VinVL）方法，并提出了一种改进的目标检测模型。与广泛使用的bottom-up和top-down模型相比，作者提出的模型更大，能更好地适应VL任务，并且在大规模“图像-文本”语料库上进行了预训练，可以生成更丰富的视觉表示。作者将目标检测模型生成的视觉特征输入VL融合模型OSCAR中，利用改进的OSCAR+方法对VL模型进行预训练，并在下游任务上对其进行了微调。结果表明，OSCAR+与VinVL在7项任务上的结果优于以前的SoTA模型，并且有很大优势。

医学视觉语言模型视觉语言探析_医学视觉语言模型

如表1所示，作者提出的目标检测模型在广泛的VL任务上都取得了更好的结果。

医学视觉语言模型视觉语言探析_计算机视觉_02

如图1所示，与其他典型的目标检测模型相比，作者提出的模型能够检测到图像中更多的视觉概念和属性信息，并且检测边框几乎覆盖了全部有语义意义的区域。

医学视觉语言模型视觉语言探析_医学视觉语言模型_03

表2给出了目标检测预训练的四个数据集，包括COCO、OpenImagesV5、Objects365和Visual Genome。

医学视觉语言模型视觉语言探析_语言模型_04

医学视觉语言模型视觉语言探析_语言模型_05

如表4所示，OSCAR+与VinVL在7项任务上的结果优于以前的SoTA模型，并且有很大优势，这说明新的目标检测模型生成的区域特征是有效的。表5到表11分别给出了VQA、GQA、Image Captioning、NoCaps、Image Retrieval 、Text Retrieval、NLVR2七项下游任务的详细结果。