近年来,以知识图谱快速增长的知识工程又重新兴起。然而,现有的知识图谱大多用纯符号表示,这损害了机器理解现实世界的能力。知识图谱的多模态化是实现人机智能的必然步骤。这一努力的结果是多模态知识图(MMKGs)。在本研究中,我们首先给出了由文本和图像构成的多模态任务的定义,然后对多模态任务和技术进行了初步探讨。然后,我们系统地回顾了MMKG在构建和应用方面所面临的挑战、进展和机遇,并详细分析了不同解决方案的优势和劣势。我们通过与MMKG相关的开放研究问题来完成这项综述。

近年来,以知识图谱快速增长的知识工程又重新兴起。知识图谱本质上是一个以实体、概念为节点、以概念之间的各种语义关系为边的大规模语义网络。知识图谱在现实生活中广泛应用,包括文本理解、推荐系统和自然语言问题回答。越来越多的知识图谱被创建出来,包括常识知识(如Cyc[1]、ConceptNet[2])、词汇知识(如WordNet[3]、BabelNet[4])、百科知识(如Freebase[5]、DBpedia[6]、YAGO[7]、WikiData[8]、CN-Dbpedia[9])、分类知识(如Probase[10])和地理知识(如GeoNames[11])。

然而,现有的知识图谱大多是用纯符号表示的,以文本的形式表示,这削弱了机器对现实世界的描述和理解能力。人类如果没有与狗相处的经历,就无法理解狗是什么,这就启发了研究人员在符号dog和狗的经历之间建立联系,即将一个符号根植于它的物理世界,即[12],[13],[14]。同样,将符号形式与非符号体验相结合,有利于获得真实的交际意图[15]。例如,没有亲身体验过hand -in-waistcoat的顾客无法理解作为一种特殊姿势(手放在外套翻盖内)的含义,从而导致顾客对摄影师的要求做出错误的反应。因此,有必要将符号与相应的图像、声音和视频数据相对应,并将符号映射到物理世界中具有意义的对应对象,使机器在面对特定的实体Hand-in-waistcoat或抽象概念Dog时,能够产生类似于真实人类[12]的“体验”。另一方面,为了突破现实世界应用程序[16]、[17]、[18]的瓶颈,对知识的多模态需求日益增长。例如,在关系提取任务中,额外的图像通常会大大提高提取符号和文本中那些在视觉上很明显但难以识别的属性和关系的性能,例如:键盘和屏幕是笔记本电脑的一部分,颜色是(例如:香蕉通常是黄色或黄绿色,但不是蓝色)。在文本生成任务中,如果机器通过参考多模态KG (MMKG),被赋予识别图像中特定实体的能力,机器可以生成一个信息更丰富的实体级句子(例如唐纳德·特朗普正在发表演讲),而不是一个模糊的概念级描述(例如一个金发高个子男人正在发表演讲)。

由于各种应用对多模态知识引导需求的快速增长,知识引导的多模态及其应用近年来蓬勃发展。但目前对这一新兴领域的研究进展、面临的挑战和面临的机遇还缺乏系统的综述。本文希望填补这一空白,系统地综述近年来有关MMKG的研究进展: 1) 构建。MMKG的构造可以在两个相反的方向上进行。一种是从图像到符号,即用KG表示符号来标注图像; 另一种是从符号到图像,即把KG中的符号对应到图像。在构建部分,我们将系统地介绍将各种符号知识(包括实体、概念、关系和事件)与它们在两个相反方向上的对应图像关联起来的挑战、进展和机遇。2)应用。MMKG的应用可以大致分为两类,一类是In-MMKG应用,目的是解决MMKG本身的质量或集成问题,另一类是MMKG外应用,这是一般的多模态任务,mmkg可以提供帮助。在应用部分,我们将介绍如何将mmkg应用于几个经过充分研究的多模态任务中。

综上所述,我们是第一个对现有的由文本和图像组成的MMKG的工作进行全面综述的。为了提升本次调查的价值,我们注意确保以下特点:1)全面调研。我们系统、全面地回顾了MMKG建设和应用方面的现有工作。2) 深刻的分析。我们分析了不同解决方案在MMKG建设中的优缺点,并讨论了MMKG如何在各种下游应用中提供帮助。3)显示的机会。本文不仅指出了MMKG建设的一些潜在机遇,而且还列举了MMKG未来的发展方向。

本论文的其余部分组织如下: 第2节给出了MMKG的定义和初步。第3节全面回顾了MMKGs构建面临的挑战、进展和机遇,第4节介绍了MMKG如何应用于几个已深入研究的多模态应用中。第5节回顾了MMKG的一些未决问题,并强调了有前途的未来方向。第六节总结了本文。