在人工智能领域,多模态融合是一个日益受到关注的研究课题,它致力于解析和利用来自不同传感器、媒介和格式的数据,以提供更为全面和精确的信息解释和决策支持。
随着人工智能的发展,跨越视觉、听觉、语言和触觉等模态的信息整合正逐步成为现实,同时也在众多行业中发挥着重要作用,例如在自然语言处理、图像识别、医学诊断以及自动驾驶等领域。
今天就给大家整理了10篇优秀的多模态融合论文,大家可以学习一下!
1、Attention Bottlenecks for Multimodal Fusion
多模态融合的注意瓶颈
简述:人类通过同时处理和融合多模态的高维输入感知世界,而机器感知模型通常是特定于模态的,后期融合是主导范式。本文中引入了基于变换器的全新架构,使用融合瓶颈在多层进行模态融合,提高了性能并降低了计算成本,多个视听分类基准上取得了最先进的结果。
2、Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
自动驾驶感知的多模态传感器融合
简述:在本文中,从文献角度审视了现有基于多种模式的自主驱动的认知任务方法,详细分析了50多份文件,利用包括LIDAR和照相机在内的感知传感器试图解决物体探测和语义分解任务,不同于传统的对聚合模型进行分类的聚合方法,文中提出了一种创新方法,将它们分为两大类和四个小类,从聚化阶段来看,以更合理的分类法划分为四个小类。此外还深入探讨了现有方法的问题,并讨论了未来的研究机会。
3、mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections
通过跨模态跳跃连接实现高效有效的视觉-语言学习
简述:本文介绍了mPLUG,一个跨模式理解和生成的一个新的视觉语言基础模型,解决现有模型在跨模式一致的长视序列中存在的计算效率低和信息不对称问题。mPLUG引入了具有新颖跨模式跳动功能的高效视觉语言结构,创建跨层次捷径,供视觉一侧完全自省使用。mPLUG是经过事先培训的大型图像配对端对端端端到端,既具有歧视性,又具有基因化目标。它实现了关于广泛视觉语言下游任务的最新结果,例如图像字幕、图像文本检索、视觉地面和视觉回答。mPLUG还表明在直接转移到多种视频语言任务时,零点可转移性很强。
4、mPLUG-2: A modularized multi-modal foundation model across text, image and video
一个跨文本、图像和视频的模块化多模态基础模型
简述:本文中提出MPLUG-2,一个为多模式预培训设计的模块化的新统一模式,可受益于模式合作,同时解决模式纠缠问题;与依赖顺序到序列生成或基于编码器的实例歧视的主要模式相比,MPLUG-2引入多模块构成网络,MPLUG-2引入了多模块构成网络,共享通用模式协作模块,拆解处理模式纠缠的不同模式模块。经验性研究表明,MPLUG-2在30多个下游任务中取得最先进或竞争性成果,跨过图像文本和视频文本理解和生成的多模式任务,以及只使用文本、只使用图像和视频理解的单模式。
5、BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
用于统一视觉-语言理解和生成的自引导语言-图像预训练
简述:在本文中提议BLIP,一个新的视觉语言框架,可灵活地向视觉语言理解和生成任务转移。BLIP通过对标题进行跟踪,有效地利用吵闹的网络数据,让标题产生合成字幕和过滤器消除噪音。并且在广泛的视觉语言任务上取得了最先进的成果,例如图像-文字检索(平均回溯+2.7%@1)、图像字幕(CIDER+2.8%)和VQA(VQA分为+1.6%)。BLIP还展示了在以零发方式直接转移到视频语言任务时的强大一般化能力。
6、An Implementation of Multimodal Fusion System for Intelligent Digital Human Generation
智能数字人生成的多模态融合系统实现
简述:本文提出了一个带有多模态融合的智能数字人生成系统的实施方案,以文本、语音和图像作为输入,利用大型语言模型(LLM)、声纹提取和文本到语音转换技术合成互动语音,然后将输入图像进行年龄转换,选择合适的图像作为驱动图像。接着,通过数字人驱动、新颖视角合成和智能化妆技术实现数字人视频内容的修改和生成。最后,通过风格转换、超分辨率和质量评估来增强用户体验。
7、Everything at Once – Multi-modal Fusion Transformer for Video Retrieval
用于视频检索的多模态融合变压器
简述:本文提出了一种多模态、模态不可知的融合变换器方法,该方法学会在多个模态之间交换信息,如视频、音频和文本,并将它们整合到一个联合的多模态表示中,以获得一个汇聚多模态时序信息的嵌入。文中提出使用组合式损失对系统进行一次性训练,不仅包括单个模态,也包括模态组合,而且明确地排除了诸如位置或模态编码等附加组件。在测试时,得到的模型可以处理和融合任意数量的输入模态。此外,变换器的隐式属性允许处理不同长度的输入。
8、MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding
通过跨媒体知识提取和基础化实现多媒体多跳新闻问答
简述:在本文中提出了一个新的QA评估基准,包含1,384个问题,这些问题涉及新闻文章,并需要跨媒体的对图像中的对象进行文本定位。具体来说,任务涉及多点问题,需要对图像-标题进行推理,以识别被提及的定位视觉对象,然后从新闻正文文本中预测一个范围以回答问题。此外,文中还介绍了一种基于跨媒体知识提取和合成问答生成的新型多媒体数据增强框架,用以自动增加可以为这项任务提供弱监督的数据。
9、FUSIONFORMER: A MULTI-SENSORY FUSION IN BIRD’S-EYE-VIEW AND TEMPORAL CONSISTENT TRANSFORMER FOR 3D OBJECTION
鸟瞰视角与时间一致性Transformer中的多感官融合用于3D目标检测
简述:本文中提出了FusionFormer,一个端到端的多模态融合框架,利用Transformer融合多模态特征并获取融合后的鸟瞰视图特征。基于FusionFormer对输入模态表示的灵活适应性,文中提出了一个深度预测分支,可以加入到框架中,以提高基于相机的检测任务的性能。此外,文中还提出了一个基于Transformer的即插即用的时间融合模块,它可以融合历史帧鸟瞰视图特征,以获得更稳定和可靠的检测结果。
10、Deep Learning in Multimodal Remote Sensing Data Fusion: A Comprehensive Review
多模态遥感数据融合中的深度学习
简述:本综述提供一个关于基于DL的多模态RS数据融合的系统概览,介绍这一主题的一些基本知识。随后进行文献综述,分析该领域的发展趋势。针对待融合的数据模态,例如时空光谱、时空、光检测与测距-光学、合成孔径雷达-光学以及RS-地理空间大数据融合,回顾了一些流行的子领域。此外,文中收集和总结了一些对多模态RS数据融合发展有价值的资源,最后还突出了剩余的挑战和潜在的未来方向。
码字不易,欢迎大家点赞评论收藏!