2024-11-05,由阿里巴巴集团创建Dyn-VQA数据集,它包含三种类型的“动态”问题,需要复杂的知识检索策略,这些问题的查询、工具和时间都是可变的。这个数据集的创建对于推动mRAG研究和解决现有VQA数据集无法充分反映启发式mRAGs在获取复杂知识方面的刚性问题具有重要意义。

数据集地址:Dyn-VQA|多模态检索数据集|自然语言处理数据集

一、研究背景:

在多模态大型语言模型(MLLMs)中,解决“幻觉”问题的关键技术之一是多模态检索增强生成(mRAG)。然而,现有的启发式mRAG方法通常预定义了固定的检索过程,这导致了非适应性检索查询和超载检索查询的问题。

目前遇到困难和挑战:

1、非适应性检索查询:现有mRAG方法的检索策略不够灵活,无法适应问题上下文的演变或中间发现,阻碍了模型对问题的进一步理解、验证或反思。

2、超载检索查询:单次检索策略将过多的负担放在一个查询上,可能导致检索到的知识表面相关但并非解决问题所必需。

3、现有VQA数据集的局限性:大多数问题仅需要两步检索就能获得文本知识,无法充分反映启发式mRAGs在获取复杂知识方面的刚性问题。

数据集地址:Dyn-VQA|多模态检索数据集|自然语言处理数据集

二、让我们一起看一下Dyn-VQA数据集

Dyn-VQA是一个包含动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。

包含1452个动态问题,这些问题需要复杂的多模态知识检索来解决。这些问题包括快速变化答案的问题、需要多模态知识的问题和多跳问题。

数据集构建:

数据集的构建分为三个步骤:文本问题编写、多模态重写和中英文翻译。通过这种分步策略,确保了数据集的质量,并允许对数据集进行持续的人工更新。

数据集特点:

1、动态性:Dyn-VQA包含的问题需要模型能够灵活地提供知识检索解决方案,这意味着查询、工具和检索时间都需要根据情况变化,而不是固定不变。

2、多模态知识需求:数据集中的问题要求模型能够跨不同模态检索知识,这包括但不限于文本、图像等,以解决需要多模态信息的问题。

3、答案快速变化:数据集中的一些问题的答案会随着时间快速变化,这要求模型能够识别并区分过时和最新的信息。

4、多跳推理:Dyn-VQA中的问题往往需要多步骤的推理过程来解决,这涉及到多个检索步骤,而不仅仅是简单的直接检索。

5、定制化检索API:为了解决多模态知识需求,Dyn-VQA要求使用定制的检索API,这与大多数VQA数据集通常只寻求文本知识的做法不同。

6、知识更新:Dyn-VQA中的问题和答案需要定期更新,以反映现实世界中知识的变化,这增加了数据集维护的复杂性。

7、综合性:Dyn-VQA结合了多种类型的动态问题,包括答案快速变化的问题、需要多模态知识的问题和多跳问题,这使得它成为一个综合性的测试平台,用于评估和改进多模态检索增强生成(mRAG)方法。

OmniSearch:

OmniSearch是首个自适应规划代理,用于多模态检索,能够动态地分解复杂问题为子问题链,并执行检索动作。

通过模拟人类解决问题的行为,动态地将复杂的多模态问题分解为子问题链,并在每个步骤中根据问题解决状态和检索内容灵活调整下一步行动。


研究人员可以使用Dyn-VQA数据集来评估和改进mRAG方法,通过实验发现现有启发式mRAG在提供动态问题的充分和精确相关知识方面存在困难。


基准测试 :

通过将不同的mRAG方法与领先的MLLMs结合在Dyn-VQA上进行评估,展示了这些方法在提供动态问题所需知识和信息方面的不足。




Dyn-VQA数据集:包含1452个动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。_数据集

下图:基于启发式 mRAG 的 VQA。上图:基于 OmniSearch 的 VQA。


Dyn-VQA数据集:包含1452个动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。_AI大模型应用_02

需要不同类型检索策略的动态 VQA 示例。

Dyn-VQA数据集:包含1452个动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。_数据集_03

Dyn-VQA 的统计数据。

Dyn-VQA数据集:包含1452个动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。_机器学习数据集_04

人类在不同 VQA 数据集上的表现。

Dyn-VQA数据集:包含1452个动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。_模态_05

左:OmniSearch 的整体框架。右图:OmniSearch 的运行示例。

Dyn-VQA数据集:包含1452个动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。_数据集_06

Dyn-VQA 上的主要结果

Dyn-VQA数据集:包含1452个动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。_推理过程_07

OmniSearch 上的实验与不同的 MLLM 配对作为子问题求解器。OmniSearch (G) 和 OmniSearch (Q) 分别是指基于 GPT-4V 和 Qwen-VL-Chat 的 OmniSearch 实现。

Dyn-VQA数据集:包含1452个动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。_机器学习数据集_08

对不同领域的性能进行建模。

Dyn-VQA数据集:包含1452个动态问题的视觉问答数据集,要求模型灵活提供知识检索解决方案,其中查询、工具和检索时间都是可变的。_推理过程_09

不同模型的正确回答问题之间的成对重叠。

三、让我们一起展望数据集的应用

比如,我是一名生物老师

日常的教学工作,我拿着课本,一页一页地翻,给学生们讲解DNA序列啊、基因突变啊这些复杂的遗传学知识。学生们呢,就坐在那里,听我讲,偶尔记记笔记,但说实话,他们看起来挺无聊的,学习效果也一般。

但现在不一样了,有了这个Dyn-VQA数据集,我的课堂变得活跃多了。

今天我准备了一些神秘的DNA序列图。跟学生们一起变身为DNA侦探,揭开遗传学的秘密。

活动流程:

  1. 引入话题: 我开始上课,说:“同学们,今天我们要成为DNA侦探,通过分析DNA序列,揭开遗传的秘密。你们准备好了吗?”
  2. 展示DNA序列图像: 我在大屏幕上展示了一张DNA双螺旋结构的图片,并连接了一个经过Dyn-VQA数据集训练的AI助手。
  3. 提问与互动: 谁能告诉老师,DNA双螺旋结构是由哪两位科学家发现的?”一个学生回答:“是沃森和克里克!”老师点头,然后继续提问:“那DNA中的四种碱基是什么?”学生们纷纷回答:“腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)。”
  4. 深入探索: 我接着问:“如果我们改变DNA中的一个碱基,会发生什么?”这时,AI助手介入,解释道:“DNA中的单个碱基变化可能会导致基因突变,这可能会影响蛋白质的合成,甚至导致遗传疾病。”
  5. 侦探行动: 我分发了一些打印出来的DNA序列片段,并说:“现在,你们每个人都有一个DNA序列片段,我们需要找出这些序列编码的是哪个蛋白质。”学生们开始使用AI助手,输入他们的DNA序列,AI助手通过检索Dyn-VQA数据集,帮助学生们翻译这些序列,并预测可能的蛋白质结构。
  6. 案例研究: 我接着展示了一张遗传病患者的图片,并提出了一个挑战性问题:“这个病人有一种罕见的遗传病,我们需要找出是哪个基因突变导致的。”学生们分成小组,使用AI助手和Dyn-VQA数据集,分析可能的基因突变,并讨论这些突变如何影响蛋白质功能,AI助手能够根据每个小组的具体问题提供定制化的答案和解释。
  7. 汇报与讨论: 每个小组都有机会向全班展示他们的发现,并解释他们的推理过程。其他小组可以提问或提出不同的观点,老师和AI助手提供必要的指导和反馈。
  8. 总结与反思: 在活动的最后,我总结说:“通过今天的DNA侦探行动,我们不仅学习了DNA的基础知识,还了解了基因突变对人类健康的影响。希望你们能够将这种探索精神应用到未来的学习和生活中。”

Dyn-VQA数据集的动态特性要求AI助手能够根据问题的不同需求进行自适应的规划和响应。这有助于提供更加个性化和适应性强的学习体验。通过这种方式,学生们能够更直观地理解复杂的遗传学概念,同时也增加了课堂的趣味性和互动性。


想要查看更多开源数据集,请打开:遇见数据集

https://www.selectdataset.com/