Cantor：激发MLLM的多模态思维链原创

发布于 2024-7-1 13:05

浏览

0收藏

摘要：随着通过思维链（CoT）方法增强的大型语言模型（LLMs）的出现，视觉推理问题通常被分解成可管理的子任务，并使用各种外部工具依次解决。然而，这种范式面临决策中潜在的“确定性幻觉”的挑战，这是由于视觉信息不足以及低级感知工具的限制，这些工具无法提供全面推理所需的抽象总结。我们认为，视觉上下文获取与逻辑推理的融合是解决视觉推理任务的关键。本文深入探讨了多模态CoT的领域，使用多模态大型语言模型（MLLMs）及其认知能力来解决复杂的视觉推理任务。为此，我们提出了一个创新的多模态CoT框架，称为Cantor，其特点是感知决策架构。Cantor首先作为一个决策生成器，整合视觉输入来分析图像和问题，确保与实际上下文更紧密的对齐。此外，Cantor利用MLLMs的高级认知功能，作为多方面的专家来推导出更高级别的信息，增强CoT生成过程。我们广泛的实验证明了所提出框架的有效性，显示出在两个复杂的视觉推理数据集上多模态CoT性能的显著提升，而无需进行微调或需要真实理由。项目页面：

https://ggg0919.github.io/cantor/。

1. 引言

随着大型语言模型（LLMs）的发展，研究人员开始采用思维链（CoT）策略来提高模型在推理任务中的性能。CoT模仿了人类逐步推理的过程，通过构建一系列逻辑步骤来帮助模型提高对复杂视觉推理问题的深入理解和分析能力。CoT在语言推理任务中的有效性已经得到了广泛验证。最近，研究人员自然地将其应用扩展到多模态领域。视觉推理任务[29, 30]本质上适合使用思维链（CoT）方法。这些任务要求模型不仅要“感知”图像中的内容和上下文，还要“理解”这些视觉元素，以做出连贯的推理和决策。因此，多模态CoT的探索在研究社区中显著扩大。

大多数现有的多模态CoT方法分为两个阶段：决策生成和执行。

1) 决策生成。这是多模态CoT方法的第一步，涉及理解、分析问题并制定推理计划。现有的确定方法包括将问题分解为子问题[53]，捕获图像中的场景图[32]，寻找相关图像中的相似性和差异[49]等[41, 44]。它们试图在文本层面简化问题或在视觉层面增加更多上下文信息。

2) 执行。在这个阶段，模型执行前一确定阶段安排的特定操作。具体来说，模型将计划转化为实际解决方案。现有的执行方法通常依赖于各种专门的API工具或视觉-语言模型（VLMs），前者强调任务执行的特定性[31, 41]，后者强调任务执行的普遍性[44, 53]。

尽管这些多模态CoT方法提高了视觉推理任务的性能，但仍有局限性：首先，在做出决策时，现有方法通常直接将纯文本输入到LLMs中，而不考虑视觉上下文[17, 44, 53]。直观上，这增加了LLMs对问题的发散性思维，但实际上，它可能导致“确定性幻觉”。如图1(a)所示，如果问题本身与图像没有密切关系，仅基于文本询问“这个班级测量的最高量是多少？”，LLM（GPT-3.5）不清楚“这个班级”具体指的是什么。它将回答提供的信息不足，并开始猜测“班级”是指物理中的度量单位还是编程中的类。这种感知不确定性可能导致LLMs做出与问题无关或甚至错误的决策，误导后续执行并导致完全无关的答案。

其次，在执行期间，现有方法通常通过调用外部工具来执行任务，因为MLLMs仍然无法解决许多视觉推理任务[17, 31, 32, 38, 44]。但这些工具大多是低级视觉感知工具（检测器、识别器、OCR等），只能提取低级视觉信息。如图1(b)所示，当比较溶液中粒子的数量时，它们只提供粒子的位置，而无法推断出它们的数量关系等高级信息。它们进一步将这些低级线索输入到LLMs中进行组织和总结[17, 32, 53]。当复杂线索增加时，这无疑增加了LLMs在长文本推理上的负担。同时，随着许多外部工具的使用，它也增加了流程的复杂性。

Cantor：激发MLLM的多模态思维链 -AI.x社区

图 1. (a) 决策生成中视觉信息的比较：询问GPT-3.5（没有视觉上下文）会导致由于图像不清晰而产生的“确定性幻觉”。Cantor（带有标题）通过标题引入视觉上下文，不会遇到这个问题。Cantor（带图像）甚至更精确，提高了任务分配的合理性。(b) 不同视觉工具的比较：传统方法中使用的低级专业感知工具仅获得基本数据。由MLLM扮演的高级通用认知专家获得对象数量关系，使直接和后续推理成为可能。

为了解决上述局限性，我们提出了一个新颖的多模态CoT框架，Cantor。在决策生成中，我们使MLLM或LLM作为合唱团中的Cantor，同时处理视觉和文本上下文，以全面理解，然后为由单个MLLM扮演的“专家”分配特定任务，以进行高级逻辑问题解决。具体来说，在决策生成期间，我们详细分析了视觉信息在确定阶段的重要性。这包括有或没有视觉信息的确定质量，以及详细或简洁视觉信息对确定的影响差异。最终，我们得出结论，视觉信息在决策生成阶段至关重要。当我们使用MLLM模型（如Gemini）作为决策生成器时，我们直接将图像输入到模型中，以完全理解问题并对其进行深思熟虑。然而，当使用LLM模型（如GPT-3.5）时，我们发现提供更详细的图像标题更有助于理解问题。此外，决策生成器需要明确提供解释性决策，包括问题解决策略、调用专家的原因以及每个专家的具体任务执行。因此，它指导MLLM作为定制专家（如ObjectQuant定位器、TextIntel提取器、VisionIQ分析师和ChartSense专家）为过程中的子任务提供确定性答案。如图1(a)所示，当使用LLM做出决策时，在详细标题的指导下，模型知道它正在询问烧杯的最大体积，并做出正确的决策。当图像对MLLM可用时，决策更清晰，即要求VisionIQ分析师提取杯壁顶部的数字。在执行期间，我们观察到MLLM是一个先进的认知工具，它在直接获取高级信息（例如，相对位置和数量）方面比获取检测位置等低级视觉信息表现得更好。这种高级信息对多模态CoT更为优越。Cantor不是使用几个外部工具，而是通过不同的专家身份和任务指令，将不同任务分配给单个MLLM，探索MLLM作为某些专家的专业潜力。定制专家直接提供高级专业信息，从而减少了后续综合推理的负担。如图1(b)所示，当比较绿色粒子的浓度时，我们首先需要比较两个瓶子中粒子的数量。MLLM作为ObjectQuant定位器，直接比较两种溶液中的数量变化。与获取粒子位置相比，MLLM更准确地获得了数量关系的结果。这个结果直接应用于最终答案的进一步推理。

我们提出的框架Cantor在ScinceQA[29]和Mathvista[30]上都取得了最先进的结果。当Gemini用作决策生成器时，Cantor分别获得了4.11%和5.9%的准确率提升。在Cantor中使用GPT-3.5也实现了2.24%和9.2%的准确率提升。在我们的所有实验中，我们只使用一个MLLM（Gemini）扮演多个专家的角色，执行具有不同要求的不同子任务。

我们的贡献如下：

• 我们提出了一个鼓舞人心的多模态CoT框架，名为Cantor，它以感知决策架构为特色，有效地整合了视觉上下文和逻辑推理，以解决视觉推理任务。

• 我们利用MLLM的先进认知能力，扮演多方面的专家，获取高级信息，并显著增强CoT生成。

• 我们证明了Cantor在两个具有挑战性的基准测试中的有效性，大大超过了现有的对手。

2. 相关工作

2.1 多模态大型语言模型

最近的研究显示，多模态大型语言模型（MLLMs）[6, 10, 11, 33, 37, 39, 47, 48]的发展是将大型语言模型（LLMs）的高级推理能力与视觉-语言模型（VLMs）的能力相结合的产物。这些模型通过整合视觉和语言信息，在多模态任务中取得了显著的性能提升。特别是，在将视觉和文本表示与对比视觉和语言模型连接方面取得了重大进展[13, 23, 36]，但它们在处理需要生成组件或对视觉和语言进行更精细推理的下游任务时遇到了限制。为了克服这些限制，MLLM通过直接推断嵌入式视觉特征[1, 2, 7, 9, 24, 54]，将LLM的推理和生成能力扩展到视觉领域。此外，MLLMs通过微调视觉指令进一步提高性能[28]。

这些进步不仅展示了MLLM处理复杂多模态信息的能力，而且还为通过丰富的多模态信息实现通用人工智能（AGI）提供了新的可能性。通过整合LLM的文本推理能力与视觉语言模型的图像理解能力，MLLM可以在多种模态中实现深入的理解和表达，处理如图像字幕和视觉问题回答等复杂任务。开源MLLMs如LLaVA[28]展示了这些能力，而闭源模型如GPT4-V[34]和Gemini[40]在捕捉场景上下文、推理和创造力方面迈出了更大的一步。尽管对于特定任务，这些闭源模型可能不直接具备能力或微调。然而，提示学习在一定程度上可以克服这些限制。本文致力于探索CoT[43]技术，以增强MLLM捕捉复杂视觉场景完整上下文的能力，从而进一步加强其推理能力。

2.2 工具增强型语言模型

近年来，尽管大型语言模型（LLMs）表现出色，但它们并非没有固有的局限性。这些包括获取最新信息的挑战[21]、无法使用特定工具[31, 38]以及执行复杂推理过程的困难[29, 30]。与此同时，研究人员越来越感兴趣于使用外部工具和模块化方法，通过提示和上下文学习来增强LLM。这些增强的LLM可以利用不同的外部工具为LLM提供更多功能并获得更多知识。一些工作[5, 12, 17, 19]利用提示生成可以由计算机执行的复杂程序，调用不同的工具更有效地执行逻辑推理任务。例如，PaLI-X-VPD[17]通过生成多个候选程序，通过外部工具执行程序并验证其正确性，提取了LLM的推理能力。它将每个正确的程序转换为推理步骤的语言描述，形成CoT。此外，一些工作提出了基准测试（如API Bank[25]、ToolQA[55]和MetaTool[18]）来评估LLM工具使用的有效性。本文主要强调增强MLLM的工具使用能力。

2.3 多模态CoT推理

LLMs和MLLMs越来越受欢迎。尽管它们自身的能力越来越强，但良好的提示方法仍然是充分发挥它们能力的关键。思维链（CoT）是提高LLM推理能力的一种方法，CoT的核心是鼓励LLM以人类思维方式明确它们的推理，具体是在获得答案之前添加逻辑思考过程。在NLP领域，CoT已经得到了广泛的研究[8, 15, 42, 51]。Jason Wei等人[43]通过简单地将问题解决思路直接添加到上下文示例中，显著提高了LLM的推理能力。随后，研究人员主要关注如何自动化构建CoT以减少手动注释和更复杂的结构，如思维树（ToT）[45]和思维图（GoT）[3, 22, 46]。

同时，在多模态CoT方面也取得了惊人的进展。MM-CoT[52]首先提出了一个使用文本和图像对作为输入的两阶段推理框架，首先生成理由，然后生成答案。随后的工作[14, 14, 41, 53]大多基于这个框架，专注于设计特殊视觉-语言特征融合机制以增强多模态信息交互。然而，这些CoT提示方法需要在自然语言推理的真值上进行微调，这需要注释和计算成本高昂。基于这个问题，研究人员提出了其他不需要手动注释和训练的CoT方法。一方面，它们充分挖掘文本信息。例如，DD-CoT[53]进一步完善了生成CoT的过程。它没有引入视觉信息，而是使用LLM将问题分解成多个相关子问题，然后逐个回答每个子问题以形成CoT。另一方面，研究人员致力于通过各种手段增强视觉信息。例如，CoCoT[49]通过比较图像之间的相似性和差异来捕捉图像特征，而CCoT[32]通过解构图像中的目标和属性来获取场景图以协助理由生成。我们方法与这些方法的关键区别在于，在挖掘文本信息时，我们提前引入视觉信息，使决策更加合理和事实。此外，我们通过调用多个专家更全面地增强视觉信息。最后，Cantor也是一种不需要训练或手动注释的方法，因此它具有强大的通用性和便利性。本文强调增强MLLM的专家使用能力。考虑到MLLM具有多模态通用能力，它自然适合担任各种专家。因此，本文将赋予MLLM各种身份，并探索其扮演专家的能力。

3. 方法

为了解决多模态CoT在解决视觉推理任务中的局限性，我们提出了Cantor，它引入了视觉信息以做出正确的决策，并使用单个MLLM充当多个专家，以适应广泛的问题的需要。我们描述了Cantor的框架（第3.1节）。然后，我们详细介绍了我们的两步方法：首先是决策生成（第3.2节），其次是执行（第3.3节）。

3.1. 预备知识

Cantor由两个阶段组成：决策生成和执行，如图2所示。在Cantor的决策生成阶段，Cantor的输入包括X = {I, T, Pin}，其中I表示视觉输入（图像或标题），T表示文本输入，代表问题陈述及其上下文的串联，Pin代表生成决策的提示。正式地，给定输入查询X，生成决策P如下：Pout = F(X)，其中F表示决策生成器（LLM或MLLM）。特别地，Pout = {R, O, St}，其中R表示原则分析，O表示模块选择与推理，St表示分配给专家模块的任务。具体示例，请参见图2中间的蓝色部分。

在执行模块化阶段，从决策Pout和图像I派生的多个子任务St = {st1, st2...stn}共同发送到相应的专家模块，以获得子答案Sa = {sa1, sa2, ..., san}。过程如下：Sa = G(St, I)，其中G表示各种专家（MLLM）。这个过程对应于图2右下角紫色部分的执行模块化阶段。然后在执行综合阶段，我们将子任务和子答案串联起来形成辅助信息S = {St, Sa}，并设计答案生成提示E。最后，输入更新后的输入X' = {I, T, S, E}并推断最终答案A = F(X')，其中F表示答案生成器（LLM或MLLM），如图2右上角所示。

Cantor：激发MLLM的多模态思维链 -AI.x社区

图 2. Cantor的概述和一个具体示例。Cantor通过决策生成器分析图像和问题，提供问题的原则分析，并提供模块选择与推理以及具体的任务分配。随后，MLLM充当各种专家模块来执行子任务。最后，Cantor通过答案生成器进行综合和思考，提供最终答案。

（注释：Cantor是一个多模态思维链框架，旨在增强大型多模态语言模型（MLLMs）的决策能力。其工作原理可以分解为几个关键步骤，结合了视觉信息和逻辑推理来解决复杂的视觉推理问题。

1. 决策生成（Decision Generation）：

- 在这一阶段，Cantor使用决策生成器来分析问题和图像。

- 决策生成器会进行原理分析（Principle Analysis），即对问题进行初步理解，并确定解决问题所需的基本原理。

- 然后，Cantor进行模块选择与推理（Module Selection & Reason），决定需要哪些专家模块来帮助解决问题。

- 最后，Cantor进行任务分配（Task Allocation），为每个选定的专家模块分配具体的任务。

2. 执行模块化（Execution-Modularization）：

- 在这一阶段，MLLM作为不同的专家模块执行分配的子任务。

- 每个专家模块针对其特定的任务进行操作，比如“TextIntel Extractor”提取文本信息，“ObjectQuant Locator”比较粒子数量等。

3. 执行综合（Execution-Synthesis）：

- 完成所有子任务后，Cantor进入执行综合阶段。

- 在这一阶段，Cantor将所有子任务和得到的子答案进行综合，形成辅助推理的补充信息。

4. 答案生成（Answer Generation）：

- 最后，Cantor通过答案生成器进行最终的综合和思考。

- 答案生成器结合问题、选项和补充信息，生成最终答案。

以图片中的具体示例来解释Cantor的工作原理：

- 问题涉及到比较两个样本（Sample A和Sample B）的温度，已知它们的粒子平均速度相同，但质量不同。

- 在决策生成阶段，Cantor确定需要使用“TextIntel Extractor”来提取样本中粒子的质量和速度信息，以及使用“ObjectQuant Locator”来比较两个样本中粒子的数量。

- 在执行模块化阶段，MLLM作为专家模块执行以下任务：

- “TextIntel Extractor”提取出Sample A的质量为44单位，速度为1,400米/秒；Sample B的质量为46单位，速度也为1,400米/秒。

- “ObjectQuant Locator”确定两个样本中的粒子数量相同。

- 在执行综合阶段，Cantor综合这些信息，并利用动能公式（1/2mv^2）来比较两个样本的平均动能，从而推断出哪个样本具有更高的温度。

- 最终，在答案生成阶段，Cantor得出结论：Sample B由于质量更大，即使速度相同，也会拥有更多的动能，因此温度更高。

通过这种方法，Cantor能够有效地结合视觉信息和逻辑推理，解决复杂的视觉推理问题，提供准确的答案。）

3.2. 第1步：决策生成

我们的第一步是生成考虑到并部署问题决策的Pout。请注意，我们正在研究无监督视觉推理任务，这涉及让模型为问题生成相应的决策而无需真实情况[44, 49]。此外，为了标准化和准确性，我们采用了少量设置提示，为模型提供决策生成提示Pin，其中包括决策生成的要求、可调用模块的特点以及几个手动编写的决策示例。

让我们详细介绍Cantor的决策生成过程以及提示Pin的具体组成部分：

1. 担任决策生成器。我们用“你是一个高级问答代理，需要四个专业模块来帮助分析和回应有关图像的查询”来提示LLM或MLLM，使其能够在Cantor中充当决策生成器。

2. 专家模块揭晓。如图2的专家模块所示。我们为Cantor提供了每个专家模块的详细特点信息，目的是在决策生成阶段根据解决问题的原则分配任务给每个专家模块，如下：TextIntel提取：该模块提取并转换图像中的文本为可编辑文本格式。它特别适用于包含文本和图形元素混合的图像。ObjectQuant定位器：该模块识别并定位图像中的对象。它在比较数量和识别空间关系方面非常先进。VisionIQ分析师：该模块处理并解释视觉数据，使你能够提出与图像内容相关的任何查询。ChartSense专家：该模块专门分析和解释图表和图形中的信息。它可以提取数据点，了解趋势，并识别图表中的关键组件，如标题、轴、标签和图例。

3. 原理分析和模块选择与推理。我们提示Cantor“为你回答问题的方法提供理由，解释你将如何使用图像和模块中的信息来形成一个全面的答案”，对问题进行整体评估和模块分析。

4. 任务分配。我们提示“根据他们的功能，按需为每个模块分配特定任务，以收集准确回答问题所必需的额外信息。”，要求Cantor选择必要的模块并分配它们相应的特定任务。

5. 上下文洞察和实际应用。我们引入了一些上下文示例以增强Cantor对我们提示的理解，确保其响应符合期望的格式。详细的实例在补充材料中提供以供进一步参考。

然后，我们输入需要解决的具体问题及其上下文细节，使Cantor能够制定微妙的决策。图2左半部分的蓝色部分显示了一个具体的决策生成示例。

上述五个部分结合形成最终的决策生成提示Pin。随后，Pin与视觉输入I和文本输入T一起，构成了Cantor第一阶段的完整输入，提示Cantor提供深思熟虑的决策Pout。

决策生成方法代表了我们工作的核心新贡献。最初，LLM或MLLM被用作决策生成器，充当大脑。接下来，集成了一系列专业专家模块，增强了决策生成，具有类似肢体的多样化能力。这种整合确保了决策生成既全面又细致，利用每个模块的优势。之后，决策生成器根据原则分析中获得的洞察力为选定的专家模块定制任务。这种动态任务分配增强了Cantor的效率和有效性。最终，引入上下文示例使MLLM能够学习和参考，从而进一步提高决策生成的准确性和适应性。值得注意的是，在决策生成阶段而不是执行阶段提前引入视觉上下文，有效地缓解了确定性幻觉。

3.3. 第2步：执行

在Cantor中，执行阶段可以分为两个阶段，执行模块化和执行综合。

前者通过调用各种专家模块并提供辅助信息来完成决策生成阶段分配的子任务。后者总结了执行模块化阶段的各种辅助信息，并通过合理和详细的思考生成最终答案。

执行模块化。我们调用专家模块来执行决策生成阶段分配的各种子任务。特别地，我们首先从Pout中提取子任务St = {st1, st2...stn}。接下来，我们按顺序找到与子任务sti对应的专家模块，并将子任务sti作为提示输入到专家中，例如：“ObjectQuant定位器：哪个样本有更多的颗粒？”。随后，我们获得子任务答案sai，例如，“它们的数量相同”，如图2右下角所示。

象征性地，我们输入由MLLM扮演的专家，子任务sti和图像I，MLLM提供了子任务的执行结果。过程如下：sai = G(I, sti)，其中G(·)表示MLLM扮演专家，sai表示子任务的答案。在执行子任务时，我们只使用一个MLLM来扮演不同的专家模块。这不仅简化了方法的流程，而且旨在充分利用MLLM的高级认知能力。

执行综合。我们将获得的子任务和子任务答案进行串联和总结，以获得辅助推理的辅助信息S，如下：S = {[st1, sa1] · [st2, sa2] · ... · [stn, san]}。值得注意的是，在答案生成阶段，我们引入了答案生成提示E，其中包括生成答案的提示和格式化要求，如下：“你是一个知识渊博且精通信息整合的科学专家。请根据给定的问题、选项和补充信息逐步思考并回答问题。请注意，我们不仅需要答案，更重要的是，我们需要获得答案的理由。请结合你的知识和补充信息来获得推理和答案。请优先使用你的知识回答问题。如果无法回答，请保持批判性思维，并选择有效信息来帮助你选择最正确的选项作为答案。此外，请不要仅依赖补充信息，因为提供的补充信息可能并不总是有效的。”

这包括三个关键点。首先，我们使用提示让Cantor扮演一个知识渊博且擅长整合信息的答案生成器的角色。这不仅确保了其专业性和对问题的基本判断能力，而且还确保了它能够更好地整合执行模块化阶段获得的信息。其次，为了提高可解释性，展示Cantor的思考过程并提高其思考能力，我们要求Cantor首先回答基本原则，然后生成相应的选项，如图2中的粉色框所示。最后，我们要求Cantor保持理性和批判性，确保它不仅仅依赖于从执行模块化阶段获得的信息。这种方法促进了更加平衡和全面的执行综合过程。

4.实验（略）

5. 结论

在本文中，我们介绍了一个鼓舞人心的多模态思维链框架，名为Cantor，旨在增强MLLMs的决策能力。通过深入探讨视觉信息在决策生成过程中的关键作用，本文强调了在决策阶段整合视觉线索的重要性，有效减轻了LLMs可能出现的幻觉问题。Cantor框架的新颖之处还在于其能够使MLLM模拟特定领域的专家角色，获取高级信息，从而促进更合理和深入的推理过程。在涉及复杂视觉推理任务的ScienceQA和MathVista挑战性基准测试中，Cantor展现出了显著的适应性和有效性，证明了其在解决各个领域现实世界推理问题方面的强有力潜力。

Gao T, Chen P, Zhang M, et al. Cantor: Inspiring Multimodal Chain-of-Thought of MLLM[J]. arXiv preprint arXiv:2404.16033, 2024.

本文转载自公众号AIRoobt ，作者：AIRoobt

原文链接:https://mp.weixin.qq.com/s/h2cTwcjoTLDO1BdD6f90SA

标签

多模态思维链

51CTO

51CTO博客

51CTO学堂

Cantor：激发MLLM的多模态思维链原创

1. 引言

2. 相关工作

2.1 多模态大型语言模型

2.2 工具增强型语言模型

2.3 多模态CoT推理

3. 方法

3.1. 预备知识

3.2. 第1步：决策生成

3.3. 第2步：执行

4.实验（略）

5. 结论

目录

51CTO

51CTO博客

51CTO学堂

Cantor​：激发MLLM的多模态思维链 原创

1. 引言

2. 相关工作

2.1 多模态大型语言模型

2.2 工具增强型语言模型

2.3 多模态CoT推理

3. 方法

3.1. 预备知识

3.2. 第1步：决策生成

3.3. 第2步：执行

4.实验（略）

5. 结论

目录

Cantor：激发MLLM的多模态思维链原创