多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_ai


文章链接:https://arxiv.org/pdf/2411.02359

项目链接:https://github.com/yueyang130/DeeR-VLA

亮点直击

  • 提出动态早退出机制 DeeR:框架基于动态神经网络的思想,能自动调整 MLLM 模型的大小,根据机器人面临的实际情况动态激活模型所需的层数,减少不必要的计算消耗。
  • 实现高效的资源利用:DeeR 在推理过程中对不同复杂度的情境适应性地分配计算资源,简单场景下使用较小的模型以节省资源,复杂场景下则调用更大的模型。
  • 灵活的计算成本控制:DeeR 提供了可调的早退出准则,用户可以根据计算资源的需求(如功耗、延迟或 GPU 内存使用)在线调整终止标准,实现灵活的资源管理。
  • 性能优化与资源节约显著:在 CALVIN 基准测试中,DeeR 实现了计算成本 5.2-6.5 倍的降低。

与其他 SOTA 方法相比,在仅使用 2GB GPU 内存的条件下保持竞争力。这表明 DeeR 能在资源有限的平台上高效运行,有望推动多模态大模型在机器人领域的广泛应用。

一、总结速览

1、解决的问题

当前多模态大模型 (MLLMs) 在理解复杂人类指令并执行各种任务方面展现出强大能力,但在实际机器人中的应用受限于其对计算能力和内存的高需求,难以在资源有限的机器人平台上有效运行。

2、提出的方案

提出了一个动态早退出框架,称为DeeR-VLA (Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model) ,能够根据不同情境自动调整激活模型的大小,从而减少不必要的计算负担。此方案采用多出口结构,允许模型在适当的时机结束处理,避免冗余计算。

3、应用的技术

  • 多出口架构:使得模型可在特定情境下提前结束处理,减少计算消耗。
  • 早退出算法:根据预设的计算资源需求(如平均计算成本、峰值计算消耗及 GPU 内存使用)制定早终止标准,确保 DeeR 在不同资源限制下高效运行。
  • 时间信息集成的训练方法:在多出口架构上集成时间信息以合理预测动作。

4、达到的效果

在 CALVIN 机器人操作基准测试中,DeeR 实现了 5.2-6.5 倍的计算成本降低和 2-6 倍的 GPU 内存消耗减少,同时保持了性能不变。这些提升使得 DeeR 能在资源有限的条件下高效运行。

二、动态早退出的机器人 MLLM

MLLM 强大的任务指令理解和视觉定位能力展示了其在语言指导的多任务机器人操作方面的巨大潜力。然而,现有工作通常计算量巨大,因为机器人动作是通过推理 MLLM 的所有层来获得的。在每个时间步,这一过程可能会激活数十亿的参数,导致大量的计算和内存需求,从而带来显著的延迟和功耗。这些低效通常是实际机器人应用的重要瓶颈。

概述 通过利用一个有趣的观察来解决这个问题:在控制机器人完成各种任务的过程中,相对“简单”的情境占据了大部分,这些情境通常只需要较小的模型即可获得正确的机器人动作(如下表 1 所示)。受这一现象的启发,本文提出了机器人 MLLM 的动态早退出方法 (DeeR),旨在通过为每种情况动态采用适当的 MLLM 大小来提高机器人 MLLM 系统的计算效率。具体而言,首先开发了一种具有多个中间出口的新型 MLLM 架构。因此,给定一个输入,一旦激活了足够数量的模型参数,就可以立即获取适当的机器人动作,从而避免进一步的冗余计算。然后,在任意指定的平均计算成本和峰值计算成本或 GPU 内存开销的需求下,为 DeeR 建立了早终止准则。最后,提出了本文模型的定制训练算法,展示了如何在这一动态网络的基础上集成时间信息并合理预测机器人动作。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_ai_02

1、机器人多出口架构

首先引入了一个具有多个中间出口的 MLLM 架构,能够根据机器人面临的不同情况动态调整 MLLM 的大小。

基本架构 在收到语言指令 后,机器人在时间步 从传感器(例如本文中的相机提供的 RGB 图像)接收观察结果 并预测一个动作 以执行。为了正确预测动作,机器人不仅要充分理解语言指令,还需要从图像中提取与任务相关的信息。基于现有工作,通过使用预训练的 MLLM(例如 Flamingo)来处理和集成视觉和语言输入,从而获得用于决策的融合多模态特征。

基本 MLLM 主要由视觉编码器 和 LLM 组成。视觉编码器 包含一个 Vision Transformer (ViT)和一个 Perceiver Resampler ,用于将输入图像 编码为一系列信息丰富的标记。为了实现多模态融合,在视觉编码器 生成的视觉表示之上建立了一个 LLM。将预训练的、冻结的仅文本 LLM 的自注意力块与新引入的可学习的交叉注意力块交替排列,这些交叉注意力块会交叉关注视觉标记。这一配置使得原始 MLLM 能够作为一个有效的多模态特征提取器θ,形式化如下:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_LLM_03

其中, 表示长度为 的输入语言指令tokens,而输出 表示 MLLM 在时间步 的最后一层的隐藏状态序列。值得注意的是,尽管 LLM 在多模态特征集成方面表现有效,但它们依赖于数十亿的参数,导致了高昂的计算成本和内存占用。

带有中间退出的视觉语言模型 通过引入一个带有中间退出的模型,动态调整 LLM 的大小以适应机器人所遇到的每种情况的特定需求。具体来说,将 LLM 层分为 个连续的组,记为。每个组 输出一个中间隐藏状态序列。当计算在第 个中间出口处终止时,应用一个最大池化操作符 来在标记维度上汇聚信息,从而得到一个紧凑的表示,有效地概括了图像 和指令。这一表示作为随后的动作预测模块的输入。通过这样的多出口 MLLM 架构,可以在不同层级的 LLM 处理中获得一系列信息丰富的表示。这能够根据情况的复杂性动态选择最合适的 LLM 大小,而无需激活超过选择出口的参数。多出口 MLLM 结构如下图 2 所示。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_ai_04

通过动作头预测机器人动作 在 LLM 处理到适当层级后,第 个中间出口的输出 通过一个轻量级的动作头转化为低层次的动作。本文以 7 自由度(DoF)末端执行器的动作作为低层次动作的代表示例,其中前六个连续维度指定了末端执行器的位置和姿态,第七个离散值指示夹爪是打开还是闭合。值得注意的是,由于决策环境通常被表征为部分可观测的马尔可夫决策过程 (POMDP),最优决策不仅依赖于当前的观察,还依赖于历史观察。因此,使用序列模型作为动作头 来在大小为 的历史窗口中汇聚信息。本文以轻量级的 LSTM为例。在 LSTM 顶层是两个不同的 MLP 模块:一个用于预测末端执行器的姿态,另一个用于预测夹爪的离散状态。轻量级的动作头 以最小的计算开销高效地计算动作。

机器人动作的提前终止推理 在装备了动作头后,假设定义了一个准则,以确定从当前时间步 所需的适当大小的 LLM 进行条件退出的最优点。所选择出口的索引,记为,范围从 1 到。因此,利用来自第 个 LLM 块的特征 来计算当前时间步的预测动作,具体如下:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_LLM_05

其中, 表示 LSTM 的隐藏状态,初始状态 设置为零向量。预测的动作 包含姿态动作和夹爪动作。

2、自适应推理

本节展示了 DeeR 如何在预定义的计算和 GPU 内存限制下,通过自适应地激活适当大小的 MLLM 来高效地执行机器人任务。首先讨论 DeeR 所使用的终止准则,该准则旨在在较简单的场景中激活较小的模型,而在更具挑战性的条件下激活较大的模型。接下来,探讨一种有效的资源分配策略,以应对计算和 GPU 内存的限制。DeeR 的推理过程如下图 1 所示。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_AI大模型_06

终止准则 正如相关研究所述,许多先前的研究利用基于置信度的准则来决定何时终止,通常涉及 SoftMax 输出的最大元素或熵等指标。在案例中,由于目标是动作预测且没有直接使用 SoftMax 输出,采用了一种不同的方法,即利用相邻中间特征的动作预测一致性作为准则。其基本直觉是,如果来自不同大小的 MLLM 的动作预测保持一致,则表明计算模型可能已达到饱和,进一步处理不太可能带来显著改进。对于给定的时间步,在范围 中找到满足以下动作一致性条件的最小,并将其作为终止出口:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_人工智能_07

忽略 的隐藏状态输出,仅比较预测动作之间差异的 L2 范数与预定义阈值 的关系。始终将 设置为无穷大,以确保所有样本都能退出。当 时,使用 LLM 层的输入特征作为。

预算任务执行在给定计算和内存预算限制的情况下,手动设置最佳阈值 以确保机器人 MLLM 策略在符合预算的情况下达到最佳性能可能具有挑战性。相对而言,本文提出通过构建优化问题来确定这些值。本文采用预算任务执行设置,要求 DeeR 在总计算预算 内执行一组任务。为确保每个动作在可接受的等待时间内交付,对峰值计算设置约束。此外,为适应用户可能无法使用大内存 GPU 的情况,将 GPU 内存使用限制为。令 表示任务 的成功率, 表示在指定约束下执行这些任务的计算成本。此外, 表示所有时间步中的峰值 FLOPs,而 表示任务执行期间的 GPU 内存使用量。通过解决以下优化问题来寻求最优阈值:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_大模型_08

满足以下约束条件:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_人工智能_09

由于成功率函数 的不可微性,可以利用启发式算法来求解在计算约束下最大化成功率的阈值。在两种情况下确定最佳阈值的策略:一种是仅能访问示例数据集,另一种允许真实环境交互。

使用示例数据集求解问题(4)。用 表示样本在达到退出点时满足终止条件并在该点退出的概率。当仅访问示例数据集时,假设 q 在所有层中是恒定的。这意味着在退出点 i 退出的样本比例可以表示为,其中 z 是一个归一化常数,用以确保。这里, 表示满足峰值 GFLOPs 和 GPU 内存约束的最大允许退出索引。在索引大于 n 的退出点的样本比例设为零。在测试时,必须遵守计算预算约束:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_ai_10

其中, 表示要执行的任务数,L 表示从数据集统计中得出的任务平均长度,且 表示当 LLM 推理在第 i 个退出点终止时的计算成本。方程 (5) 允许求解 q 并确定。使用这些目标比例 对于每个退出点,在数据集上确定阈值,以确保大约 的时间步在第 i 个退出点退出。

使用在线交互求解。如果可以与真实环境交互,可以利用在线学习算法,通过关于成功率的反馈逐步调整阈值。为了在预算约束下求解方程 (4),实现了贝叶斯优化。构造的贝叶斯优化目标函数如下,以最大化:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_ai_11

3、训练算法

训练动态机器人 MLLM 并非易事。特别是,网络架构的动态调整导致了训练和推理之间的差异。在推理过程中,使用确定性的标准在每个时间步选择适当的中间特征。然而,在训练过程中,没有明确定义的终止标准,而且不知道特征在各个出口之间的分布。为了有效地集成时间信息,提出了一个量身定制的训练算法。

使用任意大小的模型进行学习为了减少上述差异,在训练期间引入了一种简单而有效的随机采样策略。如上面图 1 右侧的“螺旋”曲线所示,本文的方法涉及在每个时间步从 1 到 的出口索引中进行采样。实现了两种采样策略:

  • 策略 :此策略在每个时间步均匀地从 1 到 中采样一个出口索引。这确保了在训练期间,来自所有可能出口的特征都会被动作头捕获。它模拟了在给定时间窗口内,动作头可能会遇到来自不同出口的特征,从而使模型能够适应任意的推理模式并减少训练和推理之间的差异。
  • 策略 :在实际应用中,动态模型通常会在多个连续的时间步中在同一出口终止,因为相邻的观测值往往是相似的。此策略在训练期间更好地模拟了这种模式。将时间窗口 分割成两个连续的子段 和,其中 是随机选择的。在每个子段中,统一采样的索引在所有时间步中保持一致。

通过这两种采样策略,可以定义训练损失函数。对于从机器人示范数据集中采样的每个样本,有一个语言指令 和一组观测-动作对。对于每个采样策略,预测每个动作,其中 且,在公式 (2) 中将 替换为采样策略。

对于每个预测的动作 和实际的动作,定义一个单步动作损失函数,该函数结合了姿态预测的均方误差(MSE)和夹爪状态预测的交叉熵损失,并使用平衡系数 来调整两者之间的权重。序列的总损失则是所有时间步的损失之和:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_人工智能_12

辅助损失 来自原始 MLLM 的中间特征,作为后续层的输入,可能并不是最适合用于输出预测的。为了确保在本文的框架中,每个激活的 MLLM 大小都能生成适合预测动作的特征,引入了辅助损失。具体而言,在各个出口处附加了 个辅助动作头(在图 1 中标记为 UAH)。第 个辅助头处理来自第 个出口的时间特征并预测动作。

通过以下损失函数联合训练辅助头和 MLLM:

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_AI大模型_13

总损失 完整的训练流程如图 1 所示。仅微调 MLLM 中感知器采样器和交叉注意力层的参数,同时保持随机初始化的动作头 和辅助动作头不变。视觉编码器和其他 LLM 组件保持冻结状态。训练过程的总损失表达式为:

三、实验

设置 本节进行实验验证 DeeR 作为一种高效机器人策略的有效性。基于 RoboFlamingo++ 代码库构建 DeeR。为了公平比较,保留了 RoboFlamingo++ 中的超参数,唯一的区别是 LLM 层数和提出的动态早期退出范式。将 DeeR 在预算与性能之间进行比较,涉及类似规模的 RoboFlamingo++ 模型和其他最先进的基准。

效率衡量 在现代基础模型中,LLM 通常在 MLLM 中扮演着关键角色,负责推理和问题解决任务,且通常包含了模型的大部分参数。本文主要聚焦于提高 LLM 在机器人领域的效率。为了方便进行针对性的比较,实验中报告了 LLM 推理过程中的浮点运算数(FLOPs)和 GPU 内存使用量。

基准测试 使用 CALVIN 长时域多任务语言控制基准(LH-MTLC)作为测试平台,测试学习到的多任务、语言条件策略。在 CALVIN 中,目标是让智能体成功完成任务序列,每个任务序列包含五个子任务,并用自然语言描述。根据以往的工作[10, 12, 13, 9],模型的性能是通过在 1000 个任务序列中,成功完成的任务数的平均值来评估的(范围从 0 到 5)。

数据集 CALVIN 数据集分为四个环境分割,分别标记为 A 到 D,每个分割都有独特的背景和物体配置。每个分割包含超过 200 万个机器人操作轨迹(称为 “ALL”)。其中,大约 1%(约 2.4 万个轨迹)带有语言指令(称为 “LANG”)。在训练 DeeR 时,仅使用 “LANG” 数据。在本文的研究中,为了全面评估其模仿和泛化能力,在以下三种设置下评估模型:

  1. D→D:在单一环境中训练和评估。
  2. ABC→D:零样本多环境。
  3. ABCD→D:多环境。

基准模型 为了进行全面比较,考虑了多个基准模型。包括了 HULC 和 SPIL 作为依赖于层次化规划和技能先验的代表方法。此外,还评估了使用预训练或基础模型的模型,例如 RT-1、SuSIE 、GR-1 和 RoboFlamingo。RoboFlamingo++ 是重新实现的 RoboFlamingo。

1、主要结果

Flamingo 3B的结果 Flamingo 3B的实验结果如下图3所示。在每个CALVIN设置中,仅训练了一个模型。在给定预定义的总计算预算、最大浮点运算数 和GPU内存 后,通过调整终止阈值来遵守这些预算,终止阈值通过解方程(4)并使用CALVIN数据集来确定。然后,评估DeeR在不同阈值下的平均成功长度,并绘制曲线。可以观察到,DeeR始终能在所有设置中减少LLM的计算成本。例如,在设置D→D中,DeeR在平均成功长度为2.71的情况下,平均FLOPs减少了5.9倍,最大FLOPs和GPU内存分别减少了2倍。令人惊讶的是,DeeR-S在仅使用2GB内存的情况下,仍能实现相对较高的性能,这对于大多数用户来说是可承受的。因此,DeeR展示了使更广泛的用户能够高效地使用LLM操作机器人系统的潜力。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_LLM_14

与最先进基准的比较 下表2中,将DeeR模型与最近的最先进方法进行了基准测试,特别是在CALVIN基准测试中。通过分析表明,DeeR与使用额外本体感知信息的最新SOTA模型GR-1相比,达到了具有竞争力的性能。与没有使用基础模型的传统模仿学习方法相比,DeeR表现出更优越的性能,特别是在泛化场景(ABC→D)中。此外,DeeR在减少计算的同时,稍微优于RoboFlamingo。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_人工智能_15

2、通过在线交互求解阈值

当可以与环境进行交互时,使用贝叶斯优化来求解方程(4)。如上表2所示,发现通过在线交互求解阈值,在低数据环境(D→D)和对未见情况的泛化(ABC→D)等挑战性场景中特别有效。

3、DeeR的可扩展性

在OpenFlamingo 9B 之上开发了DeeR,以评估其在扩展基础模型时的效率。下图4中的结果表明,DeeR在保持相同性能的情况下,减少了1.8至5.7倍的计算量,并且峰值FLOPs和内存减少了2.7到4.0倍。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_大模型_16

4、可视化

下图5展示了DeeR的滚动效果以及终止点。具有较高退出索引的情况被DeeR视为“更难”的任务,因此会分配更多的计算资源。可以观察到,“困难”情况通常涉及相对复杂和精细的操作,而“简单”情况通常涉及朝目标物体的直接移动。例如,在堆叠积木的任务中(第1行),从桌面提起蓝色积木(第1张图)并将其放置到粉色积木上(第4和第5张图)需要更多的计算,而简单地朝粉色积木移动(第2和第3张图)只需要最小的LLM来处理。在第2行和第3行中也观察到类似的情况,朝目标物体移动的阶段需要的计算量最小,而推动灯泡开关或移动滑动门则是复杂的操作,需要更多的LLM处理。

多模态大模型在具身智能领域里程碑工作!清华&字节开源DeeR-VLA:让算力内存双降_LLM_17

四、结论与局限性

本文提出了用于机器人MLLM的动态提前退出(DeeR)框架,旨在根据机器人代理所遇到的每个情况的具体需求动态配置MLLM的大小。具体来说,提出了一种新型的具有多个中间退出的MLLM架构。此外,为DeeR建立了基于动作一致性的提前终止标准,并通过数据集或在线交互解决阈值问题。本文设计了一种定制的训练方法,将时间信息集成到这个多退出框架中,以增强机器人控制能力。大量的机器人实验表明,DeeR显著减少了LLM的计算成本和GPU内存使用,突显了其在资源受限的平台上帮助更广泛的用户管理机器人操作的潜力。

尽管本文的研究显示了有希望的结果,但也存在一些局限性。本文专注于提高机器人执行中的LLM效率,因为LLM占据了大部分参数和GFLOPs。然而,视觉编码器的计算成本也是显著的。随着更高效、轻量级的视觉编码器的开发,这一局限性将得到缓解。此外,本文的实验仅限于一个模拟基准。未来的工作将致力于改善整个基于MLLM的机器人系统在真实环境中的推理效率。

参考文献

[1] DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution