#Wonderland
单张图像探索3D奇境:让高质量3D场景生成更高效
本文的主要作者来自多伦多大学、Snap Inc.和UCLA的研究团队。第一作者为多伦多大学博士生梁汉文和Snap Inc.的曹军力,他们专注于视频生成以及3D/4D场景生成与重建的研究,致力于创造更加真实、高质量的3D和4D场景。团队成员期待与更多志同道合的研究者们交流与合作。
在人类的认知中,从单张图像中感知并想象三维世界是一项天然的能力。我们能直观地估算距离、形状,猜想被遮挡区域的几何信息。然而,将这一复杂的认知过程赋予机器却充满挑战。最近,来自多伦多大学、Snap Inc. 和 UCLA 的研究团队推出了全新的模型 ——Wonderland,它能够从单张图像生成高质量、广范围的 3D 场景,在单视图 3D 场景生成领域取得了突破性进展。
- 论文地址: https://arxiv.org/abs/2412.12091
- 项目主页:https://snap-research.github.io/wonderland/
技术突破:从单张图像到三维世界的关键创新
传统的 3D 重建技术往往依赖于多视角数据或逐个场景 (per-scene) 的优化,且在处理背景和不可见区域时容易失真。为解决这些问题,Wonderland 创新性地结合视频生成模型和大规模 3D 重建模型,实现了高效高质量的大规模 3D 场景生成:
- 向视频扩散模型中嵌入 3D 意识:通过向视频扩散模型中引入相机位姿控制,Wonderland 在视频 latent 空间中嵌入了场景的多视角信息,并能保证 3D 一致性。视频生成模型在相机运动轨迹的精准控制下,将单张图像扩展为包含丰富空间关系的多视角视频。
- 双分支相机控制机制:利用 ControlNet 和 LoRA 模块,Wonderland 实现了在视频生成过程中对于丰富的相机视角变化的精确控制,显著提升了多视角生成的视频质量、几何一致性和静态特征。
- 大规模 latent-based 3D 重建模型(LaLRM):Wonderland 创新地引入了 3D 重建模型 LaLRM,利用视频生成模型生成的 latent 直接重构 3D 场景(feed-forward reconstruction)。重建模型的训练采用了高效的逐步训练策略,将视频 latent 空间中的信息转化为 3D 高斯点分布(3D Gaussian Splatting, 3DGS),显著降低了内存需求和重建时间成本。凭借这种设计,LaLRM 能够有效地将生成和重建任务对齐,同时在图像空间与三维空间之间建立了桥梁,实现了更加高效且一致的广阔 3D 场景构建。
效果展示 — 视频生成
基于单张图和 camera condition,实现视频生成的精准视角控制:
,时长00:06
,时长00:06
,时长00:06
,时长00:06
Camera-guided 视频生成模型可以精确地遵循轨迹的条件,生成 3D-geometry 一致的高质量视频,并具有很强的泛化性,可以遵循各种复杂的轨迹,并适用于各种风格的输入图片。
更多的例子:
不同的输入图片,同样的三条相机轨迹,生成的视频:
,时长00:11
,时长00:11
给定输入图片和多条相机轨迹,生成视频可以深度地探索场景:
效果展示 —3D 场景生成
基于单张图,利用 LaLRM, Wonderland 可以生成高质量的、广阔的 3D 场景:
(以下展示均为从建立的3DGS Rendering出的结果)
基于单张图和多条相机轨迹,Wonderland 可以深度探索和生成高质量的、广阔的 3D 场景:
,时长00:07
,时长00:12
,时长00:12
,时长00:07
卓越性能:在视觉质量和生成效率等多个维度上表现卓越
Wonderland 的主要特点在于其精确的视角控制、卓越的场景生成质量、生成的高效性和广泛的适用性。实验结果显示,该模型在多个数据集上的表现超越现有方法,包括视频生成的视角控制、视频生成的视觉质量、3D 重建的几何一致性和渲染的图像质量、以及端到端的生成速度均取得了优异的表现:
- 双分支相机条件策略:通过引入双分支相机条件控制策略,视频扩散模型能够生成 3D-geometry 一致的多视图场景捕捉,且相较于现有方法达到了更精确的姿态控制。
- Zero-shot 3D 场景生成:在单图像输入的前提下,Wonderland 可进行高效的 3D 场景前向重建,在多个基准数据集(例如 RealEstate10K、DL3DV 和 Tanks-and-Temples)上的 3D 场景重建质量均优于现有方法。
- 广覆盖场景生成能力:与过去的 3D 前向重建通常受限于小视角范围或者物体级别的重建不同,Wonderland 能够高效生成广范围的复杂场景。其生成的 3D 场景不仅具备高度的几何一致性,还具有很强的泛化性,能处理 out-of-domain 的场景。
- 超高效率:在单张图像输入的问题设定下,利用单张 A100,Wonderland 仅需约 5 分钟即可生成完整的 3D 场景。这一速度相比需要 16 分钟的 Cat3D 提升了 3.2 倍,相较需要 3 小时的 ZeroNVS 更是提升了 36 倍。
应用场景:视频和 3D 场景内容创作的新工具
Wonderland 的出现为视频和 3D 场景的创作提供了一种崭新的解决方案。在建筑设计、虚拟现实、影视特效以及游戏开发等领域,该技术展现了广阔的应用潜力。通过其精准的视频位姿控制和具备广视角、高清晰度的 3D 场景生成能力,Wonderland 能够满足复杂场景中对高质量内容的需求,为创作者带来更多可能性。
未来展望
尽管模型表现优异,Wonderland 研发团队深知仍有许多值得提升和探索的方向。例如,进一步优化对动态场景的适配能力、提升对真实场景细节的还原度等,都是未来努力的重点。希望通过不断改进和完善,让这一研发思路不仅推动单视图 3D 场景生成技术的进步,也能为视频生成与 3D 技术在实际应用中的广泛普及贡献力量。
#vivo万字综述探讨大模型手机自动化
手机「自动驾驶」大揭秘
1. 导言
你是否想过,手机能像电影钢铁侠中的智能管家贾维斯那般,一句话就能顺畅自如地完成各种复杂任务。
最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品,让曾经的幻想逐渐有了可行性。
vivo 作为行业领跑者,在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT",能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢,被网友们称作 “i 人救星”。
图 1 vivo PhoneGPT订座(蓝心小V对话或小V主界面下滑探索-智能体广场体验)
与此同时,各大厂家似乎提前约好一样,都瞄准了一句话订咖啡的场景,颇有当年乔布斯使用初代 iPhone 订星巴克的即视感。更有坊间戏称,今年秋天第一杯咖啡是手机智能体帮你点的。
图 2 vivo PhoneGPT订咖啡(蓝心小V对话或小V主界面下滑探索-智能体广场体验)
尽管行业发展迅速,最近关于手机 AI 智能体的论文井喷,相关技术路线迭代发展迅速,但这一领域仍缺少系统性的综述。此次 vivo AI Lab 联合香港中文大学 MMLab 等团队发布了 “大模型驱动的手机 AI 智能体” 综述论文,该论文长达 48 页,覆盖 200 余篇文献,对基于大模型的手机自动操作智能体相关技术展开了全面且深入的研究,希望给学界和产业界作为参考,共同推进行业发展。
- 论文标题:LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
- 论文地址:https://www.preprints.org/manuscript/202501.0413/v1
1.1 研究背景
- 手机 GUI 自动化旨在通过编程模拟人类与手机界面的交互,以完成复杂任务,传统方法包括自动化测试、快捷指令和机器人流程自动化(RPA),但存在通用性、灵活性、维护成本、意图理解和屏幕感知等方面的挑战。
- 大语言模型(LLM)的出现为手机自动化带来了新的范式,基于 LLM 的手机 GUI 智能体能够理解自然语言指令,感知界面并执行任务,有望实现更智能、自适应的自动化操作。
1.2 研究目的
- 系统总结 LLM 驱动的手机 GUI 智能体的研究成果,包括框架、模型、数据集和评估方法。
- 分析 LLM 在手机自动化中的应用现状,探讨其优势和面临的挑战。
- 指出未来研究的方向,为相关领域的研究人员和从业者提供参考。
1.3 主要贡献
图 3 大模型驱动的手机 GUI 智能体文献分类
- 对 LLM 驱动的手机 GUI 智能体进行全面系统的综述,涵盖发展轨迹、核心技术和应用场景。
- 提出多视角的方法论框架,包括框架设计、模型选择与训练、数据集与评估指标。
- 深入分析 LLM 赋能手机自动化的原因,探讨其在自然语言理解、推理和决策等方面的优势。
- 介绍和评估最新进展、数据集和基准,为研究提供资源支持。
- 识别关键挑战并提出未来研究的新视角,如数据集多样性、设备端部署效率和安全问题。
2. 手机自动化的发展历程
2.1 LLM 时代之前的手机自动化
- 自动化测试:为解决手机应用复杂度增加带来的测试难题,经历了从随机测试到基于模型的测试、基于学习的测试,再到强化学习测试的发展,但仍面临测试覆盖范围、效率、成本和模型泛化能力等挑战。
- 快捷指令:如 Tasker 和 iOS Shortcuts,通过预定义规则或触发条件实现任务自动化,但范围和灵活性有限。
- 机器人流程自动化(RPA):在手机上模拟人类执行重复性任务,但在处理动态界面和脚本更新方面存在困难。
2.2 传统方法的挑战
- 通用性有限:传统方法针对特定应用和界面,难以适应不同应用和动态环境,缺乏灵活性和上下文适应能力。
- 维护成本高:编写和维护自动化脚本需要专业知识,且随着应用更新,脚本需频繁修改,耗时费力,入门门槛高限制了用户使用。
- 意图理解能力差:基于规则和脚本的系统只能执行预定义任务,难以理解复杂自然语言指令,无法满足用户多样化需求。
- 屏幕 GUI 感知能力弱:传统方法难以准确识别和交互不同应用中的各种 GUI 元素,对动态内容和复杂界面的处理能力有限。
2.3 LLM 推动手机自动化
图 4 大模型驱动的手机 GUI 智能体发展里程碑
- 发展历程与里程碑:LLM 在手机自动化中的应用不断演进,通过自然语言理解、多模态感知和推理决策能力的提升,逐步实现更复杂任务的自动化。
- LLM 解决传统挑战的方式
- 上下文语义理解:从大量文本语料库学习,理解复杂语言结构和领域知识,准确解析多步骤命令。
- 屏幕 GUI 多模态感知:利用多模态感知能力,统一文本和视觉感知信息,实现对屏幕元素的准确定位和交互。
- 推理和决策制定:基于语言、视觉上下文和历史交互进行复杂推理、多步骤规划和上下文感知适应,提高任务执行成功率。
2.4 新兴商业应用
- Apple Intelligence:2024 年 6 月推出,集成 AI 能力到 iOS、iPadOS 和 macOS,通过智能总结、优先级通知和上下文感知回复增强通信、生产力和专注功能,保障用户隐私和安全。
- vivo PhoneGPT:2024 年 10 月推出,OriginOS 5 操作系统中的个人 AI 助手,具备自主拆解需求、主动规划路径、实时环境识别和动态反馈决策的能力,能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢等任务。
- Honor YOYO Agent:2024 年 10 月发布,适应用户习惯和复杂指令,通过语音或文本命令自动化多步骤任务,如购物比价、自动填表、定制饮品和会议静音,提升用户体验。
- Anthropic Claude Computer Use:2024 年 10 月推出 Claude 3.5 Sonnet 模型的 Computer Use 功能,使 AI 智能体能像人类一样操作计算机,观察屏幕、移动光标、点击按钮和输入文本,改变人机交互范式。
- Zhipu.AI AutoGLM:2024 年 10 月推出,通过简单命令模拟人类操作智能手机,如点赞评论、购物、订票和点餐,能导航界面、解读视觉线索并执行任务,展示 LLM 驱动的手机自动化在商业应用中的潜力。
3. 手机 GUI 智能体框架
3.1 基本框架
图 5 大模型驱动的手机 GUI 智能体基础框架
- 感知模块
- UI 信息:包括 UI 树(如 DroidBot - GPT 将其转换为自然语言句子)、截图(如 AutoUI 依赖截图进行 GUI 控制)、Set - of - Marks(用于标注截图,如 MM - Navigator)和 Icon & OCR 增强(如 Mobile - Agent - v2 集成 OCR 和图标数据)。
- 手机状态:如键盘状态和位置数据,用于上下文感知操作。
- 大脑模块
- 存储:包括记忆(如记录历史屏幕任务相关内容)和知识(来自预训练知识、领域特定训练和知识注入)。
- 决策制定:包括规划(如 Mobile - Agent - v2 的规划智能体生成任务进度)、推理(可以利用 Chain - of - thought 增强推理能力)和反思(如 Mobile - Agent - v2 的反思智能体评估决策并调整)。
- 行动模块:通过执行触摸交互、手势操作、输入文本、系统操作和媒体控制等类型的动作,实现与手机 UI 和系统功能的交互,确保决策转化为设备上的实际操作。
3.2 多智能体框架
图 6 多智能体框架分类
- 角色协调多智能体框架(Role-Coordinated Multi-Agent Framework):如 MMAC - Copilot 中多个具有不同功能的智能体协作,包括规划、决策、记忆管理、反思和工具调用等,通过预定义工作流程共同完成任务。
- 基于场景的任务执行框架(Scenario-Based Task Execution Framework):如 MobileExperts 根据特定任务场景动态分配任务给专家智能体,每个智能体可以具有针对特定场景(如购物、编码、导航)的能力,提高任务成功率和效率。
3.3 计划 - 然后 - 行动框架(Plan-Then-Act Framework)
- 如 SeeAct、UGround、LiMAC 和 ClickAgent 等工作展示了该框架的有效性,通过先生成动作描述,再根据动作描述定位到要操作的控件位置,提高了任务执行的清晰度、可靠性和适应性,允许独立改进规划和 UI 定位模块。
4. 用于手机自动化的大语言模型
图 7 模型分类
4.1 提示工程(Prompt Engineering)
图 8 提示词设计
- 纯文本提示词(Text-Based Prompt):主要架构为单文本模态 LLM,通过解释 UI 树信息进行决策,如 DroidBot - GPT、Enabling Conversational 等,在不同应用中有一定进展,但存在对屏幕的全局信息理解利用不足等问题。
- 多模态提示词(Multimodal Prompt):多模态大语言模型(MLLM)集成视觉和文本信息,通过截图和补充 UI 信息进行决策,包括基于 SoM 输出索引方法(如 MM - Navigator、AppAgent)和直接坐标输出方法(如 VisionTasker、Mobile - Agent 系列),提高了准确性和鲁棒性,但在 UI 定位准确性方面仍面临挑战。
4.2 基于训练的方法(Training-Based Methods)
- GUI 任务专用模型架构(Task Specific Model Architectures)
- 通用目的:如 Auto - GUI、CogAgent、ScreenAI、CoCo - Agent 和 MobileFlow 等,旨在增强直接 GUI 交互、高分辨率视觉识别、全面环境感知和条件行动预测能力,以应对不同应用和界面的任务。
图 9 不同的 UI 理解任务
- 特定领域:专注于屏幕理解任务,包括 UI 定位(如 LVG、UI - Hawk)、UI 引用(如 Ferret - UI、UI - Hawk)和屏幕问答(如 ScreenAI、WebVLN、UI - Hawk),通过特定技术提升智能体在复杂用户界面中的交互能力。
- 监督微调(Supervised Fine-Tuning)
- 通用目的:通过在特定任务数据集上微调,增强模型在 GUI 定位、OCR、跨应用导航和效率等方面的能力,如 SeeClick、GUICourse、GUI Odyssey 和 TinyClick 等工作。
- 特定领域:应用于特定任务,如 ReALM 解决参考分辨率问题,IconDesc 用于生成 UI 图标替代文本,提高了模型在特定领域的性能。
- 强化学习(Reinforcement Learning)
- 手机智能体:如 DigiRL、DistRL 和 AutoGLM,通过强化学习训练智能体适应动态手机环境,提高决策能力和成功率,AutoGLM 还实现了跨平台应用。
- 网页智能体:ETO、Agent Q 和 AutoWebGLM 利用强化学习使智能体适应复杂网页环境,通过学习交互和改进决策,提高在网页导航和操作任务中的性能。
- Windows 智能体:ScreenAgent 通过强化学习使智能体在 Windows 环境中与真实计算机屏幕交互,完成多步骤任务,展示了在桌面 GUI 自动化中的潜力。
5. 数据集和基准
5.1 相关数据集
表1 数据集
- 早期数据集:如 PixelHelp 将自然语言指令映射到 UI 动作,UIBert 通过预训练提升 UI 理解,Meta - GUI 收集对话与 GUI 操作痕迹,UGIF 解决多语言 UI 指令跟随问题,MoTIF 引入任务可行性和不确定性。
- 大规模数据集:Android In The Wild(AITW)和 Android In The Zoo(AITZ)提供大量设备交互数据,GUI Odyssey 用于跨应用导航训练和评估,AndroidControl 研究数据规模对智能体性能的影响,AMEX 提供详细注释增强智能体对 UI 元素的理解。
5.2 基准
表 2 Benchmarks
- 评估方法(Evaluation Pipelines):MobileEnv 提供通用训练和评估平台,AndroidArena 评估 LLM 智能体在复杂 Android 环境中的性能,LlamaTouch 实现移动 UI 任务的设备端执行和评估,B - MoCA 评估不同配置下的移动设备控制智能体,AndroidWorld 提供动态可参数化任务环境,MobileAgentBench 为移动 LLM 智能体提供高效基准,AUITestAgent 实现自动 GUI 测试,AndroidLab 提供系统框架和基准。
- 评估指标(Evaluation Metrics)
- 任务完成指标:如任务完成率、子目标成功率和端到端任务完成率,评估智能体完成任务的有效性。
- 行动执行质量指标:包括行动准确性、正确步骤、正确轨迹、操作逻辑和推理准确性,衡量智能体行动的精确性和逻辑性。
- 资源利用和效率指标:如资源消耗、步骤效率和反向冗余比,评估智能体资源利用效率。
- 任务理解和推理指标:如 Oracle 准确性、点准确性、推理准确性和关键信息挖掘能力,考察智能体的理解和推理能力。
- 格式和合规性指标:验证智能体输出是否符合格式约束。
- 完成意识和反思指标:评估智能体对任务边界的识别和学习能力。
- 评估准确性和可靠性指标:确保评估过程的一致性和可靠性。
- 奖励和整体性能指标:如任务奖励和平均奖励,综合评估智能体性能。
6. 挑战与未来方向
6.1 数据集开发与微调可扩展性
- 现有数据集缺乏多样性,未来需开发大规模、多模态且涵盖广泛应用、用户行为、语言和设备类型的数据集。
- 解决微调在域外性能方面的挑战,探索混合训练方法、无监督学习、迁移学习和辅助任务,以减少对大规模数据的依赖。
6.2 轻量级和高效的设备端部署
- 克服移动设备在计算和内存方面的限制,采用模型剪枝、量化和高效 transformer 架构等方法,如 Octopus v2 和 Lightweight Neural App Control 的创新。
- 利用专门硬件加速器和边缘计算解决方案,减少对云的依赖,增强隐私保护并提高响应速度。
6.3 用户中心适应:交互与个性化
- 提高智能体对用户意图的理解能力,减少手动干预,支持语音命令、手势和持续学习用户反馈。
- 实现智能体的个性化适应,通过集成多种学习技术,使其快速适应新任务和用户特定上下文,无需大量重新训练。
6.4 模型定位、推理等能力提升
- 改进语言指令到 UI 元素的精确映射,集成先进视觉模型、大规模注释和有效融合技术,提升多模态定位能力。
- 增强智能体在复杂场景中的推理、长程规划和适应性,开发新架构、内存机制和推理算法,超越当前 LLM 能力。
6.5 标准化评估基准
- 建立统一的基准,覆盖多种任务、应用类型和交互模态,提供标准化指标、场景和评估协议,促进公平比较和全面评估。
6.6 确保可靠性和安全性
- 开发强大的安全协议、错误处理技术和隐私保护方法,防范对抗攻击、数据泄露和意外行为,保护用户信息和信任。
- 实施持续监测和验证过程,实时检测和缓解风险,确保智能体行为可预测、尊重隐私并在各种条件下保持稳定性能。
7. 总结
- 综述了 LLM 驱动的手机自动化技术发展,包括多种框架(单智能体、多智能体、计划 - 然后 - 行动)、模型方法(提示工程、基于训练)和数据集 / 基准。
- 分析了 LLM 在提升手机自动化效率、智能性和适应性方面的作用,以及面临的挑战和未来发展方向。
- 强调了标准化基准和评估指标对推动领域发展的重要性,有助于公平比较不同模型和方法。
展望未来,随着模型架构改进、设备端推理优化和多模态数据集成,基于大模型的手机 GUI 智能体有望在复杂任务中实现更高自主性,融合更多 AI 范式,为用户提供无缝、个性化和安全的体验。
#黄仁勋圈重点的世界模型平台是个啥
AI 的下一个前沿是物理。在昨天的 CES 发布会上,英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。
简单来说,Cosmos 是一个世界模型平台,上面有一系列开源、开放权重的视频世界模型,参数量从 4B 到 14B 不等。这些模型的作用非常明确,就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据,以解决该领域数据严重不足的问题。
,时长02:22
英伟达的 Cosmos 平台一次发布了 8 个模型。
这些模型在 2000 万小时的视频数据上进行训练,分为扩散(连续 token)和自回归(离散 token)模型两类,支持文本生成视频和文本 + 视频生成视频两种生成方式。
生成效果如下:
英伟达表示,已经有许多领先的机器人和汽车公司成为 Cosmos 的首批用户,包括 1X、Agile Robots、Agility、Uber 等等。
黄仁勋表示:「机器人技术的 ChatGPT 时刻即将到来。与大型语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车开发至关重要,但并非所有开发者都具备训练自己的世界模型的专业知识和资源。我们创建 Cosmos 是为了让物理 AI 普及化,让每个开发者都能用上通用机器人技术。」
Cosmos 模型已经公开发布,下面是相关地址:
- 英伟达 API 目录:https://build.nvidia.com/explore/simulation
- Hugging Face:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
除了模型,英伟达还公开了 Cosmos 的技术报告。从贡献者名单来看,华人学者承担了该项目的大量工作,有些小组(比如 Prompt Upsampler)甚至出现了全员华人的现象(文末可见完整名单)。
技术报告地址:https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf
以下是技术报告的核心内容。
技术报告概览
技术报告主要介绍了用于构建物理 AI 的 Cosmos 世界基础模型(WFM)平台。作者主要关注的是视觉世界基础模型。在这种模型中,观察结果以视频形式呈现,扰动可以以各种形式存在。
如图 2 所示,作者提出了一个预训练,然后后训练的范式,将 WFM 分成预训练 WFM 和后训练 WFM。为了建立预训练 WFM,他们利用大规模的视频训练数据集,让模型接触到各种不同的视觉体验,使其成为一个通才。
为了建立后训练 WFM,他们使用从特定物理 AI 环境中收集的数据集,对预训练 WFM 进行微调,以建立专门的 WFM,用于目标明确的专门物理 AI 设置。图 1 展示了预训练和后训练 WFM 的结果示例。
数据决定了 AI 模型的上限。为了构建一个高上限的预训练 WFM,作者开发了一个视频数据整理 pipeline。他们用它来定位具有丰富动态效果和高视觉质量的视频部分,以促进模型学习编码在视觉内容中的物理知识。
作者使用该 pipeline 从长达 2000 万小时的视频集合中提取了约 1 亿个视频片段,片段长度从 2 秒到 60 秒不等。对于每个片段,他们使用视觉语言模型(VLM)为每 256 帧提供一个视频描述。视频处理是计算密集型工作。作者利用现代 GPU 硬件实现的 H.264 视频编码器和解码器进行解码和转码。这个视频数据整理 pipeline 利用了许多预训练的图像 / 视频理解模型。这些模型具有不同的吞吐量。为了最大限度地提高生成可训练视频数据的总体吞吐量,作者构建了一个基于 Ray 的协调 pipeline。
在报告中,作者探讨了两种用于构建预训练 WFM 的可扩展方法。这两种方法是基于 transformer 的扩散模型和自回归模型。扩散模型通过逐步去除高斯噪声视频中的噪声来生成视频。自回归模型基于之前的生成内容,按照预设顺序逐段生成视频。
这两种方法都能将困难的视频生成问题分解为更容易解决的子问题,从而使问题更加容易解决。作者利用 SOTA transformer 架构来提高其可扩展性。在第 5.1 节中,他们介绍了一种基于 Transformer 的扩散模型设计,它具有强大的世界生成能力。在第 5.2 节中,他们介绍了一种基于 Transformer 的自回归模型设计,用于生成世界。
基于 Transformer 的扩散模型和基于 Transformer 的自回归模型都使用 token 来表示视频,前者使用向量形式的连续 token,后者使用整数形式的离散 token。作者注意到,视频 token 化 —— 一个将视频转换为 token 集的过程 —— 是一个非常复杂的过程。视频包含丰富的视觉世界信息。然而,为了便于学习世界基础模型,我们需要将视频压缩为紧凑的 token 序列,同时最大限度地保留视频中的原始内容,因为世界基础模型训练的计算复杂度会随着 token 数量的增加而增加。在很多方面,构建视频 tokenizer 与构建视频编解码器类似。作者开发了一种基于注意力的编码器 - 解码器架构,用于学习连续和离散 token 的视频 token 化(见第 4 章)。
在第 6 章中,作者对预训练的 WFM 进行微调,以获得适用于各种物理 AI 任务的后训练 WFM。在第 6.1 节中,作者对预训练的扩散 WFM 进行微调,使其成为相机姿态条件。这种后训练创建了一个可导航的虚拟世界,用户可以通过移动虚拟视点来探索所创建的世界。在第 6.2 节中,他们在由视频动作序列组成的各种机器人任务中对 WFM 进行微调。结果表明,通过利用预训练的 WFM,可以根据机器人采取的行动更好地预测世界的未来状态。在第 6.3 节中,作者演示了如何针对各种自动驾驶相关任务对预训练的 WFM 进行微调。
英伟达开发的 WFM 的预期用途是物理 AI 构建者。为了在使用 WFM 时更好地保护开发人员,作者开发了一个功能强大的防护系统,其中包括一个用于阻止有害输入的前置防护系统和一个用于阻止有害输出的后置防护系统。详情见第 7 章。
英伟达的目标是建立一个世界基础模型平台,帮助物理 AI 构建者推进他们的系统。为了实现这一目标,他们根据 NVIDIA 开放模型许可,分别在 NVIDIA Cosmos 和 NVIDIA Cosmos Tokenizer 目录下提供预训练的世界基础模型和 tokenizer。预训练脚本和后训练脚本将与视频数据整理 pipeline 一起在 NVIDIA Nemo Framework 目录下提供,以帮助构建者制作微调数据集。
- NVIDIA Cosmos:https://github.com/NVIDIA/Cosmos
- NVIDIA Cosmos Tokenizer:https://github.com/NVIDIA/Cosmos-Tokenizer
- NVIDIA Nemo Framework:https://github.com/NVIDIA/Nemo
世界基础模型平台
设𝑥_0:𝑡为从时间 0 到𝑡对现实世界的一系列视觉观察,𝑐_𝑡为世界的扰动。如图 3 所示,WFM 是一个为 W 的模型,它基于过去的观察
, 和当前的扰动 c_t 来预测时间 t+1 的未来观察
。在示例中,𝑥_0:𝑡 是 RGB 视频,而 𝑐_𝑡 是一种可以采取多种形式的扰动。它可以是物理 AI 采取的动作、随机扰动、扰动的文本描述等。
图 4 直观地展示了 Cosmos WFM 平台中可用的功能,包括视频 curator、视频 tokenization、世界基础模型预训练、世界基础模型后训练和护栏(guardrail)。
具体而言:
视频 curator。本文开发了一个可扩展的视频数据 pipeline。每个视频被分割成没有场景变化的独立镜头。随后,对这些片段应用一系列过滤步骤,以筛选出高质量且富含动态信息的子集用于训练。这些高质量镜头随后使用视觉语言模型(VLM)进行标注。接着执行语义去重,以构建一个多样但紧凑的数据集。
视频 tokenization。本文开发了一系列具有不同压缩比的视频 tokenizer。这些 tokenizer 是因果性的,当前帧的 token 计算不依赖于未来的观测。这种因果设计有几个优点。在训练方面,它使得联合图像和视频训练成为可能,因为当输入是单张图像时,因果视频 tokenizer 也可以作为图像 tokenizer 使用。这对于视频模型利用图像数据集进行训练非常重要,因为图像数据集包含了丰富的世界外观信息,并且往往更加多样化。
WFM 预训练。本文探索了两种可扩展的方法来构建预训练的世界基础模型 —— 扩散模型和自回归模型。
- 对于基于扩散的 WFM,预训练包括两个步骤:1)Text2World 生成的预训练,以及 2)Video2World 生成的预训练;
- 对于基于自回归的 WFM,预训练包括两个步骤:1)基础的下一 token 生成,以及 2)文本 - 条件 Video2World 生成。
世界模型后训练。本文展示了经过预训练的 WFM 在多个下游物理 AI 应用中的应用。本文以相机姿态作为输入提示对预训练的 WFM 进行微调,因而模型能够在创建的世界中自由导航。此外,本文还展示了如何针对人形机器人和自动驾驶任务对预训练 WFM 进行微调。
护栏。为了安全使用所开发的世界基础模型,本文开发了一个护栏系统,用于阻止有害的输入和输出。
Tokenizer
tokenizer 是现代大模型的基本构建块,能将原始数据转换为更有效的表征。具体来说,视觉 tokenizer 将原始和冗余的视觉数据(例如图像和视频)映射为紧凑的语义 token,这使得它们对于处理高维视觉数据至关重要。这种能力不仅能够有效训练大规模 Transformer 模型,而且还使有限计算资源上的推理民主化。
tokenizer 有两种类型:连续型和离散型。连续型 tokenizer 将视觉数据编码为连续的潜在嵌入,如 Stable Diffusion 或 VideoLDM 等潜在扩散模型。这些嵌入适用于通过从连续分布中采样生成数据的模型。离散 tokenizer 将视觉数据编码为离散潜在编码,将其映射为量化索引,如 VideoPoet 等自回归 transformer。这种离散表征对于像 GPT 这样用交叉熵损失训练的模型来说是必要的。
tokenizer 的成功在很大程度上依赖于它们提供高压缩率而不影响后续视觉重建质量的能力。一方面,高压缩减少了存储和计算需求。另一方面,过度压缩可能会导致重要视觉细节丢失。这种权衡对 tokenizer 的设计提出了重大挑战。
英伟达推出了 Cosmos Tokenizer,这是一组视觉 tokenizer,其中包括用于图像和视频的连续和离散 tokenizer。Cosmos Tokenizer 提供卓越的视觉重建质量和推理效率。并提供一系列压缩率来适应不同的计算限制和应用程序需求。
英伟达使用轻量级且计算高效的架构和时间因果机制来设计 Cosmos Tokenizer。具体来说,Cosmos Tokenizer 采用因果时间卷积层和因果时间注意力层来保留视频帧的自然时间顺序,确保使用单一统一网络架构对图像和视频进行无缝 tokenization。
如图 8 所示,评估结果表明,Cosmos Tokenizer 的性能明显优于现有 tokenizer:
世界基础模型预训练
经过预训练的 WFM 是通才模型,可以捕捉现实世界物理和自然行为的一般知识。本文利用两种不同的可扩展深度学习范式 —— 扩散模型和自回归模型,构建了两类 WFM。
扩散模型和自回归模型都将复杂的生成问题分解为一系列更简单的子问题,并极大地推动了生成模型的发展。
对于扩散模型,复杂的生成问题被分解为一系列去噪问题;而对于自回归模型,复杂的生成问题则被分解为一系列下一个 token 预测问题。
本文在三个月的时间内,使用一个由 10,000 个 NVIDIA H100 GPU 组成的集群,训练了论文中报告的所有 WFM。
表 10 展示了预训练 WFM 及其配套模型的概览。
对于基于扩散的 WFM 家族,本文首先构建了两个 Text2World 模型,分别为 7B 和 14B 参数,分别命名为 Cosmos-1.0-Diffusion-7B-Text2World 和 Cosmos-1.0-Diffusion-14B-Text2World。
对于基于自回归的 WFM 家族,本文首先构建了两个基础模型,分别为 4B 和 12B 参数,命名为 Cosmos-1.0-Autoregressive-4B 和 Cosmos-1.0-Autoregressive-12B。这些模型纯粹基于当前视频观测预测未来视频。
Cosmos-1.0-Diffusion WFM 的整体架构:
Cosmos-1.0-Diffusion 模型的配置细节。
本文采用渐进式训练策略,每个阶段的具体情况见表 12:
基于自回归的 WFM 架构如图 14 所示。本文对标准的 Transformer 模型架构进行了几项修改,以适应视频生成任务,包括添加了:1)3D 感知的位置嵌入,2)交叉注意力机制以支持文本输入,从而实现更好的控制,以及 3)QK-Normalization。
Cosmos-1.0-Autoregressive 模型配置细节。
技术报告演示了如何微调 Cosmos WFM 以支持不同的物理 AI 应用,包括:
以用于相机控制的后训练 WFM 为例,通过相机姿态调节,英伟达将相机控制集成到 Cosmos-1.0-Diffusion-7B-Video2World 中,使其成为有效的 3D 世界模拟器。训练后的 WFM 结果被称为 Cosmos-1.0-Diffusion-7BVideo2World-Sample-CameraCond。
为了安全使用 WFM,英伟达还开发了一套全面的安全系统(护栏)。它由两个阶段组成:Pre-Guard 阶段和 Post-Guard 阶段。Pre-Guard 阶段利用 Aegis(Ghosh 等人,2024)和关键字列表来阻止有害提示。Post-Guard 阶段使用视频内容安全分类器和面部模糊过滤器来阻止有害的视觉输出。
核心贡献者
论文最后还列出了贡献者名单,占据了整整一页的篇幅。
名单分为核心贡献者和贡献者,粗略看下来,华人学者几乎占据了半壁江山。在这份名单中,我们看到了许多熟悉的研究者,比如:
平台架构唯一贡献者 Ming-Yu Liu,他是 NVIDIA 的研究副总裁和 IEEE Fellow。他现在领导 NVIDIA 的深度想象研究(Deep Imagination Research)团队,专注于深度生成模型及其在内容创作中的应用。
多次出现名字的凌欢,是 Nvidia Toronto AI Lab 的人工智能科学家。博士毕业于多伦多大学 PhD,博士期间师从 Sanja Fidler 教授。他的研究方向主攻大规模图像视屏生成模型,和生成模型在计算机视觉领域的应用。
完整名单如下所示,里面有你熟悉的学者吗?
#MeCo
除了提升数据效率之外,本文方法 MeCo 保证了计算开销与复杂性也几乎不会增加。
普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文,这次将重点放在了「使用元数据来加速预训练」上来。
我们知道,语言模型通过在大量网络语料库上进行训练来实现卓越的通用能力。多样性训练数据凸显了一个根本性挑战:人们自然地根据数据源来调整他们的理解,与之不同,语言模型将所有内容作为等效样本来处理。
这种以相同方式处理异构源数据的做法会带来两个问题:一是忽略了有助于理解的重要上下文信号,二是在专门的下游任务中阻碍模型可靠地展示适当的行为,比如幽默或事实。
面对以上这些挑战,并为了提供每个文档来源的更多信息,陈丹琦团队在本文中提出通过在每个文档之前添加广泛可用的源 URL,从而在预训练期间使用文档相应的元数据进行调节。并且为了确保模型在推理过程中无论有无元数据都能高效地运行,在最后 10% 的训练中实施了冷却(cooldown)。他们将这种预训练方法称为 Metadata Conditioning then Cooldown(MeCo)。
先前的工作中已经有人使用元数据条件来引导模型生成并提高模型对恶意提示的稳健性,但研究者通过关键的两点确认了所提方法的通用实用性。首先,他们证明这一范式可以直接加速语言模型的预训练并提高下游任务性能。其次,MeCo 的冷却阶段确保模型在没有元数据的情况下可以执行推理,这点与以往的方法不同。
本文的主要贡献包括如下:
一、MeCo 大大加速了预训练过程。研究者证明,MeCo 使得 1.6B 的模型在少用 33%训练数据的情况下,实现与标准预训练模型相同的平均下游性能。MeCo 在模型规模(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)表现出了一致的增益。
二、MeCo 开辟了一种引导模型的新方法。在推理过程中,在提示之前添加合适的真实或合成 URL 可以诱导期望的模型行为。举个例子,使用「factquizmaster.com」(并非真实 URL)可以增强常识知识任务的性能,比如零样本常识问题绝对性能可以提升 6%。相反,使用「wikipedia.org」(真实 URL)可以将有毒生成的可能性比标准无条件推理降低数倍。
三、MeCo 设计选择的消融实验表明,它能与不同类型的元数据兼容。使用散列 URL 和模型生成主题的消融实验表明,元数据的主要作用是按照来源对文档进行分组。因此,即使没有 URL,MeCo 也可以有效地合并不同类型的元数据,包括更细粒度的选项。
研究结果表明,MeCo 可以显著提高语言模型的数据效率,同时几乎不会增加预训练过程的计算开销和复杂性。此外,MeCo 提供了增强可控性,有望创建更可控的语言模型,并且它与更细粒度和创造性的元数据的普遍兼容性值得进一步探索。
总之,作为一种简单、灵活、有效的训练范式,MeCo 可以同时提高语言模型的实用性和可控性。
- 论文标题:Metadata Conditioning Accelerates Language Model Pre-training
- 论文地址:https://arxiv.org/pdf/2501.01956v1
- 代码地址:https://github.com/princeton-pli/MeCo
论文一作高天宇(Tianyu Gao)还在评论区与读者展开了互动,并回答了一个问题「MeCo 是否需要平衡过拟合和欠拟合」。他表示,本文的一个假设是 MeCo 进行隐式数据混合优化(DoReMi、ADO)并上采样欠拟合和更多有用域。
OpenAI 一位研究人员 Lucas Beyer 表示,他很久之前就对视觉语言模型(VLM)做过类似的研究,很有趣,但最终用处不大。
方法概览
本文方法包括以下两个训练阶段,如下图 1 所示。
使用元数据条件进行预训练(前 90%):模型在串接的元数据和文档上进行训练,并遵循以下模板「URL: en.wikipedia.org\n\n [document]」。使用其他类型的元数据时,URL 替换为相应的元数据名称。研究者仅计算文档 token 的交叉熵损失,而忽略出自模板或元数据的 token。他们在初步实验中发现:使用这些 token 训练会损害下游任务性能。
使用标准数据进行冷却(后 10%):对于仅使用元数据增强的数据进行训练的模型,在没有元数据的情况下性能会下降(具体可见下表 4)。为了确保通用性,研究者在冷却阶段,使用了没有任何元数据的标准预训练文档来训练模型,该阶段涵盖了预训练过程最后 10% 的步骤。
冷却阶段继承了来自元数据条件阶段的学习率计划和优化器状态,即它从上一个阶段的最后一个检查点初始化学习率、模型参数和优化器状态,并继续根据计划来调整学习率。
研究者还在所有实验中采用了以下两项技术,并且初步实验表明它们提高了基线预训练模型的性能:
- 禁用了跨文档注意力,此举既加快了训练速度(1.6B 模型的速度提升了 25%),又提高了下游任务的性能;
- 将多个文档打包成一个序列时,确保每个序列都从一个新文档开始,而不是从一个文档的中间开始,这可能会导致在将文档打包为一个固定长度时丢弃一些数据,但被证明有利于提高下游任务性能。
实验结果
研究者在所有实验中使用了 Llama 系列模型使用的 Transformer 架构和 Llama-3tokenizer,使用了四种规模的模型大小,分别是 600M、1.6B、3B 和 8B。他们对语言模型采用了标准优化设置,即 AdamW 优化器和余弦学习率计划。
少用 33% 数据,MeCo 性能与标准预训练方法相当
下表 1 显示了研究者在 DCLM 上的 160B token 上,对 1.6B 语言模型进行预训练的主要结果。他们首先观察到,在大多数任务中,MeCo 的性能显著优于标准预训练方法。MeCo 还超越了数据挑选基线。并且与数据挑选方法不同的是,MeCo 不会产生任何计算开销,它利用了预训练数据中随时可用的 URL 信息。
更重要的是,MeCo 实现了与标准预训练方法相当的性能,同时使用的数据和计算量减少了 33%,代表了数据效率的显著提高。
下表 1 为困惑度指标,表明了验证困惑度与下游性能无关。值得注意的是,当将 240B 基线模型与 160B MeCo 模型比较时,由于数据量较大,基线模型表现出的困惑度要低得多,但这两个模型实现了类似的平均性能。
研究者在下图 2 中展示了整个预训练过程中下游任务的性能变化。对于 MeCo,图中的每个检查点都包含使用 16B token(占总训练 token 的 10%)的冷却阶段。例如,80B 检查点包含了 64B token 的条件训练和 16B token 的冷却。他们观察到,MeCo 始终超越了基线模型,尤其是在训练后期。
MeCo 在所有模型规模下均提升了性能
下图 3 显示了不同模型规模(600 M、1.6B、3B 和 8B)的结果。研究者使用相同的优化超参数和相同的数据量(DCLM 上的 160B)来训练所有模型,其中 8B 模型是个个例,它使用 80B token 进行训练,由于资源限制和训练不稳定而导致学习率较低。
研究者观察到,MeCo 在所有规模下均提升了模型性能。并且 MeCo 看起来可以为更大的模型带来更多的改进,十亿级参数的模型与 600M 相比显示出更显著的收益。不过需要注意,这是一个定性观察,与预训练损失相比,下游任务性能的扩展不太平稳。
MeCo 提升了不同训练语料库的性能
研究者基于三个不同的数据源(C4、RefinedWeb 和 DCLM),在 160B token 上训练了 1.6B 模型,结果如下图 4 所示。如果将平均下游性能作为数据质量指标,三个数据源的排序为 DCLM > RefinedWeb > C4。他们观察到,MeCo 在不同数据源上实现了一致且显著的增益,平均准确率和单个任务均是如此。
更多技术细节请参阅原论文。
#Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
本文的共同通讯作者为涂兆鹏和王瑞,涂兆鹏为腾讯专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过9000次。担任SCI期刊NeuroComputing副主编,多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。王瑞为上海交通大学副教授,研究方向为计算语言学。共同第一作者为上海交通大学博士生陈星宇、何志威,腾讯AI Lab高级研究员徐嘉豪、梁添。
本文将介绍首个关于 o1 类长思维链模型过度思考现象。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
- 论文题目:Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
- 论文地址:https://arxiv.org/pdf/2412.21187
背景与动机
自 OpenAI 发布 o1 模型以来,它超强的逻辑推理以及难题解决能力就引发了广泛关注。o1 模型通过模拟人类的深度思考过程,在思维链中运用如自我反思、纠错以及探索多种解法等推理策略,展现了强大的长时间推理(Inference-Time Scaling)性能。依靠这种机制,o1 模型能够不断优化自身的答案质量。然而,在 o1 成功的光环下,一个潜在问题逐渐被放大 —— 过度思考。
随着 o1 模型的问世,许多类似的模型也陆续出现,比如 Qwen 团队开源的 QwQ-32B-Preview [1] 以及 Deepseek 推出的 R1-Preview [2] 模型。这些模型在推理时同样具备 “深度思考” 的特性,但也暴露出了类似的问题:在不必要的情况下生成过长的思维链反而浪费了计算资源。举一个简单的例子,对于问题 “2+3=?”,不同模型的回答长度如下图所示:
传统模型的回答通常只需要极少的 token 就能给出答案,然而对于 o1 模型,其消耗的推理 token 直接达到了 200 以上。更极端的是,Deepseek-R1-Preview 和 QwQ-32B-Preview 的 token 消耗甚至达到了 900!为什么 QwQ 模型会产生如此之长的输出?研究团队进一步分析了 QwQ 对这个问题的答案,结果见下图右栏:
QwQ-32B-Preview 模型会在推理过程中尝试多种不同的解题策略。对于简单的加法问题,模型探索了直接使用数学计算、数轴移动模拟,以及类比数苹果等方法,经历了多轮推理后才最终确定结果。尽管这种思维链策略对于复杂问题的解答非常有帮助,但在应对简单问题时,反复验证已有的答案和进行过于宽泛的探索显然是一种计算资源的浪费。为了更好地研究这个问题,研究团队对这类 o1 模型的过度思考现象进行了更细致的定义和深入分析。
过度思考现象
文章首先定义了模型回复中的独立解答(Solution):每当模型完整地得到一次对输入问题的答案(无论对错),这就被认为是一个独立解答。如例子所示,每一个解答都包含了答案 “5”。基于这个定义,研究人员在三个不同的数据集上统计了 Qwen-QwQ-32B-Preview 模型和 Deepseek-R1-Preview 模型的解答数量分布(解答的判断和抽取由 Llama-3.3-70B 模型完成):
其中,ASDIV [3] 是一个包含小学难度数学题的测试集,GSM8K [4] 是常用的初级难度数学题测试集,MATH500 [5] 是高中数学竞赛难度的测试集。如图所示,无论是对于 QwQ 模型还是 R1 模型,包含 2-4 个解答的样本占了所有样本的 70% 以上,可见这种 Solution-Level 的反思行为在当前的类 o1 模型中十分普遍。那么这些解答本身是否都是必须的呢?下图展示了在不同数据集上,模型首次得到正确答案的解答位置:
令人惊讶的是,对 QwQ 模型和 R1 模型的实验分析显示,它们在超 90% 的情况下,都能在第一次尝试中就成功输出正确答案。也就是说,后续多轮思考对答案正确率的提升几乎没有实质性贡献。这一现象进一步验证了此前对模型过度思考的观察:绝大多数情况下,模型的多轮反思可能只是在反复验证已有的答案,从而造成了资源浪费。
然而,这种现象也引发了不同观点的争论。一些研究者认为,o1 类模型的一个核心特性在于其能够自主探索问题的不同解法。从这一角度来看,如果模型在推理过程中使用了多种不同的思路来解决问题,那么这种多样化的探索不仅有助于加深模型对问题的理解,还体现了模型的自主探索能力,不应简单地视为 “过度思考”。为了更深入地剖析这一问题,研究团队进一步提出了一种分析方法。他们利用 GPT-4o 对模型的回答进行分类,具体包括以下步骤:
- 推理策略分类:对每一个解答进行推理策略的标注,将采用相同推理方式的回答归为同一类。例如,对于 “2+3=?” 这样的问题,可能涉及的推理策略包括数学运算模拟、数轴移动和实物类比等。
- 多样性分析:在归类的基础上,分析并统计不同解答之间的推理策略多样性。
通过这一方法,研究者能够量化推理过程中是否存在真正意义上的 “多样化探索”。这种分析为我们提供了衡量模型行为的一种新视角:当模型的不同解答策略高度相似甚至重复时,可以说明多轮推理的贡献是有限的;而当推理策略的多样性伴随着思考层次的提升而增加时,则反映了模型对问题理解的进一步加深。这种视角能够帮助我们更准确地区分 “有效的自主探索” 和 “低效的重复推理”。如下图所示:
图中展示了每个位置的解答引入新推理思路的可能性。第一个位置的解答总会是 “新的思路”,因此其概率为 100%。但随着推理位置的后移,解答中带来新推理思路的可能性逐渐降低。这一趋势表明,越到后续位置,模型越倾向于重复先前的推理思路,从而导致其推理行为变得冗余且低效。从这个角度来看,模型的后续解答更多是一种无效的重复思考。
通过上述分析,我们可以发现这些过度思考所产生的解答往往具备以下两个关键特征:
- 新解答对答案的正确性没有贡献:模型往往在一开始就已经成功得出正确答案,后续的多轮反复检验是多余且不必要的。
- 新解答未能引入实质性新思路:模型后续的解答仅以不同的表述方式重复了早先已有的结论,而没有真正扩展推理的深度或视角。
过度思考指标
基于这一发现,研究团队进一步定义了两个衡量模型 “过度思考” 现象的核心指标:
1. 产出效率(Outcome Efficiency):用于衡量模型回复中每一个解答对最终答案的贡献,等于正确解答中的 token 数除以完整回复的总 token 数。计算公式为:
其中,N 为样本数,
为模型第 i 个样本的回复中第一个正确解答的 token 数目,
为第i个样本的整个回复的 token 数量,
代表第i个样本是否正确。直观地看,一个模型得到正确解答之后进行反思的轮数越少,正确解答在整个回复中的占比就越大,产出效率就越高。
2. 过程效率(Process Efficiency):用于衡量模型回复中每一个解答对推理策略多样性的贡献,等于回复中属于不同思路的总 token 数目除以整个回复的 token 数目,计算公式为:
其中 N 为样本数,
为第i个样本的整个回复 token 数量,
为第i个样本中所有属于不同推理策略的 token 总数。该指标衡量的是模型进行多轮反思的有效性,回答中涉及的不同的推理策略越多,
就会越大,那么过程效率就会越高。基于这两个指标,研究者们统计了 QwQ 模型和 R1 模型在 MATH500 数据集上的效率指标表现:
从图中可以观察到,R1 模型在效率上略优于 QwQ 模型,但两个模型都不同程度地暴露出 “过度思考” 的问题。对于难度最低的等级 1 问题,研究者发现两个模型的表现都有如下特点:
- 产出效率不足一半:两个模型在这种简单任务上的产出效率均未超过 50%,意味着模型在取得正确答案后,依然生成了超过必要推理步骤至少一倍的额外推理内容。这符合上文的研究发现:正确答案通常在推理的较早阶段得到,但模型的后续行为中存在大量冗余推理。
- 思考过程效率较低:模型的整体过程效率只有 70% 左右,这意味着约 30% 的思考步骤是在重复无效的推理。这种重复的行为不仅未能提升正确率,也没有引入新的解题思路,从而造成了计算资源的浪费。
从以上分析可见,现有的 o1 类模型都普遍存在不同程度的 “过度思考” 现象,且这一问题在应对简单任务时尤为严重。这些现象突显了当前 o1 类模型推理机制中的不足,也意味着在模型的长思维链优化和推理资源分配方面仍有较大的改进空间。为此,研究者们提出了几种方法,旨在缓解模型的过度思考现象,提升推理效率。
缓解过度思考
由于目标是减少模型的过度思考但不损害模型的推理能力,因此最直接的想法就是通过偏好优化算法来鼓励模型生成更精简的回复。研究者们使用开源的 Qwen-QwQ-32B-Preview 模型作为实验的基座模型,基于该模型在 PRM12K [10] 的数据集上的多次采样结果,选择最长的模型回复作为偏好优化的负样本,而对于正样本的选择,有如下几种策略:
- 最短回复(Shortest Response):使用模型采样结果中最短的生成结果作为正样本。
- 首个正确回答(First-Correct Solutions, FCS):使用模型采样结果中最短的首次得到正确答案的解答作为正样本,抛弃所有后续的思考。
- 首个正确回答 + 验算(FCS+Reflection):由于绝大多数的采样结果都是在第一个解答中就出现了正确答案,仅保留首个正确回答可能会使得模型退化,因此研究者们在第一次得到正确答案后,额外保留了一轮反思的内容。
- 最多样回复(Greedily Diverse Solutions,GDS):除了单纯地对长度进行控制,另一个优化思路是尽可能保留更多样化的思考轨迹,因此研究者们在 FCS 方法的基础上,尽可能多地保留了包含不同推理策略的解答。
基于以上几种偏好数据,研究者们尝试了最基础的 SFT 以及多种偏好优化算法,如 DPO [6],RPO [7][8] 以及 SimPO [8]。实验结果如下:
表格中的 SFT 方法是指仅使用正样本进行微调。从表格中可以看出,在同样的 “最短回复” 设置下,SimPO 有着最好的优化效果,而基于 SimPO 的进一步实验表明,使用首个正确回答 + 验算作为正样本的策略能够很好地取得效率和性能的平衡,能够在保持模型性能的同时大幅度地减少输出的 token 数目以及平均解答轮数,并有效地提高产出效率和过程效率。为了进一步分析方法的有效性,研究者们分析了 MATH500 测试集的不同难度下 SimPO+FCS+Reflection 方法的表现,如下图所示:
有意思是,文中提出的方法在最简单的难度 1 的问题上,仅使用了相比于原来 63.6% 的 token 数目便达到了 100% 的正确率,而且在难题(难度 4 和 5)上,文中的方法能够在提升性能的同时大幅度减少输出的冗余,这展示了提出的方法在减缓过度思考上的有效性。
总结
这篇论文聚焦于 o1 类推理模型面临的一个核心挑战:如何合理控制推理过程中的计算量,提升思考效率。文章通过分析实验揭示了一个普遍问题 ——o1 类模型在处理简单问题时容易陷入过度思考,从而增加了不必要的计算消耗。基于对此现象的详细分析,研究者提出了一系列有效的优化方法,能够在保持模型性能的同时,大幅减少冗余推理,提升推理效率。这些方法的实验结果表明,它们显著优化了模型在简单任务上的资源利用情况,为实现 “高效思考” 的目标迈出了重要一步。未来的研究将重点探索以下方向:
- 自适应调控策略:开发让模型根据问题复杂程度动态调整推理深度的机制,更智能地分配计算资源;
- 更精细的效率评估指标:设计能够覆盖更广泛推理轨迹的指标,从而更全面地评估模型的思考效率。
这项研究不仅提升了 o1 类模型的推理,同时也为未来更高效、更智能的推理机制提供了重要的理论基础与实践参考。
#大模型推理加速新范式
近日,中国电信翼支付针对大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》已被 AAAI 2025 接收。
论文中提出的 Falcon 方法是一种增强半自回归投机解码框架,旨在增强 draft model 的并行性和输出质量,以有效提升大模型的推理速度。Falcon 可以实现约 2.91-3.51 倍的加速比,在多种数据集上获得了很好的结果,并已应用到翼支付多个实际业务中。
论文地址:https://arxiv.org/pdf/2412.12639
1. 研究背景
大型语言模型 (LLMs) 在各种基准测试中展现了卓越的表现,然而由于自回归 (AR) 解码方式,LLMs 在推理过程中也面临着显著的计算开销和延迟瓶颈。
为此,研究学者提出 Speculative Decoding (投机采样) 方法。Speculative Decoding 会选择一个比原始模型 (Target Model) 轻量的 LLM 作为 Draft Model,在 Draft 阶段使用 Draft Model 连续生成若干个候选 Token。在 Verify 阶段,将得到的候选 Token 序列放入到原始 LLM 做验证 & Next Token 生成,实现并行解码。通过将计算资源导向于验证预先生成的 token,Speculative Decoding 大大减少了访问 LLM 参数所需的内存操作,从而提升了整体推理效率。
现有的投机采样主要采用两种 Draft 策略:自回归 (AR) 和半自回归 (SAR) draft。AR draft 顺序生成 token,每个 token 依赖于前面的 token。这种顺序依赖性限制了 draft 模型的并行性,导致显著的时间开销。相比之下,SAR draft 同时生成多个 token,增强了 draft 过程的并行化。然而,SAR draft 的一个重要局限是它无法完全捕捉相同 block 内 draft tokens 之间的相互依赖关系,可能导致生成的 token 接受率较低。
因此,在投机采样中,平衡低 draft 延迟与高推测准确性以加速 LLMs 的推理速度,是一个重大挑战。
为此,翼支付提出了 Falcon,一个增强的半自回归(SAR)投机解码框架,旨在增强 draft model 的并行性和输出质量,从而提升 LLMs 的推理效率。Falcon 集成了 Coupled Sequential Glancing Distillation(CSGD)方法,提高了 SAR draft model 的 token 接受率。
此外,Falcon 还设计了一种专门的 decoding tree 来支持 SAR 采样,使得 draft model 可以在一次前向传播中生成多个 token,并且也能够支持多次前向传播。这种设计有效提升 LLMs 对 token 的接受率,进一步加快了推理速度。
2. 研究方法
Falcon 的架构如图 1 所示,可以看到,该半自回归解码框架主要由三个组件构成:Embedding Layer、LM-Head 和半自回归解码 Head。
图 1 Falcon 框架图
具体来讲,Falcon 将一个时间步长之前的连续特征序列和当前 token 序列连接起来,以同时预测接下来的 k 个标记。例如,当 k = 2 时,Falcon 使用初始特征序列 (f1, f2) 和提前一个时间步长的标记序列 (t2, t3) 来预测特征序列 (f3, f4)。随后,将预测得到的特征 (f3, f4) 与下一个标记序列 (t4, t5) 连接,形成新的输入序列。这个新输入序列用于预测后续的特征序列 (f5, f6) 和标记序列 (t6, t7),从而促进 draft 过程的继续。Draft model 多次 forward 之后生成的 token 被组织成树结构,输入到大模型中进行 verify,通过 verify 的 token 被大模型接收,并基于此基础开始下一个循环。
2.1 Coupled Sequential Glancing Distillation
当前推测解码方法的准确性相对较低,主要原因是 token 之间的上下文信息不足。CSGD 通过用真实 token 和 hidden states 替换一些初始预测来改善这一点,将正确信息重新注入解码过程中,从而提高后续预测的准确性和连贯性。模型结构及训练流程如下图:
图 2 CGSD 方法示意图
在训练过程中,一个时间步长之前的连续特征序列和当前 token 序列连接起来,并输入到 draft model 中,形成一个融合序列,其维度为 (bs, seq_len, 2 * hidden_dim)。
draft model 由一个混合 Transformer 网络组成,该网络包括两层 LSTM、Relaxed Causal-Masked 多头注意力机制,以及 MLP 网络。其中 LSTM 网络将融合序列的维度减少到 (bs, seq_len, hidden_dim),并保留关于过去 token 的信息,从而提高模型的准确性。Relaxed Causal-Masked 多头注意力机制能够在保持因果关系的同时,专注于输入序列的相关部分。MLP 层进一步处理这些信息,以做出最终预测。
当序列首次通过 draft model 后,会生成初始的 token 预测
。然后,我们计算 draft model 的预测与真实 token Y 之间的汉明距离,以此来衡量预测的准确性。接下来,我们将一定数量连续预测的 token 序列
和特征序列
替换为来自 LLMs 的正确 token 序列
和特征序列
。
CSGD 与传统的 glancing 方法不同,后者仅随机替换 token。相反,CSGD 选择性地同时替换预测之前的连续 token 和特征序列,如图 2 中虚线框标注的 choice 1、choice 2、choice3 所示。这种方法增强了对 token 间的关系的理解,并确保 draft model 能够有效利用提前时间步长的 token 序列,这在 SAR 解码中尤为重要。随后,修正后的 token 和特征序列被重新输入到 draft model 中以计算训练损失。
在训练过程中,我们采用了知识蒸馏,损失函数包括 draft model 的输出特征与真实特征之间的回归损失以及蒸馏损失,具体的损失函数如下:
2.2 Custom-Designed Decoding Tree
当前基于树的推测解码方法通过在每个起草步骤生成多个 draft token 来提升推测效率。然而,这些方法仍然需要 draft model 按顺序生成 token,这限制了推测效率的进一步提高。为了解决这一局限性,CDT (Custom-Designed Decoding Tree) 支持 draft model 在一次前向传递中生成多个 token (k 个),并且在每个 draft 步骤中支持多次前向传递。因此,与现有方法相比,CDT 生成的草稿标记数量是其 k 倍。
Draft model 多次 forward 之后,生成的 token 被组织成树结构,输入到大模型中进行 verify。LLM 使用基于树的并行解码机制来验证候选 token 序列的正确性,被接受的 token 及其相应的特征序列会在后续继续进行前向传递。在传统的自回归(AR)解码中,使用因果掩码,其结构为下三角矩阵。它确保了前面的 token 不能访问后面的信息。
相比之下,Falcon 采用了一种 causal 因果掩码 (如图 3 所示),允许模型访问同一 k*k 的 block 内的 token 以及相应的之前的连续 token。这一增强显著提高了 drafter 生成 token 的效率,使 LLM 能够同时验证更多的 token,从而加快了 LLM 的整体推理速度。
图 3 Custom-Designed Decoding Tree 方法示意图
3. 实验结果
我们在多个数据集和多个模型上进行了广泛的实验,验证了本文方法的有效性。和现有的方法相比,Falcon 展现了优越的性能,具体如下图:
图 4 Falcon 实验结果图
4. 业务潜力
Falcon 大模型可以实现约 2.91-3.51 倍的加速比,相当于同等条件下推理成本下降至约原先的 1/3,从而大幅降低了大模型推理计算相关成本。
当前,Falcon 技术已转化至翼支付大模型产品 InsightAI 平台,并已服务诸如翼支付数字人客服、借钱-翼小橙、人力-翼点通、财务-翼小财等多个业务应用。
5. 总结
投机采样是大模型推理加速的一个核心方法。当前,主要的挑战是如何提升 draft model 的准确率、采样效率,并提升大模型的验证效率。文章提出了 Falcon 方法,一种基于增强半自回归投机解码框架。Falcon 通过 CSGD 这种训练方法以及半自回归的模型设计,显著提升了 draft model 的预测准确率以及采样效率。此外,为了让大模型能验证更多的 token,本文精心设计了一个 decoding tree,有效提升了 draft model 的效率,从而提升了验证效率。Falcon 在多种数据集上可以实现约 2.91-3.51x 的加速比并应用到翼支付的众多业务中,获得了很好的效果。