#SpatialBot
空间大模型:上交、斯坦福、智源、北大、牛津、东大联合推出!
大模型走向空间智能、具身智能之路!
智源,斯坦福,北大,牛津,东大联合推出SpatialBot , 通过理解和使用深度图来理解空间。
- 论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models
- 论文链接: https://arxiv.org/abs/2406.13642
- 项目主页: https://github.com/BAAI-DCAI/SpatialBot
RGB+Depth可以作为多模态大模型(MLLM/VLM)理解空间的途径,但是:
- 现有模型无法直接理解深度图输入。比如CLIP在训练时,没有见过深度图。
- 现有大模型数据集,大多仅用RGB就可以分析、回答。模型不会主动到深度图中索引知识。
因此,作者提出:
- 三个层次的 SpatialQA 数据集。在low level引导模型理解深度图,在middle level让模型将depth与RGB对齐,在high level设计多个深度相关任务,标注了50k的数据,让模型在理解深度图的基础上,使用深度信息完成任务。
- SpatialBench 榜单。精心设计和标注的QA,测试模型深度理解能力。
- SpatialBot 模型。模型在需要时,可以通过API获取准确的深度信息。SpatialBot基于3B到8B的多个base LLM,在SpatialBench、常用MLLM数据集(MME, MMBench等)和具身数据上取得显著提升。
技术细节
- 作者将深度图转化为3通道的伪RGB图,在兼顾室内高精度、室外大范围场景的需求下,尽可能保留所有深度信息供模型索引。以毫米为单位,囊括1mm到131m。
- SpatialQA是RGBD的MLLM数据集,作者公布了详细的如何将现有CV任务的RGB或RGBD数据集,MLLM训练集,转化为SpatiaQA的pipeline,以及其中的数据标注细节。
- 最近大火的Cambrain-1 (LeCun Yann, Saining Xie)提出MLLM四大问题,其中之一是物体远近关系判断(proximity)。其实,在此之前,在SpatialBot提出的DepthAPI, 就以99+%的准确率解决了深度信息和远近关系的问题。
实验效果和DepthAPI
#利用文本、音视频等多模态数据来进行 AI 情感识别
别只盯着ChatGPT版「Her」,在多模态AI拟人互动上,国内玩家也支棱起来了
如今的 AI 在识别人类情感方面发展到什么程度了?本月初,一场向更具情感 AI 发起挑战的高规格赛事落下了帷幕!
这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 AI 顶会 IJCAI2024 上发起举办,探讨如何利用文本、音视频等多模态数据来进行 AI 情感识别,并推动相关技术在真实人机交互场景中的落地应用。
大赛官网:https://zeroqiaoba.github.io/MER2024-website/#organization
本届挑战赛共设置了三个赛道,分别为 Semi(半监督学习赛道)、Noise(噪声鲁棒性赛道)和 Ov(开放式词汇情感识别赛道),其中 Semi 赛道参赛队伍最多且难度最高、竞争最激烈。
以 Semi 赛道为例,参赛队伍需要利用少量有标签和大量无标签数据视频数据来训练自己的模型,并对模型在无标签数据集上的表现和泛化能力进行评估。该赛道获胜的关键在于通过改进半监督学习技术来提高模型情感识别性能,比如预测情绪类别的准确率。
自 5 月大赛启动起,两个月时间,来自全球近百支参赛队伍展开了角逐,既不乏知名高校也有创企新势力。其中 Semi 赛道第一名由社交平台 Soul App 摘得,其语音技术团队凭借可行性创新技术方案拔得头筹。
不过,在揭秘 Soul 团队技术方案之前,我们有必要先来了解 AI 在多种模态中的情感识别能力。
人机交互下一步
要让 AI 懂情感
如今的 AI 看起来已经无所不能,对话交流、生成图片或视频、解数学题等,能够胜任感知、学习、推理、决策等不同层面的任务。得益于大模型的加持,AI 可以称得上足够聪明,但在感同身受等情感层面却有所欠缺。
在人机交互中,用户有时不单单需要 AI 遵循指令完成任务,还要它们提供足够的情绪价值,满足情感需求。从功能「基操」到情感「进阶」,AI 要掌握的技能就要升级了。
因此,多模态情感识别成为 AI 领域的活跃研究课题。能读懂情绪并传达情感的 AI 成为业界追逐的新热点,也被认为是 AI 领域下一个重大突破。近半年来,一些 AI 创业公司和行业巨头为我们揭开了人机沉浸式交互的新形态。
四月初,国外一家创业公司 Hume AI 发布了一款语音对话机器人 Empathetic Voice Interface(EVI),它通过语音交流分析和识别对话者的语气和情绪,可以检测到多达 53 种情绪。此外它还能模拟不同的情绪状态,在互动中更接近真人。在 AI 情感层面的突破也让这家初创公司快速拿到了 5000 万美元 B 轮融资。
接下来是 OpenAI 放了大招,旗舰模型 GPT-4o 展现了实时音视频通话功能,对用户情感和语气做出即时响应,被称为 ChatGPT 版「Her」,而这个语音功能在近期正式对用户开放。自此,AI 拥有了强大的能言善辩、感知情绪能力,让人直呼科幻时代的到来。
国内如微软小冰、聆心智能等也致力于打造有情感的 AI 产品。我们从中可以看到一种趋势:情感识别能力在文本、音视频等多模态 AI 应用中的参与度越来越高。不过要想在拟人化情感识别领域更进一步,仍需解决有标签数据稀缺、主观情绪识别不稳定和不准确等问题。
因此,推动学界、业界更加关注多模态情感识别领域,并加速相关技术的创新和进步,变得尤为必要。当前,ACM MM、AAAI 等 AI 学术顶会都将情感计算作为一个重要的研究主题,CVPR、ACL 等顶会也曾举办过情感计算相关挑战赛。特别是在面对大数据和大模型时代的来临,如何在多模态情感识别中利用大量无标签数据和有效处理、融合不同模态信息是目前行业面临的重大挑战,此次 MER24 挑战赛举办的原因和意义也在于此。
而 Soul 团队在 Semi 赛道获得第一名,背后是其在多模态数据理解、情感识别算法、模型优化平台工具、内部工作流建设等方面的能力积累与创新,以及技术团队的高效协作。
夺得最难赛道头名
Soul 团队都做了什么?
既然提到 Semi 赛道难度最高,难在哪些方面?Soul 团队又如何获得第一名?我们接着往下看。
数据是 AI 三大要素之一,没有充足特别是高质量的数据训练,模型就无法保证很好的性能效果。面对数据稀缺带来的种种挑战,业界既要扩增包括 AI 生成数据在内的所有类型数据,也注重提升数据稀疏场景的模型泛化能力。多模态情感识别任务也是如此,它的核心在于海量标签数据的支撑,对文本、音视频等不同类型的内容打上喜怒哀乐悲等情感标签。现实却是,互联网上带情感标签的数据非常稀缺。
此次大赛的 Semi 赛道仅提供了 5030 条有标签数据,其余 115595 条均为无标签数据。因此,有标签数据稀少成为包括 Soul 团队在内所有参赛队伍遇到的首个难题。
图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113
另一方面,相较于 Noise、Ov 赛道,Semi 赛道侧重于考验核心主干技术,即更多地关注模型架构的选择以及特征提取泛化能力,对多模态大模型技术技术积累以及创新性要求比较高。
针对赛道少标签数据、高技术要求的特征,Soul 团队基于此前积累的自研大模型部分模块做好了充足的赛前准备,并确定了一套可行性创新技术方案。在整体思路上采取「先主干后微调」的策略,首先集中精力提高每一个核心特征提取模型的泛化性,然后再融合在一起;在具体实现过程中又做了以下几个方面工作。这些构成了他们的核心优势。
首先前期关注多模态特征提取。在端到端模型架构中,利用预训练模型提取文本、语音和视觉不同模态的情感表征,关注情感中的共性和差异性,从而来提升情感识别效果。后期根据多种模态的各模态特征提出有效的融合方法,将这些模块融合形成模型架构。为了提高预训练模型的泛化性能,Soul 团队专门针对视频模态在情感识别领域首次提出了 EmoVCLIP,EmoVCLIP 是一个基于大模型 CLIP 结合 prompt learning 技术在视频情感识别领域更具泛化性能的模型。
另外,为了提高文本模态情感识别能力,Soul 团队针对文本模态使用 GPT-4 来打情感伪标签,充分利用 GPT-4 的情感关注能力,提高文本模态在情感识别的准确率,为后面进一步模态融合打下了更好的基础。
其次,在多模态特征融合上,Soul 团队首次在多模态情感识别方向使用了 Modality Dropout 策略并研究了不同 dropout rate 的性能影响,为了缓解模态之间的竞争问题,在模型训练过程中随机抑制某个的模态(文本、语音或视频模态)以实现更好的鲁棒性,提升模型在提供的有标签数据之外未见过数据上的泛化能力。
最后,半监督学习技术开始发挥作用,其基本思路是使用有标签数据训练出一个模型,然后对无标签数据进行预测,根据预测结果为无标签数据生成伪标签。这些伪标签又用来训练模型,持续提升模型效果。Soul 团队利用半监督学习中这种自训练(Self-training)的策略,循环地为 Semi 赛道超 11 万条无标签数据打伪标签并加入训练集,进行模型迭代更新,得到最终的模型。
Soul 团队参赛技术方案图。
从整体思路到多模态特征融合、对比学习、无标签数据自训练,Soul 团队的技术方案为他们带来了好结果。最终在语音、视觉和文本多模态情感识别准确率上,Soul 团队提出的系统比基线系统提升了 3.7%,达到了 90%以上。同时,对于情感识别领域方向上存在易混淆边界的情感(比如忧虑和担心)识别,Soul 团队也能区分得更好。
图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113
从更深层次看,此次 Soul 团队在 MER24 挑战赛的脱颖而出,是其一直以来在社交领域深耕 AI 大模型技术尤其是多模态情感化交互能力的集中体现。
创新多模态拟人互动
社交型 AI 已是 Next Level
社交领域天然需要有情感的 AI。一种主流观点认为,社交的本质是情绪价值的互换,而情绪又多种多样。这意味着,如果 AI 想要无缝融入社交场景并高效发挥作用,势必要像真人一样提供丰富的情感反馈和体验。
而实现共情 AI 的基础在于让其拥有强大的多模态情感识别能力,在功能上从单纯的「任务执行者」进化到「满足人类情感需求的陪伴者」。但 AI 做到有效地理解情绪依然非常困难,它在理解语境、感知用户情绪、给出情感反馈、进行思考等方面与人类存在本质的区别,因此相关技术与算法的持续创新很重要。
对扎根社交领域的 Soul 来说,着力构建具备情感化能力的 AI 已成为需要思考的重要命题。2016 年上线之初,Soul 首先思考如何运用创新技术和产品来更好地满足用户需求,其中引入 AI 来解决人与人连接需,成为其站稳社交领域并发展壮大的关键。较早推出的「灵犀引擎」利用智能推荐算法,挖掘分析用户兴趣图谱和站内全场景特征,让他们更容易找到聊得来的人和更需要的内容,形成高粘性用户和内容生态。至今,这种更「聪明」的算法应用的匹配场景,也是 Soul 上用户非常活跃的功能之一。
有了早期 AI 辅助社交的成功经验,在这波大模型快速发展的技术浪潮中,Soul 进一步在 AI 介入社交、辅助关系网络的基础上,探索人机互动的新可能。
自 2020 年启动 AIGC 相关算法研发工作开始,Soul 便以多模态为方向,在智能对话、图像生成、语音和音乐生成等多方面拥有了前沿能力积累。相比纯技术向的 AI 创业新势力,Soul 的一大特点在于采用了「模应一体」策略,在 C 端同步推进大模型与 AIGC 应用的过程中注重打造具备情感识别能力的 AI,在丰富拟人化交互场景中真正实现有温度的反馈。
从 Soul 近两年的动作可以看出,其加快了 AIGC 赋能社交场景的步伐。2023 年推出自研语言大模型 Soul X,成为 AIGC + 社交布局的重要基建。在该模型的 Prompt 驱动、条件可控生成、上下文理解、多模态理解等能力加持下,站内对话不仅实现了流畅自然,更具备了情感温度。
文本成为 Soul 情感识别能力落地的牛刀初试,并逐渐从单一模态延伸到了更多模态。今年,Soul 上线语音生成大模型,并正式升级自研语音大模型,覆盖了语音生成、语音识别、语音对话、音乐生成等细分领域,在支持真实音色生成、语音 DIY 等功能的同时具备了多情感拟真人实时对话能力。
当然,Soul 在模型层面持续发力更具情感 AI 之外,也已经在其平台多元化的社交场景中让它们发挥用武之地,进一步丰富和提升用户的 AI 互动体验。
以 Soul 拟人型对话机器人「AI 苟蛋」为例,它依托 Soul 自研语言大模型 Soul X,实现了拟人化交互,不仅可以精准理解用户输入的文本、图片等多模态内容,还能在多轮沟通中根据对话场景为他们主动送去关怀,仿佛对话那头真人一般。同时用户也可以定制专属苟蛋,体验独一无二的虚拟人交互。
AI 苟蛋还展现出了在拟人化、知识、多模态、时间感知等多方面的融合能力,令 Soul 站内很多用户都对它强大的拟人交互能力感叹,这也是为什么 Soul 平台有不少用户会主动发帖吐槽「苟蛋怕不是个真人吧」。
此外,Soul 同样依托 Soul X 在游戏场景「狼人魅影」中引入 AI NPC,借助先进的强化学习技术,在游戏各个阶段具备了伪装、信任、领导与对抗等拟人决策能力,可以直接与用户玩起狼人杀,发言毫无违和感。
再比如 Soul 推出了主站外首个独立新应用「异世界回响」。作为一个 AI 社交平台,用户可与其上多场景、多风格的虚拟人角色展开沉浸式即时交流,这些角色均具备了形象、声音、人设对话能力。当然,用户可以定制虚拟角色,并根据喜好自定义人设(如背景经历、性格等),可玩性很高。
同样地,自研语音大模型也在 AI 苟蛋、狼人魅影以及异世界回响等场景中发挥作用。比如在异世界回响中支持了语音通话功能,拥有类真人音色的虚拟角色与用户自然、实时地对话交流,丰富了互动体验。
“异世界回响” 实时语音通话功能。
在持续深化智能对话、游戏和语音等社交场景的 AI 拟人化互动之外,Soul 还在视觉生成领域构建符合自身审美的多样画风生成能力,打造 AI 数字分身,进一步迈向多维度的综合互动体验。
可以看到,Soul 在 AI 情感识别领域的布局已经覆盖了语言、语音和视觉多模态,在与社交紧密关联的文字、图片、音频和视频场景齐发力,让用户在立体、多感官的人机互动中体验有温度的 AI。
结语
2024 年被很多圈内人士称为 AIGC 应用元年,大家关注的焦点不再只是拼参数和基础能力了。在由模型层向应用层转移的趋势下,率先在垂类领域和场景落地 AI 才能赢得更多用户和市场。尤其是面向 C 端赛道的人机交互,更天然地需要围绕用户需求做文章。这一点在社交领域有着很好的体现。
此前 AlienChat 等多款恋爱 App 停服,「第一批和 AI 恋爱的年轻人失恋」讨论话题上了热搜。在这背后,功能同质化是一部分原因,还在于体验上没有从助手 / NPC 角色转变为真正提供情绪支持的陪伴者。这就要求在社交领域通过丰富人机互动方式和场景,让 AI 全面参与到各个社交环节,与用户深层次情感交流,为他们提供情绪价值。
这或许也将是 AI 社交方向接下来的核心竞争点之一。而这也不难理解,为什么作为应用层的 Soul 会如此看重自研技术能力积累。在过去一段时间,其一方面致力于打造个性化、拟人化、多样化的 AI 能力;另一方面,从多个维度加速 AI Native 应用落地,包括社交体验提升、AI 社交、AI 游戏等,形成完备的 AI 产品链,在多样社交场景中为用户提供 AI 互动的乐趣。
可以说,Soul 近年来基于自研语言和语音大模型孵化出了一系列产品成果,并在提升 AI 与用户情感化互动体验的过程中积累了丰富创新技术和实践经验,这些都为其在 MER24 挑战赛中夺得第一名做足了铺垫,也是其能与来自国际的高质量参赛队伍切磋交流的基础。
近年来,这类挑战赛越来越多,比如 CVPR 2024 Workshop 上的 NTIRE 2024 AIGC 质量评价挑战赛、2023 和 2024 连续两届 MER 挑战赛,国内企业凭借实践中积累的技术屡屡能取得佳绩。比如去年取得 MER23 第一的商汤和今年第一的 Soul,这些企业对 AIGC 技术和应用的重视和投入收到了显著成效。
可以预见,未来像 Soul 这样坚持技术和产品创新的平台会在释放 AI 能力的过程中持续为用户创造价值,这样一来在形成繁荣内容和社区生态的基础上才可能实现自身更持久、更多样化的商业价值。
#档拆解苹果智能,从架构、数据到训练和优化
在 2024 年全球开发者大会上,苹果重磅推出了 Apple Intelligence,这是一个全新的个性化智能系统, 可以提供实用的智能服务,覆盖 iPhone、iPad 和 Mac,并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。
库克曾经表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。他强调,苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。
如今,距离 Apple Intelligence 官宣一个多月过去了,这项技术终于落地智能设备,相关技术文档也终于放出。
在刚刚过去的一天,拥有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用户可以下载 iOS 18.1 开发测试版,并可以体验 Apple Intelligence 的功能了。
随着这篇长达 47 页技术报告的出炉,我们可以更加深入的了解 Apple Intelligence 背后的秘密武器。
- 报告地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf
报告详细介绍了其中两款模型 ——AFM-on-device,AFM 代表 Apple Foundation Model,是一个约 30 亿参数的语言模型,以及一个更大的基于服务器的语言模型 AFM-server,可以高效、准确和负责地执行专门的任务(图 1)。
这两个基础模型作为苹果更大的生成模型系列的一部分存在。
架构及训练
AFM 基础模型是基于 Transformer 架构构建的密集解码器模型,采用如下设计:
- 共享输入 / 输出嵌入矩阵,以减少用于参数的内存使用。
- 使用 RMSNorm 进行预归一化以提高训练稳定性。
- 查询 / 键归一化以提高训练稳定性。
- 具有 8 个键值头的分组查询注意力(GQA),以减少 KV 缓存内存占用。
- SwiGLU 激活,以提高效率。
- RoPE 位置嵌入,基频(base frequency)设置为 500k,以支持长上下文。
AFM 预训练过程在开发高性能语言模型,以支持一系列 Apple Intelligence 功能方面发挥着关键作用。研究团队注重效率和数据质量,以获得高质量的端到端用户体验。
在后训练方面,研究团队发现改进通用后训练可以提升 Apple Intelligence 所有功能的性能,因为模型在遵循指令、推理和写作方面会具有更强的能力。
为了确保这些模型功能符合苹果对保护用户隐私的承诺,以及苹果的 Responsible AI 原则,后训练工作包括一系列数据收集和生成、指令调整和对齐创新。后训练过程包含两个阶段:监督微调(SFT)和来自人类反馈的强化学习(RLHF)。研究团队提出了两种新的后训练算法:(1)带有 teacher committee(iTeC)的拒绝采样微调算法,以及(2)一种用于强化学习迭代的 RLHF 算法,带有镜像下降策略优化(mirror descent policy optimization)和留一法优势估计器(leave-one-out advantage estimator)(MDLOO),使得模型质量显著提高。
Apple Intelligence特性
基础模型是为 Apple Intelligence 专门设计的,这是一个支持 iPhone、iPad 和 Mac 的个人智能系统。
苹果发现,针对特定任务的微调,他们可以将小模型的性能提升到一流水平,除此以外,他们还开发了一种基于运行时可交换适配器(runtime-swappable adapters)的架构,使单一基础模型能够专门用于数十个此类任务。图 2 显示了高级概述。
适配器架构
苹果使用 LoRA 适配器来针对特定任务进行模型微调。对于每项任务,研究者会调整 AFM 自注意力层中的所有线性投影矩阵以及逐点前馈网络中的全连接层。仅通过微调适配器,基础预训练模型的原始参数保持不变,可以保留模型的一般知识,同时定制适配器以支持特定任务。
量化
为了将 AFM 纳入内存预算有限的边缘设备并降低推理成本,需要考虑量化技术。先前的研究发现,与原始的 32/16 位浮点相比,经过 4 位量化的模型损失会很小。
为了在模型容量和推理性能之间实现最佳平衡,苹果开发了最先进的量化方法和利用准确率 - 恢复适配器(accuracy-recovery adapters)的框架。使得模型在每个权重平均小于 4 位的情况下,还能实现近乎无损的量化,并提供灵活的量化方案选择。
方法
经过后训练,模型被压缩和量化,得到平均低于 4 位的权重。量化模型通常表现出中等程度的质量损失。因此,苹果不会将量化后的模型直接用于功能开发,而是附加一组参数高效的 LoRA 适配器以进行质量恢复。
值得注意的是,训练准确率 - 恢复适配器具有样本效率,可以看作是训练基础模型的迷你版本。在适配器的预训练阶段,只需要大约 100 亿个 token(约占基础模型训练的 0.15%)即可完全恢复量化模型的能力。
由于应用程序适配器将从这些准确率 - 恢复适配器微调而来,因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小,苹果发现适配器秩为 16 时提供了模型容量和推理性能之间的最佳权衡。
但是,为了灵活性,苹果提供了一套具有不同秩 {8、16、32} 的准确率 - 恢复适配器供应用程序团队选择。
混合精度量化
AFM 中的每个 transformer 块和每个层都存在残差连接。因此,所有层都具有同等重要性的可能性不大。根据这一直觉,苹果通过推动某些层使用 2 位量化(默认为 4 位)来进一步减少内存使用量。平均而言,AFM-on-device 可以压缩到每个权重仅约 3.5 位 (bpw),而不会造成显著的质量损失。
评估
研究团队使用常见的开源评估工具和基准来评估 AFM 预训练模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的结果。
这些基准测试表明,AFM 预训练模型具有强大的语言和推理能力,为后训练和特征微调提供了坚实的基础。
AFM 与开源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商业模型(GPT3.5 和 GPT-4)的比较结果如下图3所示。与其他模型相比,AFM 模型更受人类评估人员的青睐。特别是,AFM-on-device 与 Phi-3-mini 相比,尽管模型规模小了 25%,但仍获得了 47.7% 的胜率,甚至优于开源强基线 Gemma-7B 和 Mistral-7B。
为了衡量模型生成响应遵循提示中指令的能力,研究团队在 IFEval 基准上评估了 AFM-on-device 和 AFM-server,结果如下图 4 所示:
如图 5 所示,AFM-server 实现了最佳的整体准确率,优于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。
苹果将 AFM 与一些最出色的模型以及规模较小的开源模型进行了比较。如图 6 所示,与 Gemma-7B 和 Mistral-7B 相比,AFM-on-device 可以实现相当或更好的性能。AFM-server 的性能明显优于 DBRX-Instruct 和 GPT3.5,并且与 GPT4 相当。
图 7 比较了经过后训练的 AFM 在数学基准上的表现。结果发现,AFM-on-device 的性能明显优于 Mistral-7B 和 Gemma-7B,即使规模不到它们的一半。
下图为人类评分员评估 AFM-on-device 适配器、Phi-3-mini、Llama-3-8B 和 Gemma-7B 在摘要任务上的质量。图 8 显示 AFM-on-device-adapter 总体上优于其他模型。
负责任的AI
Apple Intelligence 的开发和设计都注重保护用户隐私。
图 9 总结了人类评分员在不同模型上给出的违规率,越低越好。AFM-on-device 和 AFM-server 都对对抗性提示具有鲁棒性,其违规率明显低于开源和商业模型。
图 10 表明,与其他模型相比,AFM 模型更受人类评分员的青睐。
#「光合」作用算力质变
「光合作用」破局中国算力,加速「智变」,AI乘风走深向实
毋庸置疑,人工智能就是当下「最靓的仔」。
GPT-4o Mini 刚免费上线 ,Llama 3.1 接踵而至,表现超越 GPT 4o。Sora 、可灵、即梦,你方唱罢我登场。在刚结束的世界人工智能大会上,国内首款全尺寸通用人形机器人开源公版机发布。
经过多年的数据、算法和算力积累,「智变」时刻已经到来——未来,千行万业都将会因为 AI 得以重塑,无论是大模型还是小模型。今年全国两会上,「人工智能+」也被首次写入政府工作报告,并列为 2024 年十大工作任务的首位。
要用人工智能技术赋能千行百业,发展新质生产力, 算力是关键,也是衡量一个地区或国家 AI 竞争实力的关键指标。作为国家先进计算产业创新中心的重要组成部分,光合组织正在发挥其独特的「光合作用」,破局中国算力,加速「智变」,赋能 AI 走深向实。
一、AI 狂飙,产业「智变」倒计时
中国工程院院士郑纬民在 2024 光合组织领导人大会上表示:「当前激烈的产业竞争,让 AI 升级面临严峻考验,同时也带来了难得的机遇。我们要保持乐观态度,提升硬件性能,同时努力完善高水平的产业协作。」
在中国,「百模大战」一路狂奔,AI 正以前所未有的速度向各行各业渗透。
在大模型的辅助下,创作效率正大幅提高。以视频创作为例,传统的分工明晰、周期冗长的制作流程,如今可以在 AI 支持的一站式平台上完成。同样,在编程领域,AI 助手能在几秒内生成上百行代码,开发效率大幅提升。
但聊天、 创意和写作不是大模型的全部,在金融、生物医药、工业制造、政务、科学研究等领域,AI 正为产业刚需带来实实在在的价值。
气象大模型通过 AI 推理的方式解决气象的预测难题,现在,使用一张卡就可以预测出来7天的天气,以往可能需要上千台服务器耗费数小时。
在智慧工厂,平均每一秒就可以下线一台 PC 整机 ;在汽车总装车间,53 秒下线一台车;工业的时序数据基础模型正在实现趋势预测和异常检测等多种应用。
能源领域也不例外。世界最大的清洁能源走廊——长江干流上的六座梯级水电站,正不断与科技创新碰撞出新的火花。
「 AI for Science 是中国科技创新历史上最好的机会,它的空间非常大,将全方位改变科学研究到产业落地的过程。」中国科学院院士、北京大学国际机器学习研究中心主任鄂维南曾公开表示。
中国信息通信研究院的一组数据进一步印证了 「智变」已经进入倒计时:2023 年,我国人工智能核心产业规模达 5787 亿元,相关企业数量 4482 家,产业链覆盖芯片、算法、数据、平台、应用等上下游关键环节,细分领域不断突破。经过多年培育,行业已经经历了信息化、网络化和平台化阶段,正进入数据驱动的智能化新阶段。
二、 穿针引线, 共谱「光合」协奏曲
现在,只需轻点鼠标,在人工智能遥感系统这位「手相师傅」帮助下,自然资源的「掌纹」细节,都能被一一识别、解读:
起伏的山峦和绵延的森林、广袤的田野耕地、蓝色的海岸生命线、交错纵横的街道和建筑;
……
这只是许多 AI 企业依托光合组织「效应」,实现新质生产力的一个缩影。
算力,已成为数字经济发展和人工智能进步的关键资源。近几年,人工智能技术加速融入更多行业和场景,算力需求呈现爆发式增长。
100P 只能算「起步价」,人工智能企业业务对算力的需求都很大,每小半年,需求都会翻倍, AIGC 可能引发新一轮智算需求。
所以,哪怕是一家「算力巨无霸」企业,也无以支撑如此庞大的需求。
再从我国算力供给侧来看,中国的算力总规模居世界第二,但数据中心建设缺口依然很大,特别是对智算中心的需求和建设更为迫切。同时,已有的部分算力未能得到有效利用。大量场景没有用人工智能,不是因为用不到,也不是因为不需要,而是因为企业自建算力设施成本很高,普惠算力又缺乏。
如何实现算力的「普惠」,让算力成为 AI 发展的基础资源?光合组织应运而生,集全产业链共谱「光合」协奏曲!
光合组织是海光产业生态合作组织的简称,承载着建立和完善国产计算技术供应链和产业链重要使命,正通过其独特的「光合效应」,赋能「算力网」重要节点。就像一部协奏曲的谱曲者,它把国内计算产业上下游企业、高校、科研院所等各路高手召集到一块,穿针引线,专攻算力和人工智能技术攻关与应用合作。
在刚结束的 2024 光合组织领导人大会上,光合组织「再下一城」:举办多个揭牌及签约仪式, 推动郑州建设「算力之城」 。
7月23日上午,2024光合组织领导人大会在河南省郑州国际会展中心开幕。
作为东西部的连接纽带,早在 2020 年 11 月,河南就开始布局算力建设,为郑州在「东数西算」工程中奠定基础,其智能算力不仅位居全国前列 ,还坐拥郑州人工智能计算中心和 360 智算中心等基础设施。近期,中原算力谷在中原科技城科技转化片区揭牌,这个投资超百亿元、算力超万 P 的项目,无疑将成为中部地区算力产业高地的重要支撑。为实现高效「互联」、「互通」,郑州正全力打造「算力之城」,布局中部地区首张城市算力网。
大会上,河南省委书记楼阳生亲自为郑州先进计算研究所和海光生态适配中心郑州基地揭牌。这两家机构的落地将为郑州提供先进的计算能力和技术支持,成为打造「算力之城」的重要基石。
通过光合组织的牵线搭桥,郑州市人工智能创新中心、郑州市人工智能创新发展联盟、中原科技城人工智能产业园也在当天揭牌,规划了从研发创新、生态构建到落地空间和服务的完整闭环。
植物的光合作用需要阳光、水分和二氧化碳的共同参与,郑州算力生态的「光合效应」也需要产学研的通力合作。大会上,国家先进计算产业创新中心还与郑州大学、河南大学就产学研合作及人才培养基地签约,郑州市人民政府与深信服、思必驰、青云科技、捷通华声等 10 家智算领域企业签约, 加快郑州从「算力城」迈向「智能城」的脚步。
三、全链协作,富能国产算力
除了如何更好满足算力需求、降低算力使用成本和使用门槛,在目前阶段,根技术上的自立自强也是刚性发展需求。
人工智能是新质生产力的重要引擎,算力又是算法模型的基础,建设自有智算基础来支撑行业未来发展,显得尤为必要。而光合组织,作为由海光信息技术股份有限公司发起的产业生态联盟,正以其强大的向心力和引领作用,成为解决国产化挑战的核心力量。
经过四年多的发展,光合组织已经建立了一个庞大的生态系统,包含 4000 余家成员单位,覆盖了从芯片设计到应用服务的全产业链。
在芯片领域,光合组织与国产芯片厂商密切合作,推动 CPU 和 GPU 的研发和应用。在存储方面,促进了国产固态硬盘和大容量存储系统的发展。对于服务器和网络设备,光合组织正推动国产品牌如同方、联想开天等的创新,以满足大规模计算和海量数据传输的需求,并获得金融、能源、电信等关键行业和领域认可。
中间层软件,如操作系统方面,光合组织积极推广统信、麒麟等国产操作系统,并促进其与底层硬件的深度适配。对于数据库,它支持达梦等国产数据库的发展和应用,推动这些产品在各行业的落地。同时,光合组织还在推动中间件、虚拟化平台等关键基础软件的国产化进程。
在应用软件层面,光合组织不仅推动了 ERP、CRM 等企业级软件的国产化,还在人工智能、大数据分析等前沿领域促进了国产解决方案的发展,构建高水平商业体系。
例如,通过与行业伙伴(如百度、思必驰等)合作,支持百度飞桨等国产 AI 框架与底层硬件的深度融合,推动 AI 模型在国产算力底座上的部署和优化。在 AIGC 持续快速发展背景下, 积极适配文心一言等大多数国内外主流大模型,实现了 LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用。
作为这一生态合作的最新成果,在 2024 光合组织领导人大会上,首款国产 AI PC ——联想开天 M90h G1t AI PC 元启版在海光信息和联想开天的共同努力下,正式发布。
在许多成员看来,光合组织为 AI 产业的生态对接提供了一个很好的平台。用户需要的是完整的解决方案,而单一厂商很难提供从底层架构到前端应用的一整套产品,在此背景下,生态力量的整合非常关键。
冲量在线「 AI 安全开放平台」的诞生契机,正是光合组织解决方案大赛。在将基于深度学习框架的 AI 模型适配海光芯片过程中,他们向海光提出了大量优化和适配需求,都得到了快速响应。这一方案最终在某银行 AI SaaS 服务的安全能力技术提升的项目招标中中标。
用友公司在迁移废钢智能判定模型过程中,几乎无障碍地跑通了算法,也得益社区详细的产品文档 ,在适配和使用过程中遇到问题都能得到及时响应。
随着人工智能技术的不断突破,算力需求呈现爆发式增长,而算力「卡脖子」成为各大厂商竞逐AI最为头疼的难题。
光合组织汇聚4000 多家成员单位的合力,助力构建从芯片设计到应用服务的全产业链生态系统,不仅为更多企业提供了强大的算力基础,更推动了算力的普惠化。
在这个AI时代,算力犹如阳光之于植物的光合作用,是推动整个产业生长的关键能量。光合组织正以其「光合作用」,通过推动算力革命,加速 AI 产业「走深向实」。
#人机共生的时代已来
中国断臂女子,拿到了这场「赛博奥运会』的冠军
用最酷的设备,做最日常的事儿
家人们,先和小鹿看下几个视频!
可以看到,图片上的运动员在用机械手臂拧灯泡、穿衣服,是不是看着像残奥会!
Nonono,这是瑞士的Cybathlon——一场专为半机械人设计的仿生奥运会。
「Cybathlon」由「赛博」和「竞赛」组合而成。
- “Cyber-” 来自希腊语 “κυβερνητικός” (kybernētikos),表示"赛博"。
- “-athlon” 来自希腊语 “ἆθλον” (athlon),意为"竞赛、比赛"。
“Cybathlon” 是"赛博竞技"或"机械电子辅助设备竞赛",是一个专门面向使用机械电子辅助设备的残障人士的竞技比赛。
相较于残奥会比拼的是运动员的体力和运动能力,这个“特殊的奥运会”不在于比拼运动员的体能,而是在展示和比拼这些“赛博格”(Cyborg)在解决日常生活中的小事上的技术水平。
「赛博格」是什么?
它代表那些通过机械或电子装置强化了的生物体,比如装了义肢的人就可以被称为赛博格。比如,《星际迷航》中的 Borg(博格人),一个由机械改造的类人生物组成的种族;《终结者》里的T-800机器人,都叫作赛博格。
属于赛博格的奥运会
那这个Cybathlon是什么来头呢?
它是由瑞士苏黎世联邦理工学院发起的非营利性项目,自2016年起,每四年举办一次。今年办的是第三届的Cybathlon,来自24个国家的67支队伍参与了竞技。
每个参赛队伍由残障人士和技术专家组成,技术专家负责研发辅助设备,如假肢、外骨骼、机器人等,而残障人士则负责在比赛中使用这些设备。
今年的Cybathlon共设有8个竞赛项目,有上肢义肢、下肢义肢、外骨骼、脑机接口、轮椅辅助、视觉辅助、机器人辅助以及功能性电刺激等领域。
每个项目都设定了对参赛者和设备的严格条件,防止有些人作弊。
例如,在脑机接口项目中,参赛者需要通过意念控制游戏,严禁使用语音命令或身体动作。
用最酷的设备,做最日常的事儿
本次代表中国出征的团队HANDSON拿到了上肢组的冠军!冠军驾驶员是徐敏,其技术团队来自东南大学和中国科学院苏州医工所。
徐敏完成了赛程设置的十个环节,最难的盲盒取物也顺利完成了,只在叠杯子环节上有一点失误,最终得分90分。
盲盒取物,需要义肢穿过遮挡视线的毛刷,抓取硬度不同的圆柱体,徐敏是唯一一个拿下这关的选手。
叠杯子,这件很简单的日常小事,在上肢有缺陷的人手中都变得如此不易。
脑际接口选手
脑机接口今年进展颇多,而且今年主办方首次允许使用植入式电极的团队参与竞争,是我最期待的比赛了。
今年是传统头戴式脑电图设备与新兴植入式脑机接口技术的较量~
在脑机接口的在对决中,美国匹兹堡大学的PittCrew团队脱颖而出,荣获冠军。
PittCrew团队的驾驶员Phillip在大脑中植入了四个精密的电极。在整个比赛过程中,他只需躺着,就能通过脑机接口控制计算机。计算机能够记录并解读这些电极捕捉到的电信号,从而识别出驾驶员的意图。
Phillip,全程保持躺姿,却能在游戏中完成一系列复杂的操作:用钥匙开门、操纵光标点击正确的图标、甚至将杯子放置在制冰机下收集掉落的冰块。
脑机接口赛道还有传统的头戴式的团队参赛,通过电极接触头皮,电线连接电脑,记录大脑表面的电活动。虽然更加安全方便,不用植入,但是确实更容易被其他神经元干扰。要是找,脑机接口控制最难的就是控制非相关的“杂信号”不干扰。而比赛的结果也验证了,植入式取得了碾压的胜利~
视觉辅助与机器人辅助
视觉辅助与机器人辅助是今年新加的两个项目!
机器人辅助项目的驾驶员需时日常依赖轮椅且上肢也受损的残障人士,辅助设备机器人的话没有限定可以是各种各样的可以通过触控板、手控摇杆甚至舌控驱动。
来自德国的 Mattias Atzenhofer摘下了这一项目的冠军,他通过用平板、手柄控制机器人,完成了刷牙、捡水瓶、抓盘子、喂苹果、扭动门把手等动作。
视觉辅助项目的限制条件是视力严重受损或完全丧失,辅助设备的限制是不限于手机、白手杖、AR等,信号可以用 GPS、超声波、声音、振动、电刺激等信号给驾驶员传递。
但是视觉组整体看下来表现相较于其他组有点normal,虽然冠军团队来自匈牙利主要借助盲杖和一款手机 app,完成了躲避障碍物、走规定路线、在架子上找到对应的物品、捡起东西放到盘子里.但是总分在所有赛道中最低~
功能电刺激
这个项目看起来是带劲!
功能电刺激是使用电刺激让瘫痪的肌肉重新活动,帮助人类完成运动。请看下图:
是不是想象不到参赛选手是下半身完全瘫痪的状态,然后在单车骑行(比赛场景为虚拟现实)中一骑绝尘!
结语
这些参见Cybathlon的残障人士不是传统意义上的运动员,更准确地被称为操纵辅助设备的“驾驶员”。
Cybathlon的核心意义与残奥会的竞技目标有所不同,它更注重展示哪些技术能够更有效地弥补残障人士的生理缺陷,帮助他们克服身体限制,实现自我超越。
苏黎世联邦理工学院教授Robert Riener表示:
“Cybathlon令人印象深刻地展示了让人们处于技术开发中心的重要性。当我们从一开始就将用户需求纳入辅助技术开发时,我们创造了最佳的技术解决方案。”
小鹿认为这样的比赛才是真正展示了AI如何改变我们的生活~
不应该体现在让运动员跑得更快、跳得更远,更重要的是探索AI如何帮助残疾人更好地应对日常生活中的挑战,实现他们之前无法完成的任务,更好的做好每一件日常生活的小事。通过技术创新带给他们无障碍的世界~
#类Sora模型能否理解物理规律?
视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!
自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
Keras 之父 François Chollet 则认为,Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?这些问题至关重要,决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。最后他指出,不能简单地通过拟合大量数据来期望得到一个能够泛化到现实世界所有可能情况的模型。
此后,关于视频生成模型到底有没有在学习、理解物理规律,业界始终没有一个定论。直到近日,字节豆包大模型团队公布的一项系统性研究,为两者之间的关系「划上了不等号」。
该团队通过大规模实验发现 —— 即便依照 Scaling Law 扩大模型参数与训练数据量,模型依然无法抽象出一般物理规则,甚至连牛顿第一定律、抛物线运动都无法领会。
「视频生成模型目前就像一个只会『抄作业』的学生,可以记忆案例,但还无法真正理解物理规律,做到『举一反三』。因此,模型遇到未学习过的场景就会『犯迷糊』,生成结果与物理规则不符。」研究作者表示。
相关推文在 X 发布后,获得 Yann LeCun 点赞转发,还评价道 —— 结果虽不意外,但有人尝试研究确实是一件好事。
此外,CV 大牛谢赛宁和常年活跃的 Gary Marcus 等人也纷纷跟进关注。
- 论文标题:How Far is Video Generation from World Model: A Physical Law Perspective
- 论文链接:https://arxiv.org/abs/2411.02385
- 展示页面:https://phyworld.github.io
,时长03:10
Sora 的世界里,物理学存在么?
此前 Sora 发布时,OpenAI 就在其宣传页面写道:我们的成果揭示了 —— 提升视频生成模型参数与数据量,为构建物理世界通用模拟器,提供了一条可行之路。
给人希望的同时,业内质疑声纷至沓来,很多人并不认为基于 DiT 架构的视频生成模型能够真正理解物理规律。其中尤以 LeCun 为代表,一直以来,这位人工智能巨头一直坚称,基于概率的大语言模型无法理解常识,其中包括现实物理规律。
尽管大家众说纷纭,但市面上,系统性针对该问题的研究一直寥寥。出于对这一课题的好奇,字节豆包大模型相关团队于 2024 年初启动了这一研究立项,并历经 8 个月终于完成系统性实验。
原理与实验设计
在本次工作中,如何定量分析视频生成模型对于物理规律的理解,是一大挑战。
豆包大模型团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流 DiT 架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有「世界模型」的潜力。
针对视频生成模型在学习物理定律时的泛化能力,团队探讨了下面三种场景的表现:
- 分布内泛化 (In-Distribution, ID):指训练数据和测试数据来自同一分布。
- 分布外泛化 (Out-of-Distribution, OOD) :分布外泛化指的是模型在面对从未见过的新场景时,是否能够将已学过的物理定律应用到未知的情境。
- 组合泛化 (Combinatorial Generalization):组合泛化介于 ID 和 OOD 之间,此种情况下,训练数据已包含了所有「概念」或物体,但这些概念、物体并未以所有可能的组合或更复杂的形式出现。
在基于视频的观察中,每一帧代表一个时间点,物理定律的预测则对应于根据过去和现在的帧生成未来的帧。因此,团队在每个实验中都训练一个基于帧条件的视频生成模型,来模拟和预测物理现象的演变。
通过测量生成视频每个帧(时间点)中物体位置变化,可判断其运动状态,进而与真实模拟的视频数据比对,判断生成内容是否符合经典物理学的方程表达。
实验设计方面,团队聚焦于由基本运动学方程支配的确定性任务。这些任务能清晰定义分布内 (ID) 和分布外 (OOD) 泛化,并且能够进行直观的误差量化评估。
团队选择了以下三种物理场景进行评估,每种运动由其初始帧决定:
- 匀速直线运动:一个球水平移动,速度保持恒定,用于说明惯性定律。
- 完美弹性碰撞:两个具有不同大小和速度的球水平相向运动并发生碰撞,体现了能量与动量守恒定律。
- 抛物线运动:一个带有初始水平速度的球因重力作用下落,符合牛顿第二定律。
,时长00:06
针对组合泛化场景,团队使用 PHYRE 模拟器评估模型的组合泛化能力。PHYRE 是一个二维模拟环境,其中包括球、罐子、杆子和墙壁等多个对象,它们可以是固定或动态的,且能进行碰撞、抛物线轨迹、旋转等复杂物理交互,但环境中的底层物理规律是确定性的。
视频数据构造方面,每一个视频考虑了八种物体,包括两个动态灰色球、一组固定的黑色球、一个固定的黑色条形、一个动态条形、一组动态立式条形、一个动态罐子和一个动态立式棍子。
每个任务包含一个红色球和从这八种类型中随机选择的四个物体,总共形成
种独特的模板。数据示例如下:
,时长00:05
对于每个训练模板,团队保留了一小部分视频用于创建模板内测试集(in-template evaluation set),再保留 10 个未使用的模板,用于模板外测试集(out-of-template evaluation set),以评估模型对训练时未见过的新组合的泛化能力。
实验结果与分析
豆包大模型团队的实验发现,即使遵循「Scaling Law」增大模型参数规模和数据量,模型依然无法抽象出一般物理规则,做到真正「理解」。
以最简单的匀速直线运动为例,当模型学习了不同速度下小球保持匀速直线运动的训练数据后,给定初始几帧,要求模型生成小球在训练集速度区间内匀速直线运动的视频,随着模型参数和训练数据量的增加,生成的视频逐渐更符合物理规律。
然而,当要求模型生成未曾见过的速度区间(即超出训练数据范围)的运动视频时,模型突然不再遵循物理规律,并且无论如何增加模型参数或训练数据,生成的结果都没有显著改进。这表明,视频生成模型无法真正理解物理规律,也无法将这些规律泛化应用到全新的场景中。
不过,研究中也有一个好消息:如果训练视频中所有概念和物体都是模型已熟悉的,此时加大训练视频的复杂度,比如组合增加物体间的物理交互,通过加大训练数据,模型对物理规律的遵循将越来越好。这一结果可为视频生成模型继续提升表现提供启发。
具体而言,在分布内泛化(ID)的测试中,团队观察到,随着模型规模增大(从 DiT-S 到 DiT-L)或训练数据量的增加(从 30K 到 3M),模型在所有三种物理任务中的速度误差都降低。这表明,模型规模和数据量的增加对分布内泛化至关重要。
然而,分布外泛化(OOD)与分布内泛化(ID)结果形成鲜明对比:
- 更高的误差:在所有设置中,OOD 速度误差比 ID 高出一个数量级 (~0.02 v.s. ~0.3)。
- 扩展数据和模型规模的影响有限:与分布内泛化不同,扩展训练数据和模型规模对降低 OOD 误差几乎没有影响。这表明,简单的数据量和模型规模的增加无法有效提升模型在 OOD 场景中的推理能力。
至于组合泛化场景,从下表可看到,当模板数量从 6 个增加到 60 个时,所有度量指标(FVD、SSIM、PSNR、LPIPS)在模版外测试集上均显著的提升。尤其是异常率(生成视频违背物理定律的比例),从 67% 大幅下降至 10%。这表明,当训练集覆盖了更多组合场景时,模型能够在未见过的组合中展现出更强的泛化能力。
然而,对于模板内测试集,模型在 6 个模板的训练集上的 SSIM、PSNR 和 LPIPS 等指标上表现最佳,因为每个训练示例被反复展示。
这些结果表明,模型容量和组合空间的覆盖范围对组合泛化至关重要。这意味着,视频生成的 Scaling Law 应当侧重于增加组合多样性,而不仅仅是扩大数据量。
,时长00:05
图注:在模版外测试集上生成的样本视频。第一行:真实视频。第二行:使用 60 个模板训练的模型生成的视频。第三行:使用 30 个模板训练的模型生成的视频。第四行:使用 6 个模板训练的模型生成的视频。
机理探究:模型如何依赖记忆和案例模仿
前文提及,视频生成模型对于分布外泛化表现不佳,但在组合场景下,数据和模型 Scaling 可带来一定提升,这究竟来自于案例学习,还是对底层规律的抽象理解?团队着手进行了相关实验。
- 模型似乎更多依赖记忆和案例模仿
使用匀速运动视频进行训练,速度范围为 v∈[2.5, 4.0],并使用前 3 帧作为输入条件。我们使用两个数据集训练,再对照结果,Set-1 只包含从左到右移动的球,而 Set-2 则包含从左到右移动的球和从右到左移动的球。
如下图所示,给定进行低速正向(从左到右)运动的帧条件,Set-1 模型生成视频只有正速度,且偏向高速范围。相比之下,Set-2 模型偶尔会生成负速度的视频,正如图中绿色圆圈所示。
面对两者之间的区别,团队猜测,这可能是由于模型认为,与低速度球更接近的是训练数据中反方向运动的小球,导致模型受到训练数据中「误导性」示例影响。换而言之,模型似乎更多依赖于记忆和案例模仿,而非抽象出普遍的物理规则,实现分布外泛化(OOD)。
- 模型更多靠颜色寻找模仿对象
在前文,我们已探索获知 —— 模型更多依赖记忆和相似案例进行模仿并生成视频,更进一步,则须分析哪些属性对其模仿影响较大。
在比对颜色、形状、大小和速度四个属性后,团队发现,基于扩散技术的的视频生成模型天生更偏向其他属性而非形状,这也可能解释了为什么当前的开放集视频生成模型通常在形状保持上存在困难。
如下图,第一行是真实视频,第二行是视频模型生成的内容,颜色很好的保持了一致,但其形状难以保持。
,时长00:06
两两对比后,团队发现视频生成模型更习惯于通过「颜色」寻找相似参考生成物体运动状态,其次是大小,再次是速度,最后才是形状。颜色 / 大小 / 速度对形状的影响情况如下图:
- 复杂组合泛化情况
最后,对于复杂的组合泛化为何能够发生,团队提出视频模型具有三种基本的组合模式,分别为:属性组合、空间组合(多个物体不同运动状态)、时间组合(不同的时间点多个物体的不同状态)。
实验结果发现,对于速度与大小或颜色与大小等属性对,模型展现出一定程度的组合泛化能力。同时,如下图所示,模型能够通过对训练数据的局部片段进行时间 / 空间维度的再组合。
然而值得注意的是,并不是所有的情况下都能通过组合泛化生成遵循物理规律的视频。模型对案例匹配的依赖限制了其效果。在不了解底层规则的情况下,模型检索并组合片段,可能会生成不符合现实的结果。
- 视频表征的局限性
最后,团队探索了在视频表征空间进行生成是否足以作为世界模型,结果发现,视觉模糊性会导致在细粒度物理建模方面出现显著的误差。
例如下图,当物体尺寸差异仅在像素级别时,单纯通过视觉判断一个球是否能通过间隙变得十分困难,这可能导致看似合理但实际上错误的结果。
,时长00:05图注:第一行是真实视频,第二行为模型生成的视频。
这些发现表明,单纯依赖视频表示不足以进行精确的物理建模。
团队介绍
该论文核心作者有两位,其中之一为豆包大模型团队 95 后研究员 Bingyi Kang,此前他负责的研究项目 Depth Anything 同样取得了业界的广泛关注,并被收入苹果 CoreML 库中。
据 Bingyi 分享,世界模型概念早已被提出,自 AlphaGo 诞生时,「世界模型」 一词已在业内传开,Sora 爆火后,他决定先从视频生成模型能否真正理解物理规律入手,一步步揭开世界模型机理。
这当中有三四周时间,项目毫无进展,直到一次实验,大家注意到一个很隐蔽的反常规现象,借此设计对比试验后,他们确认了「模型其实不是在总结规律,而是在匹配跟他最接近的样本」。
「做 research 往往不是说,你突然有个很好的 idea,然后你一试它就 work 了,很多时候你都是在排错。但经过一段时间的试错,你很可能突然发现某一个方向有解了。」Bingyi 表示。
尽管研究耗时 8 个月,每天对着视频中的虚拟小球做定量实验,但大家更多感受到的不是枯燥,而是「好玩」和「烧脑」,回忆这段,他感慨:「团队对基础研究给了充分的探索空间。」
另一位 00 后同学也是核心参与者之一,据他分享,本次研究是他经历过的最具挑战性、最耗时的项目,涉及对物理引擎、评测系统、实验方法的构建,非常繁琐,当中还有好几次项目「卡顿」住。不过,团队负责人和 Mentor 都给予了耐心和鼓励,「没人催赶紧把项目做完」。
#FreeVS
来自中科院自动化所的团队提出 FreeVS,一个全生成式的新视角合成方法。相较于仅能在记录的车辆行驶原轨迹上渲染高质量相机视角的基于场景重建的方法,FreeVS 能够作为生成引擎渲染真实场景中任意车辆行驶轨迹下的视频。FreeVS 可被直接部署于任何测试场景,而无需负担通常耗时 2-3 小时的场景重建过程。
真实视频
新轨迹下相机视频
- 论文链接:https://arxiv.org/abs/2410.18079
- 项目主页:https://freevs24.github.io/
以生成模型合成真实场景中的相机成像
现有驾驶场景中的新视角合成方法多遵循「场景重建 - 新视角渲染」的管线,依靠重建得到的 NeRF 或 3D-GS 等场景表示来渲染新视角下的成像。
然而基于重建的方法具有两大瓶颈,1)无法合理渲染缺少对应观测的新视角上的图像,2)场景重建耗时长;这使得重建方法无法高效高质地在实际数据采集轨迹之外渲染大量新相机视图。
如简单的视角左右平移即会引起前有方法图像渲染质量的严重下降:
与前有重建方法在原训练视角、训练视角右一米、训练视角上一米的视角合成效果对比。
对此,作者提出一种新颖的完全基于生成模型的新视角合成方法 FreeVS。作者采用一简洁有效的生成管线,可严格基于已观测到的三维场景生成任意视角的相机观测,且无需进行场景重建。
FreeVS 方法管线。生成模型基于染色点云投影恢复相机成像。
作者采用从稀疏点云投影中恢复相机成像的生成管线,这使得生成模型的行为类似于 Inpainting 模型,基于稀疏但可靠的点云投影点补全目标图像。
在训练过程中,生成模型学习基于给定帧的三维先验生成邻近帧的相机成像。尽管训练数据中驾驶车辆在绝大多情况下走直线前行,但生成模型可沿车辆轨迹在侧向相机视角学习相机视角的横向移动。
在测试阶段,以图像信息染色的场景三维点云被投影至任意所需视角,以控制图像生成结果。
FreeVS 方法训练数据与推理效果示例。即使训练数据中无车辆横向移动到逆行车道的例子,生成模型仍然可依靠侧向相机的训练对((c)->(a))学习相机的侧向移动,从而生成合理的高质量成像 (f)。
车辆行驶模拟与场景编辑
以 Waymo 数据集中的真实场景为例,FreeVS 能够在驾驶车辆原本并未移动的场景模拟车辆移动:
真实视频
新轨迹下相机视频
能模拟车辆变线行驶,甚至能秒变 GTA,使车辆撞向行人:
真实视频
新轨迹下相机视频
能在原本直行的场景令车辆走大 Z 型前进:
真实视频
新轨迹下相机视频
也能对场景内容进行编辑。任意替换场景车辆,或定制车辆运动。
真实视频
场景编辑后相机视频
真实视频
场景编辑后相机视频
与前有基于重建的方法比较,FreeVS 在新车辆运动轨迹下几乎不受图像模糊、伪影等现象困扰。
,时长00:23
FreeVS 与前有方法在新轨迹模拟的表现对比。
新相机模拟
除新行驶轨迹下视角合成,FreeVS 还能合成虚拟相机位置上的成像。而前有基于重建的方法难以应对虚拟相机位置上全部观测的缺失。
新相机模拟示意图
FreeVS 与前有方法在新相机模拟的表现对比。
#无问芯穹提出混合稀疏注意力方案MoA
随着大语言模型在长文本场景下的需求不断涌现,其核心的注意力机制(Attention Mechanism)也获得了非常多的关注。
注意力机制会计算一定跨度内输入文本(令牌,Token)之间的交互,从而实现对上下文的理解。随着应用的发展,高效处理更长输入的需求也随之增长 [1][2],这带来了计算代价的挑战:注意力高昂的计算成本和不断增长的键值缓存(KV-Cache)代价。稀疏注意力机制可以有效缓解内存和吞吐量的挑战。
然而,现有稀疏注意力通常采用统一的稀疏注意力模式,即对不同的注意力头和输入长度应用相同的稀疏模式。这种统一的方法难以捕捉到大语言模型中多样的注意力模式,导致不同注意力头的不同的精度 - 代价权衡被忽略。
最近,来自清华大学、无问芯穹和上海交通大学的研究团队发表了《MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression》,提出通过混合不同稀疏度的注意力头,使用 25% 的注意力稠密度,就可以记忆几乎 100% 的上下文。
本工作现已开源,欢迎交流讨论。
- 代码:https://github.com/thu-nics/MoA
- 主页:https://nics-effalg.com/MoA
- arXiv:https://arxiv.org/abs/2406.14909
总览
在大语言模型中,不同的注意力头表现出各异的注意力模式和扩展规则:有的关注全局信息,有的则聚焦局部;有的注意力范围随输入长度增加而扩展,有的则保持不变。然而,现有的统一稀疏注意力机制破坏了这些固有的特性。
为应对这一挑战,研究团队提出了混合稀疏注意力(Mixture of Sparse Attention, MoA)方法,它能够为不同的头和层定制独特的稀疏注意力配置。MoA 构建了一个包含多种注意力模式及其扩展规则的搜索空间。通过分析模型,评估潜在配置,MoA 可以为每个注意力头找到最优的稀疏注意力模式和扩展规则。
实验结果显示,无需任何训练,MoA 就可以在保持平均注意力跨度不变的情况下,将有效上下文长度提升约 3.9 倍。模型效果上,在 Vicuna-7B、Vicuna-13B 和 Llama3-8B 模型上,MoA 将长文本信息检索准确率提高了 1.5-7.1 倍,优于统一注意力基线方法 StreamingLLM。
此外,MoA 缩小了稀疏与稠密模型之间的能力差距,在 50% 平均注意力跨度下,长上下文理解基准测试集的最大相对性能下降从基线方法的 9%-36% 降低至 5% 以内。
在运行效率上,MoA 的稀疏注意力使得生成过程中 KV-Cache 长度不扩大便于内存管理,减少了注意力计算量,降低了存储量从而可增大批大小。结合 CUDA GPU 算子优化,MoA 相比于 FlashAttention2 和 vLLM 将 7B 和 13B 稠密模型的生成吞吐量分别可提升 6.6-8.2 以及 1.7-1.9 倍。方法在 12K 以内的输入长度上搜索压缩方案,压缩后模型可以在长达 256K 的输入长度上高效且精准地检索信息。
背景介绍
多头自注意力(MHA)机制是大型语言模型的核心功能之一 [3]。该机制从输入序列出发,通过线性变换将其转换成查询(Q)、键(K)和值(V)三个矩阵。这些矩阵与之前序列的键值缓存(KV-Cache)相结合,共同计算出注意力矩阵(A)。为了保持自回归特性,这一计算过程会通过因果掩膜(M)进行调整,最终得到输出(O)。具体公式如下:
在大语言模型的自回归推理过程中,分为两个阶段:预填充和解码。在预填充阶段,模型会处理整个输入序列,以生成初始的响应令牌。随后进入解码阶段,模型利用新产生的令牌以及之前缓存的 K 和 V 矩阵,逐步生成后续令牌,直至完成整个序列的生成。虽然这种迭代方法效果显著,但随着 KV-Cache 的不断扩展,它也带来了内存和计算资源的需求增加。
现有方法
之前的研究通过引入稀疏注意力方法来应对大型语言模型处理长上下文时的效率挑战。对于生成式的大型语言模型,主流的稀疏模式是采用统一跨度滑窗:即不论注意力头还是输入长度如何,都使用固定、均匀跨度的滑动窗口掩膜,这样每个文本仅关注其邻近的上下文区域。
此外,还会对最初的几个文本施加全局注意力,以便它们能够关注到所有其他文本。这种局部注意模式通过丢弃当前注意跨度之外的 KV-Cache,显著降低了长序列场景下的内存需求 [4][5]。原则上,尽管单个模型层的注意力是局部的,但通过多层模型的逐步传递,每个词最终都能获取全局信息,从而在理论上可以实现比平均注意力跨度更长的有效上下文长度 [6]。
然而,这种统一跨度的滑动窗口方法并未考虑到模型本身的特性,导致大型模型在处理长文本时的有效上下文长度受到限制,进而影响了其在长文本场景下的表现。
根据之前的研究定义,本工作将有效上下文长度定义为在内容检索任务上能够达到 90% 以上精度的最大输入长度 [1][2]。研究表明,像 StreamingLLM [4] 这样的统一跨度滑窗方法,其有效上下文长度往往难以超出平均注意力跨度。如下图所示,当使用输入长度 50% 的跨度进行稀疏注意力时,统一跨度滑窗无法有效地从窗口外的内容中检索信息,而且这一问题随着输入长度的增加而愈发严重。
在LongEval数据集上[7],使用不同注意力方法的Vicuna-7B模型在不同输入长度和检索位置的检索精度。大海捞针实验[8]将大量的键值对作为输入,并在不同位置测试给键检索值时的精度。(a) 原始稠密注意力模型;(b)统一跨度滑窗StreamingLLM,注意力跨度减半,超出跨度时检索效果降低;(c) MoA,平均注意力跨度减半,超出跨度时检索效果依然优秀。
下图揭示了这个现象的一个可能解释:虽然部分注意力头专注于局部上下文,但另一些注意力头则关注了整个输入序列。因此,采用统一跨度的方法限制了那些关注全局上下文的头的注意力跨度,并且给关注局部上下文的头分配了过多的计算和内存资源。
此外,随着输入长度的增加,某些注意力头需要比其他头更快地扩展其注意力跨度,以防止性能显著下降。遗憾的是,统一跨度的方法没有考虑到这种异质性,未能针对不同注意力头的需求分别调整其注意力范围。另外,现有的模型压缩技术在制定压缩策略时通常基于通用语料库和人工撰写的输出结果,这并不能精确地反映稀疏化对处理长上下文任务的具体影响。
来自Vicuna-7B模型不同注意力头的注意力矩阵示例。每个注意力矩阵是从LongEval数据集的256个输入上取平均得到的。
本文方法
本文提出了一种名为混合注意力(MoA)的方法,它是一种无需训练或微调的异质稀疏注意力机制。如下图所示,MoA 建立了一套异质弹性规则,作为注意力跨度的搜索空间。对于每个注意力头,MoA 将自动分析不同注意力跨度的效果,并最优化不同注意力头的跨度。同时,MoA 精心设计了校准数据集,以确保它能精确地反映出稀疏注意力对处理长上下文任务的具体影响。
MoA的概览:(a) 稀疏注意力的搜索空间涵盖了滑窗跨度的异构弹性规则;(b) 自动压缩过程始于精心设计的校准数据集。MoA通过分析这个数据集中每个注意力值对模型预测的影响,揭示了不同候选弹性规则在不同输入长度下的准确性损失。在优化阶段,MoA为每个注意力头挑选出最合适的弹性规则,使得其在满足平均跨度约束的同时,尽可能减少模型的性能损失。
异质弹性规则的搜索空间
在构建 MoA 稀疏注意力模式的搜索空间时,本工作充分考虑了大语言模型注意力模式的天然异质性和弹性特点。正如图 (a) 展示的那样,本工作选用了对硬件友好的异质跨度滑窗作为本工作稀疏注意力的掩膜。同之前研究 [4][5] 类似,本工作对最初的几个文本施加了全局注意力。
为了捕捉注意力跨度随输入长度变化的不同表现,本工作将注意力头 h 的注意力跨度 S 定义为输入长度 N 的函数,即
。其中,
和
是控制基本跨度和其随输入长度变化的扩展比例的超参数。每个注意力头的
和 都可以从一系列离散选项中挑选自动注意力跨度规则搜索
对于有很多层的大语言模型,异质弹性规则的搜索空间可能会变得非常大。因此,本工作设计了自动注意力跨度规则搜索方法,来对大语言模型的每一个注意力头确定最优的
和 。这包括分析和优化两步。分析
给定大语言模型,MoA 首先会在校准数据集的一系列文本上进行分析,以评估移除每个注意力值对模型最终预测结果的具体影响。具体而言,本工作采用了一阶泰勒展开的方法进行影响评估:
通过分析每个注意力值对预测结果的贡献,我们可以计算出在当前输入下,不同跨度滑窗对最终预测结果的影响,也就是该窗口所移除的所有注意力值影响的总和。
在实际操作中,本工作推导了注意力影响的形式化表达,并利用深度学习框架的反向传播机制高效地计算所需的偏导数值。在校准数据集的不同输入长度上,MoA 对滑动窗口的影响分别取平均值,以体现同一种异质弹性规则在不同长度输入下的影响。
在分析阶段完成后,MoA 能够明确每种异质弹性规则在精度和效率之间的平衡。基于此,MoA 可以将较长的注意力跨度分配给那些对压缩更为敏感的注意力头,而将较短的注意力跨度分配给那些对此不太敏感的注意力头。
优化
根据分析结果,MoA 会为每个注意力头挑选出最佳弹性规则。在优化过程中,用户可以设定不同输入长度下的注意力密度(即平均注意力跨度与输入长度的比值)作为限制条件,而 MoA 则会在满足这一条件的同时,力求最小化各长度下的预测误差。
具体而言,MoA 构建了一个多目标优化问题:最小化不同输入长度下的预测损失,同时确保平均注意力密度不超过用户设定的限制。MoA 采用混合整数优化方法求解这一多目标优化问题。求解得到的所有压缩方案均达到了帕累托最优,意味着在没有增加其他长度预测损失的前提下,无法进一步降低任何特定长度的预测损失。
为了确保模型能够有效泛化至未曾见过的输入长度,MoA 会从所有帕累托最优压缩方案中,选择在未见过的验证长度上损失最小的方案作为最终采用的压缩策略。
通过自动注意力跨度规则搜索,MoA 在遵守用户定义的密度约束的同时,找到合适的异质弹性规则来最小化由注意力稀疏化引起的准确性损失。
校准数据集的设计与选择
同时,MoA 也强调了数据工程在大语言模型压缩中的重要性。本工作发现,使用具有长距离依赖性的数据集并参考原始大语言模型的响应对于准确分析压缩的影响至关重要。
本工作指出了常用的通用语言建模数据集的主要问题。这类数据集,例如人类编写的文本语料库,通过在整个语料库上进行下一个词预测作为监督信号。但是这主要捕获的是临近上下文之间的注意力模式,而忽略了长期上下文依赖性,无法解决像长距离检索这样的全局注意力任务。
同时,模型响应和人类编写的监督之间存在显著的不对齐。例如,对于同一个问题,人类可能会回答 'Blue',而模型可能会回答 'The blue color'。使用人类的答案进行监督,注意力影响是基于预测 'Blue' 的概率转移量化的,这与最终目标背道而驰,即难以保持原始模型预测 'The' 的关键注意力。
因此,本工作构建长距离依赖并通过与原始模型对齐来增强校准数据集。通过下表可以发现,这种数据集构建方式可以准确反映注意力影响,显著提高压缩后的模型的性能。
实验结果
精度
MoA 实验在多种模型(Vicuna-{7B, 13B) 和 Llama-3-{8B, 70B})和多种基准测试(长上下文检索,长上下文理解)上和之前的静态和动态稀疏注意力方法(StreamingLLM [4],H2O [9] 和 InfLLM [12])进行了比较。
MoA 超越基线稀疏注意力方法,并在 50% 的平均注意力密度下达到了与原始稠密模型相当的性能。我们计算了稀疏模型相对于原始模型的性能下降。
对于长上下文检索检索任务,MoA 最大相对准确性下降为 8%,远小于 StreamingLLM、InfLLM 和 H2O 的 87%、58% 和 44%。平均来说,MoA 的相对准确性下降在 1% 以下,而 StreamingLLM、InfLLM 和 H2O 的 51%、41% 和 20%。
如下图 (a) 所示,MoA 将其有效上下文长度扩展到注意力跨度的大约 3.9 倍。图 (b) 显示,在固定的 8k 输入长度下,MoA 只需要 25% 注意力就可以达到 90% 以上的检索准确性。图 (c) 显示 MoA 在 12k 长度内压缩后,可以保持和原稠密模型一致的有效上下文长度。
在LongEval上进行上下文检索准确性测试。使用Vicuna-7B模型:(a)改变注意力跨度,比较有效上下文长度,(b)将输入长度设定为8k,比较不同注意力密度下的检索准确性。使用Llama3-8B模型:(c)将密度设定为50%,比较输入长度增加时的检索准确性。
对于长上下文理解任务,在使用 LV-Eval 和 LongBench 的基准测试中,MoA 只显示了最大 5% 和 3% 的相对分数下降,而 StreamingLLM 则分别最大下降了 36% 和 27%;InfLLM 最大下降了 17% 和 5%;H2O 最大下降了 9% 和 4%
不同注意力方法在 50% 密度下进行 (a) LV-Eval和(b) LongBench 长上下文理解基准测试。测试使用 Vicuna-7B和13B模型,以及 Llama3-70B 模型。分数相对于原始稠密模型进行归一化。
长上下文泛化。通过在 12k 长度内进行压缩,MoA 能够有效泛化到 32k-256k 的长度。如下表所示,在范化的长度上,MoA 的检索精度比 InfLLM 和 StreamingLLM 高 1.9-3.3 倍,LV-Eval 评分高 1.2-1.4 倍,展现出与原始稠密模型相当的性能。如下表所示,
消融实验进一步评估了不同程度的稀疏注意力混合对于最终性能的影响。从基本的统一跨度滑窗开始,通过依次引入不同程度的异质性(层间,注意力头间,输入长度间),最终模型性能在不断提升。
在 25% 注意力密度下对搜索空间进行消融实验。
效率
我们使用 Huggingface 框架支持的 FlashAttention [10] 和 vLLM 框架作为基线,对比 MoA 的效率。
下表比较了 MoA 相对于各种注意力机制和 LLM 框架的运行效率,并对 MoA 的每个设计带来的效率提升进行了消融分析。在 50% 注意力密度下,MoA 相比 FlashAttention2 将解码吞吐量提升了 6.6-8.2 倍。相比 H2O 和 InfLLM,解码吞吐量提升了 1.2-4.0 倍。与包含高度系统级优化的 vLLM 框架 [11] 相比,MoA 仍实现了 1.7-1.9 倍的吞吐量提升。MoA 还将 GPU 总内存减少 1.2 到 1.4 倍。
这些吞吐量的提升来源于四个主要因素:生成过程中的静态 KV-Cache(约 3.0 倍);由于稀疏性减少了注意力计算(约 1.5 倍);较小的 KV-Cache 内存支持了更大的批大小(约 1.4 倍);以及我们针对 MoA 异构注意力所实现的 CUDA GPU 算子优化(约 1.2 倍)。
不同框架在7B和13B模型上的效率分析。MoA 每个设计带来的效率提升通过消融分析分为四个部分。所有稀疏注意力方法都使用50%的注意力密度。解码吞吐量在A100-80GB GPU 显存能容纳的最大批大小下进行评估。
作者介绍
本论文的共同一作是清华大学电子工程系 NICS-EFC 实验室的傅天予、黄浩峰和宁雪妃,他们来自 NICS-EFC 实验室的 EffAlg 团队和无问芯穹(Infinigence AI)。NICS-EFC 实验室由汪玉教授带领,实验室的高效算法团队(Efficient Algorithm Team,EffAlg)由宁雪妃助理研究员带领。EffAlg 团队的主要研究方向为高效深度学习技术,团队网站为 https://nics-effalg.com/
#华为用结构化推理补齐思维链短板
前些时日,AI 大模型开始掌握操作计算机的能力,但整体而言,它们与物理世界互动的能力仍处于早期阶段。
为了提高 LLM 在复杂的现实世界中的表现,研究者们提出了各种提示策略来提升大模型的推理和规划能力,比如思维链、思维树和思维图谱。这些进步与工具集成一起,推动着通用 AI 智能体的发展,让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问题(不过依然还相对简单)。
在现实世界中,一个难题的解决方案往往都不是孤立存在的,而需要系统性的方法。这就促使人们开始研究如何让 LLM 通过顺序或并行模块处理智能体任务,从而动态地、分步骤地解决问题。
近日,华为诺亚方舟实验室、伦敦大学学院(UCL)和达姆施塔特工业大学的一个研究团队在这个研究方向上做出了自己的贡献。他们采用第一性原理方法,将数据的分析、处理和预测(即数据科学)作为 LLM 与现实世界环境和外部系统交互的核心和可迁移技能,得到了一种利用 LLM 解决系统数据科学任务复杂性的新方法。然后他们基于此开发了智能体 Agent K v1.0,并让其参加了多模态 Kaggle 竞赛。最终 Agent K v1.0 获得了相当于 6 金 3 银 7 铜的成绩,成为首个达到 Kaggle Grandmaster level 1 的 AI 智能体。
论文标题:Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
论文地址:https://arxiv.org/pdf/2411.03562
研究动机
这项研究有三个研究动机。
第一,数据科学的目的是从结构化和非结构化数据中提取见解和知识,从而解决各种复杂问题。这需要系统级的方法,需要自动化和优化来适应具体的任务目标。
举个例子,在 Kaggle 数据科学竞赛中(如图 1 所示),数据科学家需要遵循一个结构化的工作流程:收集、清理、预处理和标准化数据,创建数据加载器以实现高效管理,生成关键评估指标,以及开发自定义模型。然后,这些见解和预测可以为决策和优化提供信息。因此,为了解决这些工作流程,需要数据科学智能体将任务分解为子问题并与各种子系统交互以实现指定目标。
第二,数据能让 LLM 感知和理解外部环境(物理和虚拟皆可)。LLM 智能体可通过收集、清理和分析这些数据来获得有意义的见解并做出明智的决策。数据和动作之间的这种基本联系可将计算推理与有形的现实世界后果联系起来。
第三,数据科学对企业而言至关重要。数据科学可将原始数据转换成可行动的见解,并由此提升效率和竞争力,进而推动创新。因此,据 Grand View Research 预计,到 2031 年,全球对数据科学的投资将达到约 7400 亿美元。数据科学智能体可通过生成代码来自动执行数据清理、建模和预测等任务,从而扩大这种影响,使组织能够扩展其数据驱动的决策,以最大化回报和利润。
结构化推理造就强大数据科学智能体
华为诺亚方舟实验室首先确定了 LLM 智能体面临的两大难题,即自动化和优化。这些难题源自数据科学工作流程的复杂性和多面性。
为此,该团队提出了一种利用 LLM 解决系统数据科学任务复杂性的新方法。
具体来说,他们提出了一种灵活的「学习到推理」范式,从而无需反向传播和微调就能实现学习和适应。
该团队假设 LLM 具有固有的基于案例的推理能力,这让它们可使用过去的正例或负例经验,并将其泛化到新任务。通过优化这些经验,学习和适应可以自然地发生。
为了将这一观察利用起来,该团队提出了结构化推理(structured reasoning),其中集成了一个记忆模块,从而可以动态地利用过去的成功和失败经验来实现更据适应性的学习。这能克服思维链等方法的局限性。如图 2 所示。
左侧是基本思维链推理,其按顺序生成中间步骤,其中每个步骤都是下一步骤的直接条件,直到得到最终答案。
右侧是新提出的结构化推理方法,它引入了一个记忆模块(作为 RAG 或长上下文的一种形式),可以根据外部奖励和反馈进行优化。该模块可根据环境反馈动态地修改存储的内容,让智能体可在不改变底层 LLM 参数的情况下学习和适应,进而根据具体目标最大限度地提高性能(有效性和自动化)。
有了结构化推理之后,LLM 智能体可在内部重构自身,通过灵活和内在的(智能体内部的)自我反思功能实现主动推理,并在采取外部行动之前主动适应。
他们将这个智能体称为 Agent K v1.0,这是他们的结构化推理框架 Pangu-Agent 的一个扩展,但它也是专门为应对数据科学挑战设计的。
该团队为 Agent K v1.0 引入了新的内部函数类别,以便在自动解决数据科学任务之前自动设置它们。他们还引入了另一组可与外部工具(如超参数优化算法、集成方法、计算机视觉和自然语言处理库)协作的内部函数,从而可以最佳方式构建解答。
下图展示了 Agent K v1.0 实现自动设计、编程和执行所需的整体数据科学工作流程:首先从一个 Kaggle URL 开始,再生成执行代码清理、特征工程、模型创建和优化训练的复杂代码,之后再自动生成一个提交文件,并将其提交给 Kaggle 以获得分数。
第一阶段(自动化):设置数据科学任务
由于数据科学任务的数据类型和格式繁多,因此设置阶段并不轻松。图 4 展示了这个自动设置阶段的主要步骤。
在抓取到任务后,该策略又分为两个阶段:
- 首先,编写一系列有效代码,以自动设置每个模态的训练和测试数据加载器。每个阶段步骤都由单元测试引导,LLM 可以使用这些单元测试来反思和生成更好的代码。之后,引入了一组联合单元测试,让智能体执行跨步骤反思以进行 credit 分配。
- 完成这些后,Agent K v1.0 执行格式化数据生成的第二阶段,其中会生成提交格式和度量函数代码。到这个阶段结束时,任务 t 已被设置好,可以解决了 —— 这里还会用一个最终单元测试来检查。
第二阶段(优化):解决数据科学任务
数据科学工作流程的这一部分通常涉及许多步骤,包括生成脚本以预处理输入、创建各种模型或优化超参数。
由于可以进行多次尝试,并且每个解决方案都是复合工作流程的结果,因此要实现非常有竞争力的性能,需要能够推断每个解决方案组件的优势和劣势,并决定修改哪个部分或下一步尝试什么。
在这里,该通过智能体的外部动作将这些决定留给了智能体,并使用针对数据驱动的预测设计量身定制的几种工具为其提供支持。
第三阶段(泛化):多任务和主动任务选择
有效的智能体应该有能力解决不同领域的多种任务。该团队还为 Agent K v1.0 配备了跨领域的任务求解能力,其做法是将之前的设置泛化到多任务设置。并且,他们注意到了多任务解决方案的不可行性,于是还提出了一种在线持续学习扩展。
下图展示了 Agent K v1.0 智能体的总体设计。
按照 Kaggle 的设置,Agent K v1.0 只需要自然语言描述和非标准化原始数据即可成功完成任务。在每一轮 j 中,它会根据之前尝试过的任务的历史记录主动选择要解决的数据科学任务,并将其填充到随时间变化的向量数据库 RAG_j 中。这种选择是策略 π_1 (・) 基于 RAG_j 和一个剩余任务池执行的。
选择了任务之后,Agent K v1.0 会使用 π_setup (・) 自动执行标准化、清理任务数据、 准备训练和测试指标等操作。这个过程同样基于 RAG_j。
设置完成后,Agent K v1.0 就会尝试解决任务,这个过程会访问工具并根据分数反馈进行改进。这些 Python 日志会对 RAG_j 进行更新,并重复此过程。
竞争性数据科学基准
当前的数据科学智能体缺乏竞争性基准测试,这限制了它们在专业领域的表现。为此,该团队也做出了自己的贡献:基于 Kaggle 竞赛构建了一个多样化且竞争性的数据科学基准,而 Kaggle 提供了 27K 个多样化数据集、110 万个笔记本、超过 7.7K 个预训练机器学习模型和大约 27K 场比赛。
该基准支持在一个透明的排行榜上与人类参与者进行直接比较并涵盖计算机视觉、自然语言处理、时间序列和表格数据等多种任务,支持多种模态。
下图展示了该基准中 Kaggle 任务的分布情况。目前,其中 55% 是表格任务,包括数值、类别、字符串和布尔值表。另外计算机视觉站 24%,自然语言处理占 10%、多模态任务占 11%。
下表则是基于 Kaggle 的指南和风格构建的 Kaggle 进展系统。⋆ (Top 10 + 0.2 %) 是指竞赛每增加 500 个参赛队伍,就会额外给出一枚金牌。举个例子,如果一个竞赛有 500 个参赛队伍,则会给 11 团队授予金牌。而如果竞赛队伍有 5000 个,则金牌数会达到 20。
实验和结果
Agent K 表现如何?终究还需看实验结果。该团队严格测试了 Agent K v1.0(基础模型使用了 Qwen-2.5 72B)实现完全自动化的能力以及性能。
在自动化方面,他们评估了新系统能否有效地直接根据 Kaggle URL 设置任务。结果,在跨多个领域自动执行任务方面,该系统实现了 92.5% 的准确度,展示了其完全自动化地实现复杂设置的能力。
在性能方面,在多模态挑战赛中,该团队的方法实现了相当于 6 金 3 银 7 铜的成绩(共 65 场竞赛),成为了首个达到 Kaggle Grandmaster level 1 水平的方法。下图展示了 Agent K v1.0 在各个任务上的性能表现。
此外,他们还测量了 Agent K v1.0 与人类参与者的 Elo-MMR 评分。结果表明,在由 5856 名参赛者组成的竞赛池中,Agent K v1.0 排名前 38%。
实验详情和更多实验结果以及相关讨论请访问原论文。
#MS-Bot
本文作者来自于中国人民大学,深圳朝闻道科技有限公司以及中国电信人工智能研究院。其中第一作者冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪教授。
引言:在机器人操纵物体的过程中,不同传感器数据携带的噪声会对预测控制造成怎样的影响?中国人民大学高瓴人工智能学院 GeWu 实验室、朝闻道机器人和 TeleAI 最近的合作研究揭示并指出了 “模态时变性”(Modality Temporality)现象,通过捕捉并刻画各个模态质量随物体操纵过程的变化,提升不同信息在具身多模态交互的感知质量,可显著改善精细物体操纵的表现。论文已被 CoRL2024 接收并选为 Oral Presentation。
,时长01:44
人类在与环境互动时展现出了令人惊叹的感官协调能力。以一位厨师为例,他不仅能够凭借直觉掌握食材添加的最佳时机,还能通过观察食物的颜色变化、倾听烹饪过程中的声音以及嗅闻食物的香气来精准调控火候,从而无缝地完成烹饪过程中的每一个复杂阶段。这种能力,即在执行复杂且长时间的操作任务时,灵活运用不同的感官,是建立在对任务各个阶段全面而深刻理解的基础之上的。
然而,对于机器人而言,如何协调这些感官模态以更高效地完成指定的操作任务,以及如何充分利用多模态感知能力来实现可泛化的任务执行,仍是当前尚未解决的问题。我们不仅需要使模型理解任务阶段本身,还需要从任务阶段的新角度重新审视多传感器融合。在一个复杂的操纵任务中完成将任务划分为不同阶段的一系列子目标的过程中,各个模态的数据质量很可能随任务阶段而不断变化。因此,阶段转换很可能导致模态重要性的变化。除此之外,每个阶段内部也可能存在相对较小的模态质量变化。我们将这种现象总结为多传感器模仿学习的一大挑战:模态时变性(Modality Temporality)。然而,过去的方法很少关注这一点,忽视了阶段理解在多传感器融合中的重要性。
本文借鉴人类的基于阶段理解的多感官感知过程,提出了一个由阶段引导的动态多传感器融合框架 MS-Bot,旨在基于由粗到细粒度的任务阶段理解动态地关注具有更高质量的模态数据,从而更好地应对模态时变性的挑战,完成需要多种传感器的精细操纵任务。
- 论文链接:https://arxiv.org/abs/2408.01366v2
- 项目主页:https://gewu-lab.github.io/MS-Bot/
模态时变性
在复杂的操作任务中,各传感器数据的质量可能会随着阶段的变化而变化。在不同的任务阶段中,一个特定模态的数据可能对动作的预测具有重大贡献,也可能作为主要模态的补充,甚至可能几乎不提供任何有用的信息。
图 1 倾倒任务的模态时变性
以上图中的倾倒任务为例,在初始的对齐阶段中,视觉模态对动作的预测起决定性作用。进入开始倾倒阶段后,模型需要开始利用音频和触觉的反馈来确定合适的倾倒角度(倒出速度)。在保持静止阶段,模型主要依赖音频和触觉信息来判断已经倒出的小钢珠质量是否已经接近目标值,而视觉几乎不提供有用的信息。最后,在结束倾倒阶段,模型需要利用触觉模态的信息判断倾倒任务是否已经完成,与开始倾倒阶段进行区分。除阶段间的模态质量变化,各个阶段内部也可能存在较小的质量变化,例如音频模态在开始倾倒和结束倾倒的前期和后期具有不同的重要性。我们将这两种变化区分为粗粒度和细粒度的模态质量变化,并将这种现象总结为多传感器模仿学习中的一个重要挑战:模态时变性。
方法:阶段引导的动态多传感器融合
为了应对模态时变性的挑战,我们认为在机器人操纵任务中,多传感器数据的融合应该建立在充分的任务阶段理解之上。因此,我们提出了 MS-Bot 框架,这是一个由阶段引导的动态多传感器融合方法,旨在基于显式的由粗到细的任务阶段理解动态地关注具有更高质量的模态数据。为了将显式的阶段理解整合到模仿学习过程中,我们首先为每个数据集中的样本添加了一个阶段标签,并将动作标签和阶段标签共同作为监督信号训练包含四个模块的 MS-Bot 框架(如图 2 所示):
- 特征提取模块:该模块包含一系列单模态编码器,每个编码器都接受一段简短的单模态观测历史作为输入,并将它们编码为特征。
- 状态编码器:该模块旨在将各模态特征和动作历史序列编码为表示当前任务状态的 token。动作历史与人类记忆相似,可以帮助指示当前所处的任务状态。我们将动作历史输入到一个 LSTM 中,并通过一个 MLP 将它们与模态特征编码为状态 token。
- 阶段理解模块:该模块旨在通过将阶段信息注入状态 token 中,从而实现显式的由粗到细粒度的任务阶段理解。我们用一组可学习的阶段 token 来表示每个任务阶段,并通过一个门控网络(MLP)来预测当前所处的阶段,利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合,得到当前阶段 token。门控网络的训练以阶段标签作为监督信号,对非当前阶段的预测分数进行惩罚。我们还放松了对阶段边界附近的样本上的相邻阶段分数惩罚,从而实现软约束效果,得到更平滑的阶段预测。新的注入阶段信息后的状态 token 由原状态 token 和阶段 token 加权融合得到,可以表示任务阶段内的细粒度状态,从而对多传感器动态融合进行引导。
- 动态融合模块:该模块根据当前任务阶段的细粒度状态动态地选择关注的模态特征。我们以注入了阶段信息的状态 token 作为 Query,将模态特征作为 Key 和 Value 进行交叉注意力(Cross Attention)。该方法根据当前任务阶段的需求,将各模态的特征动态地整合到一个融合 token 中。最后,该融合 token 输入到策略网络(MLP)中预测下一个动作。我们还引入了随机注意力模糊机制,以一定概率将各单模态特征 token 上的注意力分数替换为相同的平均值,防止模型简单地记忆与注意力分数模式对应的动作。
图 2 由阶段引导的动态多传感器融合框架 MS-Bot
实验结果
为了验证基于由粗到细的任务阶段理解的 MS-Bot 的优越性,我们在两个十分有挑战性的精细机器人操纵任务:倾倒和带有键槽的桩插入中进行了详细的对比。
图 3 倾倒与带有键槽的桩插入任务设置
如表 1 所示,MS-Bot 在两个任务的所有设置上均优于所有基线方法。MS-Bot 在两个任务中的性能超过了使用自注意力(Self Attention)进行动态融合的 MULSA 基线,这表明 MS-Bot 通过在融合过程中基于对当前阶段的细粒度状态的理解更好地分配模态权重,而没有显示阶段理解的 MULSA 基线无法充分利用动态融合的优势。
表 1 倾倒和带有键槽的桩插入任务上的性能比较
我们还对任务完成中各个模态的注意力分数和各阶段的预测分数进行了可视化。在每个时间步,我们分别对每种模态的所有特征 token 的注意力分数进行平均,而阶段预测分数是 Softmax 归一化后的门控网络输出。如图 4 所示,MS-Bot 准确地预测了任务阶段的变化,并且得益于模型中由粗到细粒度的任务阶段理解,三个模态的注意力分数保持相对稳定,表现出明显的阶段间变化和较小的阶段内调整。
图 4 各模态注意力分数和阶段预测分数可视化
为了验证 MS-Bot 对干扰物的泛化能力,我们在两个任务中都加入了视觉干扰物。在倾倒任务中,我们将量筒的颜色从白色更改为红色。对于桩插入任务,我们将底座颜色从黑色更改为绿色(“Color”),并在底座周围放置杂物(“Mess”)。如表 2 所示,MS-Bot 在各种有干扰物的场景中始终保持性能优势,这是因为 MS-Bot 根据对当前任务阶段的理解动态地分配模态权重,从而减少视觉噪声对融合特征的影响,而基线方法缺乏理解任务阶段并动态调整模态权重的能力。
表 2 含视觉干扰物场景中的性能比较
总述
本文从任务阶段的视角重新审视了机器人操纵任务中的多传感器融合,引入模态时变性的挑战,并将由子目标划分的任务阶段融入到模仿学习过程中。该研究提出了 MS-Bot,一种由阶段引导的多传感器融合方法,基于由粗到细粒度的阶段理解动态地关注质量更高的模态。我们相信由显式阶段理解引导的多传感器融合会成为一种有效的多传感器机器人感知范式,并借此希望能够激励更多的多传感器机器人操纵的相关研究。