#AutoGPT

爆火AutoGPT进阶版来了:定制节点、多智能体协同

当然,下一代 AutoGPT 仍是开源的。

还记得去年 AI 大牛 Andrej Karpathy 大力宣传的「AutoGPT」项目吗?它是一个由 GPT-4 驱动的实验性开源应用程序,可以自主实现用户设定的任何目标,展现出了自主 AI 的发展趋势。

一年多的时间,该项目的 GitHub 星标总数已经超过了 16 万,足可见其持续受欢迎的程度。

GitHub 地址:https://github.com/Significant-Gravitas/AutoGPT

昨日,项目作者在社媒 X 上宣布了下一代「AutoGPT」的到来,目前是 Pre-alpha 版本。与前代相比,下一代「AutoGPT」让构建、运行和共享 AI 智能体变得比以往任何时候都更容易,同时可靠性也大大提升。

图源:https://x.com/SigGravitas/status/1812803289739633018

作者展示了如何使用下一代「AutoGPT」快速构建、部署并使用 Reddit 营销智能体,可以自动回复评论,执行其他复杂任务。新系统不再像初版「AutoGPT」那样不可靠和低效。

当被问到该项目是否可以构建多智能体驱动的应用程序时, 作者给出了肯定回答并表示这是构建该项目的重要原因。

现在,你可以设计一个图表,让多个专家智能体协同解决问题。SubGraphs 也即将发布,可以帮助简化复杂图表的处理。

该项目还可以自定义添加节点,并且手动编写新块(下文提到的关键特性)非常简单。作者发现,这方面 Claude 做得非常出色,可以完美地创建自定义块。

当然,该项目的两个主要组件(即下文提到的 Server 和 Builder)可以在不同的机器上运行。

不过,对于下一代「AutoGPT」,作者承认它仍处于非常早期的阶段,存在缺陷且比较基础,但还是希望从一开始就与大家分享并开源出来。

主要组件和关键特性

该项目具有以下两个主要组件,分别是后端的 AutoGPT Server 和前端的 AutoGPT Builder。其中 Server 负责创建复合多智能体系统,将 AutoGPT 智能体和其他非智能体组件用作其原语(primitive)。

设置和运行 Server 和 Builder 的具体步骤如下:

  • 导航到 AutoGPT GitHub 存储库;
  • 单击「代码」(Code)按钮,然后选择「下载 ZIP」;
  • 下载后,将 ZIP 文件解压到你选择的文件夹中;
  • 打开解压的文件夹并导航到「rnd」目录;
  • 进入「AutoGPT Server」文件夹;
  • 在「rnd」目录中打开一个终端窗口;
  • 找到并打开 AutoGPT Server 文件夹中的 README 文件;
  • 将 README 中的每个命令复制并粘贴到你的终端中(重要提示:等待每个命令完成后再运行下一个命令);
  • 如果所有命令运行均无错误,请输入最后一个命令「poetry run app」;
  • 在终端中看到服务器正在运行;
  • 导航回「rnd」文件夹;
  • 打开「AutoGPT builder」文件夹;
  • 打开此文件夹中的 README 文件;
  • 在终端中运行以下命令:
npm install
npm run dev
Once the front-end is running, click the link to navigate to localhost:3000.
  • 前端运行后,单击链接导航到「localhost:3000」;
  • 单击「构建」(Build)选项;
  • 添加几个块来测试功能;
  • 将块连接在一起;
  • 单击「运行」;
  • 检查你的终端窗口。此时应该看到服务器已收到请求、正在处理请求并已执行请求。

按照以上步骤,你就可以成功地设置并测试 AutoGPT。

视频来源:https://github.com/Significant-Gravitas/AutoGPT/tree/master/rnd/

除了两个主要组件外,下一代「AutoGPT」的关键特性是使用「块」(Blocks)来构建智能体。你可以将一些高度模块化的功能结合起来,创建自定义行为。

目前,项目已经为 Reddit 发帖、Discord 消息发送和维基百科摘要获取等操作提供了相应的块。同时在设计时追求易创建和使用。以下是维基百科摘要获取的块示例:

class GetWikipediaSummary(Block):
    class Input(BlockSchema):
        topic: str
    class Output(BlockSchema):
        summary: str
    def **init**(self):
        super().__init__(
            id="h5e7f8g9-1b2c-3d4e-5f6g-7h8i9j0k1l2m",
            input_schema=GetWikipediaSummary.Input,
            output_schema=GetWikipediaSummary.Output,
            test_input={"topic": "Artificial Intelligence"},
            test_output={"summary": "Artificial intelligence (AI) is intelligence demonstrated by machines..."},
        )
    def run(self, input_data: Input) -> BlockOutput:
        response = requests.get(f"https://en.wikipedia.org/api/rest_v1/page/summary/{input_data.topic}")
        summary_data = response.json()
        yield "summary", summary_data['extract']

作者表示,这仅仅是个开始,未来还将添加更多块,并改进 UI,大幅提升整体体验和功能。









#PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了

如果 AI 模型给的答案一点也看不懂,你敢用吗?

随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。

获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。

对于大型语言模型来说,我们也可以采用类似的方法。

不过,在采用这种方法时,确保语言模型生成的是易于理解的文本,这件事非常重要,尤其是在处理数学、编码这样的复杂任务时。

如下图所示,你让 AI 写一个快速排序算法,AI 很快就写出来了,而且答案很简洁。但不会写代码的你要怎么判断 AI 写得对不对呢?

OpenAI 在一篇最新的论文中研究了这个问题。

  • 论文标题:PROVER-VERIFIER GAMES IMPROVE LEGIBILITY OF LLM OUTPUTS
  • 论文链接:https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

他们发现,如果以「得到正确答案」为目标,要求大语言模型生成答案,它们给出的答案可能会很难懂。人类评估员在判断这些答案时,犯错的可能性会加倍。

所以他们的目标是在训练高级语言模型的过程中,让它们生成那些较简单的模型也能够轻松验证的文本。他们发现,这样的文本不仅对简单模型友好,对于人类来说也更可读。

那么,具体是怎么实现的呢?这还要提到 2021 年的一篇论文 ——「Learning to Give Checkable Answers with Prover-Verifier Games」。在这篇论文中,Cem Anil 等人提出了一个名为「Prover-Verifier Games(证明者 - 验证者博弈)」的博弈论框架。该框架由两个相互竞争的学习者组成:一个可信的验证者(Verifier)网络试图选择正确的答案,另一个更强大但不可信的证明者(Prover)网络试图说服验证者接受特定的答案,而不管其正确性如何。该框架的目标是从博弈中产生一个可靠的证明协议。

OpenAI 在这项新研究中借鉴了这个框架,让两个大模型(较强的为证明者,较弱的为验证者)互相博弈,直到二者达到一种平衡。此时,证明者给出的答案既有一定的可读性,又保持了合理的正确性。

OpenAI 表示,通过提高模型输出的可读性,可以使人工智能的应用更加有效和可信,这对于需要精确沟通的各个领域都是有益的。

值得一提的是,这篇论文来自 OpenAI 的超级对齐团队,其中几位作者在今年早些时候已经离开 OpenAI,团队也已经分崩离析。其中一位作者透露,这是该团队的最后一篇论文。

一个直观的例子

为了提高模型输出的可读性,OpenAI 优化了一些小学数学问题的思维链(CoT),让它能够被较弱的模型理解。举例如下: 

问题:肖娜(Shawna)的父亲的年龄是肖娜的五倍。肖娜现在的年龄是阿莉娅(Aliya)的三倍。如果阿莉娅 3 岁,那么肖娜的父亲多少岁?

这么做的目的是为了验证经过这种训练的模型,它的输出是否更加直接易懂。

这种方法在只对训练集做了一些优化的情况下,让模型的性能提升了 50%。同时,模型输出的答案也更好懂了,这也帮助需要评估这些答案正确性的人类用户更准确地做出判断。OpenAI 认为,进一步缩小可读性强的模型和能力强的模型之间的性能差距,是未来对齐研究中一个关键的目标。

「证明者」和「验证者」是怎么在训练中博弈的?

为了激励强力模型(证明者)生成可读性更强的文本,研究者采用了一种训练方案,要求强力模型生成的答案能够被较弱的模型(验证者)轻松验证。具体来说,他们使用了 GPT-4 系列中的大模型和小模型。它们在预训练数据量上相差约三个数量级。它们都接受了一些基于人工标注的数学推导训练,但未经过广泛的后训练。

首先,研究团队让证明者模型尝试解决一系列数学问题。由于证明者模型自身可能出错,它生成的一些答案可能不正确。接下来,他们将这些答案交由验证者模型进行检验,并在以下两个阶段之间进行多轮的交替验证:

  • 「验证者」训练:研究团队训练较弱的「验证者」模型,验证「证明者」给出的答案是否正确。
  • 「证明者」训练:研究团队指示性能较强的「证明者」模型扮演「有用」或「狡猾」的戏份。
  • 当「证明者」被设定为「有用」时,研究团队将奖励「验证者」打分高的正确答案。
  • 当「证明者」被设定为「狡猾」时,研究团队反而奖励「验证者」打分高的错误答案。

研究团队发现,最初,狡猾的「证明者」能够轻松生成让「验证者」信服的错误答案。然而,这些错误答案将会进入下一轮的「验证者」训练中,相同的漏洞在下一轮中,将不再具有说服力。因此,「证明者」将被迫在每一轮中探索不同的策略。

当狡猾的「证明者」再也无法生成让「验证者」信服的错误解决方案时,训练宣告结束。

研究者都发现了什么?

性能与可读性权衡:

  • 一个仅在人类编写的推导上进行监督式微调的模型,虽然具有较高的可读性,但准确性较差。
  • 当模型的优化目标仅为正确性,即只关注生成正确答案时,虽然能够达到高准确性,但生成的解决方案的可读性却较差。
  • OpenAI 提出的可检查博弈方法平衡了这两者,在保持高可读性的同时保持适度的准确性。

三种有用的模型:

  • 鲁棒验证者:即使解决方案具有误导性,仍能够有效区分正确和错误的解决方案。
  • 有用的证明者:生成对人类来说易于理解的解决方案,从而减少人类评估者的错误。
  • 狡猾证明者:产生微妙的、错误的解决方案,这些解决方案最初会混淆人类评估者,从而突出需要进一步改进的领域。

研究团队使用了同样的测试问题,来展示狡猾证明者(Sneaky Prover)的生成内容和训练过程。

问题:肖娜(Shawna)的父亲的年龄是肖娜的五倍。肖娜现在的年龄是阿莉娅(Aliya)的三倍。如果阿莉娅 3 岁,那么肖娜的父亲多少岁?

结论

随着大语言模型(LLMs)在关键领域和复杂应用中的使用日益增加,了解其所生成的内容是否值得信赖变得至关重要。通过要求模型生成清晰且可验证的理由,可以增强对其生成内容的信任。

此方法的一个显著优势是它减少了对人类示范或可读性判断的依赖。这种自主性对于未来超智能 AI 系统的对齐尤为重要,其最终目标是在没有人类进行直接监督的情况下,可靠地将 AI 系统与人类的价值观和期望对齐。

尽管这项工作仅在一个数据集上进行了实验,并且仍然需要真值标签(ground truth labels),但研究团队仍预计在开发正确、透明及可验证的 AI 系统中,此类方法会起到关键作用,并增强其在现实应用中的可信任性和安全性。

参考链接:

https://openai.com/index/prover-verifier-games-improve-legibility/









#清华包揽最佳论文+时间检验奖

清华成绩亮眼。

第 47 届国际计算机协会信息检索大会(ACM SIGIR) 于 2024 年 7 月 14 日至 18 日在美国华盛顿特区举行。该会议是信息检索领域的顶级学术会议。

刚刚,大会公布了最佳论文奖、最佳论文亚军、最佳论文荣誉提名奖以及时间检验奖等奖项。

其中,清华大学、中国人民大学高瓴人工智能学院、小红书团队获得了最佳论文;来自格拉斯哥大学、比萨大学的研究者摘得亚军;最佳论文荣誉提名奖颁给了山东大学(青岛)、莱顿大学、阿姆斯特丹大学的研究者;时间检验奖颁给了清华大学、加州大学圣克鲁斯分校的研究者。

接下来,我们来看获奖论文的具体内容。

最佳论文

  • 论文:Scaling Laws For Dense Retrieval
  • 论文作者:方言、Jingtao Zhan、艾清遥、毛佳昕、Weihang Su、Jia Chen、刘奕群
  • 机构:清华大学、中国人民大学高瓴人工智能学院、小红书
  • 论文链接:https://dl.acm.org/doi/abs/10.1145/3626772.3657743

论文简介:在广泛的任务中,特别是在语言生成中,研究人员都观察到了扩展定律。研究表明大型语言模型的性能遵循模型和数据集大小的可预测模式,这有助于有效且高效地设计训练策略,特别是在大规模训练变得越来越资源密集的情况下。然而,在密集检索中,扩展定律尚未得到充分探索。

该研究探索了扩展如何影响密集检索模型的性能。具体来说,研究团队实现了具有不同数量参数的密集检索模型,并使用不同数量的注释数据对其进行训练。该研究使用对比熵(contrastive entropy )作为评估指标,与离散的排名指标相比,对比熵是连续的,因此可以准确地反映模型的性能。

实验结果表明,密集检索模型的性能遵循与模型大小以及注释数量相关的精确幂律扩展。

此外,该研究还表明,扩展定律有助于优化训练过程,例如解决预算约束下的资源分配问题。

这项研究极大地有助于理解密集检索模型的扩展效应,为未来的研究提供了有意义的指导。

最佳论文亚军

本届 ACM SIGIR 最佳论文亚军颁给了论文「 A Reproducibility Study of PLAID 」。论文作者包括来自格拉斯哥大学的 Sean MacAvaney、以及来自比萨大学的 Nicola Tonellotto。

论文地址:https://arxiv.org/pdf/2404.14989

论文摘要:ColBERTv2 的 PLAID 算法使用聚类术语表示来检索和逐步剪枝文档,以获得最终的文档评分。本文复制并填补了原文中缺失的空白。通过研究 PLAID 引入的参数,研究者发现它的帕累托边界是由三个参数之间的平衡形成的。超出建议设置的偏差可能会大大增加延迟,而不一定会提高其有效性。

基于这一发现,本文将 PLAID 与论文中缺失的一个重要基线进行比较:对词汇系统进行重新排序。发现在初始 BM25 结果池之上应用 ColBERTv2 作为重新排序器,在低延迟设置中提供了更好的效率 - 有效性权衡。这项工作强调了在评估检索引擎效率时仔细选择相关基线的重要性。

最佳论文荣誉提名奖

此次会议的最佳论文荣誉提名奖由山东大学(青岛)、莱顿大学、阿姆斯特丹大学的研究者摘得。获奖论文为「 Generative Retrieval as Multi-Vector Dense Retrieval 」。

  • 论文作者:吴世广,魏闻达,张孟奇,陈竹敏,马军,任昭春,Maarten de Rijke,任鹏杰
  • 论文地址:https://arxiv.org/pdf/2404.00684

论文摘要:本文通过证明生成检索和多向量密集检索共享相同的框架来衡量文档查询的相关性。具体来说,他们研究了生成检索的注意力层和预测头,揭示了生成检索可以理解为多向量密集检索的一个特例。这两种方法都通过计算查询向量和文档向量与对齐矩阵的乘积之和来计算相关性。 

然后,研究者探讨了生成检索如何应用此框架,他们采用不同的策略来计算文档 token 向量和对齐矩阵。并进行了实验来验证结论,表明这两种范式在其对齐矩阵中都表现出术语匹配的共性。

时间检验奖

本届 ACM SIGIR 时间检验奖颁给了 10 年前在 SIGIR 2014 上发表的关于可解释推荐的研究,论文为「 Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis 」。

  • 论文作者:张永锋、 赖国堃 、 张敏 、 Yi Zhang 、 刘奕群 、马少平
  • 机构:清华大学、加州大学圣克鲁斯分校
  • 论文链接:https://www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf

该研究首次定义了「可解释性推荐」问题,并提出了相应的情感分析方法用于解决这一技术挑战,在相关领域一直发挥着引领作用。

论文摘要:基于协同过滤(CF)的推荐算法,例如潜在因子模型(LFM),在预测准确率方面表现良好。然而,潜在特征使得向用户解释推荐结果变得困难。

幸运的是,随着在线用户评论的不断增长,可用于训练推荐系统的信息不再仅限于数字星级评分或用户 / 商品特征。通过从评论中提取用户对产品各个方面的明确意见,可以更详细地了解用户关心的方面,这进一步揭示了做出可解释推荐的可能性。

本文提出了 EFM(Explicit Factor Model )来生成可解释的推荐,同时保持较高的预测准确率。

研究者首先通过对用户评论进行短语级情感分析来提取显性产品特征和用户意见,然后根据用户兴趣的特定产品特征和学习到的隐藏特征生成推荐和不推荐。此外,从模型中还生成了关于为什么推荐或不推荐某件商品的直观特征级解释。

在多个真实数据集上的离线实验结果表明,该研究提出的框架在评分预测和 top-K 推荐任务上均优于竞争基线算法。在线实验表明,详细的解释使推荐和不推荐对用户的购买行为更具影响力。

青年学者奖

ACM SIGIR 青年学者奖旨在表彰在信息检索研究、学者社区建设、推进学术公平等方面发挥重要作用的研究人员,要求授予获得博士学位 7 年以内的青年研究学者。来自清华大学计算机系的助理教授艾清遥、来自中国科学技术大学网络空间安全学院、大数据学院教授、博士生导师王翔获得了 SIGIR 2024 青年学者奖。









#GSM-Plus

对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

本文作者来自香港大学和腾讯。作者列表:李沁桐,Leyang Cui,赵学亮,孔令鹏,Wei Bi。其中,第一作者李沁桐是香港大学自然语言处理实验室的博士生,研究方向涉及自然语言生成和文本推理,与博士生赵学亮共同师从孔令鹏教授。Leyang Cui 和 Wei Bi 是腾讯高级研究员。

前言

大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。

然而在使用中我们经常会发现,当数学问题稍作改变时,LLMs 可能会出现一些低级错误,如下图所示:

图 1:GPT-3.5-Turbo 正确解答了一个数学问题(左),但当在原问题的基础上添加一个限制条件(右)时,Turbo 因为没有正确区分 “离开” 和 “返回” 的方向,而误用运算符出错。

我们不禁要问:大型语言模型是否真的掌握了数学知识的精髓?它们是如何在这些测试中取得如此高分的?难道仅仅是因为模仿了大量训练数据中的表面推理模式吗?LLMs 是否真正理解数学概念,仍是一个值得探讨的问题。

为了探究这一问题,本文作者设计了一个评估基准 GSM-Plus。这个测试旨在对一个问题进行 8 种不同的细粒度数学变换,系统地评估当前 LLMs 在处理基础数学应用题时的能力。在这一全新的基准测试中,论文对 25 个不同的 LLMs 进行了严格评测,包括业界的开源和闭源模型。

实验结果表明,对于大多数 LLMs 来说,GSM-Plus 是一个具有挑战性的基准测试。即便是在 GSM8K 上,GPT-3.5-Turbo 已能取得 73.62% 的准确率,但在 GSM-Plus 上仅能达到 61.19% 的准确率。本文工作已经以4,4, 4.5分被ACL2024录用。

  • 论文标题:GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
  • 论文地址:https://arxiv.org/pdf/2402.19255
  • 论文主页:https://qtli.github.io/GSM-Plus/

背景

数学推理是人工智能发展的重要证明。它需要严格的问题理解、策略制定和计算执行能力。在过去几年中,诸多公开数据集被用于评估人工智能系统的数学推理能力。早期的数学数据集侧重于基于方程的数学问题。随后,更难的数据集被引入,涵盖了小学、高中和大学水平的数学问题。

随着评测数据难度的不断提高,LLMs 的发展也变得十分迅速。为了提升 LLMs 在数学领域的性能,可以通过在多样化的任务数据上进行训练,使用监督微调(SFT)来快速帮助 LLMs 适应到数学领域。在推理阶段,通过设计巧妙的输入提示(例如,Chain-of-Thought 和 Program-of-Thought)也可以有效激发 LLMs 的数学能力。

对于大多数 LLMs 而言,面对高中及以上的数学问题仍有很大的提升空间。然而,在小学数学领域,LLMs 已经展现出巨大的潜力。这让我们不禁思考,在现实环境中 LLMs 是否能依然保持高性能?

对抗性评测数据集 GSM-Plus

本研究旨在推出一个综合性基准测试 GSM-Plus,以系统地检验 LLMs 在解决基础数学问题时的鲁棒性。受 Polya 原则 [2] 中解决数学问题的能力分类法的启发,本文确定了五个方面的指导原则用于构建 GSM-Plus 数据集:

为了便于理解,此处以「 珍妮特的鸭子每天下 16 个蛋。她每天早上吃三个蛋作为早餐,并且用四个蛋烤松饼给她的朋友。她每天以每个鸭蛋 2 美元的价格在农贸市场出售剩余的蛋。她每天在农贸市场上赚多少美元?」问题为例。

(1)数值变化:指改变数值数据或其类型,本文定义了三个子类别:

  • 数值替换:在同等数位和类型下替换数值,例如将问题中的 “16” 替换为 “20”。
  • 数位扩展:增加数值的位数,例如将 “16” 替换为 “1600”。
  • 整数 - 小数 - 分数转换:将整数更换为小数或分数,例如将 “2” 转换为 “2.5”。

(2)算术变化:指对数学问题引入额外的运算或者进行反转,但只限于加、减、乘、除运算:

  • 运算扩充:在原问题基础上增加限制条件。例如,增加新条件“她每天还会使用两个鸡蛋自制发膜”。
  • 运算逆转:将原问题的某个已知条件转换为 GSM-Plus 变体问题的待求解变量。例如,图 2 中原问题的陈述 “每个鸭蛋 2 美元” 转换为新问题的疑问句 “每个鸭蛋的价格是多少?”,而原问题疑问句” 每天在农贸市场上赚多少美元?” 则转换为新问题的已知条件” 她每天在农贸市场赚 18 美元”

(3)问题理解:指在意思不变的前提下,用不同词句重新表述数学问题,如” 珍妮特养了一群鸭子,这些鸭子每天产 16 个鸭蛋。她早餐消耗三个鸭蛋,然后消耗四个鸭蛋烤松饼给她的朋友。珍妮特在农贸市场上以每个新鲜的鸭蛋 2 美元的价格将剩余的鸭蛋全部出售。她每天通过在农贸市场出售鸭蛋赚多少钱?”

(4)干扰项插入:指将与主题相关、包含数值但对求解无用的句子插入到原问题中,如” 珍妮特还想用两个鸭蛋喂养她的宠物鹦鹉,所幸她的邻居每天送她两个鸭蛋用于喂养鹦鹉”。

(5)批判性思维:侧重于当数学问题缺乏必要条件时,LLMs 是否具有提问或怀疑能力,例如” 珍妮特的鸭子每天都会下蛋。她每天早上吃三个蛋作为早餐,并且每天用四个蛋烤松饼给她的朋友。她每天以每个鸭蛋 2 美元的价格在农贸市场出售剩余的蛋。她每天在农贸市场上赚多少美元?”。

基于 GSM8K 的 1,319 个测试问题,本文为每个问题创建了八个变体,从而生成了包含 10,552 个问题变体的 GSM-Plus 数据集(本文还提供了一个包含 2,400 个问题变体的测试子集,以便快速评测)。通过使用每个问题及其八个变体测试 LLMs,GSM-Plus 可以帮助研究人员全面评估 LLMs 在解决数学问题中的鲁棒性。

图 2:基于一个种子数学题,使用 5 个角度的 8 种扰动生成问题变体。主要修改内容以绿色标出。

通过使用 GSM-Plus 评估 25 个不同规模、不同预训练方式、不同任务微调的 LLMs,以及组合 4 种常用的提示技术,本文发现 LLMs 整体上可以准确解决 GSM8K 问题,但在回答 GSM-Plus 中的变体问题时会遇到明显困难。主要发现如下:

  • 任务特定的优化,即在数学相关的数据集上微调,通常可以提高下游任务准确性;而鲁棒性的高低更多地取决于基础模型和微调数据集的选择。
  • 当需要 “批判性思维”、涉及 “算术变化” 和 “干扰因素插入” 时,LLMs 的性能会迅速下降;但对于 “数值变化” 和 “问题理解” 的扰动,LLMs 的性能比较稳定。
  • 先前的提示技术(例如,CoT,PoT,LtM 和 Complexity-based CoT)对于鲁棒性增强作用不显著,特别是对于 “算术变化 “和” 批判性思维”。在前人工作的基础上,本文进一步探索了一种组合提示方法,通过迭代生成和验证每个推理思维,可以同时提升 LLMs 在 GSM8K 和 GSM-Plus 上的性能。  

GSM-Plus 特点

  1. 质量保证:采用两阶段生成 GSM-Plus 评测题。首先,利用 GPT-4 的问题改写能力生成问题变体,然后为这些变体生成候选答案;为确保数据质量,所有由 GPT-4 生成的问题变体和答案都要经过人工标注团队进行严格检查。人工标注团队修正了 18.85% 的 GPT-4 改写的问题。
  2. 细粒度评估:对于主流评测数据集 GSM8K 的每个测试题,GSM-Plus 提供了 8 个扰动方向的变体问题,充分测试了在不同上下文下,大模型灵活解决数学应用题的能力。
  3. 挑战性:相比于 GSM8K,GSM-Plus 的问题变体更具挑战性,所有参与评估的 LLMs 的性能都显著下降。在接下来的分析中,本文会特别分析 LLMs 在不同类型扰动下的解题鲁棒性。

与其他小学数学应用题数据的比较

表 1:不同颜色代表不同的扰动类型:

数值替换,

数位扩展,

整数 - 小数 - 分数转换,

运算扩充,

运算逆转,

问题理解,

干扰项插入,

批判性思维。

从上表可以看出,先前的研究使用不同的扰动来检验数学推理的鲁棒性,但是评估设置仅涵盖部分扰动类型,且大多是通过自动方法构建引入扰动,质量难以保证。相比之下,GSM-Plus 使用八种不同的数学推理技能对单一问题进行扰动,覆盖面更全,且经过严格的质量控制。

实验分析

评测指标

  • 性能下降率(PDR):与原问题相比,LLMs 在扰动后的问题上的性能下降程度。
  • 同时解决的问题对的百分比(ASP):原问题及其对应的某个问题变体均被 LLMs 正确解答的比例。

整体性能

如下表所示,相较于 GSM8K,大多数 LLMs 在 GSM-Plus 上的性能都大幅下降。 

GPT-4 表现出最高的鲁棒性,其 PDR 最小仅为 8.23%。而 CodeLlama 的 PDR 最大,其中 7B、13B 和 34B 的模型分别为 40.56%、39.71%和 34.27%,超过了其基座模型 LLaMA-2-7B(39.49%),以及在其上微调的数学 SFT 模型,如 SEGO-7B(34.91%)。这表明仅使用程序语言推理对于扰动是很脆弱的。

在面对数学扰动时,模型规模越大,性能越稳定。虽然监督微调可以提高在下游任务上的准确率,但并不能显著增强模型对于扰动的鲁棒性(即更低的 PDR)。监督微调的数据对于鲁棒性非常重要。同样是基于 LLaMA-2 进行微调,使用不同的数据,会导致模型的准确率和鲁棒性具有较大差异。

表 2:整体性能

细粒度实验分析

不同扰动下 LLMs 的性能表现

本文进一步评估了 LLMs 在 8 种问题变体下的性能稳定性。与人类基线相比,对于 “批判性思维”(紫色)、“运算扩充” 和 “运算逆转”(蓝色)、“干扰项插入”(粉色)以及 “整数 - 小数 - 分数转换”(橙色)扰动,LLMs 性能下降明显。而对于 “数值替换” 和 “问题理解”,LLMs 的性能稳定,甚至有轻微的提升。

图 3:细粒度实验分析

数学推理能力的迁移性

前面的分析主要基于数据集整体。接下来,本文根据数学题是否被正确回答将 2 个数据集分割,分析当 LLMs 成功解决 GSM8K 问题时,是否意味着正确回答 GSM-Plus 变体问题的可能性变高(即高 ASP 值),反之亦然。如果这种断言成立,可以认为 LLMs 在这类特定的数学题子集上性能稳定,即使在整个数据集上并非如此。在实验设置中,每个 GSM8K 问题及其在 GSM-Plus 中的变体转化为 8 个问题对,结果如图 4 所示。

图 4:LLMs 在 GSM8K 和 GSM-Plus 问题对之间的推理可迁移性。紫色(均正确)和蓝色(均错误)的条形图表示一致的模型行为,而红色(GSM8K 正确 & GSM-Plus 错误)和黄色(GSM8K 错误 & GSM-Plus 正确)的条形图则表示不一致的模型行为。紫色和红色条形图的高度和表示 LLMs 正确解决 GSM8K 问题的数量。

红色条形图的存在(LLMs 正确回答原问题,但未解决变体问题),表明大多数模型的性能可迁移性有限。虽然 LLMs 在 GSM8K 问题上性能有所差异(紫色和红色条形图的高度),但性能可迁移性相似(红色条形图的高度)。这意味着现有的基准测试无法准确评估模型在数学推理方面的真实能力。高准确率并不等价于强大的推理鲁棒性。

提示对于 LLMs 性能鲁棒性的帮助

先前的工作表明,良好的提示指令对于激发语言模型的数学能力十分重要。本文选择了 4 个代表性模型,并测试它们在不同的提示指令下解题的表现。如下图所示,当面对干扰时,使用复杂的示例作为上下文演示(Complexity-based CoT)时,LLMs 表现最为稳定;相比之下,仅使用程序语言表示中间推理(Program-of-Thought)时,LLMs 更容易受到干扰的影响。总体而言,这些提示技巧都不足以让 LLMs 在 GSM-Plus 上维持与 GSM8K 相同的性能。

图 5:提示对于 LLMs 性能鲁棒性的影响

组合提示是否有效?

如何基于现有的提示方法增强 LLMs 的鲁棒性呢?本文发现 LLMs 在解题过程中常常会忽略重要条件或出现计算错误。为此,本文探索了一种组合提示方法 Comp。该方法首先提示 LLMs 提取问题中与数值相关的必要条件(Prompt1)。接着,根据问题和关键条件,指示 LLMs 迭代地生成推理目标(Prompt2)和计算目标(Prompt3),并让其为生成的历史解题步骤提供反馈,以确定是否获得了最终答案(Prompt4)。具体实现如图 6 所示。

图 6:Comp 迭代提示方式的示意图

可以看出,Comp 通过迭代生成和自我验证可以改善 LLMs 在各种问题变化类型下的性能,但它仍然无法弥合 LLMs 在标准测试集和对抗性测试集之间的性能差距。该研究期待未来有更多的方法进一步提升模型的鲁棒性,推动 LLMs 在数学推理领域的进一步发展。

表 3:Comp 迭代提示的性能

生成示例

下图展示了在 GSM8K 问题和基于 “运算逆转” 的 GSM-Plus 改写问题上,不同提示技术下 GPT-3.5-Turbo 的表现。虽然所有提示都可以激发 Turbo 准确回答 GSM8K 问题,但只有 Comp 能够帮助 Turbo 在 GSM-Plus 变体问题上生成正确的答案。

图 7:在不同提示设置下,模型回答数学问题的示例

结语

本文介绍了一个对抗性小学数学应用题评测集 GSM-Plus,旨在系统分析 LLMs 在解决数学应用题中的鲁棒性。实验分析发现,大多数 LLMs 在面临扰动时,性能相较于它们在标准基准上的表现显著下降,远远达不到人类的表现水平。研究者期望本文的工作能够促进更多未来研究,包括但不限于:(1)对 LLMs 的数学技能进行系统评估;(2)构建能够灵活进行数学推理的模型。

参考链接

[1] Cobbe, Karl, et al. "Training verifiers to solve math word problems." arXiv preprint arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. How to solve it: A new aspect of mathematical method, volume 85. Princeton university press.









#OmniParser

控制电脑手机的智能体人人都能造,微软开源OmniParser

大模型控制计算机果真就是未来方向?

最近这几天,让大模型具备控制计算机(包括电脑和手机)的相关研究和应用如雨后春笋般不断涌现。

先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet,之后荣耀 MagicOS 9.0 来了个全局智能体,再然后,昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM,同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。

很显然,这股热潮完全没有要停息的意思。今天,有网友发现苹果已经默默发布了 Ferret-UI 的两个实现版本(分别基于 Gemma 2B 和 Llama 8B),这是苹果今年五月发布的一个可让 AI 理解手机屏幕的技术,详情参阅《让大模型理解手机屏幕,苹果多模态 Ferret-UI 用自然语言操控手机》。

来自 X 用户  Niels Rogge

  • Ferret-UI 项目地址:https://huggingface.co/papers/2404.05719

不仅如此,微软也低调开源了他们的相关研究 OmniParser,这是一个基于大模型的屏幕解析工具,可将 UI 截图转换成结构化的元素;据称其解析和理解 UI 的能力达到了当前最佳水平,甚至超越了 GPT-4V。

  • 项目地址:https://huggingface.co/microsoft/OmniParser
  • 代码地址:https://github.com/microsoft/OmniParser
  • 论文标题:OmniParser for Pure Vision Based GUI Agent
  • 论文地址:https://arxiv.org/abs/2408.00203

有了这个工具,或许每个人都可以创建自己的计算机操控智能体了。

先来看看 OmniParser 的效果。对于一个用户任务:「将约翰内斯堡提供素食选择的餐厅保存到我的行程中」。

OmniParser 首先会解析 Tripadvisor 网页屏幕上的所有元素,然后它成功从中找到了「餐厅」选项。之后它点击(动作执行需要搭配其它模型)该选项,打开了一个搜索框。OmniParser 继续解析,这一次没有在屏幕上找到所需关键词,于是它在搜索框中输入了「约翰内斯堡」。再次解析后,它打开了相应的搜索项,展开了搜索结果。同样,继续解析,它成功定位到了素食选项,然后进行了勾选。最后,点击筛选出的第一个选项上的相应按钮将其收藏到行程中。至此,任务完成。

51c大模型~合集4_验证者

而如果你想看看能否进入布莱斯峡谷国家公园呢?OmniParser 也能助你轻松完成。

51c大模型~合集4_Server_02

整体来看,OmniParser 的解析能力非常出色,过程也还算流畅。

我们知道,不同的操作系统和应用有着大不相同的交互界面。为了稳健地应对各种不同情况,屏幕解析模型需要:

  1. 可靠地识别交互界面内可交互的图标;
  2. 理解屏幕截图中各种不同元素的含义,并将计划动作与屏幕上相应的区域准确地关联起来。

OmniParser 正是为这一目的而生的。OmniParser 可基于用户任务和 UI 截图输出:(1) 解析后的截图,带有边界框和数值 ID,(2) 包含提取出的文本和图标描述的局部语义。下面展示了几个例子:

51c大模型~合集4_数据集_03

51c大模型~合集4_数据集_04

51c大模型~合集4_验证者_05

如果再搭配上其它可以基于 UI 采取行动的模型(比如 GPT-4V、Phi-3.5 和 Llama 3.2),便可以创造出可以理解并控制计算机的智能体。

该团队用 GPT-4V 做了实验,结果发现 OmniParser 能大幅提升其为界面区域生成精准动作的能力。他们使用 OmniParser 和 GPT-4V 创建的一个智能体在 WindowsAgentArena 基准上达到了最佳水平。

OmniParser 是如何炼成的?

收集和整理专用数据集 ——OmniParser 的开发始于创建两个数据集:

  • 一个可交互区域检测数据集,该数据集收集整理自常见的网页,其中可点击和可操作的区域都做了标注。
  • 一个图标描述数据集,旨在将每个 UI 元素与其相应的功能关联起来。在训练模型以理解检测到的元素的语义方面,此数据集非常关键。

下面展示了可交互区域检测数据集的一些样本示例。

51c大模型~合集4_Server_06

对检测和描述模型进行微调 ——OmniParser 使用了两个互补的模型:

  • 一个检测模型,在可交互图标数据集上进行了微调,其能可靠地识别屏幕截图中的可操作区域。
  • 一个描述模型,在图标描述数据集上完成了训练,其作用是提取检测到的元素的功能语义,为预期操作生成准确符合上下文的描述。

性能表现

该团队对自己的方法进行了实验验证。结果发现,OmniParser 可大幅提升 GPT-4V 在 ScreenSpot 基准上的性能。

51c大模型~合集4_Server_07

在 Mind2Web 基准上,OmniParser + GPT-4V 的表现也胜过可从 HTML 提取额外信息的 GPT-4V。

51c大模型~合集4_Server_08

在 AITW 基准上,OmniParser 的表现优于一个经过增强的 GPT-4V—— 附带了一个使用视图图层训练的专用 Android 图标检测模型。

51c大模型~合集4_Server_09

另外,其在新基准 WindowsAgentArena 上也达到了最佳性能。

51c大模型~合集4_Server_10

OmniParser 可作为当前各种视觉 - 语言模型(VLM)的插件。为了进一步演示这一点,该团队也测试了其与 Phi-3.5-V 和 Llama-3.2-V 的组合。

51c大模型~合集4_数据集_11

该团队表示:「我们希望 OmniParser 可以作为一种通用且易于使用的工具,在 PC 和移动平台上解析用户的屏幕,而无需依赖 HTML 和 Android 中的视图图层等额外信息。」

不知道如果将 OmniParser 与新版 Claude 3.5 Sonnet 的 Computer Use 结合起来会是什么效果?可能会像这位网友说的,很赞吧。

参考链接:

https://www.microsoft.com/en-us/research/articles/omniparser-for-pure-vision-based-gui-agent/

https://x.com/mervenoyann/status/1849772138166727128

https://x.com/NielsRogge/status/1849789061508055339









#Waymo获得56亿美元融资

Waymo获得56亿美元融资,有史以来最大一轮

这笔资金将被用于进一步扩展 Waymo 的无人驾驶出租车服务。

Alphabet 旗下的自动驾驶子公司Waymo刚刚完成一轮56亿美元的C轮超额认购融资,以进一步扩大其无人驾驶出租车服务。这是该公司迄今为止筹集的最大一轮融资。

此次融资由Alphabet领投,其他投资机构包括Andreessen Horowitz、Fidelity、Perry Creek、Silver Lake、Tiger Global和T. Rowe Price,不过Waymo并未公布具体的投资比例。

这是 Waymo 的第二轮外部融资,也是自 2020 年 22.5 亿美元 B 轮融资(最终增至 32 亿美元)以来的首轮融资。

这家自动驾驶汽车公司表示,将利用这笔资金向新城市扩张,并进一步开发其自动驾驶能力。

从某种程度上来说,Waymo 现在与上一轮融资时相比已经大不相同了。当时,该公司仍在全力投入自动驾驶卡车业务,但后来退出了。

现在,该公司几乎把全部精力都放在了自动驾驶出租车叫车服务上,这一赌注获得了回报。Waymo 目前在旧金山、洛杉矶、菲尼克斯运营商业自动驾驶出租车服务,并正在向奥斯汀和亚特兰大扩张。

该公司在前三个市场每周为超过 10 万名客户提供付费叫车服务,乘客可以通过 Waymo One 应用叫车。

Waymo还提供往返菲尼克斯天港国际机场的服务,该公司还在菲尼克斯和旧金山地区的高速公路上运营。

51c大模型~合集4_Server_12

对于此次融资,Waymo 的一位机器学习工程师 Brian Wilt 激动的表示:「这是有史以来仅次于 OpenAI / xAI 的第三大风险投资吗?」

「客户喜欢 Waymo,该公司打造了自动驾驶汽车生态系统中最安全的产品,也是最好的产品,」投资公司Tiger Global 创始人 Chase Coleman 表示。

另一位投资公司Silver Lake 联合首席执行官 Egon Durban 表示:「尽管AI才刚刚开始引起公众的关注,但多年来,Waymo 一直致力于将其无限的可能性带入实体交通领域。Waymo Driver( AI 驱动的自动驾驶系统)  通过尖端研究、实用解决方案以及范围和规模不断扩大的现实经验,安全地实现了人工智能的价值和潜力,从而赢得了信任。」

随着 Waymo One 乘客人数的不断增长,Waymo继续专注于将 Waymo Driver的安全性和移动性优势扩展到更多地方,同时增强运营能力。为此,Waymo最近推出了第六代 Waymo Driver,针对成本和增强功能进行了优化。他们还通过在布法罗、纽约和华盛顿特区等城市,在更复杂的环境中测试其系统。

本轮融资不仅凸显了 Waymo 在美国自动驾驶汽车行业的领先地位,还凸显了其在盈利能力、可扩展性和技术优势方面的积极推动。与 Uber 的市场扩张合作进一步巩固了其利用现有平台实现更广泛市场渗透的战略。

不难看出,本轮融资和随后的扩张计划标志着 Waymo 将迎来关键时刻,其目标不仅是扩大服务,而且要利用自动驾驶技术从根本上重塑城市交通。

参考链接:

https://www.cnbc.com/2024/10/25/alphabets-self-driving-unit-waymo-closes-5point6-billion-funding-round.html

https://techcrunch.com/2024/10/25/waymo-raises-5-6b-from-alphabet-a16z-silver-lake-and-more/









#Open_Duck_Mini

不能拥有迪士尼同款机器人,就自己造一个。

手搓迪士尼同款机器人,总花费不到1500美元

还记得迪士尼开发的 BDX 双足机器人吗?这款机器人专为娱乐表演而设计,拥有多项技能,可以跳舞,还可以表演。

51c大模型~合集4_数据集_13

当时,这款机器人一经发布,其可爱呆萌形象深受大家喜爱,网友纷纷喊话,自己也想拥有一个同款。

现在,教你手搓迷你版迪士尼机器人的教程来了。

51c大模型~合集4_验证者_14

  • 项目地址:https://github.com/apirrone/Open_Duck_Mini

我们先来看效果。机器人在地板上行走,但看起来走的还不是很稳。

51c大模型~合集4_数据集_15

走了没几步,机器人似乎要摔倒,还好有人及时扶了一把。

51c大模型~合集4_Server_16

根据项目作者 Antoine Pirrone 介绍,该机器人的腿伸直后大约有 35 厘米高。

51c大模型~合集4_Server_17

这款机器人还可以抵御各种干扰,用手施加一个力,机器人也不会摔倒。

51c大模型~合集4_数据集_18

在侧面和背面戳它几下,机器人也能保持平衡。

51c大模型~合集4_Server_19

加大力度,机器人也不会歪倒。

51c大模型~合集4_Server_20

可见机器人的平衡性还是很好的。

不过,一开始项目进展的并不顺利。根据作者介绍,当他将行走策略迁移到真实机器人上时,机器人走得并不稳当,身体摇摇晃晃。

51c大模型~合集4_数据集_21

机器人一个趔趄差点摔倒。

51c大模型~合集4_数据集_22

从展示来看,机器人似乎还不能直线行走,拐了一个弯,然后摔倒了。

51c大模型~合集4_验证者_23

经过作者多次优化,才有了文章开头的效果,机器人可以正常行走了。这对作者来说,是一个巨大的进步。

51c大模型~合集4_验证者_24

最后作者还列举了完成这项工作所需要的相关文档,比如材料清单,清单中的每种材料还附带相关链接,直接点开可以查看具体内容:

51c大模型~合集4_验证者_25

作者表示购买电机占用了大部分成本,总成本在 1000 美元到 1500 美元之间。

51c大模型~合集4_数据集_26

不过,大家关心的组装问题,项目作者并没有给出详细介绍,主要原因在于当前版本(alpha)不太容易构建,存在一些机械问题。因此在此版本的机器人一切正常后,作者将从头开始重新设计。

项目作者也在 X 上建议大家在等等 v2 版本,当前设计还存在一些问题。

51c大模型~合集4_数据集_27

到时大家可以跟着作者列举的清单、跟着组装步骤打造属于自己的迪士尼同款机器人了。








#PersonaTalk

无需训练即可创建数字人,字节PersonaTalk视频口型编辑超SOTA

在 AIGC 的热潮下,基于语音驱动的视频口型编辑技术成为了视频内容个性化与智能化的重要手段之一。尤其是近两年爆火的数字人直播带货,以及传遍全网的霉霉讲中文、郭德纲用英语讲相声,都印证着视频口型编辑技术已经逐渐在行业中被广泛应用,备受市场关注。

近期,字节跳动一项名为 PersonaTalk 的相关技术成果入选了 SIGGRAPH Asia 2024-Conference Track,该方案能不受原视频质量的影响,保障生成视频质量的同时兼顾 zero-shot 技术的便捷和稳定,可以通过非常便捷高效的方式用语音修改视频中人物的口型,完成高质量视频编辑,快速实现数字人视频制作以及口播内容的二次创作。

,时长00:13

,时长00:11

肖像来自学术数据集 HDTF

目前的视频改口型技术大致可以分为两类。一类是市面上最常见的定制化训练,需要用户首先提供 2-3mins 的人物视频数据,然后通过训练让模型对这段数据中的人物特征进行过拟合,最终实现该数据片段中人物口型的修改。这类方案在效果上相对成熟,但是需要耗费几个小时甚至几天的模型训练时间,成本较高,很难实现视频内容的快速生产;与此同时,这类方案对人物视频的质量要求往往偏高,如果视频中的人物口型动作不标准或者环境变化太复杂,训练后的效果会大打折扣。除了定制化训练之外,还有另一类 zero-shot 方案,可以通过大量数据来对模型进行预训练,让模型具备较强的泛化性,在实际使用的过程中不需要再针对特定人物去做模型微调,能做到即插即用,成功解决了定制化方案成本高,效果不鲁棒的问题。但这类方案大都把重点放在如何实现声音和口型的匹配上,往往忽略了视频生成的质量。这会导致一个重要的问题,最终生成的视频不论是在外貌等面部细节,还是说话的风格,跟本人会有明显的差异。

PersonaTalk 作为一项创新视频生成技术,构建了一个基于注意力机制的双阶段框架,实现了这两类方案优势的统一。

论文链接:https://arxiv.org/pdf/2409.05379

项目网页:https://grisoon.github.io/PersonaTalk

技术方案

为了达到上述目标,技术团队首先用一个风格感知的动画生成模块(Style-Aware Geometry Construction)在 3D 几何空间生成人物的口型动画序列;然后通过一个双分支并行的注意力模块(Dual-Attention Face Rendering)进行人像渲染,生成最终的视频。

51c大模型~合集4_Server_28

肖像来自学术数据集 HDTF

  1. Style-Aware Geometry Construction:这一阶段的目标是在 3D 几何空间中生成具备人物风格的人脸动画。除了通过常规的语音信号来控制生成结果,这里还从参考视频中提取说话者个性化的面部特征并分析出特征的统计特性,通过 Cross Attention 注入到模型中,来引导生成的动画具备说话者本人的面部运动风格。此外,文中还提出了一种 Hybrid 3D Reconstruction 方案,通过结合深度学习和迭代式优化的方法,来提升人脸三维重建的精度和稳定性。
  2. Dual-Attention Face Rendering:在渲染过程中,作者团队创新性地设计了两个并行的注意力模块 Face-Attention 和 Lip-Attention,通过 Cross Attention 来融合 3D 动画和人物参考图特征,分别渲染脸部和嘴部的纹理。在推理过程中,文中还针对这两个模块分别设计了参考图挑选策略,其中人脸部分参考图从以当前帧为中心的一个滑动窗口中来获取,以此降低人脸纹理的采集和生成难度,确保视频画面的稳定性和保真度;口型部分则是先按照口型张幅大小对整个视频中的人脸进行排序,然后均匀挑选出不同张幅的口型图片组成一个集合,以确保口腔内的信息可以被完整性获取。

实验效果对比

在实验章节中,该研究从多个方面详细对比了 PersonaTalk 和其他市面上 SOTA 方案,以此来证明该方法的有效性。从视频效果和定量指标上看,PersonaTalk 在唇动同步、视觉质量与个性化特征保留方面均表现突出,明显优于其他 zero-shot 方法。

51c大模型~合集4_验证者_29

,时长00:48

肖像来自学术数据集 HDTF 以及自有版权数据

同时,PersonaTalk 作为一个不需要额外训练和微调的方案,在视频结果的表现上甚至优于学术界最新的定制化训练方案。

51c大模型~合集4_Server_30

,时长00:22

肖像来自学术数据集 HDTF 及网络公开数据

此外,作者团队通过对目标用户进行问卷调查和访谈,收集了对 PersonaTalk 生成内容的反馈,结果显示大多数用户对视频质量感到满意,认为其足够逼真且高度还原了人物特征。

51c大模型~合集4_Server_31

更多应用

该项研究可以应用在视频翻译、虚拟教师、AIGC 创作等多个场景。

以下数据均来自于网络公开数据或 AIGC 生成。

虚拟教师

,时长00:09

,时长00:09

       原视频                            介绍 Deep Learning 课程

AIGC 创作

,时长00:04

,时长00:05

,时长00:04

,时长00:03

结论

PersonaTalk 通过注意力机制的双阶段框架,有效突破了已有视频口型编辑技术的瓶颈,可以用很低的成本来生成高质量的人物口播视频,实现了效果和效率的兼顾。

PersonaTalk 不仅具有广泛的应用前景,还为多领域的创新提供了新思路。无论是在娱乐、教育、广告等行业,都能实现更加个性化和互动式的用户体验。随着技术的不断发展,相信 PersonaTalk 将使视频内容以及数字人创作变得更加生动、真实,从而拉近虚拟世界与现实生活之间的距离。

通过整合先进的音频技术和深度学习算法,PersonaTalk 也正在开启一种全新的视听交互方式,让交流变得更加丰富与多元化。

安全说明

此工作仅以学术研究为目的,会严格限制模型的对外开放和使用权限,防止未经授权的恶意利用。文中使用的图片 / 视频均已注明来源,如有侵权,请联系作者及时删除。

团队介绍

字节跳动智能创作数字人团队,智能创作是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术,丰富智能创作内容生态。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。








#NotebookLlama

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能,将极大地丰富人类用户与 AI 智能体互动的体验。

上个月,谷歌宣布对旗下 AI 笔记应用 NotebookLM 进行一系列更新,允许用户生成 YouTube 视频和音频文件的摘要,甚至可以创建可共享的 AI 生成音频讨论。加上此前支持的谷歌文档、PDF、文本文件、谷歌幻灯片和网页,NotebookLM 的用例和覆盖范围进一步扩大。

本月初,AI 大牛 Karpathy 发推表示自己只用了两个小时就创建了一个 10 集的系列博客 —— 历史谜团(Histories of Mysteries),其中就使用 NotebookLM 将每个主题的维基百科条目链接在一起,并生成播客视频;同时也使用 NotebookLM 编写博客 / 剧集描述。

51c大模型~合集4_Server_32

就这两天,Meta 推出了 NotebookLM 的开源平替版 ——NotebookLlama,它使用 Llama 模型进行大部分任务处理,包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。

下图为 NotebookLlama 运行流程,首先从文件(比如新闻文章或博客文章)创建转录文本,然后添加「更多戏剧化」和中断,最后将转录文本馈入到开放的文本到语音模型。

51c大模型~合集4_数据集_33

据外媒 Techcrunch 报道,NotebookLlama 的效果听起来不如谷歌 NotebookLM 好,带有明显的机器人口音,并且往往会在奇怪的时刻「互相交谈」。不过,项目背后的 Meta 研究人员表示,使用更强大的模型还可以提高质量。

Meta 研究人员在 NotebookLlama 的 GitHub 页面写到,「文本到语音模型限制了声音的自然程度。」此外,编写播客的另一种方法是让两个智能体就感兴趣的主题进行讨论并编写播客大纲。现在,Meta 只使用了一个模型来编写播客大纲。

就像下面所展示的,虽然播客内容还有一些粗糙,但它听起来已经很不错了。

,时长04:13

对于 Meta 的 NotebookLlama,有人直言听起来糟糕透了,要想真正地对标谷歌的 NotebookLM,就要在语音转换效果上接近人类水平。不过也有人认为,虽然目前效果不佳,但随着所有代码的开源,用户可以自定义尝试不同的提示方法等,相信未来会变得更好。

51c大模型~合集4_Server_34

虽然效果还是差点意思,但也有网友表示:「现在是时候让 Google 加快步伐了,Meta 已经紧随其后赶上来了,开源 NotebookLM。」

51c大模型~合集4_验证者_35

项目介绍

根据 Meta 发布的教程配方,你可以基于 PDF 文件构建播客。

51c大模型~合集4_数据集_36

项目地址:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

  • 第一步:对 PDF 进行预处理。即使用 Llama-3.2-1B-Instruct 对 PDF 进行预处理,并将其保存为.txt 文件;
  • 第二步:转录文本编写器。使用 Llama-3.1-70B-Instruct 模型从文本中编写播客转录文本;
  • 第三步:对内容重新优化,添加戏剧性。使用 Llama-3.1-8B-Instruct 模型使转录文本更具有创意;
  • 第四步:文本到语音。使用 parer -tts/parer -tts-mini-v1(文本到语音模型)和 bark/suno 生成会话播客。

不过,还有几个值得大家注意的点:

首先,在步骤 1 中,需要提示 1B 模型不要修改文本或对文本进行总结,并严格清理掉可能在 PDF 转录过程中出现的多余字符或垃圾字符。

其次,对于步骤 2,你也可以使用 Llama-3.1-8B-Instruct 模型,然后对比不同模型的效果。项目中采用的是 70B 模型,原因在于它为测试示例提供了更具创意的播客记录。

对于步骤 4,你也可以使用其他模型进行扩展,较新的模型可能听起来更好。

想要顺畅的运行该项目,你需要有 GPU 服务器或者使用 70B、8B 和 1B Llama 模型的 API 提供商。如果你采用的是 70B 模型,那么需要一个总内存约为 140GB 的 GPU 来以 bfloat-16 精度进行推理。

退一步讲,如果你的 GPU 并不是很好,也可以使用 8B 模型跑通整个 pipeline。

接下来是安装。在开始之前,请确保使用 huggingface cli 登录,然后启动 jupyter notebook ,以确保能够下载 Llama 模型。

接着运行代码:

git clone https://github.com/meta-llama/llama-recipes
cd llama-recipes/recipes/quickstart/NotebookLlama/
pip install -r requirements.txt

Notebook 1:Notebook 1 用于处理 PDF,并使用新的 Feather light 模型将其处理为.txt 文件。

Notebook 2:Notebook 2 将接收 Notebook 1 处理后的输出,并使用 Llama-3.1-70B-Instruct 模型创造性地将其转换为播客脚本。如果你拥有丰富的 GPU 资源,也可以使用 405B 模型进行测试!

Notebook 3:Notebook 3 采用了之前的文本,并提示 Llama-3.1-8B-Instruct 在对话中添加更多的戏剧化和中断。

Notebook 4:最后,Notebook 4 从上一个 notebook 中获取结果并将其转换为播客。项目中使用了 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型进行对话。

这里有一个问题:Parler 需要 4.43.3 或更早版本的 transformer,但对于 pipeline 中的步骤 1 到 3,需要最新的版本,所以需要在最后一个 notebook 中切换版本。

最后,项目列出了未来需要改进的地方:

  • 语音模型:TTS 模型使语音听起来不是很自然,未来可以纳入更好的模型;
  • 更好的提示;
  • 支持提取网站、音频文件、YouTube 链接等。

参考链接:https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/?guccounter=1









#ChatGPT创始成员、后训练负责人官宣离职

自立门户并将获OpenAI投资

OpenAI 又有重量级员工出走!

这次是后训练负责人、研究副总裁 William Fedus。

今天凌晨,Fedus 在 X 上发表了一则公开离职信,讲述了他离职的原因以及今后的去向。

Fedus 称,他做出了离开 OpenAI 的艰难决定,但希望未来能以合作伙伴的身份与 OpenAI 密切合作。为 OpenAI 的使命做出贡献,与世界一流的团队合作创建并改进 ChatGPT 是他一生难忘的经历。

不过,Fedus 对 AI for Science 的前景感到非常兴奋。他的本科专业是物理学,因而很想在该领域应用这项技术。由于 AI for Science 是 OpenAI 及其实现 ASI 最重要的战略领域之一,OpenAI 计划投资并与他的新公司合作。

Fedus 感谢了所有早期信任他的领导,特别是 Sam、Greg 和 Mark。同时感谢后训练团队所有人,以及在研究和产品方面的所有合作者。他会想念和所有人一起工作的时光,并为所有人加油!后训练团队拥有一批令人惊叹的人才和领导者,他们将继续推动后训练领域的成功。

51c大模型~合集4_Server_37

根据 The information 的报道,William Fedus 将创立一家材料科学 AI 初创公司,从而在新兴的 AI 材料科学领域与 Google DeepMind、微软和其他公司竞争。

OpenAI 的一些同事(比如 OpenAI 著名研究科学家 Noam Brown)对离职的 William Fedus 表达了关切与祝愿。

51c大模型~合集4_验证者_38

个人介绍

William Fedus 本科阶段分别在 MIT 和剑桥大学攻读物理学专业,硕士毕业于加州大学圣迭戈分校的基础粒子物理学专业,博士毕业于蒙特利尔大学计算机科学专业,导师之一为 Yoshua Bengio。

博士毕业后,William Fedus 先是在谷歌担任研究科学家,在 Google Brain 团队从事深度学习研究,专注于利用 MoE 的高效神经网络。

2022 年 9 月之后加入了 OpenAI,并成为 ChatGPT 的共同创建者之一,最开始专注于数据和评估。

在 2024 年 9 月上任后训练负责人 Barret Zoph 离职后,William Fedus 接任并开始管理后训练团队,领导了包括 4o、o1-mini、o1-preview 在内的模型后训练研发。

51c大模型~合集4_数据集_39

Google Scholar 主页显示,William Fedus 工作的引用量超过了 37000。

51c大模型~合集4_数据集_40

参考链接:

https://www.theinformation.com/briefings/openai-post-training-head-departs








#TokenFD

模态GAP不存在了?图文领域首个token级大一统基座诞生

CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。

然而,这些经过图像级监督或弱语义训练的基座,并不是处理细粒度密集预测任务的最佳选择,尤其在理解包含密集文字的文档图像上。

为解决这一限制,上交联合美团实现了图文对齐粒度的新突破,其具备三大核心优势:

构建业内首个 token 级图文数据集 TokenIT:该数据集包含 2000 万条公开图像以及 18 亿高质量的 Token-Mask 对。图像中的每个 BPE 子词均对应一个像素级掩码。数据体量是 CLIP 的 5 倍,且比 SAM 多出 7 亿数据对。

  • 构建图文领域首个细粒度大一统基座 TokenFD:仅需通过简单的一层语言编码,依托亿级的 BPE-Mask 对打造出细粒度基座 TokenFD。真正实现了图像 Token 与语言 Token 在同一特征空间中的共享,从而支持 Token 级的图文交互和各种下游任务。
  • TokenVL 打通模态 GAP:进一步开放图像即文本的语义潜力,首次实现在大语言模型中进行 token 级的模态对齐,赋能密集型的多模态文档理解任务。

论文和 demo 已发布,相关数据、模型及代码资源将陆续向社区全面开放。

  • 项目主页:https://token-family.github.io/project_page/
  • 体验地址:https://huggingface.co/spaces/TongkunGuan/Token-level_Text_Image_Foundation_Model
  • GitHub:https://github.com/Token-family/TokenFD
  • 论文地址: https://arxiv.org/pdf/2503.02304

51c大模型~合集4_Server_41

首个 Token 级图文数据集 TokenIT

据不完全统计,大约 30% 至 40% 的互联网图像包含可识别的文字,而这一比例在社交媒体平台上更为显著。

如何有效利用这些数据来增强行业基础 AI 生态的发展,一直是研究者们持续探索的方向。然而,目前真实场景数据中的文字标签多为单词级或行级,这与大语言模型所采用的 BPE token 编码规则不完全兼容。

此类数据集的不足,不仅限制了视觉基础模型在细粒度视觉感知方面的表现,也影响了多模态大语言模型在视觉与语言模态间的对齐能力。

51c大模型~合集4_数据集_42

为了解决这一限制,他们采用自研的 token 级的视觉语言分词打标技术,提出了业内首个 token 级别的图像文本数据集,填补了这一领域的数据空白,其亮点包括:

规模与多样性

  • 包含 2000 万张图像与 18 亿 Token-Mask 对,覆盖自然场景、文档、图表、代码截图、图形用户界面等全场景文本图像类型。
  • 数据量远超 CLIP(5 倍)、SAM(多 7 亿),提供更丰富的语义信息。

细粒度对齐

  • 首创 BPE 分词 + 像素级掩码标注:将文本分割为 BPE 子词(如「un-」、「-able」),每个子词(token)精确对应图像中的局部区域。
  • 支持「图像即文字」的语义映射,为多模态大模型理解字符、公式、表格等复杂结构奠定基础。

首个细粒度基座 TokenFD

先前的视觉基座模型(如 CLIP、DINO)依赖图像级监督,难以捕捉文档、表格等场景中的密集小文本语义,导致下游任务(如 OCR、视觉问答)性能受限。

SAM 具备像素级的分割能力,其受限的语义表示限制了其在文本图像场景的全生态应用。依托自主研发的数亿级 BPE-Mask 对,他们首次实现了 token 级的视觉和语言模态对齐,支持细粒度交互,填补了这一技术空白。

在实现上,TokenFD 并不依赖复杂的语言编码器,而是通过简化的 token embedding layer,将视觉编码器提取的视觉特征映射到语言编码空间。

对于 token 级的视觉和语言特征,正样本对确保数值与方向相似,而负样本对则相反。在百亿级 token-mask 数据的显式监督下,TokenFD 真正实现了「图像即文字」,其亮点包括:

51c大模型~合集4_数据集_43

支持多任务

  • 文本分割(Zero-Shot 性能提升 18.78%)
  • 文本理解(Zero-Shot 性能提升 1.48%)
  • 文本检索(Zero-Shot 性能提升 50.33%)
  • 未来盼望他们支持可控文本生成/擦除等更多任务

推动 MLLM 发展

  • 赋能多模态大模型(例如 TokenVL)细粒度文字感知能力,显著提升 OCR、文档解析等任务表现。

商业化应用

  • 图像安全审查
  • 基于文字的图像检索(适用于搜索引擎、电商平台、社交平台)
  • 知识检索增强的大模型

据了解,demo 已在 Hugging Face 上线,欢迎体验。它突破了传统基于文字识别的图文检索方式,通过特征空间直接进行相似度匹配,支持任意文字输入进行图像内容查找。

51c大模型~合集4_验证者_44

文档理解多模态大模型 TokenVL

通用视觉基础模型在多模态大语言模型中作为图像编码器被广泛应用,推动了图像理解能力的快速发展。

然而,现有的视觉模型在涉及图像中细粒度文本(如密集小文本)的下游任务中仍面临显著挑战,例如文本感知、理解与推理的准确性不足。

这一问题的根源在于当前基座模型缺乏针对文本密集场景的细粒度语义监督,导致在文档理解、图文问答等实际场景中频繁出现预测偏差。

因此作者们系统性地探索了 TokenFD 作为基座模型在通用文档智能领域的潜力。

  • 基座适配度百分百

无需额外训练,TokenFD 可直接替换其他多模态大模型的基座,各项评估基准都得到了提升。

  • 文档理解多模态大模型对齐新范式

基于 TokenFD 作为视觉基础模型,作者们进一步推出了 TokenVL,一种全新的多模态大模型图文对齐预训练范式。

通过利用 TokenIT 作为预训练数据,创新性地通过索引方法提取大语言模型(LLM)中的语言 token,并将其与图像特征图中对应的图像 token 直接匹配,在此过程中引入约束函数以实现精准对齐。

这一方法允许 LLM 在回答问题时能够更直接地参考图像内容,而不仅仅依赖于其强大的语义上下文理解能力,尤其在理解答案的空间位置时更具优势。在多个 UDV 数据集上进行了评测,结果显示出卓越的性能和令人满意的效果。

51c大模型~合集4_验证者_45

更多方法和实验细节请参照论文。









#DAPO

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。

近日,清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是一个可实现大规模 LLM 强化学习的开源 SOTA 系统。此外,使用该算法训练的模型也将在近期开源发布。

  • 项目页面:https://dapo-sia.github.io/
  • 论文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
  • 代码地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
  • 数据:https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k

使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,优于同等规模的 DeepSeek-R1-Zero-Qwen-32B,同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。

51c大模型~合集4_数据集_46

相较之下,如果使用 GRPO,Qwen2.5-32B 模型在 AIME 2024 基准上只能获得 30 分。

30 分的成绩远低于 DeepSeek 的强化学习(47 分)。该团队分析发现,原生版 GRPO 面临着几大关键问题,比如熵崩溃、奖励噪音和训练不稳定。事实上,该团队表示,很多研究团队在复现 DeepSeek 的结果时也遇到了类似的难题。他们表示:「这表明 R1 论文中可能省略了开发工业级、大规模且可重现的强化学习系统所需的关键训练细节。」

51c大模型~合集4_Server_47

Allen AI 研究者 Nathan Lambert 总结了 DAPO 对 GRPO 的改进,包括两个不同的裁剪超参数、动态采样、token 层面的策略梯度损失、过长奖励塑造

下面将从 PPO 到 GRPO 再到 DAPO 逐步介绍,看看这个新的强化学习算法究竟是如何炼成的。

近端策略优化(PPO)

PPO 引入了裁剪式替代目标(clipped surrogate objective)来执行策略优化。通过使用裁剪将策略更新限制在先前策略的近端区域内,PPO 可以让训练稳定并提高样本效率。具体而言,PPO 更新策略的方式是最大化以下目标:

51c大模型~合集4_Server_48

群组相对策略优化(GRPO) 

与 PPO 相比,GRPO 消除了价值函数并以群组相关的方式来估计优势。对于特定的问答对 (q, a),行为策略 π_θ_old 采样一组 G 个个体响应

51c大模型~合集4_数据集_49

。然后,通过对群组级奖励

51c大模型~合集4_Server_50

进行归一化来计算第 i 个响应的优势:

51c大模型~合集4_Server_51

与 PPO 类似,GRPO 也采用了裁剪目标,同时还有一个直接添加的 KL 惩罚项:

51c大模型~合集4_验证者_52

还值得注意的是,GRPO 是在样本层级计算目标。确切地说,GRPO 首先会计算每个生成序列中的平均损失,然后再对不同样本的损失进行平均。正如后面会讨论的那样,这种差异可能会对算法的性能产生影响。

另外两项改进

消除 KL 偏离

KL 惩罚项的作用是调节在线策略和冻结参考策略之间的偏离情况。在 RLHF 场景中,RL 的目标是在不偏离初始模型太远的情况下调整模型行为。然而,在训练长 CoT 推理模型时,模型分布可能会与初始模型有显著差异,因此这种限制是不必要的。因此,在 DAPO 中,KL 项被排除在外。

基于规则的奖励建模

奖励模型的使用通常会受到奖励 hacking 问题的影响。作为替代,该团队直接使用可验证任务的最终准确率作为结果奖励,计算规则如下:

51c大模型~合集4_Server_53

事实证明,这是激活基础模型推理能力的有效方法,这也在多个领域得到了证明,包括自动定理证明、计算机编程和数学竞赛。

DAPO

研究者提出了解耦剪辑(Decouple Clip)和动态采样策略优化(DAPO)算法。DAPO 对每个问题 q 和答案 a 的一组输出

51c大模型~合集4_Server_54

进行采样,并通过以下目标优化策略:

51c大模型~合集4_数据集_55

此处

51c大模型~合集4_数据集_56

下面将介绍与 DAPO 相关的关键技术。

抬高天花板:Clip-Higher

在使用 PPO 或 GRPO 进行的初步实验中,研究者观察到了熵崩溃现象:随着训练的进行,策略的熵迅速下降(如图 2b)。某些组的采样响应通常几乎相同。这表明有限的探索和早期的确定性策略会阻碍扩展过程。

51c大模型~合集4_验证者_57

针对这一问题,研究者提出了 Clip-Higher 策略。对重要度采样率进行剪辑是 PPO-Clip 中的一种策略,用于限制信任区域并增强 RL 的稳定性。上剪辑可以限制策略的探索。在这种情况下,提高「利用 token」的概率要比提高不可能的「探索 token」的概率容易得多。

51c大模型~合集4_数据集_58

他们还观察到,被剪辑 token 的最大概率约为

51c大模型~合集4_Server_59

(图 3a)。这一发现支持了他们的分析,即上限剪辑阈值确实限制了低概率 token 的概率增长,从而可能限制了系统的多样性。

如公式 10 所示,根据 Clip-Higher 策略,研究者将较低和较高的剪辑范围解耦为 ε_low 和 ε_high:

51c大模型~合集4_验证者_60

研究者增加了 ε_high 的值,以便为低概率 token 的增加留出更多空间。如图 2 所示,这一调整有效地提高了策略的熵,有利于生成更多样化的样本。研究者选择将 ε_low 保持在相对较小的范围内,因为增大 ε_low 会将这些 token 的概率压制为 0,从而导致采样空间的崩溃。

越多越好:动态采样

当某些提示的准确度等于 1 时,现有的 RL 算法就会出现梯度递减问题。根据经验,准确率等于 1 的样本数量会继续增加,如图 3b 所示。这意味着每批样本中的有效提示次数会不断减少,从而导致梯度方差增大,抑制了模型训练的梯度信号。

为此,研究者建议进行过度采样,过滤掉等式 11 中所示精度等于 1 和 0 的提示语,保留批次中所有具有有效梯度的提示语,并保持一致的提示语数量。在训练之前不断采样,直到批次中全部都是准确率既不等于 0 也不等于 1 的样本。

51c大模型~合集4_Server_61

另外一点发现如图 6 所示,在动态采样的情况下,实验能更快地实现相同的性能。

51c大模型~合集4_数据集_62

Rebalancing Act:Token 级策略梯度损失

研究者观察到,由于所有样本在损失计算中的权重相同,因此长回复中的 token 对总体损失的贡献可能会不成比例地降低,这可能会导致两种不利影响。

首先,对于高质量的长样本来说,这种影响会阻碍模型学习其中与推理相关的模式的能力。其次,过长的样本往往表现出低质量的模式,如胡言乱语和重复词语。

如图 4a 和图 4b 所示,样本级损失计算由于无法有效惩罚长样本中的不良模式,会导致熵和响应长度的不健康增长。

51c大模型~合集4_数据集_63

捉迷藏:过长的奖励塑造

为了研究奖励噪声的影响,研究者首先应用了超长过滤策略,以掩盖截断样本的损失。如图 5 所示,这种方法大大稳定了训练并提高了性能。

51c大模型~合集4_数据集_64

此外,他们还提出了「Soft Overlong Punishment」(等式 13),这是一种长度感知惩罚机制,旨在塑造截断样本的奖励。具体来说,当响应长度超过预定义的最大值时,研究者会定义一个惩罚区间。在这个区间内,响应越长,受到的惩罚就越大。这种惩罚会添加到基于规则的原始正确性奖励中,从而向模型发出信号,避免过长的响应。

51c大模型~合集4_数据集_65

DAPO 的实验表现

基于 Qwen-32B 基础模型,该团队进行了一系列实验,验证了新提出的 DAPO 算法的有效性和优势。这里我们略过实验细节,重点来看看实验结果。

整体来看,在 AIME 2024 上,使用 DAPO 训练的 Qwen-32B 模型成长为了一个强大的推理模型,性能优于使用 R1 方法训练的 Qwen2.5-32B。

如图 1 所示,可以看到 DAPO 训练的 Qwen2.5-32B 在 AIME 2024 基准上的性能提升情况。随着训练步数增长,模型准确度从 0% 稳步升至了 50%。需要重点指出:达成这一性能所使用的步数仅为 DeepSeek-R1-Zero-Qwen-32B 所需步数的一半。

表 1 展示了新方法中每种训练技术的贡献。看得出来,每种技术都对准确度的增长有所贡献。可以看到,原生 GRPO 只能让 Qwen2.5-32B 基础模型的准确度达到 30%。

51c大模型~合集4_验证者_66

至于 token 级损失,虽然它带来的性能提升较少,但该团队发现它可增强训练稳定性并使长度增加得更健康。

训练动态

为了获得更透彻的分析,该团队也分析了训练动态和中间结果。

51c大模型~合集4_验证者_67

生成响应的长度:该指标与训练稳定性和性能密切相关。如图 7a 所示。长度的增加可为模型提供更大的探索空间,允许采样更复杂的推理行为并通过训练逐渐强化。但需要注意的是,长度在训练过程中并不总是保持持续的上升趋势。在一些相当长的时期内,它可以停滞甚至下降。通常的做法是将长度与验证准确度结合起来作为评估实验是否正在恶化的指标。

训练过程中的奖励动态:这一直是强化学习中至关重要的监测指标之一,如图 7b 所示。在这里的大多数实验中,奖励增加的趋势相对稳定,不会因为实验设置的调整而出现大幅波动或下降。这表明,在给定可靠奖励信号的情况下,语言模型可以稳健地拟合训练集的分布。然而,该团队发现,在训练集上的最终奖励往往与在验证集上的准确度相关性不大,这表明对训练集存在过拟合现象。

Actor 模型的熵和生成概率:这与模型的探索能力有关,同时也是实验中密切监控的关键指标。直观地讲,模型的熵需要保持在适当的范围内。过低的熵表示概率分布过于尖锐,这会导致探索能力丧失。相反,过高的熵往往与过度探索的问题有关,例如乱码和重复生成。对于生成概率,情况恰恰相反。如前所示,通过应用 Clip-Higher 策略,可以有效地解决熵崩溃的问题。在后续的实验中,该团队还发现保持熵缓慢上升的趋势有利于模型提升性能,如图 7c 和图 7d 所示。

案例研究

在 RL 训练过程中,研究者观察到一个有趣的现象:Actor 模型的推理模式会随着时间的推移而动态演化。具体来说,算法不仅强化了有助于正确解决问题的现有推理模式,还逐渐产生了最初不存在的全新推理模式。这一发现揭示了 RL 算法的适应性和探索能力,并为模型的学习机制提供了新的见解。

例如,在模型训练的早期阶段,几乎不存在对之前推理步骤的检查和反思。然而,随着训练的进行,模型表现出明显的反思和回溯行为,如表 2 所示。这一观察结果为进一步探索解释推理能力在 RL 过程中的出现提供了启示。

51c大模型~合集4_Server_68

更多研究细节,可参考原论文。










#上交如何让DeepSeek R1在分手厨房再也不糊锅?

本文由上海交通大学SJTU-MARL实验室与AGI-Eval评测社区联合团队撰写,第一作者张劭为上海交通大学博士生(导师:温颖副教授),研究方向为人智协同与多智能体系统,共同第一作者王锡淮为上海交通大学博士生(导师:张伟楠教授),研究方向为强化学习与多智能体系统。通讯作者温颖为上海交通大学人工智能学院副教授,其团队SJTU-MARL实验室研究方向涉及强化学习,多智能体系统及决策大模型。AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区。

在春节的 DeepSeek 大热后,大模型也更多走进了大家的生活。我们越来越多看到各种模型在静态的做题榜单击败人类,解决各种复杂推理问题。但这些静态的测试与模型在现实中的应用还相去甚远。模型除了能进行对话,还在许多更复杂的场景中以各种各样的方式与人类产生互动。除了对话任务外,如何实现大模型与人的实时同步交互协作越来越重要。

像上周刚刚引爆社区的 Manus,就号称能够让 LLM Agent 能够与人实时协作交互完成任务。网上对 Manus 的吹捧很多,甚至 Manus 的一个内测码的价格在闲鱼上就被叫到了 6 万。但在实测视频中,我们可以看到 Manus 更像是回合制协作,用户输入一个指令后,Manus 进行规划,列出自己需要完成的任务,并逐步完成。用户只能在 Manus 完成任务的过程中静静等待,也无法修改 Manus 的计划,直到 Manus 完成它的计划才能开始新的交互。

但在现实生活中,我们与同伴互动协作完成一个任务时,并不是回合制互动的,人与人之间存在着更多频繁的互动以及对对方的观察与输入输出,这些互动带来了环境状态的改变以及对人即时反应能力的要求。

Manus 的交互形式仍然无法解决对人类的实时响应问题。用户在出现临时的想法变化,或希望和模型协作共同工作时,Agent 仍然面临无法快速响应,以及难以推断用户意图的挑战。

如何让模型实现真正的人机实时同步协作?在 Claude-3.7-sonnet 游玩宝可梦,模型在贪吃蛇中进行大比拼受到广泛关注的时刻,我们发现多人协作游戏或许是一个更合适的测试场景。

「锅里的牛排糊了!灭火器在哪?生菜还没切完!!」—— 如果你玩过《Overcooked》,一定体验过这种手忙脚乱的崩溃感。实时游戏的突发状况、疯狂倒计时的订单,以及频频和你抢活干的队友,让这款强调同步协作的游戏既充满欢乐又令人血压飙升。

《Overcooked》是一款 Team 17 发行的以合作烹饪为主题的派对游戏,玩家需在特别的厨房中与队友实时配合完成切菜、煎牛肉饼、组装汉堡以完成订单,并时刻注意灭火。游戏凭借极具挑战的实时协作机制和令人手忙脚乱的厨房布局,迅速成为考验团队默契的「友情 / 爱情检测器」,也因此得名「分手厨房」。

51c大模型~合集4_Server_69

Overcooked游戏画面

有趣的是,这种高实时性、强交互的虚拟环境也吸引了多智能体系统(Multi-Agent System, MAS)和多智能体强化学习(Multi-agent Reinforcement Learning)研究者的目光。由于游戏要求智能体快速分工协作,解决合作中的协调问题,Overcooked 在 2019 年由 Stuart Russell 和 Pieter Abbeel 领衔的 Center for Human-Compatible AI ,通过简化实现成人智协同的基准 overcooked-ai,开始被被广泛用作探究智能体与人类协作能力的测试平台,尤其是和人类的零样本协作(Zero-shot Coordination)。研究者通过训练 AI 代理预测人类玩家的决策与沟通,探索分布式协作、应急策略优化等课题,其成果甚至为自动驾驶、工业机器人协作提供了灵感。在 overcooked-ai 的「虚拟后厨」,人机协作的边界正被重新定义。

51c大模型~合集4_验证者_70

原始的overcooked-ai环境

当实时同步协作对人而言仍有巨大挑战时,上海交大(共同第一作者为博士生张劭和王锡淮,导师为温颖副教授和张伟楠教授)与 AGI-Eval 评测社区开发的 DPT-Agent 框架和基于 Overcooked-AI 重新升级的 Overcooked Challenge 实时同步协作评估环境,加入更复杂的菜谱以及还原游戏的实时协作机制,让大模型加入这场协作游戏,直面同步实时协作挑战:

  • 预判式协作:你切菜时,DPT-Agent 秒递盘子;牛排烧焦了,它抢先灭火;
  • 动态分工:根据订单优先级,自动切换「主厨」与「帮工」角色,有效安排时间;
  • 读心级配合:甚至能通过你的动作历史,推测你想做汉堡还是沙拉。
  • 论文题目:Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration
  • 论文地址:https://arxiv.org/abs/2502.11882
  • 项目地址:https://github.com/sjtu-marl/DPT-Agent

DPT-Agent 和 Overcooked Challenge 环境现已开源,有兴趣的朋友可以试试接入大模型和 DPT-Agent 一起玩 Overcooked。

51c大模型~合集4_验证者_71

看到这里,你一定会问,平时话很多的 ChatGPT 输出一次要好几秒,还有在对话时要思考几十秒的 DeepSeek-R1,虽然推理能力很强也很会思考,但似乎延迟巨大,如何做到和人实时同步协作?

答案就是双过程理论(Dual Process Theory)—— 让大模型学会「边煎牛排边写策略」!

人脑同款双系统:快慢双脑破解 AI 协作难题

大模型在实时同步协作中为何频频翻车?问题出在「大模型想得慢做的慢」与「小模型做的快但做不对」的矛盾:

大模型往往生成一个决策至少需数秒,推理模型则可能达到惊人的几分钟,在分手厨房以秒计算的游戏进程里难以实施决策,而小模型响应的确很快,但往往由于能力不足,出现失误决策。

51c大模型~合集4_验证者_72

左:Overcooked Challenge 的关卡1,同时支持单人和双人游戏;右:Overcooked Challenge 的关卡2

作者使用了一系列的大小模型在 Overcooked Challenge 单人游戏上进行了测试,可以明显的看到绝大多数非推理模型在直接决策(Act as System 1)以及推理模型先思考再决策(Long CoT + Act as System 2)的情况下都无法得分,即使强如 GPT-4o,也无法超越简单的有限状态机(FSM)。

51c大模型~合集4_Server_73

横轴为得分效率:正得分(即不含扣分)/有效宏操作,纵轴为每局游戏平均得分,圆的大小代表模型每一次决策从输入到输出的平均延时(秒)

这使得我们思考一个问题,模型是否能像人一样,一边不间断地做手上的工作,一边思考更复杂的策略,而不是想一步做一步?

借鉴人类双过程理论(Dual Process Theory),DPT-Agent 通过 System 1 和 System 2 的结合,为 Agent 装上「人脑同款双系统」:

  1. 「快脑」System 1—— 条件反射级响应
  • 代码即策略(Code-as-Policy):将高频操作(灭火、递食材)固化为有限状态机(FSM)规则,优化初始 FSM 策略;
  • 持续输出保障:即使 System 2 在后台思考,System 1 也能按 FSM 中最新策略持续行动,杜绝 “宕机卡顿”,原子动作响应延迟 < 0.1 秒。
  1. 「慢脑」System 2—— 战略级读心术
  • 心智理论(ToM):让 LLM 通过分析玩家动作历史,实时构建人类意图模型(例:「TA 连续取牛肉→今晚主打牛肉汉堡」);
  • 异步反思:在「快脑」指挥智能体做菜的同时,「慢脑」根据游戏历史优化策略,如发现「生菜总是不够」,自动调整备菜优先级,边协作边进化。

51c大模型~合集4_数据集_74

DPT-Agent框架图

硬核实验:20 个模型 + 两大主流框架与 DPT-Agent 的大比拼

在全新的难度加强 Overcooked Challenge 环境上,20 个主流模型(涵盖 GPT-o3-mini、DeepSeek-R1 系列以及最新发布的 QwQ-32b 等)在 ReAct、Reflexion 和 DPT-Agent 的两个版本(带有 / 不带有心智理论能力)上进行了单智能体、多智能体以及真实人类合作测试,证明了 DPT-Agent 在实时同步协作上的超强能力。

「单人游戏实战」:高延迟模型的逆袭

在单人游戏中,DPT-Agent 在得分效率和得分上均优于 ReAct 和 Reflexion,而高延迟模型更是得到逆袭级别的表现。绝大多数高延迟模型在 DPT-Agent 框架的帮助下取得从有得分能力到能够真正得分的转变,相比 ReAct 和 Reflexion 取得大幅提升。DeepSeek-R1-70B 使用 DPT-Agent 框架后,在延迟基本不变的情况下,得分从使用 ReAct 的 -17.0 以及 Reflexion 的 -20.0 变为 +60.0,逆袭成「厨房战神」。而其他非推理模型也有不同程度的提升。

51c大模型~合集4_Server_75

轴为得分效率:正得分(即不含扣分)/有效宏操作,纵轴为每局游戏平均得分,圆的大小代表模型每一次决策从输入到输出的平均延时(秒)

「智能协作实战」:当 DPT-Agent 遇上「偏科队友」

在真实的协作场景中,AI 常需面对能力参差不齐的伙伴 —— 可能是只会切菜的规则机器人,或是专注煎牛排却绝不上菜的「一根筋」AI。DPT-Agent 如何应对?团队设计了残酷的多智能体实验:

极端测试:与「偏科 AI」组队让 DPT-Agent 搭档三类规则 AI(专精切生菜 / 煎牛排 / 组装汉堡)。

为了公平比较,ReAct 和 Reflexion 使用和 DPT-Agent 相同的 System 2 输出方式与动作执行器来实现为 System 1 + System 2 框架。

51c大模型~合集4_Server_76

  1. 推理模型战胜高延迟:DeepSeek-R1 满血版在 DPT-Agent 框架加持下,相比使用 ReAct 的 - 42.5 分有大幅提升,获得 74.3 分的战绩,逆袭成 MVP, o3-mini-high 相比 o3-mini-medium 和 o3-mini-low 即使延迟增大,也一样呈现能力上升趋势。
  2. 非推理模型表现也亮眼:DeepSeek-V3 在 DPT_Agent 框架加持下表现与满血 DeepSeek-R1 接近,展现不俗实力。
  3. ToM 模块的双刃剑:
  • 神助攻案例:
  • 当规则 AI 是专注取牛肉的 Agent 时,DeepSeek-R1-70b 驱动的 DPT-Agent 通过 ToM 推断「玩家专注牛肉汉堡」,主动改变策略备好面包 + 生菜
  • 人类持续传递牛肉表明其偏爱处理肉类,所以智能体应专注于其他任务以优化团队合作。
  • 当规则 AI 是专注组装汉堡并上菜的 Agent 时,o3-mini-low 驱动的 DPT-Agent 通过 ToM 推断 “玩家专注于组装汉堡并上菜”,及时调整策略为准备所有的食材来进行配合
  • 人类玩家优先处理紧急的牛肉订单并进行快速组装,通常专注于组装和提供即食食品。智能体应通过准备熟透的牛肉并迅速传递完成的食材来支持这一点,以确保更顺畅的协作。

            

  • 翻车现场:「ToM 模块是协作上限的钥匙,但锁眼必须匹配模型自身的心智推理能力」。
  • Llama3-70B 可能因自身 ToM 能力薄弱,搭载完整 DPT-Agent 后反而得分下降,没有观察到显著的推断现象
  • 关于 ToM 模块的更多研究,尤其是 Agent 和人的双向 ToM 过程,可以参考团队的另一篇工作「Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task」。论文链接:https://arxiv.org/abs/2409.08811

「真实人类协作」:主客观均是协作王者

团队在学校内招募了 68 位学生和多智能体实验中所有的 Agent 进行了协作实验,并在先前实验的基础上增加了一个关卡。实验参与者在完全未知 Agent 身份的情况下与所有 Agent 以随机顺序进行实验,对 Agent 进行了协作能力和偏好程度的打分。

DPT-Agent 展现了超强协作能力,得分在两个地图上碾压其他框架,主观协作能力和人类主观偏好得分最高。

51c大模型~合集4_Server_77

DPT-Agent和人类玩家在关卡1的游戏过程(蓝色帽子为人类玩家,红色帽子为DPT-Agent,视频为2倍速)

51c大模型~合集4_验证者_78

人类玩家借助关卡2的中间操作台无缝合作(蓝色帽子为人类玩家,红色帽子为DPT-Agent,视频为2倍速)

同时有趣的是,人类对 agent 的偏好和协作程度,可能与 agent 的得分贡献率有关,人类会展现出更多的对贡献率更高的模型的喜爱。

51c大模型~合集4_验证者_79

与人类协作游戏得分与各Agent的得分贡献率

51c大模型~合集4_数据集_80

人类主观评价得分

开源评估框架

DPT-Agent 使用的 Overcooked Challenge 环境现已开源,支持 Act,ReAct,Reflexion,ReAct in DPT, Reflexion in DPT, DPT-Agent w/o ToM,DPT-Agent 多种框架下的模型评估,同时公开多达 34 个主流模型包含 DeepSeek-R1 在内的评估结果,评估结果现已在 AGI-Eval 平台上线,未来计划推出人机协作评估,请大家一起来和大模型玩分手厨房!










#Skywork-R1V

多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

DeepSeek-R1 问世后,我们一直在期待能「强推理、慢思考」的大模型进化成多模态模式。如果能在视觉等各领域复刻强化学习(RL)在文本上的突破,AI 应用势必会将更多领域推入新的范式。

毫无疑问,这也是众多科技公司正在探索的方向。

3 月 18 号,昆仑万维正式发布 Skywork R1V(以下简称 R1V)系列模型,实现了 SOTA 级别的视觉推理和强大的通用推理能力。随着新模型的到来,昆仑万维成为了国内第一家开源多模态思维链推理模型的企业。

目前,昆仑万维已经开源了 R1V 的模型权重和技术报告。

  • Hugging Face 地址:https://huggingface.co/Skywork/Skywork-R1V-38B
  • Github 地址:https://github.com/SkyworkAI/Skywork-R1V
  • 技术报告地址:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

具体表现如何呢?从多项基准测试来看,R1V-38B 相比较文本推理模型,已经在数学推理、代码生成等任务中达到了领先水平,在部分任务上接近了更大尺寸的闭源模型。相比较传统多模态模型(如 OpenAI 4o、Claude 3.5 Sonnet),R1V 的推理能力更是遥遥领先,相比多模态开源大模型 DeepSeek V3 也有所提升。

在推理能力方面,R1V-38B 同样可以达到顶尖水平。在权威的 MATH500 和 AIME 数学推理基准测试中,R1V 分别取得了 94.0 和 72.0 的高分,并在逻辑推理和数学问题求解上展现出了人类专家级水准,从而在行业内众多主流模型中脱颖而出。

而在视觉能力方面,R1V 成功实现了强文本推理能力的多模态迁移,在视觉推理任务上表现出色,凭借着创新的跨模态迁移技术与优化框架,R1V 在 MMMU 与 MathVista 等视觉推理基准中分别取得了 69 和 67.5 的成绩,不仅超越了多个开源竞品模型,更达到了与更大规模闭源模型媲美的水准。

更值得关注的是,R1V 成为全球范围内首个在数学推理能力上接近 OpenAI o1 的开源多模态模型。

最近一段时间,DeepSeek 的突破让我们看到了在大模型上引入强化学习的潜力。现在,昆仑万维的实践似乎也已经给多模态打开了方向。

多模态喜获「强推理」

AI 应用格局打开

昆仑万维表示,R1V 视觉推理模型可以同时处理文本与视觉信息,拥有强大的跨模态推理能力,可轻松应对复杂的逻辑推理、数学问题、科学分析以及医学影像诊断等场景。

因为多模态 + 强推理的能力,大模型「睁开了眼睛」,因此也拓展了一大堆新的应用方向。

我们搜罗了一些不同学科(包括数学、化学、医学等)的题目,对 R1V 的解题推理能力来了一波考察。

先来一道 2025 考研数学题目:

51c大模型~合集4_数据集_81

很快,R1V 的完整解题思路和正确答案就展现了在我们面前:

接着让 R1V 分析下图化学分子式描述的是哪种立体几何构型:

51c大模型~合集4_数据集_82

这类题目要求多模态推理模型熟练、准确地判断、区分各类化学分子图,经过了抽丝剥茧的推理过程,R1V 给出了正确答案。

R1V 的知识面还不止于此,它甚至还略懂医学影像,看看它是如何诊断这张 CT 图片的。当然,分析结果仅供参考,最终的诊断和治疗还是要交给医生,由他们根据实际情况来做出。

最后,我们还测试了 R1V 的其他视觉推理能力,比如柱状图的数值分析:

,时长01:05

可见,无论是数学等不同学科的一般性问题,还是一些更需要「眼力见」的视觉场景,R1V 都可以应付自如。

三大核心技术创新

让开源视觉思考模型成功「上位」

为什么到了 R1V 的程度,多模态上的强推理就能跑通了?在 R1V 发布的技术报告中,我们可以了解到其中的技术创新。

视觉多模态的特殊性决定了其推理与数学、逻辑等自然语言推理的不同,前者要解决跨模态对齐等一系列挑战。尽管当前的视觉语言模型(VLM)在描述性任务(比如为图像生成连贯且上下文相关的文本描述)方面表现出色,但它们在几何证明、科学问答等涉及深度逻辑的多模态任务中仍然不如单模态系统。

图片来自英伟达博客:https://developer.nvidia.com/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/

对此,学界提出将具有推理能力的语言模型集成到 VLM 中来增强后者的推理能力。虽然这一方案很有潜力,但实现过程中也面临挑战。比如,推理任务的独特性要求在训练时使用专门的推理格式的数据,然而当前的 VLM 数据集主要由非推理内容组成,即使是一些包含 VLM 思维链的示例,往往缺乏高级推理任务所需的复杂性。

此外,VLM 的推理能力提升也依赖多模态表征学习、知识增强、模块化架构设计等技术层面的协同进步。显然,昆仑万维的 R1V 在这些方面做出了突破。

作为一个 VLM 推理模型,R1V 采用高效的多模态迁移方法,最大程度保留了文本推理能力,同时优化视觉任务表现。同时,R1V 提出通过混合优化策略来加强视觉文本对齐,显著提升了跨模态集成效率。最后,R1V 引入自适应长度思维链蒸馏方法来生成推理数据。

正是有了这三大核心技术的支撑,R1-V 才取得了领先的多模态推理性能。我们接下来一一来解析。

一,高效多模态推理能力迁移。该工作首次提出了利用轻量级 Skywork-VL 视觉投影器,使 R1V 模型实现了无缝多模态适应。这样一来,无需重新训练基础语言模型或视觉编码器,就能高效地将文本推理能力迁移到视觉任务中,同时将原有优秀的推理文本能力保留了下来。

二,多模态混合式训练,具体来讲是将迭代监督微调(Iterative SFT) 与 DeepSeek-R1 的核心 RL 算法群组(相对策略优化,GRPO)相结合,分阶段地对齐视觉 - 文本表征,达成跨模态任务的高效融合,将跨模态任务的表现提升了一大步。

其中在迭代监督微调阶段,对于利用奖励模型从全部数据中挑选出的高质量数据以及在前序训练过程中模型未能正确处理的难点数据,进行反复迭代微调,让 R1V 持续地巩固自身知识并自我纠错,稳步提升视觉推理能力。

在 GRPO 强化学习阶段,不额外引入评判器,仅对 R1V 生成的不同答案进行组内对比学习,最终大幅提升多模态推理的稳定性、精度和泛化表现。

如下为混合优化框架的示意图,包括了三个细化步骤:基于完整数据集的原始训练、利用自定义数据的迭代训练以及强化学习。三个阶段共同作用,成为 R1V 多模态推理能力提升的关键。

51c大模型~合集4_数据集_83

多模态混合式训练

三,自适应长度思维链蒸馏(AL-CoTD)。R1V 引入了一种基于视觉 - 文本复杂度的自适应推理链长度控制机制,可以对模型的推理过程进行动态优化,在提升推理效率的同时避免模型过度思考。此外结合多阶段自蒸馏策略,提升了数据生成与推理过程的质量,确保模型在复杂多模态任务中依然有不俗的表现。

下图为具体的流程,包括了质量和难度评估模块(QDAM),从视觉评分和文本评分两个主要维度来系统地评估图像 - 文本查询对;视觉 - 文本集成分析器(VTIA),通过句法和语义分析确定跨模态集成所需要的深度,并根据图像 - 文本查询中的模式识别来计算集成评分;动态推理长度控制器(DRLC)以及在此基础上形成的多阶段自蒸馏 pipeline。

51c大模型~合集4_验证者_84

AL-CoTD 流程

除了整体技术方案的优化,R1V 的创新性还特别体现在训练过程中,通过「三阶段方法」将文本端强大的推理能力高效迁移至视觉任务上。

首先是视觉语言表征的初始对齐。训练时首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的 200 万条常规多模态数据上进行训练,使 MLP 初步学习如何将图像特征映射至语言空间。这一阶段仅训练 MLP 适配器,在保持视觉编码器和语言模型的数冻结不变的情况下,快速、高效地达成视觉与语言表征初步对齐的目的。

其次是推理能力迁移。基于第一阶段训练好的 MLP 适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成 R1V 视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和 MLP 的泛化能力,重组后的模型已能表现出一定的视觉推理能力,初始性能即达到了业内同等规模的先进水平。

最后是视觉与文本模态精准对齐,即上面提到的「混合优化框架」,结合迭代监督微调和 GRPO 进一步精准对齐视觉和语言模态表征。

结果显而易见,高效的训练策略带来了 R1V 视觉推理任务的突破性进展,在跨多学科的不同公开评测基准中达到或超过了现有领先模型的性能,具体可见下表 1(与开源近似尺寸横向对比)、图 1 (与开源同等及更大尺寸模型对比)和图 2 (与开源大尺寸模型以及闭源专有模型对比)。

51c大模型~合集4_数据集_85

表 1:与开源近似尺寸模型横向对比

51c大模型~合集4_数据集_86

图 1:与开源同等及更大尺寸模型对比

51c大模型~合集4_Server_87

图 2:与开源更大尺寸模型以及闭源专有模型对比

在开源 R1V 模型并公开方法之后,昆仑万维希望能够推动全球范围内的学术研究与产业应用探索。不仅如此,昆仑万维 Skywork 团队正在进行从视觉多模态跨越到全模态的技术探索,将包括「文本、视觉、语音」在内所有环节打通并开源。

为此,该团队设计了一种在 R1V 模型中灵活扩展语音模态的方式,从而构建了一个全模态思考大模型,不仅在单个模型中同时实现了图像、视频、语音的全模态理解能力,还在语音和视觉理解评测中取得多项 SOTA 成绩。未来将公布相关评测成绩并同样开源这一全模态思考大模型。

结语

从今年 1 月 DeepSeek-R1 的提出,到人们开始在多模态大模型、甚至自动驾驶的 VLM 中加入 GRPO,仅仅过去了不到两个月。我们可以看到在这一波开源的浪潮下,AI 领域的发展肉眼可见地再次加速,下一次突破可能已近在眼前。

不过在这股浪潮中,能算得上引领潮流的团队只是少数。

进入大模型时代之后,昆仑万维在多模态领域的探索一直引人关注。过去三年,昆仑万维在音乐大模型、文本大模型和视频模型等方向取得了一系列成绩,建立了自己的 AI 产品矩阵,包括懂金融、学术的天工 AI 搜索、全球首个 AI 音乐创作平台 Mureka、AI 短剧平台 SkyReels、AI 社交产品 Linky 等等。

今年 2 月,昆仑万维发布世界模型 Matrix-Zero 系列,把探索延伸到了 AI 领域最前沿的方向。在可以模拟物理世界的 AI 模型中,我们可以运行许多实验和仿真任务,或是完成不同以往的影视创作。再加上今天开源出来的 R1V 大模型,在让大模型实现多模态强推理之后,AI 面对物理世界获得了更强大的理解、推理、交互能力。

此举也彰显了昆仑万维在 AI 时代始终秉持的开源初心。过去几年,这家「All in AGI」的 AI 科技公司在推出前沿大模型及技术的同时,一直通过开源回馈社区与开发者,先后开源了百亿级「天工」Skywork-13B 系列、2 千亿参数稀疏大模型 Skywork-MoE 和国内首个面向 AI 短剧创作的视频生成模型 SkyReels-V1 等。这些举措在扩大自身技术影响力的同时,无疑也对开源社区、开发生态和整个 AI 行业的健康发展起到了积极作用。

一面是技术前沿的开拓,一面是更多样化的整合与落地,昆仑万维已经形成了「AI 前沿基础研究 —— 基座模型 ——AI 矩阵产品 / 应用」的产业链。

似乎已经可以隐隐听到 AGI 的脚步声了。









#Mistral Small 3.1

单个4090就能跑,Mistral开源多模态小模型,开发者:用来构建推理模型足够香

多模态,性能超 GPT-4o Mini、Gemma 3,还能在单个 RTX 4090 上运行,这个小模型值得一试。

小模型正在变得越来越好,而且越来越便宜。

刚刚,法国 AI 创企 Mistral AI 开源了一个 24B 的多模态小模型,该模型在多个基准上击败了 Gemma 3 和 GPT-4o Mini 等同类模型,而且推理速度达到了 150 个 token / 秒,称得上是又好又快。

51c大模型~合集4_数据集_88

重要的是,它只需要一个 RTX 4090 或 32GB RAM 的 Mac 就能运行,而且开源协议是 Apache 2.0,因此既能用于研究,也能商用。

51c大模型~合集4_验证者_89

51c大模型~合集4_验证者_90

具体来说,Mistral Small 3.1 是基于 Mistral Small 3 构建的。与 Mistral Small 3 相比,它的上下文窗口更大,达到了 128k(Mistral Small 3 仅为 32k),文本生成能力得到了改进,还新增了视觉能力。

Mistral 官方表示,Mistral Small 3.1 是一款多功能模型,旨在处理各种生成式 AI 任务,包括指令遵循、对话辅助、图像理解和函数调用。它为企业级和消费级 AI 应用提供了坚实的基础。

目前,部分开发者已经在自己的设备上完成了部署,并晒出了体验效果:

51c大模型~合集4_数据集_91

51c大模型~合集4_Server_92

Mistral Small 3.1 可在 huggingface 网站 Mistral Small 3.1 Base 和 Mistral Small 3.1 Instruct 上下载。

  • Mistral Small 3.1 Base:https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Base-2503
  • Mistral Small 3.1 Instruct:https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503  

以下是该模型的详细信息。

核心特性

Mistral Small 3.1 具有以下特点:

  • 轻量级:可以在单个 RTX 4090 或具有 32GB RAM 的 Mac 上运行。这使其非常适合端侧使用情况。
  • 快速响应能力:非常适合虚拟助手和其他需要快速、准确响应的应用程序。
  • 低延迟函数调用:能够在自动化或智能体工作流中快速执行函数。
  • 针对专业领域进行微调:Mistral Small 3.1 可以针对特定领域进行微调,打造精准的主题专家。这在法律咨询、医疗诊断和技术支持等领域尤其有用。
  • 高级推理的基础:开放的 Mistral 模型已经被开发者用来构建出色的推理模型,比如 Nous Research 的 DeepHermes 24B 就是基于 Mistral Small 3 构建出来的。为了鼓励这种创新,Mistral AI 发布了 Mistral Small 3.1 的基础模型和指令检查点,以便社区进一步对模型进行下游定制。

51c大模型~合集4_数据集_93

Mistral Small 3.1 可用于需要多模态理解的各种 B 端和 C 端应用程序,例如文档验证、诊断、端侧图像处理、质量检查的视觉检查、安全系统中的物体检测、基于图像的客户支持和通用协助。

性能展示

以下是 Mistral Small 3.1 在文本、多模态、多语言、长上下文等场景中的性能表现情况。

文本指令基准

51c大模型~合集4_验证者_94

多模态指令基准

51c大模型~合集4_数据集_95

多语言指令基准

51c大模型~合集4_验证者_96

预训练性能

51c大模型~合集4_数据集_97

参考链接:https://mistral.ai/news/mistral-small-3-1










#local-deep-research

本地也能运行Deep Research!支持arXiv平台,兼容PDF、Markdown等

今年年初,OpenAI 上线 Deep Research,开启了智能体又一新阶段,其能根据用户需求自主进行网络信息检索、整合多源信息、深度分析数据,并最终为用户提供全面深入的解答。

此后,Grok 3 及 Perplexity 等,它们都推出了类似的 Deep Research 服务。

其实,大家在惊叹 Deep Research 能力的同时,也会担心数据隐私等安全问题。

现在,可以本地运行的 Deep Research 来了!

51c大模型~合集4_数据集_98

我们可以将其看作一个强大的 AI 研究助手,它使用多个 LLM 和网络搜索进行深入的、迭代的分析。该系统可以本地运行,从而保护用户隐私,你也可以使用基于云的 LLM 以增强其功能。

目前项目已经收获 1.4k star 量。

51c大模型~合集4_Server_99

项目地址:https://github.com/LearningCircuit/local-deep-research

该项目具有以下特点:

先进的研究功能:

  • 能够自动进行深度研究,并在过程中提出智能的跟进问题,以确保全面理解和深入挖掘主题;
  • 追踪引用来源,并验证其可靠性和准确性,确保信息的可信度;
  • 通过多次迭代分析,该项目能够逐步完善研究内容,确保覆盖所有相关方面,避免遗漏重要信息;
  • 分析整个网页的内容,而不仅仅是提取片段,从而提供更全面和准确的信息。

对 LLM 灵活支持:

  • 支持在本地设备上运行 AI 模型(如 Ollama),确保数据处理的高效性和隐私性;
  • 兼容云端大语言模型(如 Claude,GPT),从而提供更强大的计算能力和多样化的模型选择;
  • 能够无缝集成和使用 Langchain 框架下的所有模型;
  • 用户可以根据具体需求选择和配置不同的 AI 模型,以优化研究效果。

丰富的输出选项:

  • 详细的研究结果,并附带引用来源;
  • 生成内容详实、结构清晰的综合研究报告;
  • 提供简洁的摘要,帮助用户快速抓住核心信息;
  • 自动追踪信息来源并验证其可靠性。

增强的搜索集成:

  • 自动选择搜索源:对于用户正在查询的内容,自动搜索引擎会进行智能分析,并根据查询内容选择最合适的搜索引擎;
  • 集成了维基百科,方便快速获取准确的事实性知识和百科信息;
  • 支持 arXiv 平台,便于检索和访问最新的科学论文和学术研究成果;
  • 集成 PubMed,提供生物医学领域的最新文献和医学研究资源;
  • 支持 DuckDuckGo 搜索引擎,提供隐私友好的网页搜索体验(但可能受到速率限制);
  • 通过 SerpAPI 集成,可以获取 Google 搜索结果(需提供 API 密钥);
  • 支持 Google 可编程搜索引擎,允许用户创建个性化的搜索体验(需提供 API 密钥);
  • 集成 The Guardian(《卫报》),方便获取最新的新闻文章和深度报道(需提供 API 密钥);
  • 支持通过本地 RAG 搜索对私有文档进行搜索,确保数据隐私;
  • 能够抓取并分析整个网页的内容;
  • 提供来源过滤和验证功能,确保搜索结果的可靠性和准确性;
  • 用户可以根据需求自定义搜索参数,优化搜索体验。

本地文档搜索(RAG):

  • 基于向量嵌入的本地文档搜索;
  • 为不同主题创建自定义文档集合;
  • 保护隐私,用户文档保留在自己的机器上;
  • 智能分块和检索;
  • 兼容多种文档格式(PDF、文本、Markdown 等);
  • 自动与元搜索集成,实现统一查询。

该项目还包括一个 Web 界面(如下所示),以提供更加用户友好的体验:

51c大模型~合集4_数据集_100

51c大模型~合集4_Server_101

到底效果如何呢?我们以官方示例来说明,官方展示了一个关于核聚变能源发展的调查研究。

用户提问:核聚变能源研究的最新进展是什么?商业核聚变什么时候可行?

然后 Deep Research 输出了一篇可用的调查报告,内容非常详实:

51c大模型~合集4_数据集_102

报告部分截图

完整报告可参考:https://github.com/LearningCircuit/local-deep-research/blob/main/examples/fusion-energy-research-developments.md

通过这一示例,我们可以直观了解到该项目在深度研究、跨领域分析和信息整合方面的强大功能。

想要上手体验的小伙伴,可以跟着官方教程进行部署,打造属于自己的 Deep Research 了。










#Awesome-Multi-Objective-Deep-Learning

深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

本文作者来自香港科技大学、香港科技大学(广州)、香港城市大学以及UIUC等机构。其中,港科大在读博士生陈巍昱、港城大在读博士生张霄远和港科广在读博士生林百炅为共同第一作者;林熙博士目前担任港城大博士后研究员;UIUC赵晗助理教授、港城大张青富教授以及港科大郭天佑教授为共同通讯作者。赵晗博士的研究方向主要集中在机器学习理论和可信机器学习领域,涵盖算法公平,可解释性和多任务优化等多个方向,其研究成果曾获Google Research Award。张青富教授 (IEEE Fellow) 长期致力于多目标优化的研究,所提出MOEA/D方法至今已被引用近万次,成为多目标优化经典范式之一。郭天佑教授 (IEEE Fellow) 专注于机器学习中的优化问题研究,曾获AI 2000最具影响力学者荣誉提名,并担任IJCAI-2025程序主席。

近年来,深度学习技术在自动驾驶、计算机视觉、自然语言处理和强化学习等领域取得了突破性进展。然而,在现实场景中,传统单目标优化范式在应对多任务协同优化、资源约束以及安全性 - 公平性权衡等复杂需求时,逐渐暴露出其方法论的局限性。值得注意的是,在大语言模型(LLM)与生成式 AI 系统的多维度价值对齐(Multi-Dimensional Alignment)领域,如何协调模型性能、安全伦理边界、文化适应性及能耗效率等多元目标,已成为制约人工智能系统社会应用的关键挑战。多目标优化(Multi-Objective Optimization, MOO)作为一种协调多个潜在冲突目标的核心技术框架,正在成为破解复杂系统多重约束难题的关键方法。

近日,由香港科技大学、香港科技大学(广州)、香港城市大学以及 UIUC 等团队联合发布的基于梯度的多目标深度学习综述论文《Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond》正式上线。这篇综述从多目标算法设计、理论分析到实际应用与未来展望,全方位解析了如何在多任务场景下高效平衡各目标任务,呈现了这一领域的全景。

  • 论文题目:Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond
  • 论文链接:https://arxiv.org/pdf/2501.10945v2
  • 仓库链接:https://github.com/Baijiong-Lin/Awesome-Multi-Objective-Deep-Learning

背景

在深度学习中,我们常常需要同时优化多个目标:

  • 多任务学习:在许多实际问题中,我们常常需要同时优化多个任务,并在不同任务之间寻求平衡,以解决它们之间的潜在冲突(例如,在分子性质预测领域,我们通常需要对一个分子预测多种性质);
  • 大语言模型的多维度价值对齐:在大语言模型的训练过程中,我们期望其生成的回复能够与人类多维度的价值偏好相匹配,涵盖有用性、安全性、幽默度等多个方面;
  • 资源约束、安全性、公平性等因素的权衡:在许多工业场景中,除了性能指标外,安全、能耗、延迟等实际工程指标也是需要兼顾的重要目标。

多目标优化算法旨在寻找一系列 「折中解」(也称为 Pareto 最优解),在不同目标间达到平衡,从而满足应用场景中对协同优化的要求。

51c大模型~合集4_数据集_103

算法设计

基于梯度的多目标优化方法主要分为三类:寻找单个 Pareto 最优解的算法,寻找有限个 Pareto 最优解的算法以及寻找无限个 Pareto 最优解的算法。

51c大模型~合集4_数据集_104

寻找单个 Pareto 最优解

在多任务学习等场景中,通常只需找到一个平衡的解,以解决任务之间的冲突,使每个任务的性能都尽可能达到最优。为此,研究者们提出了多种方法,这些方法可进一步分为损失平衡方法和梯度平衡方法。

  • 损失平衡方法:通过动态计算或学习目标权重,平衡不同任务的损失。例如,动态权重平均(DWA)通过每个目标的训练损失的下降速度更新权重;不确定性加权(UW)基于每个目标的不确定性动态优化目标权重;多目标元学习(MOML)通过验证集性能自适应调整目标权重。
  • 梯度平衡方法:通过计算多个任务梯度的 「最优平衡方向」,使模型在更新参数时能够兼顾所有任务的优化需求。这类方法又可以细分为梯度加权方法和梯度操纵方法。例如,多梯度下降算法(MGDA)通过求解优化问题找到更新方向,使该方向上的梯度更新能够最大化地减少所有任务的损失函数;PCGrad 方法将每个任务的梯度投影到与其他任务梯度冲突最小化的方向上,从而有效解决任务间的梯度冲突。

一些有代表性的方法如下图所示:

51c大模型~合集4_数据集_105

寻找有限个 Pareto 最优解

在寻找有限个 Pareto 解集时,需要同时考虑两个关键因素:解的快速收敛性(确保解迅速逼近 Pareto 最优前沿)和解集的多样性(保证解在 Pareto 前沿上的均匀分布)。目前主要有两类方法:

  1. 基于偏好向量的方法:利用偏好向量来指定特定的 Pareto 解。通过均匀分布的偏好向量,可以生成具有多样性的 Pareto 解集,覆盖 Pareto 前沿的不同区域。
  2. 无需偏好向量的方法:通过优化 Pareto 解集的某个指标来提高解的多样性。例如,最大化超体积(Hypervolume),使解集在目标空间中覆盖更大的区域;或者最大化最小距离,确保解集中的解彼此远离,从而提升分布均匀性。由于该类方法无需指定偏好向量,因此具有更高的适应性和灵活性。

一些有代表性的方法如下图所示:

51c大模型~合集4_验证者_106

寻找无限个 Pareto 最优解 

为满足用户在任一偏好下都能获得合适解的需求,研究者设计了直接学习整个 Pareto 集的方法,主要包括:

  • 超网络:利用专门的网络根据用户偏好生成目标网络的参数;
  • 偏好条件网络:在原模型中增加偏好信息作为额外条件;
  • 模型组合:通过组合多个基模型的参数(如 PaMaL、LORPMAN 等方法)实现对所有 Pareto 解的紧凑表达。

在训练过程中,这些方法通常采用随机采样用户偏好,利用端到端的梯度下降优化映射网络参数,同时结合标量化目标或超体积最大化等策略,确保映射网络能够覆盖整个解集并实现稳定收敛。

51c大模型~合集4_验证者_107

理论分析

我们从收敛性和泛化性两个角度总结了现有的 MOO 的理论分析:

  • 收敛性:针对确定性(全梯度)和随机梯度的情况,许多工作从 Pareto Stationary 角度出发,提供了收敛性证明。通过双采样、平滑移动平均以及近似求解子问题等策略,有效降低了随机梯度带来的偏差,加快了整体收敛速度,理论上可以达到单目标优化相近的收敛速率。

51c大模型~合集4_验证者_108

  • 泛化性:许多工作探讨了多目标深度学习模型的泛化能力,利用 Rademacher 复杂度等工具分析了标量化方法与梯度平衡方法在未见数据上的表现。

应用与挑战

基于梯度的多目标优化方法已在多个前沿应用中展现出巨大潜力,主要包括:

  • 计算机视觉(CV):应用于多任务密集预测(如语义分割、深度估计、表面法向预测),实现任务间的协同提升。
  • 强化学习(RL):在多目标强化学习中,同时优化奖励、多样性和安全性指标,使智能体在复杂环境下表现更均衡。
  • 神经架构搜索(NAS):兼顾模型准确性与资源消耗(如 FLOPs、参数量、延迟),寻找适合嵌入式设备的高效架构。
  • 推荐系统:除准确度外,整合新颖性、多样性、用户公平等指标,为个性化推荐提供优化支撑。
  • 大语言模型(LLM):(1)多任务微调:在预训练语言模型的基础上,针对多个下游任务同时微调,可以提高模型的效率和泛化能力;(2)多目标对齐:在训练阶段,通过多目标算法同时优化多个目标(如安全性、有用性、幽默性等),以使模型的输出更好地满足用户在不同方面的偏好。

尽管多目标优化方法已取得诸多进展,但仍面临一些亟待解决的问题:比如:理论泛化分析不足, 计算开销与高效性问题, 高维目标与偏好采样挑战, 分布式训练与协同优化以及大语言模型的多目标优化。

多目标算法库

我们开源了多目标深度学习领域的两大的算法库:LibMTL 和 LibMOON。

  • LibMTL 是一个专为多任务学习设计的开源库,支持超过 20 种多任务算法。它在 GitHub 上已收获超过 2200 个 Star,并被机器学习顶刊《Journal of Machine Learning Research》(JMLR)接收。项目地址:https://github.com/median-research-group/LibMTL
  • LibMOON 是一个专注于多目标优化的开源框架,支持超过 20 种多目标算法,能够高效寻找多个 Pareto 最优解。其相关工作已被人工智能顶会 NeurIPS 2024 接收。项目地址:https://github.com/xzhang2523/libmoon

结语

本综述旨在为多目标深度学习领域提供一份全面的资源整合。我们系统地梳理了从算法设计、理论分析到实际应用的各个方面,并深入探讨了未来发展面临的挑战。无论您的研究重点是多任务学习、强化学习,还是大语言模型的训练与对齐,相信都能在本文中找到有价值的见解与启发。我们也认识到,当前的工作可能未能完整涵盖该领域的所有研究成果,如果你有任何建议或补充,欢迎访问我们的 GitHub 仓库,并提交 Issue 或 Pull Request,让我们携手推动这一领域的发展,共同进步!