#通过单张照片生成交互式3D场景

李飞飞的初创公司推出首个项目

今天,由人工智能先驱李飞飞创立的初创公司 World Labs 推出了其首个项目:一个能够通过单张图片生成类似视频游戏的 3D 场景的人工智能系统。

51c大模型~合集83_大模型

许多人工智能系统能够将照片转化为 3D 模型和环境,但 World Labs 现在是唯一一个可以互动和修改的。

“(我们的技术)让你能够进入任何一张图片,并在 3D 空间中探索它,”World Labs 在博客中写道。“除了输入的图片,其他一切都是生成的。”

51c大模型~合集83_大模型_02

World Labs 的系统将图片转换成可交互、可探索的 3D 场景。

,时长01:12

这些由人工智能生成的场景,可以通过 World Labs 网站上的演示版进行探索,只要你有键盘和鼠标就可以体验,并且效果令人印象深刻,虽然这些场景略显卡通风格。它们是在浏览器中实时渲染的,并且具有可调节的模拟景深(DoF)和可控制的相机。

,时长00:17

景深效果越强,背景物体就越模糊。

,时长00:25

World Labs 的系统属于一种新兴的人工智能类别,称为 “世界模型”。这些模型中的许多可以模拟游戏和 3D 环境 —— 但常常存在伪影和一致性问题。例如,初创公司 Decart 的 Minecraft 模拟世界模型 Oasis,其分辨率较低,且很快 “忘记” 了关卡布局。

相比之下,World Labs 的方法确保一旦生成,场景保持不变,并且遵循基本的物理法则,这意味着它们具有一定的坚实感和深度感。

,时长00:20

World Labs 的系统还可以将交互式效果和动画应用于场景,例如改变物体的颜色和动态照明背景。

,时长00:19

“大多数生成式 AI 工具制作的是 2D 内容,如图片或视频,”World Labs 写道。“而 3D 生成则能够提高控制性和一致性。这将改变我们制作电影、游戏、模拟器以及其他数字化物理世界的方式。”

现在,肯定还有改进的空间。World Labs 的场景并非完全可探索 —— 你的移动范围仅限于一个小范围。(尝试超出这个范围时,你会碰到边界。)偶尔也会出现渲染错误 —— 例如,物体以不自然的方式融合在一起。

不过,World Labs 表示,这只是一个 “早期预览”。

“我们正在努力提升我们生成世界的规模和逼真度,并且正在尝试为用户提供新的互动方式,”World Labs 在博客中写道。

51c大模型~合集83_大模型_03

World Labs 网站上的部分演示。效果可实时应用于场景。

World Labs 今年早些时候成立,已经从 Andreessen Horowitz(a16z)、Ashton Kutcher、英特尔资本、AMD Ventures 和 Eric Schmidt 等投资者那里筹集了 2.3 亿美元的风险投资。该公司估值超过 10 亿美元,计划在 2025 年推出首款产品。

除了互动场景,World Labs 还计划开发一些可能对专业人士(如艺术家、设计师、开发者、电影制作人和工程师)有用的工具。其目标客户包括视频游戏开发者和电影制作公司。

“我们已经具备创建虚拟互动世界的能力,但这需要数亿美元的投资和大量开发时间,”World Labs 联合创始人 Justin Johnson 在最近的一期 a16z 播客中表示。“(世界模型)将使你不仅能得到一张图片或一个片段,而是一个完全模拟的、生动的、互动的 3D 世界。”

3个月估值10亿,李飞飞空间智能首个模型诞生!一张图生成3D世界,视频游戏要变天

李飞飞的World Labs首个「空间智能」模型,刚刚诞生了!一张图生成一个3D世界,网友惊呼:太疯狂了,我们进入了下一轮革命,这就是视频游戏、电影的未来。

AI生成3D世界成真了!

就在刚刚,AI教母李飞飞创立的World Labs首次官宣「空间智能」模型,一张图,即可生成一个3D世界。

用李飞飞的话说,「无论怎样理论化这个想法,都很难用语言描述一张照片或一句话生成3D场景的互动体验。」

这是迈向空间智能的第一步。

51c大模型~合集83_大模型_04

交互传送门:https://www.worldlabs.ai/blog#footnote1

所有场景都能在浏览器中实时渲染,还能实现可控的相机效果、可调节的模拟景深。

51c大模型~合集83_大模型_05

未来,游戏NPC的虚拟世界可以随意切换,都是分分钟生成的事情。

51c大模型~合集83_大模型_06

51c大模型~合集83_大模型_07

英伟达高级研究科学家、李飞飞高徒Jim Fan总结道,「GenAI正在创造越来越高维度的人类体验快照。Stable Diffusion是2D快照;Sora是2D+时间维度的快照;而World Labs是3D、完全沉浸式的快照」。

今年4月,李飞飞被曝出开始自创业,专注于空间智能,新公司私下融资直接晋升10亿美元独角兽。

直到9月,这家名为World Lab正式亮相,并在新一轮融资2.3亿美金,得到了AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的鼎力支持。

World Labs创始人团队,左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞

如今酝酿半年多,空间智能终见雏形。

网友们激动地表示,太疯狂了,我们即将迎来一个像是80年代、90年代那样的革命。这将让许多人实现他们的创意,有望降低开发成本,帮助工作室的新知识产权更大胆冒险。

这就是视频游戏、电影的未来。

VR从此有了更多可能性。

探索一个新世界

不论是Midjourney、FLUX,还是Runway、DreamMachine,我们熟知的大多数GenAI工具仅能制作图像/视频2D内容。

若是实现了在3D中生成,视频的控制性、一致性能得到极大的改善。

这也就意味着,制作电影、游戏、模拟器等其他物理世界的数字表现形式,将会发生翻天覆地的变化。

World Labs成立开始的初衷便是,空间智能的AI对世界进行建模,还能3D时空中物体/地点/交互进行推理。

这次,他们首次展示了这个3D生成的世界。

如下,是在浏览器中进行的实时渲染演示(注:AI图像均由FLUX 1.1 pro/Ideogram/Midjourney生成)。

输入一张AI生成的古色古香的村庄图像,然后就可以得到一个3D的世界。

提示:这是一个古色古香的村庄,鹅卵石铺就的街道,茅草屋顶的小木屋,中央广场上有一口石井,周围是花坛

一座富丽堂皇的宫殿,AI把光与影都展现得淋漓尽致。

一幅AI生成的折纸类图片,立刻活灵活现了起来。

又或者输入一张博物馆取景照片,谁又能想到这周围是什么样子的呢?

AI帮你设想出了一切,出入门,下一间相邻的展馆、展品.....

再比如这张实景图,AI也能想象出周围的世界。

相机效果

你还可以体现不同相机效果,场景生成后,会使用虚拟相机在浏览器中进行实时渲染。

通过对这个相机的精准控制,便可以实现艺术摄影特效。

比如模拟不同的景深,让只有在相机特定距离范围内的物体保持清晰:


还可以模拟滑动变焦(dolly zoom),通过同时调整相机的位置和视场角来实现这一效果:

51c大模型~合集83_大模型_08

左右滑动查看

3D特效

大多数生成式模型都是预测像素的。而预测3D场景有很多好处:

- 场景持久性:一旦生成了一个世界,它就会稳定存在。即使你转开视线后再次观看,场景也不会在你看不见时发生变化。

- 实时控制:生成场景后,你可以在其中实时移动。你可以仔细观察花朵的细节,或是探头查看角落后面有什么。

- 几何精确性:这个生成的世界遵循基本的3D几何物理规则。它们具有真实的立体感和空间深度,与某些AI生成视频的虚幻效果形成鲜明对比。

可视化3D场景最简单的方法是,就是使用深度图(depth map)。在深度图中,每个像素都会根据其到相机的距离来着色:

51c大模型~合集83_大模型_09

我们不仅可以利用3D场景结构来创建交互特效:

51c大模型~合集83_大模型_10

51c大模型~合集83_大模型_11

还可以创建自动运行的动态效果,为场景注入生命力:

左右滑动查看

名画中的3D世界也可实时交互了。

走进梵高的露天咖啡馆

现在,我们可以以全新的方式,体验标志性的艺术作品了!

原画中没有任何东西,是由模型生成的。

下面,就让我们走进从梵高、霍珀、修拉和康定斯基最喜欢的作品中生成的世界。

左右滑动查看

创意工作流

现在,3D世界生成可以十分自然地和其他AI工具组合在一起,创作者们可以使用已知的工具,获得无比丝滑的全新体验了。

首先,可以通过使用文本到图像模型生成图像,来从文本创建世界。

不同的模型都有自己的不同风格,而空间智能世界可以继承这些风格。

下面就是使用不同的文本到图像模型生成同一场景的四个变体, 它们使用的都是相同的提示。

提示:一间充满朝气的动漫风格青少年卧室,床上铺着五颜六色的毯子,书桌上杂乱地摆着一台电脑,墙上贴满了海报,各种运动器材随意地散落在房间里。一把吉他斜靠在墙边,房间中央铺着一块带有精美图案的舒适地毯。窗外透进的阳光为整个房间营造出温馨活力的青春氛围。

51c大模型~合集83_大模型_12

左右滑动查看

现在,已经有一些创作者提前试用了。

比如Eric Solorio就使用这个模型,填补了自己创意工作流程中的空白,可以让场景中的角色可以上阵,甚至还能指导摄像机精确移动。

,时长01:55

Brittani Natail则将World Labs技术与Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相结合,在生成的世界中精心设计了摄像机路径。

,时长03:06

因此,得以在三部短片中唤起不同的情绪。

现在,候补名单已经开放了,话不多说了,赶快去申请吧。

空间智能,计算机视觉下一个前沿

此前,李飞飞在一次活动中,首次详细揭秘了何谓「空间智能」:

视觉化为洞察,看见成为理解,理解导致行动。

她将人类智能归结为两大智能,一是语言智能,另一个便是空间智能。虽然语言智能备受关注,但空间智能将对AI产生重大的影响。

而在4月公开的TED演讲中,李飞飞也分享了自己关于空间智能的更多思考,同时预示着World Labs的目标所在。

她表示,「所有空间智能的生物所具备的行动能力,是与生俱来的。因为,它能够将感知与行动进行关联」。

「如果想让AI超越其自身当前的能力,我们需要的是,不仅仅能够看到、会说话的AI,而是一个可以行动的AI」。

就连英伟达高级计算机科学家Jim Fan称,「空间智能,是计算机视觉和实体智能体的下一个前沿」。

正如World Labs的官博所阐述的那样,人类智能包含了诸多方面。

语言智能,可以让我们通过语言与他们进行交流和联系。而其中最为基础的便是——空间智能,能够让我们理解,并与周围世界进行互动。

此外,空间智能具备了极强的创造力,可以将我们脑海中的画面,在现实中呈现。

正是有了空间智能,人类能够推理、行动和发明。从简单的沙堡到高耸的城市可视化设计,都离不开它。

在接受彭博最新采访中,李飞飞表示,人类的空间智能,实际上经过了数百万年的演化而来。

这是一种理解、推理、生成,甚至在一个3D世界中互动的能力。不论是你观赏美丽的花朵,尝试触摸蝴蝶,还是建造一座城市,所有这些皆是空间智能的一部分。

不仅是人类,动物身上也可以看到这一点。

那么,如何让计算机也能具备空间智能的能力呢?其实我们已经取得了巨大的进步,过去十年AI领域的发展相当振奋人心。

一句提示,AI生成图像、视频,真知还能讲述故事。这些模型已经以全新的方式,重塑人类的工作和生活方式。

而我们仅是看到了GenAI革命前夜的第一章。

下一步,如何超越?

需要将这些能力,如何带到3D领域。因为现实世界,就是3D的,同时人类空间智能是建立在非常「原生」的理解和操作3D的能力之上的。

51c大模型~合集83_大模型_13

如今,单个图像生成3D世界模型,让我们对空间智能有了初步的理解。

参考资料:

https://x.com/DrJimFan/status/1863646433435586903

https://x.com/drfeifei/status/1863618536318345688








#Freeze-Omni

准确性超Moshi和GLM-4-Voice!端到端语音双工模型

GPT-4o提供的全双工语音对话带来了一股研究热潮,目前诸多工作开始研究如何利用LLM来实现端到端的语音到语音(Speech-to-Speech)对话能力,但是目前大部分开源方案存在以下两个问题:

  • LLM灾难性遗忘:由于现有方案在语音模态与LLM进行对齐时,会或多或少对LLM进行微调,但由于要采集到与LLM本身训练的文本数据同等量级的语音数据是非常困难的,所以这一微调过程往往会导致LLM出现遗忘现象,造成LLM的聪明度下降
  • 语音问答(Spoken Question Answering)任务的评估:多数工作对于语音问答的准确性并没有进行定量评估,从已有的一些评估结果也可以看出同一模型语音问答和文本问答相比准确性会有明显的差距

针对上述这些问题,近日腾讯&西工大&南大的研究人员提出了一种低延迟的端到端语音双工对话模型Freeze-Omni(VITA大模型系列第二个工作),其可以在完全冻结LLM的情况下,为LLM接入语音输入和输出,使其能够支持端到端的语音对话能力,且通过一系列优化使得其具备低延迟的双工对话能力,其主要特性如下:

  • 在整个训练过程中,LLM的参数被完全冻结,确保大型语言模型的知识能力被完全保留
  • 训练过程中所依赖的数据规模较小,消耗的计算资源也较少。Freeze-Omni仅需要文本-语音配对数据(如ASR和TTS训练数据,比较容易获得)以及仅少量的文本模态的问答数据,语音问答准确性显著超越Moshi与GLM-4-Voice等目前SOTA的模型
  • Freeze-Omni 可以支持任何具有文本模态的(多模态)大语言模型,能够保留基底大语言模型的能力,如提示服从和角色扮演等。此外,如果有必要改变大语言模型的领域或者回应方式,只需要用相应的文本数据对大语言模型进行微调即可,不需要采集大量语音的问答和对话数据
  • 论文标题:Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM
  • 论文链接:https://arxiv.org/abs/2411.00774
  • 项目主页:https://freeze-omni.github.io/
  • 开源代码:https://github.com/VITA-MLLM/Freeze-Omni

三阶段训练策略实现语音输入输出能力

Freeze-Omni的整体结构如图1所示,其包含有语音编码器(Speech Encoder)和语音解码器(Speech Decoder)以及基底LLM三部分。在运行过程中,流式的语音输入通过语音编码器形成分块(Chunk)特征,然后通过Adapter连接到LLM,LLM生成的Hidden State和文本Token的在分块分割后分别以块的形式送入非自回归前缀语音解码器(NAR Prefix Speech Decoder)和非自回归语音解码器(NAR Speech Decoder)以进行Prefill操作,最后自回归语音解码器(AR Speech Decoder)将会完成Generate操作以生成语音Token,并由Codec Decoder将其流式解码为语音信号输出。

51c大模型~合集83_大模型_14

图1. Freeze-Omni框架图

Freeze-Omni各个模块的三阶段训练策略如下:

流式语音编码器的三阶段训练:如图2所示,第一阶段(a)会先使用ASR数据训练一个具有ASR能力的语音编码。第二阶段(b)会以ASR任务为优化目标,将语音编码器与LLM做模态对齐,这个过程中LLM是处于冻结状态的。第三阶段(c)会使用由TTS系统合成的语音输入-文本回答的多轮QA数据进行训练,这里会使用第二阶段训练好的语音编码器,但是其参数保持冻结以保留其语音鲁棒性,而可训练的参数只有每个问题前的Prompt Embedding,用于指导LLM从ASR任务迁移到QA任务中。

51c大模型~合集83_大模型_15

图2. 流式语音编码器的三阶段训练示意图

流式语音解码器的三阶段训练:如图3所示,第一阶段(a)会先训练一个单码本的语音编解码模型,使用单码本的目的主要是为了降低计算复杂度和时延。第二阶段(b)将会训练NAR语音编码器和AR语音编码器,这里会使用文本-语音的TTS数据,其文本会通过基底LLM的Tokenizer转化为Token,再经过基底LLM的Embedding层转化为文本特征,这个过程中Embedding的参数是冻结的,训练目标的语音Token是由第一阶段的语音编码器提供。第三阶段(c)将会冻结第二阶段训练得到的所有网络,但同时加入了一个NAR Prefix语音编码器,其用于接受LLM输出的Hidden State,并将输出的kv-cache作为第二阶段模型的初始kv-cache,该过程使用的数据是文本输入-语音输出的QA数据,主要目的是为了使得语音编码器迁移到LLM的输出领域中。

51c大模型~合集83_大模型_16

图3. 流式语音解码器的三阶段训练示意图

双工对话的状态标签训练:如图4所示,为了实现双工交互,Freeze-Omni在语音编码器训练的第三阶段中,会为每个Chunk的最后一个语音帧对应的LLM输出Hidden State加入一个额外的分类层进行多任务训练,其目的主要是为了输出状态标签。当使用VAD激活语音流输入后,状态标签0表示LLM将会继续接受语音Chunk的输入,状态标签1表示LLM将会停止接收语音,且会打断用户并进入LLM的Generate阶段输出回复,状态标签2表示LLM也会停止接收语音,但不会打断用户,相当于对这次语音激活做了拒识。

51c大模型~合集83_大模型_17

图4. 全双工对话的状态标签训练示意图

模型性能测评

训练配置:Freeze-Omni在训练过程中,使用了开源Qwen2-7B-Instruct作为基底模型,语音编码器在训练过程中使用了11万小时中文英文混合的ASR数据,语音解码器训练过程使用了3000小时由TTS系统合成的文本-语音数据,所提到的QA数据是由6万条从moss-003-sft-data中抽取的多轮对话经过TTS系统合成得到的。

语音输入理解能力评估:Freeze-Omni提供了其在常见的英文测试集上的ASR性能测试结果,从中可以看出,其ASR准确性处于较为领先的水平。

51c大模型~合集83_大模型_18

图5. 语音理解能力评估

语音输出质量评估:Freeze-Omni提供了其在1000条LLM输出的Hidden State与Text Token上语音解码器生成的语音在使用ASR模型测试得到的词错误率(CER),从结果中可以看出NAR Prefix语音解码器的引入会有效降低词错误率,提高生成语音的质量。

51c大模型~合集83_大模型_19

图6. 语音输出质量评估

语音问答准确性评估:Freeze-Omni提供了其在LlaMA-Questions, Web Questions, 和Trivia QA三个集合上的语音问答准确率评估,从结果中可以看出Freeze-Omni的准确率具有绝对的领先水平,超越Moshi与GLM-4-Voice等目前SOTA的模型,并且其语音模态下的准确率相比其基底模型Qwen2-7B-Instruct的文本问答准确率而言,差距明显相比Moshi与其文本基底模型Helium的要小,足以证明Freeze-Omni的训练方式可以使得LLM在接入语音模态之后,聪明度和知识能力受到的影响最低。

51c大模型~合集83_大模型_20

图7. 语音问答准确性评估

系统延迟评估:Freeze-Omni还提供了端到端时延分析(即用户说完后到LLM输出音频的时间差),作者将其分为了可统计时延和不可统计时延两部分,其中可统计时延的总时长平均数仅为745ms,而作者也提到如果经过测量考虑到网络延迟和不可统计时延部分,则系统的平均响应时延在1.2s左右,在行业内仍为领先水平。

51c大模型~合集83_大模型_21

图8. 系统延迟评估








#VBench直接干到了第一

这一次,视频生成「压番」全场的是家央企


高难度武打视频,也能「手拿把掐」。


回想起来,年初对国内文生视频技术迭代速度的预估还是保守了。

OpenAI 在 2 月发布 Sora 后,至今还是期货,但国内科技界迅速跟进,几乎月月有战报。

字节 3 月底就端出「即梦」,3-6 秒的小视频随心所欲地玩。生数科技 4 月底放出 Vidu 模型,硬刚 Sora。快手 6 月祭出「可灵」,又把 AI 吃播玩出新水平。9月,字节又有新动作。腾讯「混元」姗姗来迟,还搞了个开源。

没想到的是,眼瞅着 2024 快要翻篇了,赛道里居然又挤进一位大牌选手,身份还有些特殊。

央企、也是三大运营商之一:中国电信。

凭借全自研技术、海量数据和万卡 「家底」 ,中国电信人工智能研究院(以下简称 TeleAI )发布了视频生成大模型。

继星辰语义大模型、星辰语音大模型之后,TeleAI 再次展示了中国电信在大模型领域与科技巨头同台竞技的雄心。这家 7 月才挂牌的研究院,正携手中电信人工智能科技有限公司用一个个创新,重新定义传统运营商在 AI 时代的角色。

这个视频生成大模型有多能打?

作为 12 月 1 日最新上榜的模型,它在 VBench 上直接干到了第一,大幅领先第二名。

VBench 是一个全面的「视频生成模型的评测框架」,它将「视频生成质量」细分为 16 个评分维度,从人物形象一致性、动作流畅度、画面稳定性到空间关系等方面对模型进行细致、客观的评估。 

TeleAI-VAST在VBench榜单上表现亮眼。

项目链接:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

TeleAI 视频生成大模型在 VBench 的 16 个评分项目中,一举夺得 9 项第一,覆盖了模型最核心的几个能力。

如,画面稳定性(时序闪烁)、语义一致性(物体分类、多物体、人体动作)、空间场景(空间关系、场景),以及视觉风格(颜色、外观、时序风格)。

其中,有 5 项得分超过 99%,更有两项——物体分类和人体动作——拿了满分 100% 。

模型的语义表达能力尤其亮眼。以 92.63% 的总分领先第二名整整 11 个百分点,几乎横扫了所有相关指标第一名,从语义一致性、多物体生成到空间场景把控,都展现出超出同侪的专业水准。

视频质量同样出色,以 88.60% 的总分独占鳌头。无论是画面稳定性、时序连贯性,还是视觉风格的把控,均表现不俗。

这么看,不管是「理解视频」 还是「做视频」 ,这模型都挺全面,成功超越 Runway Gen-3、可灵、Vidu、MiniMax-Video-01、Pika 等一众劲敌。

它算是把物理玩明白了

作为中国电信 2024 年数字科技生态大会的重要环节,今天的 TeleAI 开发者大会展示了一段令人印象深刻的 AI 视频。

这段 3 分钟的视频不仅能从容驾驭 4 个主角,还能流畅切换多个场景。

,时长03:05

3 分钟视频仅是冰山一角,通过分镜生成加主题目标注入,理论上已经可以生成任意长度的视频内容。

看来野心不小。要知道,当前 AI 视频生成领域仍在短视频阶段摸索,大多数模型仅能生成十几秒的内容。即便是少数能达到 3 分钟的作品,通常也只能应付单个主角。

就算是单一主体,维持目标一致性也是巨大挑战。就连 Sora 这样的顶级模型也存在类似问题。

在这个广为流传的视频中,提示词设定的是一只鹦鹉,结果突然变成多只。当鹦鹉与猴子发生交集,动物特征开始混乱:

鹦鹉的翅膀扭曲了,后来头也没了。猴子呢?一只长出了鹦鹉脚趾,另一只居然有了鹦鹉的尾巴。

51c大模型~合集83_大模型_22

提示词:An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.

而随着视频时长延长、主体数量增加,一致性难度会呈指数级上升。但从 VBench 评测榜单可见,TeleAI 的模型在主体一致性(subject consistency)方面表现出色,对付这一技术难点自然有一手。

从大会展示的视频效果看,四位女主角在多场景切换中保持了高度的形象稳定性,也印证了这一点。

51c大模型~合集83_大模型_23

51c大模型~合集83_大模型_24

各个视频片段都能够保持主体外观的一致性

下面两个视频展示了视频生成大模型在多场景连续性上的实力。

从公交车、大街,再到酒吧和餐厅,目标主体的外观始终保持一致:面部特征(包括佩戴墨镜)、服装、发型都很稳定,没有出现不连贯的情况。

,时长00:13

从坐在教室听课的学生到穿学士服领毕业证,服装、造型随着场景在变,但一眼就能认出「这就是那个姑娘」。

51c大模型~合集83_大模型_25

更值得注意的是,凭借强大的语义表达能力,模型还展现出了类似 Sora 的镜头调度能力。

它能在一个视频中创建多个镜头,并准确保留角色特征和视觉风格。这种多镜头叙事的手法让画面具有了强烈的电影叙事感。

这段 AI 演练视频也展现了令人印象深刻的多镜头叙事。

一会儿在天上俯拍,把整个舰队尽收眼底;一会儿从航母甲板上,特写舰载机起飞的瞬间。还有从摄影船上水平拍摄、空中跟拍,甚至水下拍摄。

一套「组合拳」打下来,确实玩出了大片的味道。

,时长00:11

事实上,与目前 Sora 生成的默片相比,这个 AI 演练作品还有一个更胜一筹的地方。

Sora 虽然在画面生成上表现出色,但缺少声音确实削弱了视频的感染力。TeleAI 视频生成大模型在这方面实现了突破,能够同步生成与画面完美契合的音频效果。

不过,当前的视频大模型除了要应对目标一致性的挑战,还面临着一个更基础的问题:对物理规律和常识的理解还很肤浅。这导致它们经常翻车。

人在跑步机上莫名其妙地倒着跑。

51c大模型~合集83_大模型_26

体育视频更是重灾区。体操运动员四肢横飞、身体扭曲、与单杠、垫子的交互完全脱离物理法则,场面非常恐怖。

TeleAI 视频生成大模型在遵循物理和常识方面展现出突出实力,在 VBench 测试中的人体动作和物体分类两项指标都拿下了满分。

就说这个跳水片段。人物从悬崖边腾空到入水的整个过程,动作姿态流畅自然,符合物理定律,也没有 AI 生成常见的扭曲变形。悬崖边的浪花效果也很逼真。

,时长00:07

TeleAI 开发者大会秀出的视频中,女主跃入大海时,肢体没有横飞和扭曲。

跳水还只是单人项目,再看这段打戏,难度可就更大了。

一个是动作要协调。两个人打起来,一个出拳另一个要躲,动作配合要天衣无缝。其次,距离感也得把握好,打近了怕穿模,太远又显得够不着。

,时长00:05

这段视频展现了 AI 在多主体互动场景中的出色表现。

武器碰撞、进攻防守都很到位,真假美猴王和武器也没有穿模,打斗场面比较自然流畅。即使在高速运动中,美猴王的外貌、服装和武器也没走样。 

回看此前的 AI 演练视频,模型在多主体场景的物理模拟方面同样表现出色。

无论是空中编队飞行,还是多个主体的动态位置和姿态,都保持了合理的空间关系,避免了穿模问题。

火焰和烟雾的形态与扩散过程,也都严格遵循物理规律,呈现出真实可信的视觉效果。

51c大模型~合集83_大模型_27

而这个摘头盔的片段,特别能说明大模型处理复杂动作序列时的能力。

,时长00:03

人的手指与头盔的交互准确自然,摘头盔时头发的晃动效果逼真,整个动作序列显得连贯流畅。画面中没有出现「六指」或手指穿模等常见缺陷。

场景的远近层次感也处理得当。远处的火山爆发场景自然虚化,而近处的人物保持清晰,使整个画面看起来层次分明又不显呆板。

 应用为王:从视频到短剧平台

TeleAI 在保持目标主体一致性和还原真实世界细节方面的突破性进展,可不仅仅是为了玩视频生成,他们盯上了一块更大的蛋糕:AI 短剧市场。

短剧近年来太火,打开 App Store ,榜首基本被短剧应用霸占。用户就爱这种几分钟的「快餐」,剧情快,看着过瘾。

要说市场规模,去年短剧就已经到了 373.9 亿,比前年暴增 267.65% 。这数字已经顶得上电影票房的七成了。今年预计还要突破 500 亿,直逼电影市场。

周星驰出品的《金猪玉叶》6月在抖音上线,短短几天播放量就冲破3000万,这部剧总共24集,每集也就5分钟左右,整个拍摄周期才用了13天。

目前已有创作者使用 AI 制作短视频,一些作品播放量轻松突破百万。业内普遍看好视频生成在中国的发展前景,认为 AI 将为短视频产业,特别是短剧行业带来重大机遇。

不过,要说用 AI 拍完整短剧,还有不少坑要填。短剧制作很复杂,要搞定剧本、人物、视频、音频,最后还得串成完整的故事。现在创作者得在各种 AI 工具间倒腾,连 Sora 都做不到「一条龙」服务。

TeleAI 在这件事上拿出了态度:

他们已经完成了语义、语音、视觉、多模态等技术的全模态布局,目标是将这些能力整合,实现用户输入故事构思即可「一键生成」短剧的愿景。

在具体实现上,他们的星辰大模型可将创意构思转化为成熟剧本,通过文生图技术塑造人物形象,根据剧本生成分镜图,最后基于这些素材生成外观统一、情节连贯的视频片段,最终合成完整短剧。

就拿这个视频模型来说,为了做短剧,TeleAI 没跟着 Sora 走一样的路,而是另起炉灶,全自研了二阶段视频生成技术 VAST。

通过两阶段生成框架——先画分镜,再生成视频,这项关键技术显著提升了短剧创作过程的可控性。

说得更具体一些。

第一阶段就像导演画分镜,借助多模态大模型和自回归技术,将文字描述转换成一系列分镜头。这些「分镜」包含了人物姿势、场景分布、远近关系等关键信息,相当于给后面的视频生成打好了草稿。

第二阶段如同真实拍摄,让扩散模型根据这些「分镜」开始生成视频画面。通过将「分镜」作为条件输入,并结合文本描述和目标主体的外观特征,生成能够精准控制主体位置、动作和外观的视频内容。

比如短剧的一场打戏,大模型会先规划出完整的动作编排:从出手角度、躲闪走位到环境互动,都在分镜中预先设定。

当系统生成实际画面时,就能严格按照这份草稿来呈现,确保每个出招防守都准确到位,武打场面既符合物理规律,又富有观赏性。

51c大模型~合集83_大模型_28

实现对复杂动作的精确控制

TeleAI 视频生成大模型的进化仍在加速。它的下一步规划令人期待:多目标控制、镜头运动、3D 渲染全面升级。而这一切,都将在即将到来的一站式 AI 短剧平台中实现。

想象一下:一个创意、一台电脑,就能完成从剧本创作到视频生成的全流程。当 Sora 还在实验室里磨练时,为什么不先来尝试已经触手可及的创作利器?

对于每个怀揣故事梦想的创作者来说,TeleAI 正在让「一个人拍一部剧」成为现实。这扇通向 AI 短剧时代的大门已经打开,而你,准备好成为下一个创作先锋了吗?








#HunyuanVideo

开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用

想要体验文生视频的小伙伴又多了一个选择!

今日,腾讯宣布旗下的混元视频生成大模型(HunYuan-Video )对外开源,模型参数量 130 亿,可供企业与个人开发者免费使用。目前该模型已上线腾讯元宝 APP,用户可在 AI 应用中的「AI 视频」板块申请试用。

腾讯混元视频生成开源项目相关链接:

官网:https://aivideo.hunyuan.tencent.com

代码:https://github.com/Tencent/HunyuanVideo

模型:https://huggingface.co/tencent/HunyuanVideo

技术报告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

腾讯混元视频生成模型 HunYuan-Video(HY-Video)是一款突破性的视频生成模型,提供超写实画质质感,能够在真实与虚拟之间自由切换。它打破了小幅度动态图的限制,实现完整大幅度动作的流畅演绎。

HY-Video 具备导演级的运镜效果,具备业界少有的多视角镜头切换主体保持能力,艺术镜头无缝衔接,一镜直出,展现出如梦似幻的视觉叙事。同时,模型在光影反射上遵循物理定律,降低了观众的跳戏感,带来更具沉浸感的观影体验。模型还具备强大的语意遵从能力,用户只需简单的指令即可实现多主体准确的描绘和流畅的创作,激发无限的创意与灵感,充分展现 AI 超写实影像的独特魅力。

总的来说,HunYuan-Video 生成的视频内容具备以下特点:

  • 卓越画质:呈现超写实的视觉体验,轻松实现真实与虚拟风格的切换。
  • 动态流畅:突破动态图像的局限,完美展现每一个动作的流畅过程。
  • 语义遵从:业界首个以多模态大语言模型为文本编码器的视频生成模型,天然具备超高语义理解能力,在处理多主体及属性绑定等生成领域的难点挑战时表现出色。
  • 原生镜头转换:多视角镜头切换主体保持能力,艺术镜头无缝衔接,打破传统单一镜头生成形式,达到导演级的无缝镜头切换效果。

AI 文生图开源生态蓬勃发展,众多创作者与开发者为生态贡献作品与插件。然而,视频生成领域的开源模型与闭源模型差距较大。腾讯混元作为第一梯队大模型,将视频生成开源,相当于将闭源模型的最强水平带到开源社区,有望促进视频生成开源生态像图像生成社区一样繁荣。

51c大模型~合集83_大模型_29

通过腾讯元宝 APP-AI 应用-AI 视频即可使用该功能(前期需申请)

能力展示

HunYuan-Video 在文生视频的画质、流畅度与语义一致性等方面都具有较高的质量。

超写实画质

,时长00:05

腾讯混元视频生成模型提示词:超大水管浪尖,冲浪者在浪尖起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

,时长00:05

腾讯混元视频生成模型提示词:穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围,电影打光。

原生镜头切换

,时长00:05

视频由腾讯混元视频生成,提示词:一位中国美女穿着汉服,头发飘扬,背景是伦敦,然后镜头切换到特写镜头

,时长00:05

腾讯混元视频生成模型提示词:特写镜头拍摄的是一位 60 多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35 毫米电影胶片。

,时长00:05

腾讯混元视频生成模型提示词:一个男人在书房对着电脑,敲打键盘,认真地工作,镜头切换到卧室里,暖黄色的灯光下,他的妻子在床边读着故事书,轻柔地拍着孩子的胸口,哄孩子入睡。温馨的氛围。

高语义一致

,时长00:05

一位戴着复古飞行护目镜的机械师,半跪在蒸汽朋克风格的工作室里。她棕色卷发挽成发髻,零星的银色发丝闪着金属光泽。深棕色皮质工装背带裤上沾满机油污渍,袖口卷起露出布满齿轮纹身的手臂。特写她正用黄铜工具调试一只机械鸟,齿轮间冒出缕缕蒸汽,工作台上散落着铜管、发条和老式图纸。

,时长00:05

固定机位的老公寓内景,自然光透过纱帘漫射,青色街灯渗入,茶烟袅袅升起,老式家具静静陈列,定格岁月流逝的时光。

采用多种创新技术

加速行业创新步伐

基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力。同时,各大模型研发团队均可基于腾讯混元模型进行研究与创新,加速行业创新步伐。

据技术报告,在混元视频生成模型架构设计与训练中,采用了多个创新技术:包括通过新一代本文编码器提升语义遵循,自研 3D 视觉编码器支持图像视频混合训练,通过全注意力机制提升画面运镜能力,并根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。

模型方法介绍

Hunyuan-Video 是一个综合的视频训练系统,涵盖了从数据处理到模型部署的各个方面。本技术报告介绍了我们的数据预处理技术,包括数据过滤算子和重新标注模型,并详细说明了 Hunyuan-Video 所有组件的架构,和我们发现的视频生成模型 scaling law,以及我们的训练和推理策略。

我们讨论了加速模型训练和推理的方法,使得开发一个拥有 130 亿参数的大型模型成为可能,并评估了我们的文本到视频基础模型的性能,与最先进的视频生成模型(包括开源和专有模型)进行了比较。

最后,我们展示了基于预训练基础模型构建的各种应用,并附上相关的可视化效果。

51c大模型~合集83_大模型_30

  • 精细的数据处理架构

我们采用自动化数据过滤和人工过滤相结合的方式,从粗到细构建多个阶段训练数据集。在 256p、360p、540p 和 720p 训练阶段,采用各种过滤器对图片、视频数据过滤,并逐步提高过滤算子的阈值。在 SFT 阶段训练阶段,采用人工过滤的方式以充分保障训练数据质量。

该图突出显示了在每个阶段使用的一些最重要的过滤器。在每个阶段,将会移除大量数据,移除的比例从前一阶段的数据的一半到五分之一不等。在这里,灰色条表示每个过滤器过滤掉的数据量,而彩色条则表示每个阶段剩余的数据量。

51c大模型~合集83_大模型_31

  • 模型架构设计

首个适配 MLLM 作为文本编码器的视频生成模型,具备强大的语义跟随能力,可以轻松应对多个主体描绘。

在文生图和文生视频等视觉生成模型中,负责处理文本、理解文字的文本编码器起着关键作用。目前行业中大部分的视觉生成模型的文本编码器,适配的主要是上一代语言模型。

混元视频生成是业界适配最新一代大语言模型 MLLM (Multimodal Large Language Model)作为文本编码器的视频生成模型,具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细节的指令和画面呈现。

51c大模型~合集83_大模型_32


文本到视频等生成任务中,文本编码器在隐式表征空间中提供的指导信息起着关键作用。业界常见模型通常使用预训练的 CLIP 和 T5 作为文本编码器,其中 CLIP 使用 Transformer Encoder,而 T5 使用的是 Encoder-Decoder 结构。相比之下,我们利用最先进的多模态大语言模型(MLLM)进行编码操作,它具有以下优势:




(1)与 T5 相比,MLLM 在视觉指令微调后的表征空间中具有更好的图像 - 文本对齐性,这减轻了扩散模型中指令跟随的难度;

(2)与 CLIP 相比,MLLM 在图像细节描述和复杂推理方面有着更加优越的能力;




(3)MLLM 可以通过设计系统指令前置于用户提示来充当零样本学习器,帮助文本特征更加关注关键词。此外,如图 8 所示,MLLM 基于因果注意力,而 T5-XXL 利用双向注意力,为扩散模型产生更好的文本指导。因此,我们遵循的方法,引入了一个额外的双向令牌细化器,以增强文本特征。此外,CLIP 文本特征也是文本信息的摘要。如图所示。我们采用了 CLIP-Large 文本特征的最终非填充令牌作为全局指导,将其整合到双流和单流的 DiT 块中。




—— 腾讯混元视频生成模型开源技术报告



通过自研的 3D 视觉编码器支持混合图片和视频训练 / 先进的图像视频混合 VAE(3D 变分编码器),让模型在重建能力场景有明显提升,具备小人脸和动作的极高上限。

视觉编码器在压缩图片 / 视频数据,保留细节信息方面起着关键作用。混元团队通过自研的 3D 视觉编码器支持混合图片 / 视频训练,同时优化了编码器训练算法,显著提升了编码器在快速运行、纹理细节上的压缩重建性能,使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升

51c大模型~合集83_大模型_33

从头到尾用 full attention(全注意力)的机制,没有用时空模块,提升画面流畅度。

混元视频生成模型采用基于单双流模型机制的全注意力网络架构,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。与「分离的时空注意力机制」分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型,表现出更优越的效果。其次,它支持图像和视频的统一生成,简化了训练过程并提高了模型的可扩展性。最后,它更有效地利用了现有的大型语言模型(LLM)相关的加速能力,从而提升了训练和推理的效率。

51c大模型~合集83_大模型_34

根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。

Scaling Law 通常用来描述模型性能如何随着模型大小、训练数据和计算资源的增加而变化。在人工智能研究的早期,训练模型往往需要在诸多超参数之间反复尝试,而 Scaling Law 提供了指导如何扩展这些参数的经验公式,使模型达到更好的性能。

Scaling Law 在 AI 领域的应用非常广泛。尤其是在大模型的训练中,帮助科学家们确定,如果需要模型有更好的表现,应该优先增加模型参数、训练数据的规模还是训练计算量。

Google、OpenAI 等领先的科技公司对 Scaling Law 进行了大量的探索,这些研究为现代大型 AI 模型的成功奠定了基础。但是多模态模型领域(如图像、视频、音频等)的 Scaling Law 尚没有被真真切切地验证过。

腾讯混元团队在过亿级别的图像视频数据上,较为系统的训练验证了图像视频生成模型的 Scaling Law。根据我们的发现,我们可以准确的设计出最优的模型参数 / 数据 / 算力配比,也给了后续学术界和业界开发更大规模模型一个经验公式,到底什么样规模的模型需要多少训练数据和算力,使模型达到更好的效果性能,可以推动业界在视频生成领域的发展。

腾讯混元系列大模型全面开源

从年初以来,腾讯混元系列模型的开源速度就在不断加快。

5 月 14 日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,这是业内首个中文原生的 DiT 架构(DiT,即 Diffusion With Transformer)文生图开源模型,支持中英文双语输入及理解,参数量 15 亿,整体能力属于国际领先水平。

11 月 5 日,腾讯混元宣布最新的 MoE 模型「混元 Large」以及混元 3D 生成大模型「Hunyuan3D-1」正式开源。

Hunyuan-Large 总参数量约 389B,激活参数量约 52B,文本长度 256k。这是当前业界参数规模最大、效果排名第一的 MoE 开源模型。其在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先,超过 Llama3.1、Mixtral 等一流的开源大模型。 

混元 3D 生成大模型则是首个同时支持文字、图像生成 3D 的开源大模型。一期开源模型包含轻量版和标准版,轻量版仅需 10s 即可生成高质量 3D 资产。该模型在今年年初已在腾讯内部上线发布并应用于实际业务中,如 UGC 3D 创作、商品素材合成、游戏 3D 资产生成等。

本次视频生成大模型的开源,也是腾讯混元拥抱开源,用技术反馈社区的一大成果。至此,腾讯混元全系列大模型已实现全面开源。

腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块,目前在 Github 上已累计获得超 47 万开发者关注及点赞。

腾讯混元也会继续保持开放,将更多经过腾讯应用场景经验的模型开源出来,促进大模型生态的繁荣发展。

未来衍生模型和生态插件展示

未来我们会开源更多基于视频创作生态的模型,这里小小剧透一些片段。

视频配音

语音驱动数字人

姿态控制





#LLM-as-a-judge范式

本篇综述的作者团队包括亚利桑那州立大学的博士研究生李大卫,蒋博涵,Alimohammad Beigi, 赵成帅,谭箴,Amrita Bhattacharje, 指导老师刘欢教授,来自伊利诺伊大学芝加哥分校的黄良杰,程璐教授,来自马里兰大学巴尔的摩郡分校的江宇轩,来自伊利诺伊理工的陈灿宇,来自加州大学伯克利分校的吴天昊以及来自埃默里大学的舒凯教授。

摘要:评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展启发了 “LLM-as-a-judge” 范式,其中 LLM 被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于 LLM 的判断和评估进行了全面的调查,为推动这一新兴领域的发展提供了深入的概述。我们首先从输入和输出的角度给出详细的定义。然后,我们介绍一个全面的分类法,从三个维度探索 LLM-as-a-judge:评判什么(what to judge)、如何评判(how to judge)以及在哪里评判(where to judge)。最后,我们归纳了评估 LLM 作为评判者的基准数据集,并强调了关键挑战和有希望的方向,旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。

  • 论文链接:https://arxiv.org/abs/2411.16594
  • 网站链接:https://llm-as-a-judge.github.io/
  • 论文列表:https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge

文章结构

51c大模型~合集83_大模型_35

图 1:论文结构

LLM-as-a-judge 的定义

51c大模型~合集83_大模型_36

图 2:LLM-as-a-judge 定义

在这篇工作中,我们提出根据输入和输出格式的区别对 LLM-as-a-judge 进行了定义。首先,根据输入候选样本个数的不同,在输入的层面 LLM-as-a-judge 可以分为逐点和成对 / 列表输入;另外,根据模型输出格式的不同,在输出的层面 LLM-as-a-judge 的目的可以分为评分,排序和选择。

Attribute:评判什么

51c大模型~合集83_大模型_37

图 3:LLM 能够评判各种属性。

LLM-as-a-judge 已经被证明可以在多种不同类型的属性上提供可靠的评判,在这个章节中,我们对他们进行了总结,它们包括:回复的帮助性,无害性,可靠性,生成 / 检索文档的相关性,推理过程中每一步的可行性,以及生成文本的综合质量。

Methodology:如何评判

51c大模型~合集83_大模型_38

表 1:LLM-as-a-judge 训练方法

(1)微调:最近许多工作开始探索如何使用微调技术来训练一个专门的评判大模型,我们在这一章节中对这些技术进行了总结归纳,包括它们的数据源,标注者,数据类型,数据规模,微调技术及技巧等(表 1)。其中我们根据数据来源(人工标注和模型反馈)和微调技术(有监督微调和偏好学习)对这些工作进行了详细讨论。

51c大模型~合集83_大模型_39

图 4:LLM-as-a-judge prompting 方法

(2)提示:提示(prompting)技术可以有效提升 LLM-as-a-judge 的性能和效率。在这一章节中,我们总结了目前工作中常用到几类提示策略,分别是:交换操作,规则增强,多智能体合作,演示增强,多轮动态交互和对比加速。

Application:何时评判

51c大模型~合集83_大模型_40

图 5:LLM-as-a-judge 应用和场景

(1)评估:传统 NLP 中的评估通常采用静态的指标作为依据,然而它们常常不能够很好的捕捉细粒度的语义信息。因此,LLM-as-a-judge 被广泛引入到模型评估的场景中,进行开放式生成,推理过程以及各种新兴 NLP 任务的评测。

(2)对齐:对齐技术通常需要大量人工标注的成对偏好数据来训练奖励或者策略模型,通过引入 LLM-as-a-judge 技术,采用更大的模型或者策略模型本身作为评估者,这一标注过程的时间和人力成本被大大优化。

(3)检索:检索场景同样得益于 LLM-as-a-judge 对于文本相关性和帮助性强大的判别能力。其中对于传统的检索应用,LLM-as-a-judge 通过判断文档和用户请求的相关性来选择最符合用户喜好的一组文档。另外,LLM-as-a-judge 还被应用于检索增强生成(RAG)的过程中,通过 LLM 自己来选择对后续生成最有帮助的辅助文档。

(4)推理:在推理过程中,LLM 在很多场景下会被赋予使用工具,API 或者搜索引擎的权限。在这些任务中,LLM-as-a-judge 可以依据当前的上下文和状态选择最合理可行的外部工具。另外,LLM-as-a-judge 还被广泛引用于推理路径的选择,通过过程奖励指导模型进行状态步骤转移。

基准:评判 LLM-as-a-judge

如表 2 所示,我们总结了不同针对 LLM-as-a-judge 的基准测试集,并从数据 / 任务类型,数据规模,参考文本来源,指标等多个方面对这些数据集做了总结归纳。其中,根据基准测试集目的的不同,大致可以分为:偏见量化基准,挑战性任务基准,领域特定基准,以及其他多语言,多模态,指令跟随基准等等。

51c大模型~合集83_大模型_41

表 2:LLM-as-a-judge 数据集和基线

展望:挑战和机遇

(1)偏见与脆弱性:大模型作为评判者,一直受困扰于各种各样影响评价公平性的偏见,例如顺序偏见,自我偏好偏见,长度偏见等。同时,基于大模型的评价系统在面对外部攻击时的鲁棒性也存在一定不足。因此,LLM-as-a-judge 未来工作的一个方向是研究如何揭露和改善这些偏见,并提升系统面对攻击的鲁棒性。

(2)更动态,复杂的评判:早期的 LLM-as-a-judge 通常只采用比较简单的指令来 prompt 大模型。随着技术的发展,越来越多复杂且动态的 LLM-as-a-judge 框架被开发出来,例如多智能体判断和 LLM-as-a-examiner。在未来,一个有前景的研究方向是开发具有人类评判思维的大模型智能体;另外,开发一个基于大模型自适应难度的评判系统也很重要。

(3)自我判断:LLM-as-a-judge 长期以来一直受困扰于 “先有鸡还是先有蛋” 的困境:强大的评估者对于训练强大的 LLM 至关重要,但通过偏好学习提升 LLM 则需要公正的评估者。理想状况下,我们希望最强大的大模型能够进行公正的自我判断,从而不断优化它自身。然而,大模型具有的各种判断偏见偏好使得它们往往不能够客观的评价自己输出的内容。在未来,开发能够进行自我评判的(一组)大模型对于模型自我进化至关重要。

(4)人类协同大模型共同判断:直觉上,人工的参与和校对可以缓解 LLM-as-a-judge 存在偏见和脆弱性。然而,只有少数几篇工作关注这个方向。未来的工作可以关注如何用 LLM 来进行数据选择,通过选择一个很小但很具有代表性的测试子集来进行人工评测;同时,LLM-as-a-judge 也可以从其他具有成熟的人机协同方案的领域受益。

总结

本文探讨了 LLM-as-a-judge 的惊喜微妙之处。我们首先根据输入格式(逐点、成对和列表)和输出格式(包括评分、排名和选择)对现有的基于 LLM-as-a-judge 进行定义。然后,我们提出了一个全面的 LLM-as-a-judge 的分类法,涵盖了判断属性、方法和应用。此后,我们介绍了 LLM-as-a-judge 的详细基准集合,并结合了对当前挑战和未来方向的深思熟虑的分析,旨在为这一新兴领域的未来工作提供更多资源和见解。







#北大字节VAR获最佳论文、厦大清华获亚军

刚刚,人工智能顶会 NeurIPS 公布了今年的最佳论文(包括 Best Paper 和 Best Paper Runner-up,大会注册者可以看到)。

一共有两篇论文获得最佳论文奖:

一是由北京大学、字节跳动研究者共同完成的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》(视觉自回归建模:通过 Next-Scale 预测生成可扩展图像),论文一作为田柯宇(此前因涉攻击内部大模型,被字节起诉)。参见报道《GPT 超越扩散、视觉生成 Scaling Law 时刻!北大 & 字节提出 VAR 范式》。

获悉,从 2023 年开始,字节商业化技术团队就在研究图像生成的自回归模型,一直将 VAR 作为高优项目推进,不仅安排多名研究人员重点攻关此技术方向,还投入大量算力资源支持模型训练和实验。该团队近期将发布新的 VAR T2I 模型研究成果,并将对模型开源。

二是由新加坡国立大学、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》(随机泰勒导数估计器:任意微分算子的有效摊销),论文一作为 Zekun Shi。

此外,还有两篇论文获得了最佳论文亚军(Best Paper Runner-up):

由厦门大学、清华大学、微软研究者共同完成的《Not All Tokens Are What You Need for Pretraining》(并非所有 token 都是预训练所需的), Zhenghao Lin 和 Zhibin Gou(苟志斌)为共同一作。

由英伟达和阿尔托大学共同完成的《Guiding a Diffusion Model with a Bad Version of Itself》(使用扩散模型的一个糟糕版本引导其自身),论文一作为 Tero Karras。

NeurIPS 2024 将于 12 月 10 日星期二至 12 月 15 日星期日在温哥华举办。本届共收到 15671 篇有效论文投稿,比去年又增长了 27%,但最终接收率低于 2023 年,仅有 25.8%。最佳论文的公布提前引爆了有关此次大会的讨论。

以下是获奖论文的详细信息:

最佳论文

论文 1:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

  • 作者:Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
  • 机构:北京大学、字节跳动
  • 论文地址:https://arxiv.org/pdf/2404.02905
  • 项目地址:https://github.com/FoundationVision/VAR

论文简介:在自然语言处理中,以 GPT、LLaMa 系列等大语言模型为例的 Autoregressive(自回归模型已经取得了较大的成功,尤其扩展定律(Scaling Law)和零样本任务泛化能力(Zero-shot Task Generalizability)十分亮眼,初步展示出通往「通用人工智能 AGI」的潜力。

然而在图像生成领域中,自回归模型却广泛落后于扩散(Diffusion)模型:DALL-E、Stable Diffusion、Sora 等模型均属于 Diffusion 家族。

为了「解锁」自回归模型的能力和 Scaling Laws,研究团队从图像模态内在本质出发,模仿人类处理图像的逻辑顺序,提出一套全新的「视觉自回归」生成范式:VAR, Visual AutoRegressive Modeling,首次使得 GPT 风格的自回归视觉生成,在效果、速度、Scaling 能力多方面超越 Diffusion,迎来了视觉生成领域的 Scaling Laws。

51c大模型~合集83_大模型_42

51c大模型~合集83_大模型_43

VAR 为如何定义图像的自回归顺序提供了一个全新的视角,即由粗到细、由全局轮廓到局部精调的顺序。在符合直觉的同时,这样的自回归算法带来了很好的效果:VAR 显著提升了自回归模型的速度和生成质量,在多方面使得自回归模型首次超越扩散模型。同时 VAR 展现出类似 LLM 的 Scaling Laws 和零样本任务泛化能力。

51c大模型~合集83_大模型_44

论文 2:Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators

  • 作者:Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
  • 机构:新加坡国立大学、 Sea AI Lab
  • 论文地址:https://arxiv.org/abs/2412.00088
  • 项目地址:https://github.com/sail-sg/stde

论文简介:使用包含高维和高阶微分算子的损失函数来优化神经网络是非常昂贵的,因为反向传播中导数张量的大小按

51c大模型~合集83_大模型_45

缩放,计算图中的计算按

51c大模型~合集83_大模型_46

缩放,其中,d 是域的维度,L 是前向计算图中操作的数量,k 是导数的阶数。

在之前的研究中,d 中多项式缩放是通过随机化在优化过程中平摊计算来解决的。另外,单变量函数(d = 1)中 k 的指数缩放通过高阶自动微分(AD)解决。

本研究展示了如何通过正确构造单变量高阶 AD 输入切线(input tangent),有效地对多元函数的任意阶导数张量进行任意收缩,这可用于有效地随机化任何微分算子。

当应用于 PINN( Physics-Informed Neural Networks )时,与使用一阶 AD 进行随机化相比,本文方法提供了 1000 倍以上的速度提升和 30 倍以上的内存减少,而且现在可以在单个 NVIDIA A100 GPU 上在 8 分钟内解决 100 万维 PDE。这项工作开启了在大规模问题中使用高阶微分算子的可能性。

最佳论文亚军(Best Paper Runner-up)

论文 1:Not All Tokens Are What You Need for Pretraining

  • 作者:Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, yelong shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
  • 机构:厦门大学、清华大学、微软
  • 论文地址:https://openreview.net/pdf?id=0NMzBwqaAJ
  • 项目地址:https://github.com/microsoft/rho

论文简介:以前的语言模型预训练方法会统一对所有训练 token 应用下一个 token 预测损失。

但这一范式并非不可挑战。这篇论文的作者首先做出了一个假设:「对于语言模型训练,并非语料库中的所有 token 都同等重要」。

然后,他们分析了语言模型的 token 级训练动态,结果发现不同 token 有着不同的损失模式。

基于这些见解,他们开发了一种新模型 RHO-1。不同于传统语言模型(会学习预测语料库中的每一下个 token),RHO-1 采用了选择性语言建模(SLM),它会选择性地使用与所需分布对齐的有用 token 进行训练。

51c大模型~合集83_大模型_47

51c大模型~合集83_大模型_48

该方法需要使用一个参考模型来给 token 评分,然后再在分数更高的 token 上使用一个重点关注损失(focused loss)来训练模型。

在 15B OpenWebMath 语料库上进行持续预训练时,RHO-1 在 9 个数学任务上的少样本准确率实现了 30% 的绝对提升。经过微调后,RHO-1-1B 和 7B 在 MATH 数据集上分别取得了 40.6% 和 51.8% 的 SOTA 结果 —— 仅用 3% 的预训练 token 就达到了 DeepSeekMath 相当的水平。此外,在对 80B 个通用 token 进行持续预训练时,RHO-1 在 15 个不同任务上实现了 6.8% 的平均提升,数据效率和语言模型预训练的性能都得到了提升。

51c大模型~合集83_大模型_49

论文 2:Guiding a Diffusion Model with a Bad Version of Itself

  • 作者:Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
  • 机构:英伟达、阿尔托大学
  • 论文地址:https://arxiv.org/pdf/2406.02507

论文简介:图像生成扩散模型关注的核心是图像质量、结果的多变程度以及结果与给定条件(例如类标签或文本提示)的对齐程度。

常见的无分类器引导方法是使用无条件模型来引导条件模型,这样既能实现更好的提示词对齐,也能得到更高质量的图像,但代价是多变程度下降。

这些效果似乎本质上是纠缠在一起的,因此很难控制。

基于此,该团队得出了一个令人惊讶的观察结果:通过使用较小、训练较少的模型版本(而不是无条件模型)来引导生成,就可以在不影响多变程度的情况下获得对图像质量的控制。由此,图像质量与多变程度就分离了。

实验表明,这能显著提升 ImageNet 生成效果。他们使用公开可用的网络,为 64×64 分辨率下的生成创造了 1.01 的 FID 记录,为 512×512 创造了 1.25 的 FID 记录。此外,该方法也适用于无条件扩散模型,可极大提高其质量。

51c大模型~合集83_大模型_50

51c大模型~合集83_大模型_51








#云计算春晚

昨晚的「云计算春晚」,大模型、芯片连发,比OpenAI、谷歌上新都猛

亚马逊云科技上演了一场生成式 AI 能力的「王者归来」。

今天凌晨,有「云计算春晚」之称的 re:Invent 大会在美国拉斯维加斯开幕。亚马逊云科技一下子搬出了全新大模型 Nova 系列,性能比肩英伟达旗舰的 AI 训练芯片,与之对应的算力服务,并对 Amazon Bedrock 进行了一番从头到脚的升级。

登台演讲之前,亚马逊云科技新任 CEO Matt Garman 提出了一个发人深省的观点:人工智能是一场没有终点的竞赛,它将永远持续下去。

这场竞赛其实还处在开始阶段,经历了「All in 大模型」的疯狂之后,大家确实在思考:面对这场持久战,接下来要重点关注「细水长流」了。

对于各行各业的用户来说,可持续发展问题首先是成本问题。如果说去年的我们还在摸索如何适应新的生成式 AI 技术,那么到了 2024 年的末尾,更重要的是:如何持续降低生成式 AI 的应用成本,换言之,提升生成式 AI 技术应用的性价比。

在今天凌晨的 Keynote 中,Matt Garman 分享了亚马逊云科技在人工智能和计算等领域的「新技术、新产品、新服务」,生成式 AI 技术栈再次焕新。

我们看到了相当前沿的一波技术能力,源源不断地震撼发布。与此同时,技术落地成本降低到了难以置信的程度。

这一切升级,的确称得上「真正革命性的变化」。风云变幻的生成式 AI 时代,亚马逊云科技又一次「Hold 住全场」。

成本直降 75%

全模态 Amazon Nova 将「性价比」做到极致

去年 4 月,亚马逊云科技刚刚加入生成式 AI 大模型之战,发布的 Amazon Titan 系列模型当时仅支持文本内容生成和创建高效搜索。一年多过去,亚马逊云科技已经在基础模型层完成了全面的布局,向覆盖文本、图像、视频和语音的全模态体系发起冲击,在与 OpenAI、谷歌、Anthropic 等主流大模型厂商的竞争中,丝毫不落下风。

本次 re:Invent 大会上,全新自研生成式 AI 多模态 Amazon Nova 系列模型正式亮相,不仅在多种任务中达到了 SOTA 智能水平,更在性价比层面实现了业界领先。

亚马逊总裁兼 CEO 安迪・贾西(Andy Jassy)。

此次发布的 Amazon Nova 系列模型共四个版本:纯文本模型 Amazon Nova Micro,支持 128k 上下文,能够以极低成本实现最低延迟响应;成本极低的多模态模型 Amazon Nova Lite,支持 300k 上下文或 30 分钟视频输入,可以快速处理图像、视频和文本;功能强大的多模态模型 Amazon Nova Pro,同样支持 300k 上下文或 30 分钟视频输入,兼顾准确性、速度和成本,适用于各种任务;功能最强的多模态模型 Amazon Nova Premier,可用于复杂推理任务,并用作自定义蒸馏模型的最佳教师模型。

模型好不好,先跑个分。从打榜结果来看,Amazon Nova 系列模型经受住了各种行业基准测试,直接挑战了 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet V2 这样的顶级选手。

Amazon Nova Pro 与 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet V2 的比较。

一方面,纯文本 Amazon Nova Micro 在与 LLaMa 3.1 8B、Gemini 1.5 Flash-8B 的较量中取得了相当或者更优的表现。Micro  210 tokens/s 的输出速度实现了业界领先,对于需要快速响应的应用程序而言,Micro 是最佳选择。

另一方面,多模态 Amazon Nova Lite 和 Amazon Nova Pro 与 OpenAI、谷歌和 Anthropic 等主流厂商相比,在绝大多数基准上表现相当甚至更好。尤其在处理轻量级任务时,Lite 是当前成本最低的多模态模型。

目前,Amazon Nova Micro、Lite、Pro 三款模型均已推出,并集成到了 Amazon Bedrock 中,支持自定义微调和蒸馏。Amazon Nova Premier 则将于 2025 年第一季度问世。

在性能全方位加强之外,Amazon Nova 系列模型中 Micro、Lite 和 Pro 的价格至少比 Amazon Bedrock 中各个智能类别中的最强模型要便宜 75%。对于有大模型服务调用需求、预算不高但又不想在模型效果上打折扣的客户来说,Nova 系列无疑是一个性价比极高的选择。

另外,在图像和视频生成模型百花竞艳的当下,亚马逊云科技也秀了一把内容创作实力。独立的图像生成模型 Amazon Nova Canvas 和视频生成模型 Amazon Nova Reel 悉数登场:Canvas 支持图像生成和编辑,提供丰富的配色方案和布局控件;Reel 可根据关键提示词和参考图像生成 6 秒视频,支持用户调整摄像头运动以进行平移、360 旋转和缩放,未来还会支持 2 分钟视频生成。

提示词:一只狗在很开心地兜风。狗的嘴巴张开时要注意舌头的位置。

最后,安迪・贾西还预告了另外两款 Amazon Nova 模型,分别是 Amazon Nova Speech-to-Speech 和 Amazon Nova Any-to-Any。前者要实现自然、类人的口头交互,后者旨在用同一个模型解决多种任务,包括多模态转换、内容编辑以及 AI 智能体操作。这两款模型预计将先后于 2025 年第一季度和中期与大家见面。

从文本到视频的 Amazon Nova 模型一次性全部上线,下一步计划也直接对标最新方向。亚马逊云科技自研大模型的进化速度,着实让全场观众都震撼了一下。

自动蒸馏,多智能体协作,还能搞定 LLM 幻觉

Amazon Bedrock 又变强了

自生成式 AI 爆发两年多以来,亚马逊云科技的人工智能战略一直没有改变,那就是希望作为一个中立且有能力的平台,为企业、开发者们提供灵活的、领先的 AI 模型选择。

除了聚合一批顶尖模型,在工具层,亚马逊云科技也一直在确保用户能够拥有最先进的技术。

这次大会,亚马逊云科技基础模型托管服务 Amazon Bedrock 的更新直指企业用户当下急需的技术能力。

首先是帮助对大模型进行蒸馏的 Amazon Bedrock Model Distillation,它通过从大型基础模型(被称为教师模型)生成响应,并用生成结果来微调较小的基础模型(被称为学生模型),可以自动为特定用例创建优化版模型。

有了这项功能,用户可以快速构建实用化的生成式 AI 模型,并提高小模型的准确性,通过知识转移过程获得大体量模型的大部分能力,或是针对特定用例提炼专有模型。据亚马逊云科技介绍,经过优化的模型比原始大型模型快五倍,计算成本低 75%,对于检索增强生成 (RAG) 等用例,准确度损失不到 2%。

另外一项新推出的服务 Automated Reasoning checks,赋予用户通过自动推理减少大模型幻觉、检查提高对话式 AI 准确性。这意味着,可以通过交叉引用提供的信息来验证大模型响应是否准确,自动推理检查是消除幻觉的「第一个」也是「唯一」的保障。

具体来说,当大模型生成响应时,自动推理检查会对其进行验证,使用「逻辑准确」和「可验证的推理」得出结论。如果可能出现幻觉,则系统根据基本事实得出正确答案。该答案与可能的错误信息一起呈现,人们可以直观地看到模型偏离了多远。

基础模型之上,大模型领域的竞争已经升级到「智能体」(Agent)阶段,Anthropic、微软等公司纷纷推出了桌面级的智能体应用,它们大大扩展了大模型执行任务的范围,比如网购、发邮件、订票,就像是打通了大模型落地的最后一关。

亚马逊云科技同样加重了对 Agent 的投入。现在,Amazon Bedrock 已经上新了实现大模型多智能体协作的工具。

构建有效多智能体协作系统的关键在于管理大规模协调多个专业智能体的复杂性和开销。Amazon Bedrock 简化了其过程,帮助人们将复杂任务分解为多个子任务,利用专业 AI 能力进行解决,提高了多智能体协作框架在解决复杂的现实问题方面的协调能力、通信速度和整体有效性。

至此,我们能够很清晰地看出:Amazon Bedrock 的进化对应了用户在应用生成式 AI 过程中所面临的几大挑战 —— 大模型推理的算力需求、大模型的准确性,以及多智能体操作。

当技术飞速进化时,用户需求的变化速度往往超出需求。不过这些艰难的关卡,已经被 Amazon Bedrock 逐个击破了。

新一代 AI 芯片 Trainium 面世

算力革命正在路上

如果你需要运行科学计算或大型 AI 模型,那就需要大范围、低延迟的网络来连接所有 GPU 节点,亚马逊云科技可以提供迄今为止业内最快、最易扩展的算力。

十年来,AI 行业已经形成了一个共识:模型之所以能够实现参数量规模和计算复杂度的持续增长,得益于强大算力的支撑。

此前,我们可以从两个较为简单的维度来理解这个结论:要么向上扩展,使用更大的计算机;要么向外扩展,使用更多的计算机。

但在生成式 AI 时代,由于涉及数十亿甚至上千亿的参数,设计、训练和部署模型都需要消耗大量的计算资源。比如,每次训练都需要对海量数据进行复杂的矩阵运算和梯度计算,对算力基础设施的要求已不可同日而语。

对于想要应用生成式 AI 的企业来说,想要保持对 OpenAI、谷歌等顶尖公司的追赶,这意味着要购买越来越多的高端芯片和云服务,支出的计算成本因此显著上涨。Gartner 分析称,到 2025 年,随着 AI 技术基础设施的不断升级,各个云支出领域的增长率都将达到两位数。

现在,核心问题已经变成了:如何在算力资源供应短缺的大环境下扩大算力来源,以及如何在大模型产生高昂计算成本压力下极致高效地利用算力。

对于众多企业用户来说,亚马逊云科技的自研 AI 芯片提供了一个速度更快、能耗更低的优质选项。

Trainium 是亚马逊云科技自研的 AI 芯片,2020 年首次推出,曾一度被认为是训练 AI 模型最具效率的芯片。

在这次的 re:Invent 大会上,亚马逊云科技宣布 Trainium2 芯片全面正式可用,帮助行业训练和部署大型语言模型。Trainium2 在一年前首次发布,速度是其上一代产品的四倍。

单个 Trainium2 驱动的 EC2 实例配有 16 个 Trainium2 芯片,可提供高达 20.8 PetaFLOPS 的计算性能。在测试中,与其他云服务商的类似产品相比,使用 Amazon Bedrock Trn2 EC2 实例的 Llama 3.1 405B 模型 token 生成吞吐量提高了三倍以上。

另一个非常值得关注的消息是:亚马逊云科技和 Anthropic 正在合作构建一个名为 Project Rainier 的 Trn2 UltraServer 集群。

生成式 AI 爆发后,Anthropic 就大量使用了亚马逊云科技的算力设施。在大模型赛道上,Anthropic 始终是对 OpenAI 追赶得最紧的一位玩家。今年 11 月底,亚马逊宣布向 Anthropic 追加 40 亿美元投资,这笔交易后,对 Anthropic 的投资总额达到 80 亿美元。基于深厚的合作关系,Anthropic 后续将用亚马逊云科技的 Trainium AI 芯片来训练和运行其 AI 模型。

Project Rainier 这个集群会包含数十万个 Trainium2 芯片,为 Anthropic 提供了足够的可扩展分布式计算能力训练下一代大模型。与 Anthropic 用于训练其当前一代模型的集群相比,新集群的计算能力达到其 5 倍,并将成为迄今为止全球最大的 AI 计算集群。

对于规模更大的万亿级参数 LLM,亚马逊发布了第二层 Trianium2 实例 Trn2 UltraServer,同时提供 64 个 Trainium2 芯片用于 AI 模型训练或推理。它将允许用户超越单个 Trn2 服务器的限制,可以提供高达 83.2 PetaFLOPS 峰值计算能力。

与此同时,亚马逊云科技的下一代自研 AI 芯片也在路上了:Trainium3 是这家科技公司第一款采用 3nm 工艺制造的芯片,将提供两倍于 Trainium2 的性能,能耗降低为 40%。它的性能将比肩英伟达的新一代 AI 芯片。

首批基于 Trainium3 的实例预计将于 2025 年上市。亚马逊云科技表示,搭载 Trainium3 的 UltraServer 预计性能会比搭载 Trainium2 芯片的 UltraServer 高出四倍。

在生成式 AI 技术突飞猛进的情况下,不断进化的亚马逊云科技为用户提供了一个安心的「算力」选项。当人们热议「追逐 Scaling Law 还有没有意义」的时候,至少不断进化的 Trainium 系列和亚马逊云科技长期以来构建的一整套 AI 基础设施,能让千行百业的用户在这场浪潮中找到「船桨」。

生成式 AI 走向应用的「底层逻辑」

此外,亚马逊云科技还在新版本的 Amazon SageMaker 上简化了数据和 AI 资产管理的功能,并为 Amazon Aurora 云数据库大幅提升了吞吐速度。

从新一代大模型,到开发工具、管理平台、芯片,再到数据处理模块。从今天的发布会上我们可以看出,亚马逊云科技一直在强调大模型全链路技术在新一代应用中将要起到的关键作用。

与让大模型学会新技能的「训练」相对应的是,推理是 AI 模型生成预测或输出的过程,代表着模型的应用。从行业角度看:随着 AI 技术的成熟,生成式 AI 的一次次推理最终会推动很多行业发生变革。而从技术的角度看:在开发者调用 AI 能力时,其背后从硬件到算法、应用,计算的全流程,仅仅优化两个字,却包含着无数的技术实践的努力。

在生成式 AI 技术落地的过程中,不断整合先进的 AI 能力,并将基础设施无缝集成,保证易于使用,是亚马逊云科技的目标。

亚马逊云科技正在全流程降低生成式 AI 构建的门槛。从某种层面上来说,如果 OpenAI 是在为大模型通向 AGI 探索方向,亚马逊云科技就是在为生成式 AI 技术应用落地铺路。

这其中的一系列工作,重要性不言而喻,而且和竞争者相比,亚马逊云科技已经全方位拉开了代差。








#Neural Machine Translation by Jointly Learning to Align and Translate

被忽略的起点?Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事

几个小时前,著名 AI 研究者、OpenAI 创始成员之一 Andrej Karpathy 发布了一篇备受关注的长推文,其中分享了注意力机制背后一些或许少有人知的故事。

其中最值得注意的一个故事是真正首次提出注意力机制的论文其实是 Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio 的《Neural Machine Translation by Jointly Learning to Align and Translate》,这比《Attention is All you Need》还早 3 年,但很显然,这篇论文并没有收获后者那般的关注。 

Karpathy 长推文的不完整截图

实际上,这个故事来自 Dzmitry Bahdanau 发给 Karpathy 的一封邮件。Bahdanau 是 ServiceNow Research 的研究科学家和研究负责人以及麦吉尔大学兼职教授。

他在发给 Karpathy 的这封邮件中分享了自己发现注意力机制的旅程以及 Attention 这个术语的由来——其实来自 Yoshua Bengio。此外,他也提到了 Alex Graves 的 NMT 论文和 Jason Weston 的记忆网络(Memory Networks)论文各自独立发现类似机制的故事。

Karpathy 推文发布后反响热烈,短时间内就已有超过 20 万阅读量,很多读者都被这个注意力背后的故事吸引。

有读者在看过这个故事后发出感叹:2013-2017 年间的深度学习宇宙中有很多隐藏的英雄。

也有人分享自己对注意力机制的看法。

Hyperbolic Labs 创始人和 CTO Yuchen Jin 更是打趣说《Attention Is All You Need》的另一项重要贡献是将后面的 AI 论文标题带歪了:「吸引注意力的标题才是 All You Need」。

注意力机制的背后故事

下面我们就来看看 Karpathy 的推文究竟说了什么:

「attention」算子——也就是提出了 Transformer 的《Attention is All you Need》中的那个注意力,背后的(真实)开发和灵感故事。来自大约 2 年前与作者 @DBahdanau 的个人电子邮件通信,在此发布(经许可)。此前几天,网上流传着一些关于其开发过程的假新闻。

Attention 是一种出色的(数据依赖型)加权平均运算。它是一种形式的全局池化、归约、通信。它是一种从多个节点(token、图块等)聚合相关信息的方法。它富有表现力、功能强大、具有足够的并行性,并且可以高效优化。甚至多层感知器(MLP)实际上也可以大致重写为数据独立型权重上的 Attention(第一层权重是查询,第二层权重是值,键就是输入,softmax 变为元素级,删除了规范化)。简单来说,注意力非常棒,是神经网络架构设计中的重大突破。

《Attention is All You Need》获得的…… 呃…… 注意力差不多是 3 年前真正提出 Attention 的论文的 100 倍,即 Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio 的论文《Neural Machine Translation by Jointly Learning to Align and Translate》。在我看来,这一直有点出人意料。顾名思义,《Attention is All You Need》的核心贡献是提出:Transformer 神经网络就是删除注意力之外的一切,然后基本上就是将其堆叠在带有 MLP(根据上述内容,这也可以大致被视为注意力)的 ResNet 中。但我确实认为这篇 Transformer 论文有自己独特的价值,因为它一次性添加了其它许多令人惊叹的想法,包括位置编码、缩放式注意力、多头注意力、各向同性的简单设计等。在我看来,直到今天(大约 7 年过去了),Transformer 基本上还保持着 2017 年的形式,只有相对较少的微小修改,也许除了使用更好的位置编码方案(RoPE 等)。

总之,我先把完整邮件贴在下面,其中也暗示了这个运算一开始被称为 Attention 的原因 —— 它源自对源句子中词的关注(attending)并同时以顺序方式输出翻译结果的词,并且之后 Yoshua Bengio 在 RNNSearch 中将其引入成了一个术语(感谢上帝?:D)。同样有趣的是,该设计的灵感来自人类的认知过程/策略,即按顺序来回关注一些数据。最后,从发展进步的本质来看,这个故事相当有趣——类似的想法和表述「早就已经在空气中回荡」,特别要提到当时 Alex Graves(NMT)和 Jason Weston(记忆网络)的工作。

谢谢你的故事 @DBahdanau !

之后,Karpathy 还做了一些补充:ChatGPT 以及绝大多数现代 AI 模型都是巨型 Transformer。「所以 LLM 的核心神奇之处来自于反复应用注意力,一遍又一遍地关注输入的 token,以预测下一个 token 是什么。」

Dzmitry Bahdanau 的原始邮件内容

Karpathy 也一并分享了 Dzmitry Bahdanau 的原始邮件内容:

嗨,Andrej,

很高兴告诉你 8 年前发生的故事!

我在雅各布大学 Herbert Jaeger 的指导下完成硕士课程的第一年后,作为实习生来到了 Yoshua 的实验室。

我告诉 Yoshua 我很乐意做任何事情。Yoshua 让我参与机器翻译项目,与 Kyunghyun Cho 和团队一起工作。我当时非常怀疑将词序列塞入向量的想法。但我也非常想获得博士学位。所以我撸起袖子,开始做我擅长的事情——编写代码、修复错误等等。在某个时候,我表现得很了解我做的东西了,Yoshua 邀请我攻读博士学位(2014 年是一个很好的时机,表现得很了解就已经足够了——美好的旧时光!)。我非常高兴,我认为可以开始享受乐趣并发挥创造力了。

所以我开始思考如何避免编码器和解码器 RNN 之间的瓶颈。我的第一个想法是构建一个带有两个「光标」的模型,一个在源序列中移动(由一个 BiRNN 编码),另一个在目标序列中移动。使用动态规划(dynamic programming)可以将光标轨迹边缘化。KyungHyun Cho 认为这相当于 Alex Graves 的 RNN Transducer 模型。之后,我可能还读了 Graves 的手写识别论文。不过,这种方法看起来不适合机器翻译。

在我实习的剩余 5 周内,上述使用光标的方法很难实现。所以我尝试了一种更简单的方法——两个光标同时同步移动(实际上是硬编码的对角注意力)。这种方法有点效果,但方法不够优雅。

所以有一天,我想到如果能让解码器 RNN 学会在源序列中搜索放置光标的位置就好了。这多少受到我中学时学习英语时的翻译练习的启发。翻译时,你的目光会在源序列和目标序列之间来回移动。我将这种软性搜索表示为 softmax,然后对 BiRNN 状态进行加权平均。它的效果很好,从第一次尝试,到后来振奋人心。我将这个架构称为 RNNSearch,我们急于发表一篇 arXiv 论文,因为我们知道谷歌的 Ilya 和同事领先于我们,他们有巨大的 8 GPU LSTM 模型(而 RNN Search 仍在 1 GPU 上运行)。

后来发现,这个名字并不好。直到最后几次过论文时,Yoshua 才将更好的名字(attention)添加到论文结论中。 

一个半月后,我们看到了 Alex Graves 的 NMT 论文。这确实是完全相同的想法,尽管他提出它的动机完全不同。在我们的情况下,是因为需要而产生了这个发明。在他的情况下,我想应该是将神经和符号 AI 连接起来的雄心吧?Jason Weston 及其同事的记忆网络论文也采用了类似的机制。

我没有远见地想到注意力可以在较低的层级使用,以作为表征学习的核心运算。但是当我看到 Transformer 论文时,我立即向实验室同事断言 RNN 已死。

回到你最初的问题:在蒙特利尔 Yoshua 的实验室发明的「可微分和数据依赖加权平均」独立于神经图灵机、记忆网络以及 90 年代(甚至 70 年代)的一些相关认知科学论文。这是 Yoshua 领导推动实验室进行雄心勃勃的研究的结果,KyungHyun Cho 在运行一个大型机器翻译项目方面拥有高超的技能,该项目由初级博士生和实习生组成;最后,我自己的创造力和编码技能在多年的竞争性编程中得到了磨练。但我认为这个想法很快就会被发现。就算我、Alex Graves 和这个故事中的其他角色当时没有研究深度学习也是如此,注意力就是深度学习中实现灵活空间连接的自然方式。等待 GPU 足够快,让人们有动力认真对待深度学习研究,这是一个显而易见的想法。自从我意识到这一点以来,我在 AI 领域的抱负就是启动像机器翻译项目这样的出色的应用项目。相比于那些研究所谓的「真正」AI 的花哨理论,良好的研发工作可以为基础技术的进步做出更大贡献。

就这些!我非常想更多了解关于您的教育 AI 项目的信息(我从 Harm de Vries 那里听到了一些传言;))。

祝好,

Dima

相关论文

最后,下面梳理了前面提及的相关论文,以帮助感兴趣的读者做进一步的技术探索。


Neural Machine Translation by Jointly Learning to Align and Translate,未得到应有关注的注意力论文

作者:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

链接:https://arxiv.org/abs/1409.0473

Attention is All You Need,著名的 Transformer 论文

作者:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

链接:https://arxiv.org/abs/1706.03762

Neural Turing Machines,其中几乎同时提出了类似的 soft pooling 运算

作者:Alex Graves, Greg Wayne, Ivo Danihelka

链接:https://arxiv.org/abs/1410.5401

Generating Sequences With Recurrent Neural Networks,研究了使用 LTSM 循环神经网络生成具有长程结构的复杂序列,很有开创性

作者:Alex Graves

链接:https://arxiv.org/abs/1308.0850

Memory Networks,记忆网络

作者:Jason Weston, Sumit Chopra, Antoine Bordes

链接:https://arxiv.org/abs/1410.3916

Sequence to Sequence Learning with Neural Networks,文中提到的当时在谷歌的 Ilya 等人的论文

作者:Ilya Sutskever, Oriol Vinyals, Quoc V. Le

链接:https://arxiv.org/abs/1409.3215

参考链接

https://x.com/karpathy/status/1864023344435380613

https://x.com/karpathy/status/1864030016457375916







#Cognify

质量超越o1,成本仅4%,UCSD张怡颖教授团队开源生成式AI工作流自动优化器

近几年在生成式 AI 技术和商业创新飞速发展的背景下,创建高质量且低成本的生成式 AI 应用在业界仍有相当难度,主要原因在于缺乏系统化的调试和优化方法。

近日,UCSD 张怡颖教授的 GenseeAI 团队推出了首款可自动提升 AI 工作流生成质量并降低生成成本的工具 Cognify。Cognify 可以自动优化 AI 工作流,支持 LangChain、DSPy、Python 等语言框架。Cognify 的核心思路是一种创新的分层工作流级优化方法。Cognify 可将生成式 AI 应用的生成质量提高多达 48%,并将执行成本降低多达 90%。Cognify 现已开源。

51c大模型~合集83_大模型_52

开源地址:https://github.com/GenseeAI/cognify

生成式 AI 工作流

当前的生成式 AI 产品通常都是以生成式 AI 工作流的形式构建和部署。AI 工作流内部可以调用各类 AI 模型、工具、数据源及其他类型的系统。典型的 AI 工作流包括 Agent 工作流和 LLM+RAG 等。

与单次调用 AI 模型相比,AI 工作流提供了更强大、可定制和集成化的解决方案。当前业界的 AI 工作流通常由工程师编写。在部署之前,工程师需要手动调整 AI 工作流的结构和提示词(prompt),并为工作流中的各个步骤选择合适的模型。

然而,由于缺乏系统化的调优方法,AI 工作流的部署经常非常耗时,已部署的工作流也可能面临质量不佳、不稳定或成本太高等问题。虽然有许多生成式 AI 工作流的开发框架,比如 Coze,Dify,LangChain,DSPy 和 Claude MCP,但是并没有可以帮助开发者系统调试和优化工具。

Cognify 优化器

Cognify 是一款全面、多目标的开源 AI 工作流优化器。Cognify 的优化过程基于自动选择 AI 模型、改进工作流结构和增强提示词。Cognify 实现了工作流的多目标优化,包括提高生成质量和低生成成本。

对于不同的应用场景,Cognify 都用相同或更小的模型达到了更高的生成质量,推动了质量 - 成本 Pareto 边界,并且允许用户选择不同的质量 - 成本组合(结果如下图所示)。在此过程中,Cognify 的优化实现了「一键」全自动化。

同时,Cognify 也允许用户自定义优化方法 Cogs(Cognify 把各种优化统称 Cog),备选模型种类,以及最多优化次数。Cognify 目前支持 LangChain、LangGraph、DSPy 和基于 Python 开发的工作流。

51c大模型~合集83_大模型_53

Cognify 核心技术

全局级别的工作流超参数调优

Cognify 的核心理念是对整个工作流进行优化,而不是在每个单独的工作流组件中进行优化。由于上游组件的生成结果对下游组件的性能有重大影响,孤立的优化各个组件可能导致最终生成质量不佳,而且整体运行成本增加。

Cognify 通过实验各种 Cog 组合,并通过最终生成的质量评估这些组合的效果,从而优化整个工作流。

51c大模型~合集83_大模型_54

在整体工作流优化中,一个关键挑战是优化成本,包括模型运行成本和耗时。一个简单的做法是对每个可能的 cog 组合进行网格搜索,但这会导致指数级增长的优化成本。为了解决这个问题,Cognify 采用了两种策略。

首先,Cognify 将工作流视为一个优化对象,并将所有可能的 Cog 视为其超参数 (hyperparameter)。Cognify 为工作流超参数设计了一套新的贝叶斯优化器(Bayesian Optimizer),用于调优这些工作流超参数。特制的优化器能够有效探索 cog 组合空间。其次,Cognify 将 cog 分为两层:外循环包含更改工作流结构的 cog(例如添加或移除组件或重新排列它们的顺序),内循环包含不影响工作流结构的 cog(例如提示词调优和模型选择)。这种双层方法减少了贝叶斯优化器需要探索的整体搜索空间。

51c大模型~合集83_大模型_55

CogHub:AI 工作流优化器集合

与 Cognify 同时推出的是 CogHub——一个开源 cog 集合。就像 HuggingFace 集合了开源的模型,CogHub 集合了开源的 AI 工作流优化方法。CogHub 在被 Cognify 内部调用的同时也面向程序员或未来的生成式 AI 工具。

CogHub 现支持以下五种 cogs:

  • 任务分解 (Task Decomposition)(外循环):将一个任务(一次 LLM 调用)分解为多个细分的子任务(多次 LLM 调用)。
  • 任务集成 (Task Ensemble)(外循环):构建并结合多个模块来完成任务。
  • 多步推理 (Multi-step Reasoning)(内循环):要求 LLM 逐步推理。
  • 少样本学习 (Few-shot Learning)(内循环):从输入样本中添加一些高质量的示例演示。
  • 模型选择 (Model SelectioN)(内循环):评估不同的模型。

优化案例

以下是一个数据可视化任务的例子。任务目标是由手机销售数据生成针对每个厂商每个季度的销量的箱型图,并计算每个手机商的销售平均值,最终用平均值线表示。

下图展示了几个生成图的对比, 1) 人工画的基准图,2) 直接询问 OpenAI o1,3) 直接运行 MatPlotAgent 工作流,4) DSPy 优化过的工作流,以及 5) 由 Cognify 优化过的工作流。Cognify 优化过的工作流返回的结果几乎与基准图吻合,质量显著优于其他方案。与此同时,Cognify 优化过的工作流的运行成本仅有 o1-preview 的 4%。

51c大模型~合集83_大模型_56

图 A:人工画的基准

51c大模型~合集83_大模型_57

图 B:GPT o1-preview 的生成图

51c大模型~合集83_大模型_58

图 C:原生成式 AI 工作流的生成图

51c大模型~合集83_大模型_59

图 D:DSPy 优化过的生成式 AI 工作流生成图

51c大模型~合集83_大模型_60

图 E:Cognify 优化过的生成式 AI 工作流生成图

GenseeAI 简介

GenseeAI(gensee.ai)是由 UCSD 张怡颖教授带领的初创公司。GenseeAI 致力于生成式 AI 工作流优化、部署、推理和基础平台创建,目前已在多家世界 500 强公司推广初期产品。张怡颖教授师从图领奖得主 David Patterson 学门,是计算机系统领域的国际顶尖专家,获得业界和学术界多项大奖和广泛认可。GenseeAI 的其他核心团队来自于美国谷歌和 Snap 等高科技公司,具有开发和运营日活跃用户上亿级别的 AI 产品的经验。







#ChatGPT遇到这些人名开始自闭

OpenAI回应了

最近几天,ChatGPT 惊现神秘 Bug,当被问及「David Mayer」这个名字时,它拒绝回答问题。

如果你试图让它回答,聊天会立即结束。

图源:https://x.com/venturetwins/status/1862910201113739328

人们尝试了各种各样的方法 —— 密码、谜语、技巧等,但都不起作用。甚至在个性化设置里,用户自己的名字改成 David Mayer,还是不行。

消息迅速传出,有人说,这个名字对聊天机器人来说是毒药。每次试图让 ChatGPT 拼出这个特定的名字都会导致它失败,甚至在名字中间中断。

最初人们只是好奇,但很快就发现 ChatGPT 无法说出的名字不仅仅是 David Mayer。

他们还发现导致服务崩溃的还有 Brian Hood、Jonathan Turley、Jonathan Zittrain、David Faber 和 Guido Scorza 等等。

这些人是谁?为什么会让 ChatGPT 崩溃?

认真观察,可以发现其中一些名字可能属于许多人。但 ChatGPT 用户发现的一个潜在联系是,这些人是公众人物或半公众人物,他们可能希望搜索引擎或 AI 模型「忘记」某些信息。

例如,Brian Hood 是澳大利亚的一位市长,他指责 ChatGPT 错误地将他描述为几十年前犯罪的肇事者,而事实上,他曾举报过这一错误。

虽然他的律师与 OpenAI 取得了联系,但从未提起过诉讼。正如他今年早些时候说的那样,违规内容已被删除。

David Faber 是 CNBC 的资深记者,Jonathan Turley 是一名律师和福克斯新闻评论员,Jonathan Zittrain 也是一名法律专家,Guido Scorza 是意大利数据保护局的董事会成员。

他们并非完全从事同一行业,也不是随机选择的。这些人可能出于某种原因正式要求以某种方式限制他们在网上的信息。

让我们再回到 David Mayer,没有人能找到叫这个名字的律师、记者或其他知名的人士。

不过,有一位教授叫 David Mayer,他教授戏剧和历史,于 2023 年夏天去世,享年 94 岁。然而,在此之前的几年里,这位英裔美国学者面临着法律和网络问题,因为他的名字与一名通缉犯有关,该通缉犯以他的名字作为化名,以至于他无法旅行。

Mayer 一直努力让自己的名字与那位恐怖分子的名字区分开来,即使在生命的最后几年里他仍继续教书。

那么,从这一切中我们可以得出什么结论呢?

一种猜测是:模型已提取或提供了需要进行特殊处理的姓名列表。无论是出于法律、安全、隐私还是其他考虑,这些名称可能受到特殊规则的保护。

可能发生的情况是,这些列表之一几乎肯定是主动维护或自动更新的,但由于错误的代码或指令而以某种方式损坏,当调用这些列表时,会导致聊天智能体立即中断。

这一切很好地提醒我们,人工智能模型不仅不神奇,而且还具有超凡的自动完成功能,并受到制造它们的公司的主动监控和干扰。因此当您考虑从聊天机器人获取事实时,直接查找源头是否会更好?

OpenAI 周二证实,「David Mayer」这个名字已被内部隐私工具标记,并在一份声明中表示:「在某些情况下,ChatGPT 可能不会提供有关人们的某些信息以保护他们的隐私。」该公司不会提供有关工具或流程的进一步细节。

参考内容:https://techcrunch.com/2024/12/03/why-does-the-name-david-mayer-crash-chatgpt-digital-privacy-requests-may-be-at-fault/









#规模化强化学习训练用PPO就够了

出人意料!DeepSeek-R1用的GRPO其实没必要?

DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。

51c大模型~合集83_大模型_61

PPO 与 GRPO 的对比,来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》

相较于 PPO,GRPO 去掉了价值模型,而是通过分组分数来估计基线,从而可极大减少训练资源。

DeepSeek-R1 技术报告中写到:「具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架来提高模型的推理性能。在训练过程中,DeepSeek-R1-Zero 自然地涌现出了许多强大而有趣的推理行为。经过数千个强化学习步骤后,DeepSeek-R1-Zero 在推理基准上表现出超强的性能。」

但现在,有一项研究却证明 GRPO 对推理模型来说并不很重要。

阶跃星辰与清华大学近期的一项研究发现,只需使用带 GAE (λ= 1,γ= 1)的普通 PPO 以及基于规则的简单奖励函数,无需任何 KL 正则化,就足以扩展在推理任务上的响应长度和基准性能,类似于在 DeepSeek-R1-Zero 上观察到的现象。

使用这种极简方法,他们打造了 Open-Reasoner-Zero,这是首个面向大规模推理的强化学习训练的开源实现。并且该实现在 GPQA Diamond 基准上的表现优于 DeepSeek-R1-Zero-Qwen-32B,同时仅需使用 1/30 的训练步数。需要强调,该团队不仅开源了代码,还发布了参数设置、训练数据和模型权重。

  • 论文标题:Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
  • 论文地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
  • 项目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
  • Hugging Face:https://huggingface.co/Open-Reasoner-Zero

从基础模型开始扩展强化学习

下面首先将介绍基础又关键的设置,括数据整编、奖励函数和近端策略优化 (PPO) 算法的详细设置。然后会讨论从消融实验中得出的关键见解,这些见解可以成功实现规模化强化学习训练。

基础设置

实验中,基础模型使用的是 Qwen2.5-{7B, 32B},并且不经过任何微调(如蒸馏或 SFT)即开始规模化强化学习训练。在 Qwen2.5-{7B, 32B} 基础模型的基础上,该团队扩展了标准 PPO 算法,以用于面向推理的强化学习训练,同时仔细考虑了可扩展性和稳健性。

数据集方面,该团队精心编排了涉及 STEM、数学和推理任务的数万对问答数据,目标是增强模型在多样化和复杂问题求解场景中的能力。

受 DeepSeek-R1 启发,他们设计的提示词模板可以引导模型利用推理计算,逐步掌握针对复杂任务的推理能力,如表 1 所示。

51c大模型~合集83_大模型_62

此外,他们还基于 OpenRLHF 开发了一个高效的大规模强化学习训练框架,通过引入更灵活的训练器,实现了 GPU 共置生成(collocation generation)以及支持卸载和回载的训练。

数据集

高质量训练数据对可扩展 Reasoner-Zero 训练来说非常关键。这里作者关注了三个关键方面:数量、多样性和质量。

详细的收集整理过程请阅读原论文。最终,他们得到的数据集包含 57k 样本,涵盖 STEM、数学和推理领域。

奖励函数

不同于 DeepSeek-R1-Zero,这里的规模化强化学习训练采用了简单的规则式奖励函数 —— 该函数仅检查答案的正确性,没有任何额外的格式奖励。

具体来说,这个奖励函数会在训练时提取 <answer> 与 </answer> 标签之间的内容,并将其与参考答案比较。

为了保证规模化强化学习清晰又简单,他们实现了一种二元奖励方案:如果与参考答案完全匹配,则奖励为 1;所有其他情况的奖励为 0。

为了确保评估严格且一致,他们采用了被广泛使用的 Math-Verify 库,图 3 展示了其用法。

51c大模型~合集83_大模型_63

出人意料的是,该团队发现,使用新设计的提示,即使是未对齐的基础模型也能以很高的概率产生格式良好的响应。在早期训练阶段,基础模型仅通过简单的基于规则的奖励函数就能快速学会和强化正确的推理和回答格式,如图 4 所示。更重要的是,初步实验表明,复杂的奖励函数不仅是不必要的,而且可能为奖励 hacking 留下潜在的空间。

51c大模型~合集83_大模型_64

强化学习算法

不同于 DeepSeek-R1-Zero 使用的 GRPO,该团队为规模化训练采用的强化学习算法是近端策略优化(PPO)算法。

具体来说,对于每个问题 q(即提示词),模型会根据基于规则的奖励函数生成一组响应 {o_1, o_2, ..., o_n} 并接收相应的奖励 {r_1, r_2, ..., r_n},其中 n 表示采样轨迹的数量(即每个提示词的 rollout 大小)。

对于时间步骤 t (即 token t)处的每个响应 o_i ,令 s_t 表示时刻 t 的状态,包括问题和所有之前生成的 token,并令 a_t 表示在该步骤生成的 token。

对于每个 token,使用 Generalized Advantage Estimation(GAE)计算其优势估计

51c大模型~合集83_大模型_65

。一般来说,GAE 能在优势估计中提供偏差与方差的权衡,做法是通过一个由参数 λ 控制的指数加权平均值将 n 步优势估计组合起来。该优势估计的计算方式是:

51c大模型~合集83_大模型_66

,其中

51c大模型~合集83_大模型_67

是 TD(temporal difference)残差,γ 是折扣因子,它决定了未来奖励相对于即时奖励的价值。该 PPO 算法通过优化以下目标函数来更新策略模型参数 θ 以最大化预期奖励和价值模型参数 Φ,从而最小化价值损失:

51c大模型~合集83_大模型_68

其中 ε 是 clipping 参数,π_θ 是当前策略,π_θ_old 是更新前的旧策略,V_Φ 是价值函数,

51c大模型~合集83_大模型_69

 是折扣回报。

具体到实例上,该团队为该 PPO 算法精心挑选了一些超参数:GAE 参数 λ = 1.0、折扣因子 γ = 1.0 和 clipping 参数 ε = 0.2。

主要发现

该团队得到了以下主要发现:

强化学习算法关键实现:实证研究表明,原始的 PPO 在不同模型规模和训练持续时间内能够提供非常稳定和强大的训练过程,而无需进行额外的修改。通过广泛的实验,他们发现 GAE 参数在 PPO 推理任务中起着关键作用。具体来说,设置 λ = 1.0 和 γ = 1.0。虽然这种设置在传统强化学习场景中通常被认为是次优的,但它却能实现规模化强化学习训练的理想平衡。

最小奖励函数设计:该团队研究表明,简单的基于规则的奖励函数不仅足够而且是最佳的,因为最小设计不会留下任何潜在的奖励 hacking 空间。值得注意的是,即使是未对齐的基础模型也能快速适应所需的格式,这表明这是一项简单的任务,不需要复杂的奖励工程设计。

损失函数:该团队在不依赖任何基于 KL 的正则化技术(例如 KL 形状的奖励和损失)的情况下实现了稳定的训练,这不同于 RLHF 社区和推理器模型普遍使用的方法。这也有很好的潜力实现进一步大规模强化学习。

扩大训练数据规模:该团队发现扩大数据量和多样性对于 Reasoner-Zero 训练至关重要。虽然在有限的学术数据集(如 MATH)上进行训练会导致性能快速停滞,但该团队精细编排的大规模多样化数据集能够实现持续扩展,而不会在训练和测试集上出现饱和迹象。

实验表现如何?

下面介绍 Open-Reasoner-Zero 模型的全面实验结果和分析。其中包括两个方面的初步实验结果:利用训练得到的推理器进行蒸馏,在蒸馏得到的模型上使用 Open-Reasoner-Zero 训练流程以进一步增强其推理能力(类似 DeepSeek-R1 的方法)。训练的细节和超参数请参阅原论文,这里我们重点来看结果。

训练曲线

图 2 显示了在 Open-Reasoner-Zero 7B 和 32B 上的实验的训练奖励和平均响应长度曲线,而图 5 展示了在训练和评估集上对 Open-Reasoner-Zero 7B 的实验的奖励 / 准确度和平均响应长度曲线。训练奖励曲线和响应长度曲线分别表示生成的响应的平均奖励和每个生成步骤中生成的响应的平均长度。

51c大模型~合集83_大模型_70

51c大模型~合集83_大模型_71

可以看到,这些指标在整个训练过程中在两个模型和所有基准上都得到了持续的改进,并有值得注意的观察结果:OpenReasoner-Zero 表现出一种有趣的「阶跃时刻」现象,其中响应指标在训练过程中突然增加,这表明其涌现出了推理能力。

响应长度扩展与 DeepSeek-R1-Zero

如图 6 所示,可以看到整个训练过程中响应长度持续增加,没有饱和迹象,类似于 DeepSeek-R1-Zero 中看到的行为。

51c大模型~合集83_大模型_72

值得注意的是,虽然模型大小和训练步骤都有助于改善响应长度,但 Open-Reasoner-Zero-32B 模型仅用 1/5.8 的训练步数就实现了与 DeepSeek-R1-Zero (671B MoE) 相当的响应长度。这种卓越的训练效率证明了新的极简主义方法对大规模强化学习训练的有效性。

质量分析

该团队也对 Open-Reasoner-Zero 模型生成的响应进行了一些定性分析。为了分析模型的反思能力并观察像 DeepSeek-R1-Zero 这样的顿悟时刻,他们遵从之前的方法确定了五种代表性的反思模式(wait、recheck、retry、alternatively、however)。他们将包含任何这些模式的响应数量计为「反思响应」,并确定平均正确反思长度(包含获得正确答案的反思模式的响应的长度)。

如图 7 所示,在整个训练过程中,平均正确反思长度始终超过平均响应长度,这表明包含反思模式的响应利用了更多的「思考时间」来获得正确答案,类似于 OpenAI o1 中描述的测试时间扩展。

51c大模型~合集83_大模型_73

一个特别值得注意的现象出现在步骤 680 左右,该团队观察到三个指标同时加速:奖励、平均正确反思长度和平均响应长度。通过手动检查步骤 680 之前和之后的模型输出,该团队发现之后的响应中有更明显的反思模式。这种涌现行为值得进一步研究,该团队表示目前正在进行详细分析,以了解这种现象的潜在机制。

该团队也研究了新模型在知识和指令遵从基准 MMLU_PRO 和 IFEval 上的泛化能力,结果见表 2。

51c大模型~合集83_大模型_74

可以看到,Open-Reasoner-Zero 32B 模型表现出了强大的泛化能力:无需任何额外的指令微调,在 MMLU、MMLU_PRO 基准上,通过纯规模化强化学习训练在面向推理的任务上显著优于 Qwen2.5 Instruct 32B。










#WMP(World Model-based Perception)

机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

世界模型(World Model)作为近年来机器学习和强化学习的研究热点,通过建立智能体对其所处环境的一种内部表征和模拟,能够加强智能体对于世界的理解,进而更好地进行规划和决策。在强化学习领域中,世界模型通常被建模为一个神经网络,通过历史状态和动作,预测未来可能出现的状态。其中,Dreamer 算法在多种模拟环境的成功表现让我们看到了世界模型优秀的表征和泛化能力。如果将世界模型应用于复杂真实场景,是否能够实现更好的控制决策呢?

对此,ByteDance Research 研究团队成功将世界模型应用于四足机器人视觉控制领域,提出了基于世界模型的感知算法 WMP(World Model-based Perception),WMP 通过在模拟器中学习世界模型和策略,其中世界模型通过历史感知信息(包括视觉感知和本体感知)预测未来的感知,策略以世界模型提取的特征作为输入,输出具体控制动作。

WMP 将模拟器中训练的世界模型和策略 Zero-Shot 迁移到宇树 A1 机器人进行验证,在多种环境下取得了出色的成绩,达到了目前为止 A1 机器人 SOTA 的通过性能。同时,使用模拟数据训练的世界模型可以准确预测真实轨迹,展示出卓越的泛化性能,有望成为一种机器人控制的新范式。

  • 项目主页:https://wmp-loco.github.io/
  • 论文地址:https://arxiv.org/abs/2409.16784

51c大模型~合集83_大模型_75

研究背景

近年来,强化学习 (RL) 通过在物理模拟器中训练策略,然后将其转移到现实世界(Sim-to-Real transfer),在足式机器人的运动控制领域被广泛应用。在足式机器人的运动控制中,视觉图像信息对于诸如越障等复杂环境是不可或缺的。

凭借强化学习的奖励信号从长序列、高维的视觉信息中学习策略难度极大。为了更好地引入视觉信息,传统特权学习(privileged learning)框架首先学习一个教师策略,教师策略的输入包含只能在模拟器中得到的特权信息,如高度图扫标点(heightmap scandots),各类障碍物的几何参数等。之后再学习一个以深度图序列为输入的学生策略以模仿教师策略的动作。

由于特权学习两阶段的训练模式,学生策略的性能往往落后于教师策略;并且特权信息的选择需要人工设计,较为繁琐,同时易受到具体环境的限制。如下图所示,使用 scandots 作为特权信息无法处理需要精确距离的环境以及存在空中障碍物的环境。

51c大模型~合集83_大模型_76

相比之下,动物能够在没有特权信息的情况下仅凭借视觉感官信息通过各种非结构化的地形,并且在不熟悉的环境中依然能够做出合理的决策。认知科学的一种解释是动物会利用脑中建立的心智模型(mental model)对外部环境进行理解和预测以便更好地理解和应对周围的环境,从而做出合理的动作和决策。

ByteDance Research 的机器人研究团队在此启发下设计了一种更加通用的机器人控制框架 WMP(World Model-based Perception)。WMP 通过构建世界模型来处理复杂的感知信息,并将世界模型提取的环境信息输入给策略,解决了特权学习中特权信息难以设计的局限性。通过训练的世界模型和策略可以直接迁移到真实环境的 A1 机器人上,在多种复杂任务中达到了目前该领域的领先水平效果。例如,在世界模型的帮助下,A1 机器人可以跳过 85cm 的间隙,跳上 55cm 的高台,穿过 22cm 高的桥洞。这些结果证明了世界模型对于决策的正向作用,为之后世界模型在机器人等领域的研究提供了重要参考。

方法

51c大模型~合集83_大模型_77

WMP 采用经典的 RSSM 框架作为世界模型的结构,RSSM 包括编码模块 encoder,解码模块 decoder,以及循环模块 recurrent model。encoder 将感知信息以及循环状态编码为一个随机变量,decoder 通过循环状态和随机变量恢复出原始的感知信息,而循环模块则通过循环状态、随机变量以及动作序列预测下一个循环状态。为了满足真机运行的算力要求,WMP 将世界模型的运行频率设定为策略运行频率的 k 分之一。由于世界模型主要处理更高层级的信息,较低的控制频率同样能满足底层控制的需求,这与人体大脑和小脑展现出的不同的控制频率情况有一定的相似之处。

一个训练有素的世界模型的循环状态包含足够多的信息从而预测未来的时间步,也有助于策略执行动作。因此在 WMP 框架中,策略会接受来自世界模型的循环状态作为输入。并使用强化学习算法 PPO 进行训练。此外,策略的训练和世界模型的训练使用模拟数据同步进行,简化了特权学习中的两阶段训练。训练后的策略和世界模型可以无需微调直接迁移到真实机器人设备。

实验结果

模拟实验:

51c大模型~合集83_大模型_78

WMP 算法使用 Issacgym 模拟器构建的 6 种地形上进行训练:Slope、Stair、Gap、Climb、Crawl、Tilt。由于 scandot 特权信息的局限性,使用特权学习训练的 Student baseline 只使用前四个地形进行训练。在模拟器的定量对比实验中,WMP 在绝大多数任务中获得了比 Baseline 更高的回报奖励以及更小的速度追踪误差。

真机实验:

在真机实验中,WMP 继承了模拟器中的优秀表现,相比 baseline 能以更高的成功率通过更难的地形,并且在室内和室外环境中表现保持一致,进一步展现出世界模型优秀的泛化能力。

一镜到底视频:

验证实验:

使用模拟数据训练需要考虑的一个问题是世界模型对真实轨迹预测的准确性如何。验证实验表明,世界模型对于真实轨迹的图像能给出准确的预测,尤其是对于关键的部分。例如,世界模型对桥洞障碍物整体形状的预测存在偏差,但对机器人需通过的窄缝的位置角度的预测十分准确。这验证了世界模型有利于解构和提取不同域中的关键要素,从而有助于模拟到真实的泛化。

总结

本研究提出了一种新的运动控制框架,通过构筑的世界模型来处理视觉信息和辅助决策,在四足机器人运动控制领域取得了不错的效果。WMP 揭示了世界模型在 Sim2Real 以及机器人控制领域的巨大潜力,为之后世界模型在现实世界更广泛的应用提供了样例和宝贵的经验。










#将PyTorch原生实现提速10-100倍

全球首个AI CUDA工程师来了

用 AI 提高 AI 的效率,它们就能变得像人类大脑一样高效?

我们的大脑只用了 20 瓦的能量就能完成复杂思考,而现代 AI 系统却需要成排的高功率 GPU 和惊人的电力消耗。这种差距如何缩小?

日本 AI 初创公司 Sakana AI 团队提出了一个大胆的愿景:利用 AI 本身来优化 AI。他们开发的「AI CUDA 工程师」是这一理念的具体实践。

「AI CUDA 工程师」是第一个用于全自动 CUDA 内核发现和优化的综合智能体框架。这种方法不仅开创性地将进化计算与大型语言模型相结合,更展示了 AI 自我优化的巨大潜力。 

51c大模型~合集83_大模型_79

CUDA 是一个 low-level 软件层,可直接访问 NVIDIA GPU 用于并行计算的硬件指令集。CUDA 内核是用 CUDA 语言编写的在 GPU 上运行的函数。通过直接在 CUDA 内核层编写指令,工程师可以为 AI 算法实现更高的性能。然而,使用 CUDA 需要相当多的 GPU 知识,实际上,大多数机器学习算法都是在 PyTorch 或 JAX 等更高级别的抽象层中编写的。

51c大模型~合集83_大模型_80

「AI CUDA 工程师」生成的高度优化 CUDA 内核示例。详情请参见:https://pub.sakana.ai/ai-cuda-engineer

「AI CUDA 工程师」是一个利用前沿 LLM 的智能体框架,旨在自动将标准 PyTorch 代码转换为高度优化的 CUDA 内核。通过使用进化优化,并利用进化计算中的概念,如「交叉」操作和「创新档案」来发现有前途的「踏脚石」内核,该团队提出的框架不仅能够自动化将 PyTorch 模块转换为 CUDA 内核的过程,而且高度优化的 CUDA 内核通常能够实现显著更快的运行时间加速。

该团队相信这项技术能够实现加速,从而加快 LLM 或其他生成式 AI 模型等基础模型的训练和运行(推理),最终使 AI 模型在 NVIDIA 硬件上运行得更快。

「AI CUDA 工程师」能够生成比常见 PyTorch 操作加速 10-100 倍的 CUDA 内核。它还能生成比生产环境中常用的现有 CUDA 内核快得多的高度优化的 CUDA 内核(加速高达 5 倍)。

51c大模型~合集83_大模型_81

AI CUDA 工程师智能体框架的高级概述。

它的运行流程如下:   

第 1 和第 2 阶段(转换和翻译):「AI CUDA 工程师」首先将 PyTorch 代码翻译成可运行的 CUDA 内核。即使不明确针对这些目标,也能观察到初始运行时的改进。

第 3 阶段(进化优化):受生物进化的启发,该框架利用进化优化(「适者生存」)来确保只生成最佳的 CUDA 内核。此外,该团队引入了一种新颖的内核交叉提示策略,以互补的方式组合多个优化的内核。

第 4 阶段(创新档案):正如文化进化如何利用我们祖先几千年文明的知识来塑造我们的人类智慧一样,「AI CUDA 工程师」也利用从过去的创新和发现中学到的东西(第 4 阶段),从已知高性能 CUDA 内核的家族中建立创新档案,利用以前的踏脚石来实现进一步的翻译和性能提升。

,时长01:21

该项目发布后,不少研究者给予了很高的评价,比如英伟达高级 AI 研究科学家 Jim Fan 称这是他最近见过的最酷的自动编程智能体,认为用当前的计算资源来提高未来计算效率,这是最具回报的投资策略 ,「AutoML is so back!」

51c大模型~合集83_大模型_82

不过,也有人发现了问题。比如 NVIDIA 杰出工程师 Bing Xu 指出「AI CUDA 工程师」的技术报告中存在几个误导性部分:

  1. Torch C++ 代码并不是 CUDA 内核,它在底层是调用 CUDNN 库。
  2. 报告重点强调的 Conv3D GroupNorm 示例中,卷积代码根本没有被生成。如果数值计算结果不正确,声称的速度提升就没有意义。
  3. 报告中声称 WMMA 可以比 PyTorch(CUBLAS)更快,这绝对是错误的。很可能是基准测试出现了问题。

51c大模型~合集83_大模型_83

看来,这个「AI CUDA 工程师」的效果还有待验证。

「AI CUDA 工程师」发现的内核运行时加速

「AI CUDA 工程师」稳健地发现了用于常见机器学习操作的 CUDA 内核,其速度比 PyTorch 中的原生和编译内核快 10-100 倍。该团队的方法还能将整个机器学习架构转换为优化的 CUDA 内核。下面是几个完全自主发现的显著加速:

51c大模型~合集83_大模型_84

这些优化 CUDA 内核的更多详情可在交互式网站的排行榜上查看:https://pub.sakana.ai/ai-cuda-engineer/leaderboard

该团队的方法为矩阵乘法、常见的深度学习等操作找到了更高效的 CUDA 内核,截至撰写本文时,它发现的 CUDA 内核在 KernelBench 上实现了 SOTA 的性能。

技术报告和数据集

Sakana AI 发布了 AI CUDA 的技术报告,整个技术报告有 80 多页。

51c大模型~合集83_大模型_85

技术报告:https://pub.sakana.ai/static/paper.pdf

报告内容如下:

  • 介绍了一个端到端的智能体工作流,能够将 PyTorch 代码翻译成可工作的 CUDA 内核,优化 CUDA 运行时性能,并自动融合多个内核。
  • 构建了各种技术来增强 pipeline 的一致性和性能,包括 LLM 集成、迭代分析反馈循环、本地内核代码编辑和交叉内核优化。
  • 报告显示,「AI CUDA 工程师」稳健地翻译了被考虑在内的 250 个 torch 操作中的 230 多个,并且对大多数内核实现了强大的运行时性能改进。此外,该团队的方法能够有效地融合各种内核操作,并且可以超越几种现有的加速操作。
  • 发布了一个包含超过 17,000 个经验证内核的数据集,这些内核涵盖了广泛的 PyTorch 操作。

报告还给出了一些发现的 CUDA 内核的显著例子,这些内核在 AI 模型的关键计算操作上实现了显著的加速。

AI CUDA Engineer 发现的优质内核

利用新的 LLM 驱动的进化内核优化程序,研究团队稳健地获得了各种考虑因素的加速。更具体地说,在考虑的 229 个任务中,81% 的性能优于 PyTorch 原生运行时。此外,在所有已发现的 CUDA 内核中,有 20% 的内核速度至少是 PyTorch 实现的两倍。

51c大模型~合集83_大模型_86

「AI CUDA 工程师」稳健地发现了优于 PyTorch 实现的 CUDA 内核。

下面展示了一部分内核。它们突显了「AI CUDA 工程师」可以成功部署的不同操作的多样性。这包括 normalization 方法、损失函数、特殊矩阵乘法,甚至整个神经网络架构:

51c大模型~合集83_大模型_87

「AI CUDA 工程师」生成的高度优化 CUDA 内核示例。详情请参见:https://pub.sakana.ai/ai-cuda-engineer

「AI CUDA 工程师档案」

17,000 多个经验证的 CUDA 内核数据集

51c大模型~合集83_大模型_88

「AI CUDA 工程师档案」的文本嵌入可视化显示,发现的内核可以按任务(例如 MatMul、Pooling、Convolution)和实现策略(展开、融合、矢量化)分组。该档案可公开访问,可用于 LLM 的下游微调。

随论文一起发布的还有「AI CUDA 工程师档案」,这是一个由「AI CUDA 工程师」生成的超过 30,000 个 CUDA 内核组成的数据集。它在 CC-By-4.0 许可下发布,可通过 HuggingFace 访问:https://huggingface.co/datasets/SakanaAI/AI-CUDA-Engineer-Archive。

该数据集包括 torch 参考实现、torch、NCU 和 Clang-tidy 分析数据、每个任务的多个内核、错误消息以及针对 torch 本地和编译运行时的加速分数。

51c大模型~合集83_大模型_89

「AI CUDA 工程师档案」的摘要统计数据,包含超过 30,000 个内核和超过 17,000 个正确验证的实现。大约 50% 的所有内核都优于 torch 原生运行时。

研究团队设想此数据集可以使开源模型的后训练执行更好的 CUDA 启用模块。这包括离线强化学习、偏好优化和标准监督微调。

在「AI CUDA 工程师档案」中探索 17,000 多个内核

该团队还发布了一个交互式网站,用于交互式检查超过 17,000 个经验证的内核及其配置文件,包括 torch、NCU 和 Clang-Tidy 数据:https://pub.sakana.ai/ai-cuda-engineer。

该网站允许探索 230 个任务中的各种高性能内核。它带有一个自定义排行榜,可用于检查跨实验和 LLM 的相关内核。

51c大模型~合集83_大模型_90

「AI CUDA 工程师」发现的内核排行榜:https://pub.sakana.ai/ai-cuda-engineer/leaderboard

此外,你还可以可视化内核,检索相关内核,下载代码以验证实现和加速,以及查看获得的分析数据。最后,可以深入了解优化实验。

51c大模型~合集83_大模型_91

优化的实例 Normalization 内核的详细视图,包括分析数据、评估脚本的下载、相关内核和发现实验详细信息。

局限性和有趣的意外发现 

虽然将进化优化与 LLM 结合非常强大,但这种组合有时也会找到意想不到的方法绕过验证系统。比如,Twitter 用户 @main_horse 帮助测试 CUDA 内核时就发现了一个有趣的情况:「AI CUDA 工程师」竟然找到了一种「投机取巧」的方法。这个 AI 系统在评估代码中发现了一个内存漏洞,在一小部分情况下成功避开了正确性检查:

51c大模型~合集83_大模型_92

发现这个问题后,该团队立即加强了评估框架的安全性,堵住了这类漏洞,并更新了实验结果。

有趣的是,这并非该团队第一次遇到类似情况。在之前的「AI 科学家」项目中,AI 也曾找到方法修改并运行自己的评估脚本。它没有努力让代码运行得更快,而是直接尝试修改代码来延长超时时间!研究文献中已经记录了这种现象:AI 系统常常能找到创造性的解决方案,这些方案往往出人意料,令开发者感到惊讶。

此外,该团队还发现前沿 LLM 在使用 TensorCore WMMA 方面存在明显局限。虽然 LLM 能够生成基础的 CUDA 代码,但在实现现代 GPU 架构提供的特殊矩阵乘法加速功能时却常常力不从心。这可能表明 LLM 的训练数据中缺乏这方面的信息,或者模型对这类高级硬件优化的理解还不够深入。

随着前沿 LLM(特别是那些具有强大代码推理能力的模型)变得越来越强大,该团队预计像他们这样的代码优化系统将继续面临这些挑战。他们设想未来的发展方向是:人类工程师与代码优化 AI 系统协同工作,共同创造最佳且最可靠的结果。

「AI CUDA 工程师」的未来影响

AI 革命才刚刚开始,现在只是处于转型周期的最初阶段。该团队认为,今天的 LLM 是这一代的「大型主机计算机」。现在仍处于 AI 的早期阶段,由于市场竞争和全球创新(尤其是那些在资源限制下进行创新的国家 / 地区),这项技术的效率将提高一百万倍,这是不可避免的。

目前,AI 系统消耗大量资源,如果技术继续扩展而不考虑效率和能源消耗,结果将不可持续。没有根本原因说明为什么 AI 系统不能像人类智能一样高效(甚至更高效)。该团队相信,实现这种更高效率的最佳途径是利用 AI 使 AI 更加高效。

这是 Sakana AI 正在追求的方向,这个项目是使 AI 快一百万倍的重要一步。就像早期笨重的大型主机计算机向现代计算发展一样,人类使用 AI 的方式在几年内将发生重大变化。

参考链接:https://sakana.ai/ai-cuda-engineer/










#大模型扩展新维度:Scaling Down、Scaling Out

本文由悉尼大学计算机学院王云柯,李言蹊和徐畅副教授完成。王云柯是悉尼大学博士后,李言蹊是悉尼大学三年级博士生,徐畅副教授是澳洲ARC Future Fellow,其团队长期从事机器学习算法、生成模型等方向的研究。

近年来, Scaling Up 指导下的 AI 基础模型取得了多项突破。从早期的 AlexNet、BERT 到如今的 GPT-4,模型规模从数百万参数扩展到数千亿参数,显著提升了 AI 的语言理解和生成等能力。然而,随着模型规模的不断扩大,AI 基础模型的发展也面临瓶颈:高质量数据的获取和处理成本越来越高,单纯依靠 Scaling Up 已难以持续推动 AI 基础模型的进步。

为了应对这些挑战,来自悉尼大学的研究团队提出了一种新的 AI Scaling 思路,不仅包括 Scaling Up(模型扩容),还引入了 Scaling Down(模型精简)和 Scaling Out(模型外扩)。Scaling Down 通过优化模型结构,使其更轻量、高效,适用于资源有限的环境,而 Scaling Out 则致力于构建去中心化的 AI 生态系统,让 AI 能力更广泛地应用于实际场景。

  • 论文标题:AI Scaling: From Up to Down and Out
  • 论文链接:https://www.arxiv.org/abs/2502.01677

51c大模型~合集83_大模型_93

该框架为未来 AI 技术的普及和应用提供了新的方向。接下来,本文将详细探讨这一框架如何推动 AI Scaling 从集中化走向分布式,从高资源消耗走向高效普及,以及从单一模型衍生 AI 生态系统。

Scaling Up: 模型扩容,持续扩展基础模型

Scaling Up 通过增加数据规模、模型参数和计算资源,使 AI 系统的能力得到了显著提升。然而,随着规模的不断扩大,Scaling Up 也面临多重瓶颈。数据方面,高质量公开数据已被大量消耗,剩余数据多为低质量或 AI 生成内容,可能导致模型性能下降。模型方面,参数增加带来的性能提升逐渐减弱,大规模模型存在冗余、过拟合等问题,且难以解释和控制。计算资源方面,训练和推理所需的硬件、能源和成本呈指数级增长,环境和经济压力使得进一步扩展变得不可持续。

尽管面临挑战,规模化扩展仍是推动 AI 性能边界的关键。未来的趋势将聚焦于高效、适应性和可持续性的平衡:

数据优化:通过课程学习、主动学习等技术,利用更小规模的高质量数据集实现高效训练。同时,处理噪声数据和利用领域专有数据将成为突破点。

高效训练:采用渐进式训练、分布式优化和混合精度训练等方法,减少资源消耗,提升训练效率,推动 AI 开发的可持续性。

Test-Time Scaling:通过在推理阶段动态分配计算资源,提升模型性能。例如,自适应输出分布和验证器搜索机制使小型模型在某些任务上超越大型模型,为高效 AI 提供了新方向。

AI Scaling Up 的未来不仅在于「更大」,更在于「更智能」和「更可持续」。通过优化数据、训练和推理流程,AI 有望在突破性能边界的同时,实现更广泛的应用和更低的环境成本。

Scaling Down: 模型精简,聚焦核心模块

随着 Scaling Up 所需的训练、部署和维护计算资源、内存和能源成本急剧增加,一个关键问题浮出水面:如何在缩小模型规模的同时,保持甚至提升其性能?Scaling Down 旨在减少模型规模、优化计算效率,同时保持核心能力,使 AI 适用于更广泛的资源受限场景,如边缘设备和移动端应用。

技术基础

1. 减少模型规模:剪枝,通过移除神经网络中不重要的部分来简化模型;量化,将浮点参数替换为整数,减少权重和激活的比特宽度;知识蒸馏,将大型复杂模型的知识迁移到小型高效模型中。

2. 优化计算效率:投机采样,通过近似模型生成候选词,再由目标模型并行验证,加速推理过程;KV Caching,存储注意力机制的中间状态,避免重复计算;混合专家模型,通过任务特定的子模型和门控机制实现高效扩展。例如,DeepSeek-V3 通过专家模型的选择性激活,显著降低推理过程中的计算成本。

未来这一领域的研究可能聚焦以下方向。首先,核心功能模块的提炼将成为重点。未来的研究将致力于识别大型模型中的关键功能模块,力求在保留核心功能的前提下,最大限度地减少冗余结构。通过系统化的剪枝和知识蒸馏技术,开发出更精细的模型架构优化方法,从而在缩小规模的同时不损失性能。

其次,外部辅助增强将为小模型提供新的能力扩展途径。例如,检索增强生成(RAG)技术通过结合预训练的参数化记忆和非参数化记忆,使模型能够动态获取上下文相关信息;而工具调用技术则让小模型学会自主调用外部 API,甚至生成自己的工具以应对复杂任务。

Scaling Out: 模型外扩,构建 AI 生态系统

在 Scaling Up 和 Scaling Down 之后,文章提出 Scaling Out 作为 AI Scaling 的最后一步,其通过将孤立的基础模型扩展为具备结构化接口的专业化变体,将其转化为多样化、互联的 AI 生态系统。在该生态系统中,接口负责连接专业化模型与用户、应用程序和其他 AI 系统。这些接口可以是简单的 API,也可以是能够进行多轮推理和决策的 Agent。

通过结合基础模型、专用变体和接口,Scaling Out 构建了一个动态的 AI 生态系统,包含多个 AI 实体在其中交互、专业化并共同提升智能。这一生态促进了协作,能够实现大规模部署,并不断拓展 AI 的能力,标志着 AI 向开放、可扩展、去中心化的智能基础架构转变。

技术基础

1. 参数高效微调:传统的微调需要大量计算资源,但参数高效微调技术如 LoRA 允许在不修改整个模型的情况下添加任务特定知识。

2. 条件控制:使基础模型能够动态适应多种任务,而无需为每个任务重新训练。例如,ControlNet 通过结构引导生成上下文感知图像。

3. 联邦学习:支持在分布式设备上协作训练 AI 模型,确保数据隐私和安全。联邦学习允许在多样化、领域特定的数据集上训练专业化子模型,增强其适应能力。

未来这一领域的研究可能聚焦于以下方向。首先,去中心化 AI 和区块链 。AI 模型商店将像应用商店一样提供多样化模型,区块链则作为信任层,确保安全性、透明性和知识产权保护。每一次微调、API 调用或衍生模型创建都将被记录在不可篡改的账本上,确保信用归属和防止未经授权的修改。其次,边缘计算与分布式智能。边缘计算在本地设备上处理数据,减少对集中式数据中心的依赖。结合联邦学习,边缘计算能够在保护隐私的同时,实现实时决策和分布式智能。

应用场景设想

人机共创社区如 TikTok 等,将迎来智能内容创作的新纪元。内容创作者不再仅限于人类,AI 驱动的 Bots 将成为重要组成部分。这些 Bots 能够自主生成高质量短视频,与其他用户互动,甚至彼此协作,推动内容创作的多样性与复杂性。

Scaling Up 是整个体系的基石,通过整合 TikTok 全球用户的多模态数据,开发出强大的多模态基础模型,为 Bots 提供内容生成、互动和创意的核心能力。然而,仅靠一个巨型模型难以满足多样化需求,Scaling Down 将基础模型的核心能力提炼为轻量化模块,使 AI Bots 能够高效、灵活地执行任务,降低计算成本并适应多样化场景部署。

最终,Scaling Out 将 TikTok 推向智能生态的全新高度。通过任务驱动的生成机制,平台能够快速扩展出数以万计的专用 Bots,每个 Bot 都针对特定领域(如教育、娱乐、公益)进行了深度优化。这些 Bots 不仅可以单独运行,还能通过协作网络共享知识,构建实时进化的内容网络,为用户提供无穷无尽的创意和互动体验。

挑战与机遇

此外,文中探讨了 AI Scaling 在跨学科合作、量化标准、开放生态、可持续性和公平性方面的机遇与难点。

AI Scaling 需要跨学科合作,结合认知科学、神经科学、硬件工程和数据科学,提升计算效率和适应性。同时,需要建立量化标准,例如评估模型大小、计算成本与性能的关系,为 AI 发展提供清晰的参考。

开放生态是 AI Scaling 发展的关键,轻量级核心模型和开放 API 可以促进 AI 在医疗、农业、工业等行业的落地应用。为了实现可持续发展,Scaling Down 通过轻量化 AI 减少能耗,Scaling Out 则通过分布式和多接口扩展,降低对数据中心的依赖,从而提升全球可及性。

最终,AI Scaling 将为通用人工智能(AGI)奠定基础。Scaling Up 提供基础知识,Scaling Down 提高适应性,Scaling Out 构建开放、去中心化的 AI 生态系统,该系统中的不同接口相互协同,共同应对复杂挑战。