51c大模型~合集84

原创

whao143 2024-12-04 16:01:47 博主文章分类：人工智能 ©著作权

©著作权归作者所有：来自51CTO博客作者whao143的原创作品，请联系作者获取转载授权，否则将追究法律责任

#AIGB

阿里妈妈首提AIGB并实现大规模商业化落地，将在NeurIPS 2024正式开源Benchmark

2023 年，阿里妈妈首次提出了 AIGB（AI-Generated Bidding）Bidding 模型训练新范式（参阅：阿里妈妈生成式出价模型（AIGB）详解）。AIGB 是一种全新的迭代范式，把自动出价问题建模为生成式序列决策问题，这是生成式 AI 在该领域的首次应用。经过一年的探索和研发，我们在阿里妈妈广告平台成功部署 AIGB 并取得显著效果，我们还把过程中的发现和经验总结成论文发表在 KDD 2024，详细分享了这一全新的迭代范式。

为了激发该领域进一步的技术创新，我们今年发起了大规模拍卖中的自动出价比赛，并特别设置了 AIGB 赛道，这一理念得到了 NeurIPS 的认同，阿里妈妈成为国内工业界今年唯一一家获得 NeurIPS 比赛主办权的组织。同时，我们也将在 NeurIPS 2024 上正式开源 AIGB 的 Benchmark：业界首个标准化的大规模模拟竞价系统和大规模博弈数据集。

论文名称：AIGB: Generative Auto-bidding via Diffusion Modeling
论文作者：Jiayan Guo, Yusen Huo, Zhilin Zhang, Tianyu Wang, Chuan Yu, Jian Xu, Yan Zhang, Bo Zheng
发表会议：KDD 2024
论文链接：https://arxiv.org/abs/2405.16141

背景：在线广告场景中的自动出价

广告业务是互联网公司营收的一项重要来源。仅在 2023 年，在线广告市场的规模就达到了 6268 亿美元。在线广告往往是通过流量拍卖的方式进行广告投放。广告主需要设定合理的出价从而竞得流量。近年来，自动出价（Auto-Bidding）技术已成为推动广告市场持续增长的关键因素。相比于传统的手动出价，自动出价充分考虑了线上流量分布、竞价环境、预算以及各种限制因素，在为广告主带来了更多价值的同时，促进了平台业务的增长。一种典型的自动出价目标是在给定预算及其他约束的条件下最大化广告主的流量价值。典型的自动出价任务包括给定预算下的最大化拿量任务 Max-Return，以及给定预算和 ROI 约束的最大化拿量任务 Target Roas 等。

在实践中，自动出价的优化问题一般会被看作一个序列决策问题，出价模型在整个投放周期（通常为 1 天）内随着流量和竞价情况的变化动态调整出价参数从而优化整体效果。模型需要具备一定的全局视角，进行整体规划和决策。对于序列决策问题，一种被业界广泛采用的解决方案是强化学习（RL）。RL 方法可以通过不断和环境交互寻优，从而不断提升策略效果。RL 也是目前一种主流的 Bidding 解决方法。但是这种方法由于存在一定的内生性缺陷（价值函数预估和自举法导致的训练不稳定），不擅长处理 Bidding 面临的长序列决策问题，容易出现训练效果差的问题。因此，我们期待通过算法范式的升级来提升 Biding 模型的线上效果。

生成式模型助力 Bidding 范式升级

生成式模型近年来得到了迅速的发展，在图像生成、文本生成、计算机视觉等领域取得了重大突破。目前最新的生成式模型在分布拟合以及相关性关联等方面显著地优于浅层神经网络。工业界 Bidding 策略优化的核心是基于历史的 Bidding 数据，通过模型挖掘策略与效果之间的相关性从对策略进行优化，是生成式模型落地的一个较为理想环境。基于这一洞察，我们提出了 AIGB（AI-Generated Bidding）解决方案。AIGB 是一种基于生成式模型（Transformer、Diffusion Model 等）的出价问题解决方案框架。与以往解决序列决策问题的 RL 思路不同，AIGB 将 Auto-Bidding 视为一个策略生成问题，通过生成模型强大的特征关联以及分布拟合能力，直接捕捉历史 Bidding 数据集中优化目标和出价策略之间的相关性从而优化策略。相比于 RL 方法，这种新的建模范式避免了价值函数预估和自举法所所造成的误差，尤其擅长处理 Bidding 所面对的长序列稀疏回报的问题。

51c大模型~合集84_大模型

图 1：图左历史投放轨迹中，颜色深浅代表计划 return 的不同。右图为 AIGB 模型根据不同需求生成的新策略。整个模型看作一个分布处理 pipeline，输入历史非最优但存在有效信息的广告投放轨迹，输出符合优化目标的新策略。

图 1 直观地展示了生成式出价（AIGB）模型的流程。我们将出价、优化目标和约束等具备相关性的指标视为一个有一定规律的数据分布。在训练阶段，我们可以利用生成模型对这一数据分布进行数据挖掘寻优，这使得模型能够自动学习出价策略、状态间转移概率、优化目标和约束项之间的相关性。在线上推断阶段，生成式模型可以基于约束和优化目标，以符合分布规律的方式输出出价策略。

理论上，AIGB 范式可以兼容多种生成模型。目前常用的生成式模型包括 Transformer、Diffusion Model 等。但不同的模型侧重点不同，例如，Transformer 模型主要基于自注意力机制，能够对样本中跨时序和分层信息进行提取和关联，擅长进行自回归处理。而 Diffusion Model 则缓慢地将随机噪声添加到数据中，然后学习逆向扩散过程以从噪声中构造所需的数据样本。加噪和去噪的过程可以类比为是把特征用马赛克遮住然后再还原的过程。相比之下，可以从细节到整体捕捉多个层次的相关性，从而提取出更多的有效信息，更擅长进行分布建模。因此，基于不同的生成模型特点，可以构建出不同的建模方案。

DiffBid：基于扩散模型（Diffusion Model）的 AIGB

在 AIGB 框架下，我们引入了基于扩散模型方案 DiffBid。DiffBid 由规划模块和控制模块组成。对于规划模块，我们首先将一个完整投放周期内广告主剩余预算、消耗速率、ROI、流量价值等出价相关状态信息随着时间不断变化的过程看作一条 Bidding 轨迹，然后利用扩散模型对历史数据集中的海量 Bidding 轨迹序列进行建模（图 2），以最大似然估计的方式拟合轨迹数据中的分布特征。因此，DiffBid 可以基于给定目标规划出对应的出价轨迹。在此基础上，DiffBid 会再利用一个逆动力学控制模型根据环境的变化尽可能逼近规划轨迹。

51c大模型~合集84_大模型_02

图 2：左为正向过程，右为反向过程。DiffBid 正向与反向过程示例，对于一条由剩余预算序列轨迹，正向过程不断加入噪声，破坏其有效信息，然后反向过程生成新的轨迹，最大限度将这部分丢失的信息还原。

在近一年多的实践中，我们通过多轮线上实验，反复验证了 DiffBid 的效果。截止目前，DiffBid 已经多个场景的实验中相比于传统的 RL 方法产生了显著的正向效果。其中在某场景 Max-Return 任务中，产生了 GMV+3.6% 的结果。在 Target Roas 任务中，在保证整体 ROI 满足要求的情况下取得了 GMV+5.0% 的结果。特别在 Target Roas 中，由于 ROI 反馈稀疏且滞后，RL 方法训练难度较大，而 DiffBid 受影响较小。因此，DiffBid 既为广告主带来更多收益，又很好保障了广告主的 ROI。

与此同时，我们通过进一步分析，发现 DiffBid 模型在提效的同时，还能够对实际投放轨迹产生一定的平滑性优化（图 3），在 DiffBid 策略生效后，投放轨迹的异常状态显著减少，振荡性显著降低，与此同时减少过快消耗的现象。广告主的投放体验也因此得到改善。

51c大模型~合集84_大模型_03

图 3：真实线上剩余预算散点图。横轴为剩余时间，纵轴为剩余预算。越分散代表消耗越振荡，投放平滑性越差。此外在图 a 中，存在大量提前消耗完毕的投放轨迹。这部分轨迹可能会由于错过一部分晚上的高性价比流量导致效果下跌。而 DiffBid 可以明显减少这种问题

除了实际线上效果的优势外，相比于其他方法，DiffBid 还具有其他两方面的优势。首先，相比于通过端到端方法直接输出 Bidding 信息，DiffBid 生成的轨迹信息具有更好的可解释性（图 4）。有助于我们对模型效果进行更好的评估，从而助力优化工作。例如，我们观察模型规划出的轨迹和实际线上的轨迹，如果出现规划出的最终剩余预算不为 0 的情况说明模型并未能有效利用所有预算。如果规划轨迹与实际轨迹差距较大，则说明逆动力学控制模型自适应能力较差。在定位问题之后，可以较为方便地进行针对性优化。其次，DiffBid 对多目标的兼容能力更强，与此同时支持在训练完成后对目标进行调整从而优化规划轨迹。基于这一特点，我们可以更为方便地加入一些将业务逻辑指标作为优化目标，与 Bidding 模型更好地结合起来。例如，在 Max-Return 任务优化的过程中，可以将预算使用率合并进入目标中，同时保证 GMV 和预算使用率得到优化。

51c大模型~合集84_大模型_04

图 4：横坐标轴表示时间，纵坐标表示剩余预算和但时间步消耗。灰色曲线 / 柱子为最优轨迹剩余预算曲线 / 消耗。红色表示不同优化目标所对应的规划轨迹曲线。可以看出，随着目标 Return 变大，模型规划会逐步逼近最优轨迹。证明模型学到了合理的业务逻辑和优化措施

目前 DiffBid 在阿里妈妈广告场景中大规模商业化落地，助力双十一，为广告主赋能。此外，基于扩散模型的特点，DiffBid 下可延展性和多目标能力会显著强于传统模型，这种特点将会为未来的 Bidding 优化和产品建设带来帮助。

展望

除了已经展现出来的诸多优势之外，AIGB 框架的开放性也能够兼容诸多不同的方案设计。在阿里妈妈刚刚举办的 NeurIPS 2024：大规模拍卖中的自动出价比赛中，选手们基于不同的基础生成模型，提出了一批不同于 DiffBid 的 AIGB 解决方案，迸发出诸多亮点。其中有的选手充分利用了 Transformer 的优势，通过自回归的方式预测给定优化目标的出价信息。有的选手提出 Transformer 全局规划模型与 bidding 小模型结合的出价方案。也有基于 Diffusion 模型直接进行出价的方案。这些方案均在不同程度上展示出了优势，为未来 AIGB 的进一步迭代提供了启发。但是，我们相信这仅仅是一个开始。未来随着技术的进一步发展，更多的 AIGB 方案涌现出来，从而以完全不同的方式重构自动出价的技术体系。阿里妈妈沉淀了亿级广告投放轨迹数据，是业界为数不多具备超大规模决策类数据资源储备的平台。这些海量数据资源可以成为营销决策大模型训练的有力保证，从而推动 AIGB 技术的发展。

期待后续有机会与大家分享和交流我们的进展与实践。

邀请函 | NeurIPS 2024 Competition Workshop：Auto-Bidding in Large-Scale Auctions

51c大模型~合集84_大模型_05

12 月 14 日，阿里妈妈将在 NeurIPS 2024 会议现场组 Workshop：大规模拍卖中的自动出价（Auto-Bidding in Large-Scale Auctions）。我们邀请了来自谷歌、亚马逊、普渡大学和阿里妈妈的学界和工业界嘉宾，以及本届赛事获奖团队代表，围绕决策智能领域的最前沿技术进行分享和交流。同时阿里妈妈也将正式开源世界首个标准化的大规模竞价系统和大规模博弈数据集。期待与大家现场交流～

51c大模型~合集84_大模型_06

#刚刚，三名谷歌Vision Transformer作者官宣加入OpenAI

三人是紧密的合作伙伴。

最近，OpenAI 又迎来了新的人事变动，但这次不是某个技术大牛离职，而是从谷歌挖来了一些新鲜血液。

这些「新人」来自谷歌 DeepMind 的苏黎世办事处，包括资深研究科学家 Xiaohua Zhai（翟晓华）、研究科学家 Lucas Beyer 和 Alexander Kolesnikov。在谷歌 DeepMind 工作期间，三人就是密切的合作伙伴，共同参与了 ViT 等重要研究。之后，他们将一起建立 OpenAI 苏黎世办事处。

51c大模型~合集84_大模型_07

51c大模型~合集84_大模型_08

OpenAI 高管在周二的一份内部备忘录中告诉员工，三人入职后将从事多模态 AI 研究。

在 DeepMind 工作期间，Beyer 似乎一直在密切关注 OpenAI 发布的研究成果以及该公司卷入的公共争议，他经常在 X 上向自己的 7 万多名粉丝发布相关信息。去年，当首席执行官 Sam Altman 被 OpenAI 董事会短暂解雇时，Beyer 发帖称，他目前读到的关于解雇的「最合理」解释是，Altman 同时参与了太多其他初创公司的工作。

51c大模型~合集84_大模型_09

在竞相开发最先进的人工智能模型的同时，OpenAI 及其竞争对手也在激烈竞争，从世界各地招聘有限的顶尖研究人员，通常为他们提供接近七位数或更高的年薪。对于最抢手的人才来说，在不同公司之间跳槽并不罕见。

例如，Tim Brooks 曾是 OpenAI 的 Sora 负责人，最近他离职前往 DeepMind 工作。不过，高调挖角的热潮远不止 DeepMind 和 OpenAI。今年 3 月，微软从 Inflection AI 公司挖走了其人工智能负责人 Mustafa Suleyman 以及该公司的大部分员工。而谷歌斥资 27 亿美元将 Character.AI 创始人 Noam Shazeer 拉回麾下。

在过去几个月里，OpenAI 的一些关键人物相继离职，有的加入了 DeepMind 和 Anthropic 等直接竞争对手，有的创办了自己的企业。OpenAI 联合创始人、前首席科学家 Ilya Sutskever 离职后，创办了一家专注于人工智能安全和生存风险的初创公司 Safe Superintelligence。OpenAI 前首席技术官 Mira Murati 于 9 月份宣布离职，据说她正在为一家新的人工智能企业筹集资金。

今年 10 月，OpenAI 表示正在努力向全球扩张。除了新的苏黎世办事处，该公司还计划在纽约市、西雅图、布鲁塞尔、巴黎和新加坡开设新的分支机构。除旧金山总部外，该公司已在伦敦、东京和其他城市设立了分支机构。

LinkedIn 上的资料显示，Zhai、Beyer 和 Kolesnikov 都住在苏黎世，苏黎世已成为欧洲一个相对突出的科技中心。苏黎世是 ETH （苏黎世联邦理工学院）的所在地，ETH 是一所公立研究型大学，拥有全球知名的计算机科学系。据《金融时报》今年早些时候报道，苹果公司还从谷歌挖走了一些人工智能专家，在「苏黎世的一个秘密欧洲实验室」工作。

51c大模型~合集84_大模型_10

也有人猜测，OpenAI 之所以在苏黎世设立办事处，是因为三个人都不愿意搬家。

紧密合作的三位科学家

从已发表的研究看，这三位研究者经常从事同一个项目的研究，并且他们也做出了一些非常重要的研究成果，其中一些被 AI 顶会作为 Spotlight 和 Oral 论文接收。

Xiaohua Zhai（翟晓华）

个人主页：https://sites.google.com/view/xzhai

Google DeepMind（苏黎世）的资深研究科学家和管理者。他领导着苏黎世的一个多模态研究团队，其研究重心是多模态数据、开放权重模型和包容性。

根据其领英简历，他于 2014 年在北京大学取得了计算机科学博士学位。之后曾在谷歌从事了三年软件工程师的工作。2017 年 12 月，他加入 DeepMind 担任研究科学家，并一直在此工作了 7 年。

目前，翟晓华在 Google Scholar 上的被引量已经达到了 6 万多，其中大部分被引量来自他们三人共同参与的 ViT 论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。

Lucas Beyer

Lucas Beyer 是 DeepMind 研究科学家。

个人博客：https://lucasb.eyer.be/

他在 2018 年于德国亚琛工业大学完成了自己的高等学业，期间曾在谷歌以实习生身份从事过研究工作，也在 Kindred.ai 担任过 AI 工程师，在德国亚琛工业大学担任过研究助理。

毕业后，他正式加入谷歌，先后在谷歌大脑与 DeepMind 从事研究工作。

他在博客中写到：「我是一名自学成才的黑客和科学家，致力于创造非凡事物。目前在瑞士苏黎世生活、工作、恋爱和玩耍。」

Alexander Kolesnikov

Alexander Kolesnikov 已经更新了自己的领英页面，他曾经也是 DeepMind 的研究科学家。

个人主页：https://kolesnikov.ch

他于 2012 年硕士毕业于莫斯科国立大学，之后在奥地利科学技术研究所取得了机器学习与计算机视觉博士学位。类似地，2018 年博士毕业后，他也先后在谷歌大脑和 DeepMind 从事研究工作。

出色的研究成果

很显然，这三位研究者是一个非常紧密的研究团队，也因此，他们的很多研究成果都是三人共同智慧的结晶（当然还有其他合作者），我们下面将其放在一起介绍。

首先必须提到的就是这篇论文：

论文标题：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
论文地址：https://arxiv.org/pdf/2010.11929
项目地址：https://github.com/google-research/vision_transformer

这篇就是大名鼎鼎的 Vision Transformer（ViT）论文，其中提出可以使用 Transformer 来大规模地生成图像，也曾做过报道，参阅《NLP/CV 模型跨界进行到底，视觉 Transformer 要赶超 CNN?》。目前，这篇论文的引用量已经接近 5 万，这三位研究者均是共同技术一作。

51c大模型~合集84_大模型_11

此后，他们还研究了 ViT 的 Scaling Law。

论文标题：Scaling Vision Transformers
论文地址：https://arxiv.org/pdf/2106.04560

通过扩大和缩小 ViT 模型和数据的规模，他们研究了错误率、数据和计算之间的关系。在此过程中，他们还对 ViT 的架构和训练进行了改进，减少了内存消耗并提高了生成模型的准确性。

51c大模型~合集84_大模型_12

另外，他们也为 ViT 开发了一些改进版本，对其性能或效率等不同方面进行了优化，比如能适应不同图块大小的 FlexiViT，参阅论文《FlexiViT: One Model for All Patch Sizes》。

他们也探索了另一些架构创新，比如他们在论文《MLP-Mixer: An all-MLP Architecture for Vision》中提出了一种用于视觉任务的纯 MLP 架构 MLP-Mixer；在论文《Big Transfer (BiT): General Visual Representation Learning》中，他们重新审视了在大型监督数据集上进行预训练并在目标任务上微调模型的范式，并通过扩大了预训练的规模提出了所谓的 Big Transfer 方案。

他们也开发了一些在当时都达到了 SOTA 的开发模型，比如 PaliGemma，这是一个基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放式视觉语言模型 (VLM)，其在同等规模下的表现非常出色。而在论文《Sigmoid Loss for Language Image Pre-Training》中，他们仅使用 4 块 TPUv4 芯片，在 2 天时间内就训练出了一个在 ImageNet 上实现了 84.5% 的零样本准确度的模型。

51c大模型~合集84_大模型_13

他们在计算机视觉方面的很多研究成果都统一在了 Google 的 Big Vision 项目中，参阅 https://github.com/google-research/big_vision

他们近期的研究重心是统一、简化和扩展多模态深度学习，比如：

UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes，该论文提出了一种建模多样化计算机视觉任务的统一方法。该方法通过组合使用一个基础模型和一个语言模型实现了互相增益，从而在全景分割、深度预测和图像着色上取得了不错的效果。
Tuning computer vision models with task rewards，这项研究展示了强化学习在多种计算机视觉任务上的有效性，为多模态模型的对齐研究做出了贡献。
JetFormer: An Autoregressive Generative Model of Raw Images and Text，这是上个月底才刚刚发布的新研究成果，其中提出了一种创新的端到端多模态生成模型，通过结合归一化流和自回归 Transformer，以及新的噪声课程学习方法，实现了无需预训练组件的高质量图像和文本联合生成，并取得了可与现有方法竞争的性能。

当然，这三位研究者多年的研究成果远不只这些，更多成果请访问他们各自的主页。

看来，OpenAI 这次是真挖到宝了，难怪有人说谷歌失去这三位人才会是一个战略失误。

51c大模型~合集84_大模型_14

参考链接：

https://www.wired.com/story/openai-hires-deepmind-zurich/

https://x.com/XiaohuaZhai/status/1864175652624097366

#Generative Adversarial Nets

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

上个月底，NeurIPS 官方公布了 2024 年度时间检验奖，而且破天荒地同时颁给了两篇论文。

一篇是 Ilya Sutskever 的 Seq2Seq，另一篇是一篇是 Ian Goodfellow 的生成对抗网络（GAN）。

论文地址：https://arxiv.org/pdf/1406.2661
作者：Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio
机构：蒙特利尔大学

弹指一挥间，距离 GAN 被提出竟然已经过了十年了。

截至 NeurIPS 揭晓奖项时，「GAN」的论文已被引用超过 85000 次，这篇生成模型领域的奠基之作，在过去 10 年间推动了众多研究进展。除了在学术界的影响，它还使生成模型在视觉数据及其他领域的应用中产生了深远影响。

《Generative Adversarial Nets》，作者阵容非常豪华，AI 圈知名大佬 Ian J. Goodfellow 、 Yoshua Bengio 等都在内。

今天，GAN 作者之一 Sherjil Ozair 在 X 平台发布长文，追忆了十年前的往事。

51c大模型~合集84_大模型_15

很高兴听到 GAN 在 NeurIPS 2024 上获得时间检验奖。NeurIPS 时间检验奖授予那些经受住了十年时间考验的论文。我花了一些时间来回忆 GAN 是如何诞生的，以及人工智能在过去十年中是如何发展的。

2012 年初，当我还是印度理工学院德里分校的一名本科生时，我在 Coursera 上发现了一门深度学习课程，由 Geoffrey Hinton 讲授。深度学习（在当时）是机器学习的一个边缘和小众子领域，它有望更加「端到端」并且更加受人脑启发。

课程非常棒。不仅很好地解释了深度学习的原理，还充满了 Hinton 古怪的英式幽默和标新立异的思维。例如，他建议我们把高维空间可视化。

51c大模型~合集84_大模型_16

出于对了解更多信息的好奇和兴奋，我开始仔细阅读我能找到的所有内容，当时这些都是由少数伟大研究人员发表的学术论文，例如 Yoshua Bengio，其中许多内容由他的实验室网站 http://deeplearning.net 维护。

51c大模型~合集84_大模型_17

2012 年，Yoshua 经常在 Quora 上回答有关深度学习的问题。我衷心感谢他帮助像我这样的年轻本科生理解深度学习。

51c大模型~合集84_大模型_18

我申请在他的实验室实习，并且非常惊喜地收到了回复和邀请！

这是一次「与命运的幽会」，当时我对这次即将展开的交流旅程的意义和影响只有一丝丝了解。

我非常感谢并感谢 Yoshua Bengio 为世界和我所做的一切。

51c大模型~合集84_大模型_19

我参加面试并拿到了 offer。2014 年夏天，我原本打算在 Yoshua 的实验室 (LISA) 实习。

2014 年 5 月，我飞往蒙特利尔，并前往实验室。Yoshua 一看到我，立刻就把我拉进了一个房间。房间里还有 Ian Goodfellow 和 Aaron Courville。Yoshua 继续解释他一直在思考的一个新想法。

他设想了一个确定性生成器网络 g，该网络仅在输入 z 中具有随机噪声。该网络的输出 x = g (z) 是某个分布 p (x) 的样本，可以是任何东西：图像、音频、文本。他强调这就是我们需要训练的。

但怎么做呢？在这种「隐式」网络中，概率 p (x) 在任何地方都不是显式的。他说，我们应该对生成器的输出（生成的分布）和某个样本数据集（也可以是图像、音频等）进行「双样本分布匹配」。

但如何进行分布匹配仍不清楚。作为一名年轻幼稚的本科生，我提出了矩匹配（moment matching），但我们知道矩匹配很可能无法扩展到高维数据。小组里还讨论了其他想法，但都不太乐观。

但是，Yoshua 对于训练一个确定性噪声消耗采样生成器神经网络的愿景和热情是明确的，也是鼓舞人心的。小组决定进一步思考这个问题。

就在 Les Trois Brasseurs 实验室的一次晚宴上，Ian Goodfellow 被一个在当时看来近乎无稽之谈的想法打动了：「如果你能让另一个神经网络充当判别器呢？」在这一刻，新的前沿被开拓出来了。

当时，神经网络的训练非常「普通」：你建立一个主神经网络，输入数据，得到预测结果，应用数学损失函数，然后使用梯度下降法优化这个网络。

Ian 的想法是将损失函数设想为一个学习型神经网络。另一个判别器神经网络提供损失和梯度来训练生成器神经网络，而不是优化一个固定的方法损失。怀疑是很自然的：怎么不会全部崩溃为退化输出？鸡生蛋蛋生鸡的困境比比皆是。判别器从何而来？

但 Ian 对此也有自己的想法。判别器和生成器要进行零和博弈，生成器要努力做到与数据无差别，而判别器要努力弄清显示的是生成样本还是真实样本。或许，这可行？

第二天，实验室的每个人都收到了这封邮件：

51c大模型~合集84_大模型_20

在一个晚上的编码和运行实验中，Ian 使第一个生成式对抗网开始工作。这些是 MNIST 上的第一批样本。

51c大模型~合集84_大模型_21

我当时正在研究类似的东西，用非神经判别器进行训练，但效果远远不够。我决定帮助 Ian 开发 GAN。当时，NeurIPS 2014 的提交截止日期只剩一周了。我们决定，如果我们能抓紧时间，我们就能提交一篇论文。

在接下来的几天里，我们设立了评估标准来与现有的生成模型进行比较，尝试了不同的架构、噪声函数和博弈公式。Jean、Yoshua 和我发现了生成对抗网络（GAN）的博弈是收敛的，并且在均衡状态下最小化了 JS 散度（Jensen-Shannon Divergence）。

我们克服了重重困难，向 NeurIPS 提交了一篇论文，其中包含了我们上一周完成的所有工作。GAN 作为 posted presentation 被接受。

我记得，在我们兴奋不已的同时，也知道 GAN 的训练动态是出了名的不稳定。大多数合著者开始研究其他模型架构，试图解决我们在 GAN 上发现的问题。GAN 论文在 12 月份进行了展示，但大部分时间都是被忽视的。

几个月后的 2015 年 8 月，Alec Radford 开始发布他一直在玩的卷积 GAN 的样本。没错，这就是几乎是 OpenAI 所有突破的幕后功臣 Alec Radford。2015 年，他正在捣鼓卷积网络、BatchNorm 和 GAN。

51c大模型~合集84_大模型_22

我无法客观地描述 DCGAN 之后人们对 GAN 兴趣的激增。但我想强调的是，GAN 的发展如何被恰当地用作人工智能整体进步的象征。

以前，大家会用下面这张图表达图像生成领域的突破性演变，但现在已经过时了，因为现在的图像生成模型已经能够生成百万像素的图片，甚至电影。

51c大模型~合集84_大模型_23

至于我的个人经历，GAN 作为我的第一篇学术论文既是福音也是诅咒。一位 DeepMind 研究员曾开玩笑说，我可能已经完成了我最伟大的工作，所以我还不如退休。

人们常常误以为当前的技术突破是最终的创新，我们总是倾向于认为「就是这样，这是最后的发明」。但事实并非如此。

CNN 感觉像是最后的发明，但事实并非如此。

GAN 感觉像是最后的发明，也非如此。

LSTM 同样也是。

还有 ResNets、DQN、AlphaGo、AlphaZero、MuZero 等等，这些都不是最后的发明。

事后看来，「这是最后的发明」总是有点滑稽。想想现在，Transformer 和大型语言模型现在被认为是最后一项发明，但并不是。

我最近离开了前沿人工智能实验室，创办了一家公司，打造一些非常棒的东西。我将很快分享更多关于这方面的信息。敬请期待。

对于获得 NeurIPS 时间检验奖的那篇论文《Generative Adversarial Nets》，我非常感谢 Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Aaron Courville, Yoshua Bengio。

参考链接：https://x.com/sherjilozair/status/1864013618721001710

#SRA-MCTS

推动大模型自我进化，北理工推出「流星雨计划」

本文将介绍来自北京理工大学计算机科学与技术学院的流星雨研究计划。该计划旨在深入研究大模型自我进化的理论与方法，推动大模型的发展。

在人类个体能力提升过程中，当其具备了基本的技能之后，会自主地与环境和自身频繁交互，并从中获取经验予以改进。大模型自我进化研究之所以重要，正是源于该思想，并且更倾向于探究大模型自身能力的深度挖掘和扩展。基于这一趋势，北京理工大学 DIRECT LAB 正式启动了「大模型自我进化」的流星雨研究计划。这篇文章以代码大模型和垂域大模型进化为例，逐步介绍流星雨计划。

SRA-MCTS：推动代码大模型自我进化

论文标题：SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation
论文地址：https://arxiv.org/pdf/2411.11053
代码开源：https://github.com/DIRECT-BIT/SRA-MCTS
8B 模型的数据开源：https://huggingface.co/datasets/BinXD/SRA-MCTS-Llama-3.1-8B

代码大模型应用范围广、影响大，如何提升其表现，一直备受业内外关注。在一项最新的研究中，来自北京理工大学的研究者提出了一种全新的思路 ——SRA-MCTS，旨在通过自我进化的方式，解决代码模型在处理复杂问题时缺少中间推理过程。

核心观点：自我进化的力量

跟随上述自我进化的思想，在 SRA-MCTS（Self-guided MCTS-based data generation for Reasoning Augmentation）方法中，作者无需借助额外的任何监督信号、完全通过模型自身来进行推理路径生成，并进一步迭代大模型的能力。通过这个过程，模型能够自主地生成高质量的推理路径，并将这些路径转化为可执行代码，进而提升在复杂任务上的成功率。

51c大模型~合集84_大模型_24

整个过程不仅增强了模型的推理能力，还通过自我反馈和反思提升了解决复杂任务的成功率。实验表明，即使在小规模模型中，SRA-MCTS 也能显著提升任务处理能力，特别是在多样性和解决复杂问题的能力上。

突出贡献与显著成就：

无需外部监督：与传统方法不同，SRA-MCTS 完全依赖模型自身的推理能力进行数据生成和训练，避免了对人工标注数据或额外监督信号的依赖。
自我进化与持续提升：通过反复生成推理路径并进行自我训练，模型形成了一个正向反馈循环，实现了性能的持续提升，尤其在较小模型中也展现出强大的潜力。
提升复杂任务解决能力：文中的方法在多种规模的模型上均展现出了显著的性能提升，特别是在解决需要分析的任务时，SRA-MCTS 显著提高了成功率。
验证了小模型自我合成的潜力：实验分别在小模型（2B, 8B, 14B）上自我数据合成并进行训练，对比了 70B 模型的数据蒸馏结果。结果表明，小模型自我合成的数据训练结果可以超越大模型数据蒸馏的能力。

工作思想与实现方式

该方法核心在于将推理过程和数据生成紧密结合，通过 SRA-MCTS 引导模型自主生成推理路径。这不仅稳定了分析的准确性下限，还为模型提供了一个无需外部监督的自我改进机制。实验结果表明，即使在传统的思维链（CoT）方法表现退化时，SRA-MCTS 依然能够稳定并有效地提升模型的性能，尤其在「pass@10」等多样性指标上表现出色。

1. 数据合成 - SRA-MCTS：

51c大模型~合集84_大模型_25

选择阶段：使用 UCB1 公式，从推理树中选择最优节点，作为推理的起点。
扩展阶段：基于选择的节点，生成新的推理步骤，形成新的推理计划。
评估与反思阶段：评估每个生成的推理步骤的质量，并通过反思机制修正推理过程，确保其正确性与连贯性。
反向传播阶段：通过反馈机制调整生成过程，强化推理路径的质量。

下面的示例展示了中间推理步骤，以及基于推理所生成的代码过程：

问题：请帮我写一段拓扑排序的代码。

思考过程：拓扑排序是针对有向无环图（DAG）的一种排序算法，它将图中的节点按照某种顺序排列，使得对于每一条有向边 (u, v)，节点 u 在节点 v 之前出现。常见的拓扑排序算法有两种：Kahn 算法和深度优先搜索（DFS）算法。这里作者选择使用 Kahn 算法来实现，因为它更直观且容易理解。

Kahn 算法的基本思想是：

找出所有入度为 0 的节点，将它们加入队列。从队列中取出一个节点，将其加入拓扑排序结果中。对于该节点的所有邻接节点，减少其入度。如果某个邻接节点的入度变为 0，则将其加入队列。重复步骤 2 和 3，直到队列为空。如果最终拓扑排序的结果中包含所有节点，则说明图是 DAG；否则，图中存在环。

・找出所有入度为 0 的节点，将它们加入队列。
・从队列中取出一个节点，将其加入拓扑排序结果中。
・对于该节点的所有邻接节点，减少其入度。如果某个邻接节点的入度变为 0，则将其加入队列。
・重复步骤 2 和 3，直到队列为空。
・如果最终拓扑排序的结果中包含所有节点，则说明图是 DAG；否则，图中存在环。

from collections import deque, defaultdict


def topological_sort(graph):
    # Step 1: 计算每个节点的入度
    in_degree = {node: 0 for node in graph}
    for node in graph:
        for neighbor in graph[node]:
            in_degree[neighbor] += 1
    
    # Step 2: 将所有入度为 0 的节点加入队列
    queue = deque([node for node in in_degree if in_degree[node] == 0])
    
    # Step 3: 初始化结果列表
    topo_order = []
    
    # Step 4: 处理队列中的节点
    while queue:
        node = queue.popleft()
        topo_order.append(node)
        
        # 更新邻接节点的入度
        for neighbor in graph[node]:
            in_degree[neighbor] -= 1
            if in_degree[neighbor] == 0:
                queue.append(neighbor)
    
    # Step 5: 检查是否存在环
    if len(topo_order) == len(graph):
        return topo_order
    else:
        raise ValueError("Graph contains a cycle, topological sorting is not possible.")

推理转化为代码：在数据合成的阶段生成的自然语言推理步骤，经过大模型转化为具体的代码，实现从推理到执行的转化。
训练阶段：最终，生成的推理路径和代码会被结合起来，形成一个高质量的训练数据集，用于进一步微调大语言模型。

上面的工作是代码模型的自主推理能力。作者表示，他们期待探究更通用化的自我进化框架和方法，使其在各种场景中都可以被广泛使用。

流星雨计划

51c大模型~合集84_大模型_26

论文：https://arxiv.org/abs/2411.11933
Github 链接：https://github.com/DIRECT-BIT/METEOR

该计划提出一个由弱到强的进化框架来引导大模型自我进化的整体流程，方法如下图所示：

51c大模型~合集84_大模型_27

该流程提供了一整套从无领域能力进化成领域专家模型的自我进化训练方案，包含三个关键阶段：

第一阶段：导师监督学习，旨在赋予模型基本的领域知识，让模型能够完成领域任务；
第二阶段：自我评估能力习得，通过借助通用大模型的指导，进一步迭代训练学习，赋予模型自我评判的能力；
第三阶段：自我提升训练，通过自我批判完成自我进化。

第一阶段：导师监督学习

知识蒸馏是一种有效的获取领域知识的手段。然而作者发现，强模型与弱模型之间存在认知偏差，导致从强模型中蒸馏下来的领域数据无法高效作用于弱模型。

作者提出了 weak-to-strong 的领域数据蒸馏方法，让强模型根据弱模型的指导蒸馏领域数据。具体的，当有一个领域问题时，他们首先将该问题输入弱模型，但不让其直接生成答案，而是生成一段 guideline。这段 guideline 指示弱模型认为应该遵循哪些步骤来回答领域问题。接下来，他们将生成的 guideline 与领域问题一起输入强模型。强模型根据 guideline 的指导步骤生成领域问题的答案，或在 guideline 的基础上进行修正并生成答案。

51c大模型~合集84_大模型_28

第二阶段：自我评估能力习得

经过蒸馏后的领域数据训练的模型能够完成一定的领域任务，但经过分析，该模型还可能产生大量错误信息或幻觉信息，并且无法进行自我纠正。因此，作者提出要在这一阶段通过更强模型的反馈来纠正模型内部的错误知识，进一步提升模型领域性能。

他们参考 StaR [1] 迭代式训练的方法，让模型首先对领域问题进行作答，并由 GPT-4 给予答案反馈。如果模型的答案是错误的，GPT-4 会将修改建议连同前一轮的答案重新返回给模型，让模型重新作答，直至模型产生正确的答案。整个过程的数据会被保存下来迭代式地训练模型，使得模型的领域能力不断提升。

51c大模型~合集84_大模型_29

第三阶段：自我提升训练

作者希望模型在最终的领域能力进化过程中能够摆脱对强模型的依赖，实现完全的领域能力自我进化。因此，在模型具有完成自我批判的能力后，他们尝试让模型进行自我进化。

受到在推理过程中增加 FLOPs 可以有效提升模型在下游任务中的性能的启发，他们认为不同的推理策略会产生不同的效果。他们希望模型生成的结果尽可能接近高 FLOPs 推理策略的结果，远离低 FLOPs 策略的结果。他们使用 beam search 作为高 FLOPs 策略，greedy search 作为低 FLOPs 策略，通过对比学习构建模型的自我训练方法，实现模型的自我进化。

性能分析

作者对比了应用 Meteor 进化方法后 LLM 前后各维度的性能变化。在准确性、完整性、相关性、连贯性和可靠性方面，LLaMA3-8B-Instruct 和 Qwen2-7B-Instruct 取得了性能的提升（评估方法：通过 GPT-4 筛选进化前和进化后答案的 win rate）。

51c大模型~合集84_大模型_30

未来工作

该工作初步探索和尝试了模型进化的整体框架和每个阶段的对应方法，并有了一些初步的结论。未来，作者将在该想法的基础上，在每个阶段中创新更适用的模型自我进化方法，实现模型在各个阶段都能获得预期的性能提升，并在更多不同的场景中探索 Meteor 的适用性，推广流星雨计划。

作者表示，DIRECT LAB 期待与更多对大模型进化感兴趣的学者和业界同仁携手合作，共同推进这一重要领域的探索与突破。实验室相关研究的代码和数据已公开，欢迎大家访问：https://github.com/DIRECT-BIT

#TFG

从分类到生成：无训练的可控扩散生成

论文一作为斯坦福大学计算机博士叶皓天，指导老师为斯坦福大学 Stefano Ermon 与 James Zou 教授。北京大学博士林昊苇、斯坦福大学博士韩家琦为共同第一作者。

近年来，扩散模型（Diffusion Models）已成为生成模型领域的研究前沿，它们在图像生成、视频生成、分子设计、音频生成等众多领域展现出强大的能力。然而，生成符合特定条件（如标签、属性或能量分布）的样本，通常需要为每个目标训练专门的生成模型，这种方法不仅耗费资源，还严重制约了扩散模型作为未来基座模型实际应用潜力。

为了解决这一难题，斯坦福大学、北京大学、清华大学等机构的研究团队联合提出了一种全新的统一算法框架，名为无训练指导（Training-Free Guidance, 简称 TFG）。这一框架无缝整合现有的无训练指导方法，凭借理论创新和大规模实验验证，成为扩散模型条件生成领域的重要里程碑，目前已经被 NeurIPS 2024 接收为 Spotlight。

论文标题：TFG: Unified Training-Free Guidance for Diffusion Models
论文链接：https://arxiv.org/abs/2409.15761
项目地址：https://github.com/YWolfeee/Training-Free-Guidance

问题背景：扩散模型的条件生成难题

扩散模型以其渐进降噪生成样本的特性，逐渐被广泛应用于从图像到视频到音频、从分子到 3D 结构等多领域。然而，条件生成的需求（如生成特定类别的图像或满足特定能量约束的分子结构）对模型提出了更高要求。

传统条件生成方法依赖 “基于分类器的指导”（classifier-guidance）或 “无分类器指导”（classifier-free）技术。这些方法通常需要为这一类事先确定的目标属性训练一个生成 + 预测模型或是带标签的生成模型。一旦训练完成，该模型就难以被运用到同一领域的其他条件生成任务中，因而难以推广至多目标或新目标场景。与之相比，无训练指导旨在利用现成的目标预测器（如预训练分类器、能量函数、损失函数等）直接为扩散模型生成提供指导，避免了额外的训练步骤。然而，现有无训练方法存在以下显著问题：

缺乏系统性理论支持和设计指导；
即使在简单任务中表现也不稳定，容易失败；
难以高效选择适合的超参数。

TFG 框架的核心创新

1. 统一设计空间（unified design space）

TFG 提出了一个通用的无训练指导设计空间，将现有算法视为其特殊情况。这种统一视角不仅简化了对不同算法的比较，还通过扩展设计空间提升了性能。具体而言，TFG 基于多维超参数设计，涵盖了多种指导方法的变体，为任务适配提供了灵活性。

2. 高效超参数搜索策略（efficient searching strategy）

为了应对多目标、多样化任务场景，TFG 引入了一种高效的超参数搜索策略。在此框架下，用户无需复杂的调参过程，通过自动化策略即可快速确定最优超参数组合，适配多种下游任务。

3. 全面基准测试（comprehensive benchmark）

TFG 框架在 7 种扩散模型上开展了广泛的实验，包括图像、分子、音频等 16 项任务和 40 个具体目标。实验结果显示，TFG 平均性能提升 8.5%，在多个任务中均超越现有最佳方法。

51c大模型~合集84_大模型_31

方法概述：TFG 如何实现无训练指导？

51c大模型~合集84_大模型_32

实现 TFG 的核心是利用 Tweedie’s formula，通过预训练的扩散模型预测当前噪声样本对应的干净样本分布均值，再用判别器进行打分，将可微的分数进行反向传播，从而指导噪声样本的去噪过程。基于以上思路，TFG 提出了一个统一的算法框架，精细设计了四大关键机制来提升条件生成任务的表现：Mean Guidance、Variance Guidance、Implicit Dynamics 和 Recurrence。以下是各部分的详细介绍：

1. Mean Guidance（均值指导）

Mean Guidance 利用预测样本的均值梯度来引导生成过程，核心思想是对生成样本的目标属性进行直接优化。在每一步去噪过程中，模型会根据当前的预测样本计算目标预测器（如分类器）的梯度。这些梯度被用于调整样本，使其逐渐向高目标密度区域移动。Mean guidance 的优点是简单直接，易于实现。但在目标空间的低概率区域中，梯度可能不稳定，导致生成的样本质量下降。为此，TFG 通过 recurrence（递归）和动态调整梯度强度来改进这一不足。

2. Variance Guidance（方差指导）

Variance Guidance 利用预测样本的方差信息，通过对梯度进行协方差调整，进一步优化生成方向。通过在噪声样本空间计算梯度，而非直接作用于预测样本，引入了更多高阶信息。根据梯度与样本协方差矩阵的相互作用，对样本生成方向进行动态调整。文章中证明了这种方法等价于对梯度进行了协方差加权，增强了生成过程中目标属性之间的协同作用。例如，正相关的目标特性会被相互加强，而负相关的特性会被弱化。

3. Implicit Dynamics（隐式动态）

隐式动态通过为目标预测器引入高斯核平滑，形成了一种渐进式的 “动态噪声引导”。在每一步生成中，对目标函数进行高斯平滑，逐步增加噪声，并通过噪声样本计算梯度。这种操作使得样本更容易跳出低概率区域，收敛至高目标密度区域。即使采用少量的采样样本，也能显著提升生成样本的多样性和精度。

4. Recurrence（递归机制）

递归机制通过重复应用前述指导步骤来逐步强化生成结果。每一步去噪的中间结果被不断 “回滚” 并重新生成，类似于一个动态优化的循环过程。每次递归的目的是修正前一轮生成的误差，同时引入更多的指导信息。在标准的标签指导任务（如 CIFAR10 和 ImageNet）中，递归次数的增加显著提升了样本准确率。例如，在 CIFAR10 数据集上，将递归次数从 1 增加到 4，准确率从 52% 提升到 77%，缩小了与基于训练的指导方法的性能差距。

本文从理论上证明，已有的一些无训练指导算法（例如 UGD，FreeDoM，MPGD，DPS，LGD）都是 TFG 的特例。TFG 构建了一个全面的超参数搜索空间，而已有的算法本质上都是在这个空间的某个子空间进行搜索。所以，TFG 将免训练指导算法设计的问题转化为：如何进行高效有效的超参数搜索？

设计空间的构建

TFG 框架的一个核心创新在于其设计空间（Design Space）的构建与超参数优化策略的提出。研究团队对这一问题进行了系统分析，并提出了一种高效的通用搜索方法，具体由以下几个超参数组成：

1. 时间相关向量：包括 ρ（Variance Guidance 强度）和 μ（Mean Guidance 强度），分别控制梯度的影响力度及其在每个时间步的分布。

2. 时间无关标量：

：递归次数，决定了每个时间步的重复优化程度。
：梯度计算迭代次数，用于控制 Mean Guidance 的渐进式优化。
：用于 Implicit Dynamics 的高斯平滑参数。

这些参数的组合定义了 TFG 的设计空间。研究表明，现有的无训练指导方法（如 DPS、FreeDoM、UGD 等）可以被视为该设计空间的特殊情况，这意味着 TFG 实现了对这些方法的统一与扩展。为了更好地分析和使用设计空间，研究团队提出了分解方法，将时间相关的向量（如 ρ 和 μ）分解为：

51c大模型~合集84_大模型_36

在设计空间中定义了三种结构：

1. Increase（递增结构）：如

51c大模型~合集84_大模型_37

，权重随时间步逐渐增加。

2. Decrease（递减结构）：如

51c大模型~合集84_大模型_38

，权重随时间步逐渐减小。

3. Constant（恒定结构）：权重在每个时间步均相同。

通过实验对比，研究团队发现：ρ 和 μ 的递增结构在多个任务中表现最佳，生成样本的准确率和质量显著提高；这一结果极大地简化了设计空间的优化过程，为不同任务选择合适的超参数提供了明确的指导。

高效超参数搜索策略

为了在广泛的任务中实现高效优化，研究团队设计了一种通用的超参数搜索策略，包括以下核心步骤：

1. 初始值设定：从较小的初始超参数值开始（如 ρ =μ=0.25），模拟无条件生成的效果。

2. 分步搜索：

在每次迭代中，分别对进行倍增（如从 0.25 增加到 0.5），生成多个新配置。
使用小规模的生成样本测试新配置，评估其表现（例如 FID 和准确率）。

3. 选择最佳配置：将表现最优的配置加入候选集，并重复搜索，直至搜索结果稳定或达到预设的迭代次数。

该搜索方法将生成样本数量显著减少，保证在合理的计算成本内完成优化。在计算资源有限的情况下，研究团队建议将递归次数和迭代次数分别限制在 4 次以内，既能保证性能，又能控制计算复杂度。

实验亮点：TFG 的广泛适用性和卓越表现

51c大模型~合集84_大模型_39

1. 精细类别生成任务

精细类别指导（Fine-Grained Label Guidance）是一种比传统标签指导更具挑战性的任务，旨在为扩散模型生成出满足更细致条件的样本。在这项研究中，TFG 首次将无训练指导方法成功应用于超越训练分布的细粒度标签生成任务。

研究团队选择了鸟类图像的细粒度标签指导任务（例如基于鸟类的物种特征生成图像）。这类任务的挑战在于：

数据分布超出训练模型的常见分布范围，导致生成的样本极易偏离目标特性。
即使对于成熟的文本 - 图像生成模型（如 DALL-E），该问题也难以解决。

TFG 通过其递归增强（Recurrence）机制显著提升了生成性能。在实验中，TFG 成功生成了具有 2.24% 准确率的目标样本，相比无条件生成（0% 准确率）是一个巨大飞跃。尽管绝对精度仍有提升空间，但这标志着无训练指导方法在细粒度标签生成领域的重要突破。

2. 分子生成任务

TFG 首次应用于分子生成任务的无训练指导，利用无训练指导优化分子属性（如极化率、电偶极矩等）。实验结果显示，TFG 在有效性上显著领先于现有方法，进一步拓展了扩散模型的应用边界。

3. 多目标条件生成

TFG 在多属性指导任务（如生成特定性别和发色组合的人脸）中展示了显著的均衡性和适配性。通过对生成样本进行详细分析，研究团队发现 TFG 有效缓解了由于训练数据分布不平衡导致的生成偏差问题。例如，在 “男性 + 金发” 这一稀有目标组合中，TFG 的生成准确率高达 46.7%，远高于原始数据分布中的 1%。

4. 音频生成任务

在少有探索的音频生成领域，TFG 同样表现出色。实验涵盖了音频修复（去剪裁、补全）等任务，相比其他方法，TFG 的相对性能提升超过 15%。

TFG 的未来展望：重新定义扩散模型的可能性

TFG 不仅为无训练指导提供了统一理论基础和实用工具，也为扩散模型在不同领域的拓展应用提供了新的思路。其核心优势包括：

高效适应性：无需为每个任务额外训练模型，显著降低了条件生成的门槛；
广泛兼容性：框架适用于从图像到音频、从分子到多目标生成的多种任务；
性能优越性：通过理论与实验的结合，显著提升了生成的准确性和质量。

未来，TFG 有望在药物设计、精准医学、复杂音频生成、高级图像编辑等领域进一步发挥作用。研究团队还计划优化框架，进一步缩小与基于训练方法的性能差距。

#Genie 2

谷歌世界模型爆发：单张图生成可玩3D世界，还要和马斯克一起做AI游戏

昨晚，世界模型向前迈出了一大步！

Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2，其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。

51c大模型~合集84_大模型_40

，时长00:34

消息发布后，好评与震惊如潮水般涌现。有人被这技术进步的速度震撼，称之为视频游戏的未来，甚至还有人看到了一切都被虚拟化的世界模型的更长远未来。

51c大模型~合集84_大模型_41

51c大模型~合集84_大模型_42

有趣的是，Genie 2 刚一发布，DeepMind CEO 哈萨比斯宣传完之后直接邀请马斯克一起来用世界模型制作 AI 游戏，马斯克居然欣然同意了：

51c大模型~合集84_大模型_43

可见 AI 大佬对于自己的技术很有信心，马斯克也很重视。

Genie 2：划时代的世界模型

51c大模型~合集84_大模型_44

Genie 2 是一个基础世界模型（foundation world model），有能力生成无限多种可控制动作、可玩的 3D 环境，而这些 3D 环境又可用于训练和评估具身智能体。

DeepMind 表示，Genie 2 只需使用单张提示图像，就能生成可供人类或 AI 智能使用键鼠输入游玩的环境。

我们知道，在 AI 研究领域，游戏扮演着一个重要角色。游戏需要玩家参与、具有不同的难度、游戏进度也易于衡量，因此成为了安全测试和推进 AI 发展的理想环境。

事实上，自 Google DeepMind 成立以来，AI 与游戏结合的研究就一直很重要。也一直在跟进报道他们在游戏相关 AI 研究中的进展，从早期的 Atari 游戏，到吸引全世界眼球的 AlphaGo 和 AlphaStar，再到他们上半年与游戏开发者合作开发的通用智能体 —— 参阅《智能体的ChatGPT时刻！DeepMind通用AI向人类玩家进化，开始理解游戏》。

但 DeepMind 也指出，训练更通用的具身智能体有一个瓶颈：难以获得足够丰富和多样化的训练环境。

Genie 2 似乎就能填补这一空白，其能创造一个用于训练和评估智能体的无限新世界。DeepMind 表示：「我们的研究还为构建交互式体验原型设计的全新创意工作流程铺平了道路。」

与李飞飞的空间智能相比如何？

前些天，我们刚刚报道了著名学者李飞飞的创业公司 World Labs 的首个项目。从描述上看，其与 Genie 2 似乎具有一样的能力，都能基于单张图像生成可交互的 3D 场景，参阅报道《刚刚，李飞飞创业首个项目引围观：单图生成交互 3D 场景，空间智能来了》。

但这两者也存在一些区别。普林斯顿AI创新中心创始人、主任，终身教授王梦迪：「飞飞的 World Labs 和 Google 的 Genie2 看上去都是从一张图片生成可以交互的三维场景，但有本质区别。Genie2 还是 video diffusion（视频扩散），每一帧的生成都是 pixel prediction（像素预测），并通过额外的用户输入的 guidance（引导）来影响下一帧的概率分布。而飞飞的 World Labs 是更进一步挖掘世界的物理本质：从图片出发，估计图片中不同景物的深度和相对关系，生成了更加物理世界的 3D 环境建模，不仅仅是可互动视频。」

51c大模型~合集84_大模型_45

World Labs 的单图生成 3D 场景的效果演示

从这个描述看，李飞飞的研究项目似乎更接近真正的世界模型一些。不管怎样，这些新技术的碰撞都是进步的过程，王梦迪教授也表达了这样的期待：「期待看到更多不同技术思路的进展和对决。新范式快来吧。」

Genie 2 基础世界模型的涌现能力

到目前为止，世界模型在很大程度上局限在建模范围狭窄的领域。

在上一代 Genie 1 中，DeepMind 提出了一种生成多种 2D 世界的方法。Genie 2 则是通用性方面的一次飞跃！其可生成丰富多样的 3D 世界。

Genie 2 是一个世界模型，这就意味着它可以模拟虚拟世界，包括采取任何动作（例如跳跃、游泳等）的后果。它是在大型视频数据集上训练得到的，因此，Genie 2 与其他生成模型一样具有各种大规模涌现能力，例如物体交互、复杂角色动画、物理以及建模和预测其他智能体行为的能力。

下面展示了一些人们与 Genie 2 交互的例子。对于每个示例，模型都会使用 Imagen 3（DeepMind 最先进的文生图模型）生成的单张图像作为提示。这意味着任何人都可以用文字描述他们想要的世界，选择他们最喜欢的渲染方法，然后进入这个新创建的世界并与之互动（或在其中训练或评估 AI 智能体）。

在每个步骤中，都由一个人或智能体提供键盘和鼠标操作，Genie 2 模拟下一个观察结果。Genie 2 可以生成长达一分钟的一致世界，大多数示例持续 10-20 秒。

动作控制

Genie 2 能智能地响应键盘按键对应的动作，识别角色并正确地移动它。例如，模型必须要明白，箭头键应该移动机器人而不是树木或云。

生成反事实视频帧

Genie 2 可以从同一起始帧生成不同的轨迹，这意味着可以为训练智能体来模拟反事实体验。如下两行动图所示，每个视频都从同一帧开始，但人类玩家采取了不同的行动。

长跨度记忆

Genie 2 能够记住视野中消失的部分世界，然后在它们再次可见时准确地呈现它们。

使用新的生成内容来生成长视频

Genie 2 可以即时地生成新的合理可信内容，并在长达一分钟的时间内保持一致性的世界。

多样性环境

Genie 2 可以创建不同的视角，例如第一人称视角、等距视角或者第三人称驾驶视角。

3D 结构

Genie 2 学会了创建复杂的 3D 视觉场景。

物体可供性和交互

Genie 2 能够模拟各种物体之间的交互，例如爆破气球、打开门和用枪射击炸药桶。

角色动画

Genie 2 学会了为执行不同活动的各种角色制作动画。

NPC

Genie 2 能够模拟其他智能体，甚至与它们进行复杂的交互。

物理效果

Genie 2 能够建模水面效果。

烟雾效果

Genie 2 能够建模各种烟雾效果。

重力效果

Genie 2 能够建模各种重力效果。

照明效果

Genie 2 能够建模点式和定向照明效果。

反射效果

Genie 2 能够建模反射、绽放和彩色灯光效果。

以现实世界的图像为提示

Genie 2 还可以将现实世界的图像作为提示，比如它可以模拟风中飘动的草或流动的河水。

Genie 2 支持快速原型设计

Genie 2 可以轻松快速地为各种交互式体验制作原型，使研究人员能够快速试验新环境，从而训练和测试具身 AI 智能体。

下图用 Imagen 3 生成的不同图像作为 Genie 2 的提示图像，以模拟纸飞机、龙、鹰或降落伞飞行之间的差异，并测试 Genie 对不同化身的动画效果。

得益于 Genie 2 的分布式泛化能力，概念艺术和绘画可以转化为完全交互式的环境。这使得艺术家和设计师们能够快速制作原型，从而启动环境设计的创作，进一步加速研究。下图展示了概念艺术家制作的「研究环境概念」示例。

51c大模型~合集84_大模型_46

在世界模型中行动的 AI 智能体

通过使用 Genie 2 快速为 AI 智能体创建丰富多样的环境，研究人员还可以生成智能体在训练期间未见过的评估任务。

下图展示了与游戏开发者合作开发的 SIMA 智能体示例，该智能体通过单个图像提示来遵循 Genie 2 合成的未见过环境的指令。

51c大模型~合集84_大模型_47

提示词：第三人称开放世界探索游戏的截图。玩家扮演一名正在探索森林的冒险者。左边有一栋房子，门是红色的，右边有一栋房子，门是蓝色的。摄像机位于玩家正后方。照片级真实、沉浸式。

SIMA 智能体通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。下图中使用 Genie 2 生成一个有两扇门（蓝门和红门）的 3D 环境，并向 SIMA 智能体提供打开每扇门的指令。在该示例中，SIMA 通过键盘和鼠标输入控制化身，而 Genie 2 生成游戏帧。

另外还可以使用 SIMA 来帮助评估 Genie 2 的功能。下图中指示 SIMA 环顾四周并探索房屋后面，来测试 Genie 2 生成一致环境的能力。

虽然这项研究仍处于早期阶段，智能体和环境生成能力还有很大的改进空间，但谷歌相信 Genie 2 是解决安全训练具身智能体结构性问题的一大途径，同时也能提供迈向 AGI 所需的广度和通用性。

下图为 Imagen 3 生成的电脑游戏图像，提示词为「一张电脑游戏图片，展示了一个粗糙的石洞或矿井内部场景。观看者的位置是第三人称视角，位于玩家头像上方，向下看向头像。玩家头像是一个手持宝剑的骑士。骑士头像前面有 3 个石拱门，骑士可以选择穿过其中任何一扇门。穿过第一扇门和内部，我们可以看到隧道两旁长满了奇异的绿色植物和发光的花朵。在第二个门的内部和外部，有一条走廊，走廊上铆接着钉在洞穴墙壁上的带刺铁板，通向远处不祥的光芒。穿过第三扇门，我们可以看到一组粗糙的石阶，通往一个神秘的目的地。」

51c大模型~合集84_大模型_48

下面为根据上图生成的游戏帧。

背后的技术：扩散世界模型

作为一个自回归潜在扩散模型，Genie 2 在大型视频数据集上进行训练。在通过一个自动编码器后，视频中的潜在帧被传递到大型 transformer 动态模型中，该模型使用与大型语言模型类似的因果掩码进行训练。

在推理时，Genie 2 能够以自回归方式进行采样，逐帧采取单个动作和过去的潜在帧。谷歌使用无分类器指导（classifier-free guidance）来提高动作可控性。

本文的示例由未蒸馏的基础模型生成，以展示其多种可能性。当然也可以实时运行蒸馏版本，但输出质量会降低。

51c大模型~合集84_大模型_49

负责任地开发技术

谷歌表示，Genie 2 展示了基础世界模型在创建多样化 3D 环境和加速智能体研究方面的潜力。不过，鉴于该研究方向尚处于早期阶段，未来将继续提高 Genie 在通用性和一致性方面的世界生成能力。

与 SIMA 一样，谷歌的研究正在朝着更通用 AI 系统和智能体的方向发展，它们可以理解并安全地执行各种任务，从而对线上和现实世界中的人们提供帮助。

顺带一提，DeepMind 同时还发布了 AI 天气预测模型 GenCast，当然，它的天气预测表现也达到了当前最佳水平。

参考内容：

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

https://news.ycombinator.com/item?id=42317903

#Greg Brockman又做了一件伟大的事情

OpenAI 总裁 Greg Brockman 在其社交媒体平台 X 上分享了自己的假期生活。他说在休假期间，与 Arc Institute 团队合作，一起训练基于 DNA 的模型，他非常享受这个过程。他坚信，深度学习技术能够为医学和医疗保健领域带来革命性的变革。同时，Brockman 强调，这项工作不仅至关重要，而且是构建虚拟细胞模型的关键一步，预示着未来在这一领域的重大突破。

51c大模型~合集84_大模型_50

我把 Greg Brockman 的这个帖子翻译了一下。

在我的休假期间，我非常享受与 Arc Institute 团队一起训练 DNA 基础模型。

我一直认为，深度学习应该在医学和医疗保健领域带来前所未有的进步 —— 不仅仅是为了人类，也为动物。我认为这项工作朝着这个方向迈出了重要的一步，是建立虚拟细胞模型的基础性步骤之一。

现代医学的进步在很大程度上来源于我们对生物学的理解。我预测，在未来几年里，我们会发现，与神经网络相比，人类在理解生物学方面其实还差的很远。

神经网络似乎特别适合用于生物学，因为：

DNA 是生物学语言。对人类来说，我们对自己的语言很熟悉，而 DNA 则显得陌生。对于神经网络来说，人类语言和 DNA 都是陌生的。如果神经网络能够像人类使用语言一样流利地使用 DNA，那将是一件非常了不起的事情……
随着更多生物学知识的发现，生物学家们不得不变得更加专业化以应对这一变化。通过研究细胞中某一特定机制，就可能获得博士学位。相比之下，神经网络没有广度上的局限 —— 它们能够轻松吸收所有人类知识。（当然，理解的深度和推理能力仍然有很大的提升空间。）
对于人类来说，大量的数据让生物学显得无比庞杂。而对于神经网络来说，大量的数据通常会带来更好的结果。

从个人角度来看，能够将我现有的神经网络训练和扩展技能应用于一个全新的领域，真的非常有趣。

我觉得自己很幸运，能够暂时加入一个已经取得巨大进展的优秀团队。这也让我再次感受到这项技术的多功能性 —— 从某些角度来看，完全无法理解为什么同一个通用算法和工程方法能够在 DNA 领域取得和语言、代码、图像、视频等领域一样的成果。

总体来说，这让我觉得 AI 领域在过去的 80 年里，实际上是在创造一个 “数据抽象器”，它可以指向任何类型的数据，并推导出有用的结构感知，从而帮助我们改善生活。

我们取得了令人兴奋的进展，Arc Institute 团队在未来几个月应该会有更多的分享！我与他们合作的过程非常愉快，并且我认为，结合计算技术与他们的湿实验室能力，肯定会有许多令人兴奋的发现等待着我们。

Arc Institute 团队对 Greg Brockman 表示了感谢。

51c大模型~合集84_大模型_51

评论区，有人表示 Greg Brockman 在度假期间做的事情，比别人一生都多。

51c大模型~合集84_大模型_52

有人调侃到，这是最有收获的一次度假。

51c大模型~合集84_大模型_53

有人迫不及待的想看到成果。

51c大模型~合集84_大模型_54

今年 8 月 6 日 Greg Brockman 通过 X 宣布将开始休假，一直会休息到年底。

51c大模型~合集84_大模型_55

当时正值 OpenAI 人事发生剧变之时。

11 月 13 日，Greg Brockman 就结束了假期，宣布回归 OpenAI。

51c大模型~合集84_大模型_56

Brockman 在休假时说这是他 9 年来第一次放松，原本以为他会一直休息，没想到他是休假不休息。

Arc Institute 是一家专注于生命科学和生物医学研究的公司，旨在推动科学研究的创新和提高全球健康水平。该公司致力于通过前沿的技术和方法，特别是在基因组学、细胞生物学、数据分析等领域，推动科学发现并加速医疗解决方案的开发。

#OpenAI 12连更第一弹

o1完全体，200刀一个月的ChatGPT Pro

一天前，OpenAI 官方 X 账户的一条推文将 AI 社区的期待值拉满了。这家世界头部 AI 公司宣布将在未来的 12 天进行 12 场直播，发布一些「大大小小的新东西」。

51c大模型~合集84_大模型_57

这是 OpenAI 准备的圣诞礼物。

51c大模型~合集84_大模型_58

至于这些「大大小小的新东西」究竟是什么，各路网友都纷纷给出了自己的预测，大致总结一下主题包括 Sora、完全体 o1、更长的记忆能力、实时视觉能力、Canvas 集成、高级语音模式、Computer Use、智能体甚至 AI 硬件设备等。但究竟如何，还得等着 OpenAI 自己来揭示。

现在，OpenAI 的第一场直播来了！

总结来说，两件事：期待已久的 o1 完全体（Full Version）、200 刀一个月的 ChatGPT Pro。

51c大模型~合集84_大模型_59

OpenAI 著名研究科学家 Noam Brown 发帖表示，o1 完全体不仅能数出「strawberry」里有几个「r」（此前的模型经常在这一问题上栽跟头），还能更进一步，写出「一篇不使用字母『e』的关于草莓的三段短文」（GPT-4o 也尝试了这个任务，但第一个词就失败了）。

51c大模型~合集84_大模型_60

51c大模型~合集84_大模型_61

整场直播时间很短，大概 15 分钟，参与者包括 CEO Sam Altman、研究科学家 Hyung Won Chung 和 Max 以及思维链提出者 Jason Wei。

51c大模型~合集84_大模型_62

视频：https://www.youtube.com/watch?v=iBfQTnA2n2s

o1 完全体

在今年 9 月份，OpenAI 发布 o1-preview 版本时，就曾对 o1 的技术思路进行了介绍：o1 是使用大规模强化学习训练并使用思维链进行推理的系列模型。

今天正式发布了 o1 完全体，也放出了新的 o1 System Card：https://cdn.openai.com/o1-system-card-20241205.pdf

整体而言，o1 完全体是一款更擅长编程、数学和写作的更快且更强大的推理模型，并且现在也增加了对图像上传的支持，这让 o1 可以使用视觉数据来生成更详细和更有用的响应。

OpenAI 表示，OpenAI o1 的思维更加简洁，因此响应时间比 o1-preview 更快。测试表明，o1 的性能也优于 o1-preview，将困难的现实问题的重大错误减少了 34%。

51c大模型~合集84_大模型_63

除了完全体 o1，还有个更轻便的 o1-mini 版本，在编码方面特别高效。

如果你愿意花更多钱，升级到 ChatGPT Pro，还可以体验到 o1 pro 模式。这是 o1 的一个更高级版本，使用更多的计算进行更深入地思考，解答更难的问题。

与 o1 和 o1-preview 相比，o1 pro 模式在数学、科学和编码等 ML 基准测试中表现更佳。OpenAI 发言人表示：「在外部专家测试人员的评估中，o1 pro 产生了更可靠、更准确、更全面的回应，尤其是在数据科学、编程和判例法分析等领域。与 o1 和 o1-preview 相比，o1 pro 模式在数学、科学和编码方面具有挑战性的机器学习基准测试中表现更好。特别是，我们发现在更容易反映日常编程查询的编码竞赛题中，错误率降低了 75%。」

51c大模型~合集84_大模型_64

为了突出 o1 pro 模式的主要优势（提高可靠性），OpenAI 使用更严格的评估设置：只有当模型在四次尝试中有四次能够正确回答问题（4/4 可靠性），而不是一次，才被认为解决了问题。

51c大模型~合集84_大模型_65

正在尝鲜的用户们也在陆陆续续发掘出有关 o1 的更多技术细节，比如所支持的最大 token 数量为 196608。

51c大模型~合集84_大模型_66

具体效果如何？

直播中，OpenAI 进行了演示。

首先，OpenAI 通过一个基于人工鸟巢图像生成安装手册的示例演示了 o1 基于视觉数据进行推理的能力：

识别手绘图像也问题不大。对于一张手绘的太空太阳能驱动的数据中心示意图，o1 轻松估计出了其散热器表面积并解答了两个问题：如何处理太阳和深空环境，以及这里如何体现了热力学第一定律？并且整个推理过程仅需 10 秒钟。

51c大模型~合集84_大模型_67

推理速度方面，在解答「列出二世纪的罗马皇帝的在位时间和成就」的任务中，o1 完全体的推理时间大概为 14 秒，而 o1-preview 大概需要 33 秒。并且 Altman 表示实际部署之后的速度还会更快。

那么，o1 处理更复杂问题的表现如何呢，比如能否基于多条描述推断出所描述的蛋白质种类？（注意这个问题之前的 o1-preview 无法正确解答。）

最终，在 pro mode 下，o1 完全体在思考了 53 秒之后得到了正确答案，并且还可以在 canvas 中了解更多细节。

相当昂贵的 ChatGPT Pro

OpenAI 宣布为其人工智能聊天机器人平台 ChatGPT 推出新的订阅套餐 ——ChatGPT Pro，可以无限制地访问 OpenAI 的所有模型，包括其 o1「推理」模型的完整版本，但价格非常昂贵 —— 每月 200 美元。

51c大模型~合集84_大模型_68

OpenAI 技术人员 Jason Wei 表示：「我们认为 ChatGPT Pro 的受众将是 ChatGPT 的高级用户，他们已经在数学、编程和写作等任务上将模型的能力推向极限。」

与大多数 AI 不同，o1 和其他推理模型可以有效地进行自我事实检查。这有助于它们避免一些通常会使模型出错的陷阱，但缺点是通常需要更长的时间才能找到解决方案。o1 通过任务进行推理、提前规划并执行一系列行动来帮助模型梳理出答案。

OpenAI 在 9 月份发布了 o1-preview，现在新版本 o1 的功能更加强大。

访问 o1 不需要订阅 ChatGPT Pro 套餐。所有 ChatGPT 付费用户都可以通过 ChatGPT 模型选择器工具访问 o1。OpenAI 表示，计划在未来几个月内增加对网页浏览、文件上传等功能的支持。

51c大模型~合集84_大模型_69

当然，升级到 ChatGPT Pro，还可以体验到 o1 pro 模式。o1 pro 模式将「使用更多的计算来为最困难的问题提供最佳答案」。

ChatGPT Pro 用户可以通过在模型选择器中选择「o1 pro 模式」并直接提问来访问该功能。由于生成答案需要更长的时间，如果切换到另一个对话，ChatGPT 将显示进度条并发送应用内通知。

o1 pro 模式可能只是延长了模型在给出答案之前的「推理」时间。OpenAI 在其 o1 预览版公告中表示，它的目标是试验推理时间长达数小时、数天甚至数周的 o1 模型，以进一步提高其推理能力，而这很可能是朝这个方向迈出的一步。

OpenAI 还宣布了一项捐赠计划，向知名机构的医学研究人员赠送 10 套 ChatGPT Pro。该公司表示，他们未来还计划在「各个学科」提供更多捐赠。

为了增加吸引力，ChatGPT Pro 还包括无限制访问 GPT-4o 和高级语音模式（ChatGPT 的人机对话功能）。ChatGPT Plus 用户有每日使用时间限制，而免费用户仅限于预览。

然而，ChatGPT Pro 是 OpenAI 目前最昂贵的订阅服务，是 ChatGPT Plus 的 10 倍。考虑到许多用户已经认为 ChatGPT Plus 太贵，ChatGPT Pro 可能很难卖出去。

实际上，高级 ChatGPT 的涨价传闻由来已久。据《纽约时报》报道，到 2029 年，OpenAI 预计 ChatGPT Plus 的月收费将达到 44 美元。根据 The Information 的报道，该公司还萌生了超高价商业订阅的想法，这些订阅可提供额外的功能，并可访问正在开发的模型。

现在看来，这些传闻基本属实。

这些举措反映出投资者对 OpenAI 缩小亏损的压力。据《纽约时报》报道，虽然该公司 8 月份的月收入达到了 3 亿美元，但 OpenAI 预计今年将亏损约 50 亿美元。人员、办公室租金和 AI 训练基础设施等开支都是亏损的根源。据报道，仅 ChatGPT 一项就一度让 OpenAI 每天损失 70 万美元。

OpenAI 的第一天直播最终在一个与圣诞相关的笑话中结束：

圣诞老人希望使用 LLM 来解决数学问题，他努力使用了很多提示词，但效果都不好，那么他最终怎么解决了这个问题呢？

答案是他使用了 reindeer forcement learning。

51c大模型~合集84_大模型_70

对于今天的发布，你怎么看呢？

参考链接：https://techcrunch.com/2024/12/05/openai-confirms-its-new-200-plan-chatgpt-pro-which-includes-reasoning-models-and-more/

https://www.youtube.com/watch?v=iBfQTnA2n2s

#生成+理解一体多模态大模型的思考

现在的（支持生成+理解一体）多模态大模型，主要分成那些方案？以语言模型为核心

• Emu3（支持video、img、text任务，纯自回归（AR）损失）
• Chameleon（img、text任务，纯AR loss）
• Show-o（图像部分双向attention，类似于MaskGit，文字部分AR loss）
• Janus（用两种视觉编码器，ViT类用于理解性任务，VAE类用于生成任务，text和img都是纯AR loss）

语言模型+扩散模型

• TransFusion（文字部分ar loss，图像部分ddpm loss）
• JanusFlow（文字部分ar loss，图像部分rf loss）

不同方案有什么共性的结论？

• 以LLM为核心的架构在train和inference阶段更容易scale（得益于语言模型的发展），但是目前的工作并没有scale特别大，效果也没有特别顶的。
• 在模型尺寸大致comparable的情况下，加上diffusion还是比纯LLM架构的视觉生成效果好些【是LLM适配生成任务需要提升，还是scale不够？】。
• 视觉部分用两种编码器（ViT类用于理解性任务，VAE类用于生成任务），对于多模态理解和生成任务都有帮助。说明现在视觉编码器的发展主要其实还是分为理解、生成两类，每一类编码器只可以在自己的任务上发光发热，在另外的领域fintune后效果也一般。

大规模多模态模型训练细节

• Chameleon是from scratch训练，主要针对如何稳定大规模的训练，trick和干货很多，包括监控输出范数来作为stability的indicator，QK-Norm来mitigate softmax的logit shift问题，Normalization换位来提升稳定等。
• Emu3也是from scratch训练，主要分享了下pretrain，post train，DPO的一些detiails。
• Janus系列文章分享了自己的训练框架、时长，以及使用了sequence packing来提高训练效率。不过1.3B的模型的结论和经验在scale后是否能maintain需要之后的工作去验证。

未来方向？

• unify生成+理解一体的视觉编码器到底如何设计，目前有一些工作例如titok已经做了一些相关贡献，但是到现在还没有把他放在大scale多模态大模型上真正work的方案？
• 在visual encoder，visual foundation model层面，视觉生成、理解任务到底如何统一？代理任务或者loss到底如何设计？甚至视觉生成、理解任务能否用一个visual foundation model就可以统一，还是短期来看就是要分开？
• LLM的ar架构现在被证明是一种不错的表征、压缩方案，但是其会出现误差累计问题，不太适用于视觉生成任务。Diffusion是一种适用于连续信号的生成方案，可以修复一些误差累计问题，当LLM输出的多模态特征信息含量足够，甚至可以非常小的Diffusion来作为轻量化的视觉生成task-specific head。所以中长期来看，LLM+Diffusion的方案是否值得持续投入？

#亚马逊云科技用生成式AI

向开发的复杂性动手了

生成式 AI、分布式扩展功能全面进化，还降价了。

同一天的发布，完全不同的方向。

今天凌晨，云计算巨头亚马逊云科技的 re:Invent 与大号创业公司 OpenAI 的发布「撞了车」。后者公布了一系列生成式 AI 应用，价格更贵、性能更强大，而前者则致力于简化生产力矛盾，降低价格。

不约而同的是，他们的发力点都在生成式 AI 等新技术的应用上。

正如亚马逊副总裁兼 CTO Werner Vogels 博士在演讲时所说的，想要做好基础设施，问题的核心是「复杂性」。「Complexity」这个单词，在他整场演讲中出现了近 70 次。

51c大模型~合集84_大模型_71

在《Lessons in Simplexity》（繁简之道）中，Werner Vogels 将自己在亚马逊 20 年构建底层架构的经验浓缩为六条金句，句句有关人们如何面对日益复杂的技术系统。台上的 PPT 每一次翻页，都让台下的观众默契地举起手机。

这六条经验是这样说的：

Lesson 1 - Make evolvability a requirement
Evolvability is a prediction for managing complexity
将可演化性作为一项要求，可演化性是应对复杂性的一种预判

Lesson 2 - Break complexity into pieces
Disaggregate into building blocks with high-cohesion and well-defined APIs
将复杂性拆解成多个部分，分解为内聚性高且有明确定义 API 的构建模块

Lesson 3 - Align organization to architecture
Build small teams, challenge the status quo, and encourage ownership
让组织与架构相匹配，组建小团队，挑战现状并鼓励主人翁意识

Lesson 4 - Organize into Cells
In a complex system you must reduce the scope of impact
组织成单元形式，在复杂系统中必须缩小影响范围

Lesson 5 - Design predictable systems
Reduce the impact of uncertainty
设计可预测的系统，降低不确定性的影响

Lesson 6 - Automate Complexity
Automate everything that doesn’t require high judgement
使复杂性自动化，将不需要高度判断力的一切事务自动化

化繁为简，正是亚马逊云科技希望帮助千行百业用户做到的事情。这几天的大会上，亚马逊云科技概述了一系列围绕云计算、云数据库的创新。

如何让开发者和用户感受到「简单了」？答案是进化。亚马逊云科技还详细介绍了其整体战略，并概述了向量数据库是如何对生成式 AI 提供加持的。除了一系列创新，还有降价措施，包括 Amazon DynamoDB 的按需定价降低了 50%。

简单点，再简单点。这几乎是当下所以企业用户引入生成式 AI 技术时的共同诉求。

在今年的 re:invent 2024 发布内容中，这一原则体现的淋漓尽致。

AI Agents

让复杂的技术系统自动运转

最近一段时间，智能体（AI Agents）是生成式 AI 领域的重要发展方向，一系列应用快速落地。先有 Anthropic 基于最新的基础大模型 Claude 3.5 Sonnet 提出了可以操纵 PC 的智能体功能，紧接着荣耀展示了基于新一代操作系统 MagicOS 9.0 的全局智能体。在生产力端，微软也在 10 月推出了多种 Copilot 智能体，包揽了销售、服务、财务、供应链团队的任务。

其实在企业开发环境中，AI 智能体的引入也早已开始。

去年在 re:Invent 大会上，亚马逊云科技预览了生成式 AI 助手 Amazon Q Developer，它可用于跨集成开发环境（IDE）的设计、构建、测试、部署和维护，其中就有一系列 AI 智能体的能力。

比如，Amazon Q Developer 可以自动分析代码库、生成转换计划并执行转换任务，包括升级和替换 NuGet 包和 API、重写已弃用和低效的代码组件，以及移植到跨平台 .NET 等等。

今年 4 月， Amazon Q Developer 全面上市，并增加了更多功能，例如支持 AWS 命令行界面（AWS CLI）、Amazon SageMaker Studio、AWS CloudShell 以及内联的对话功能，以便开发者在 IDE 中进行无缝编码操作。

51c大模型~合集84_大模型_72

Amazon Q Developer 的一大价值在于，各个领域的专家通过自然语言交互就能构建准确、生产质量的模型，即使他们不具备生成式 AI 开发方面的专业知识。任何团队都能够更快地创新并缩短上市时间，同时减轻了对技术专家的依赖，或者说，原本储备的技术专家可以专注于更复杂的技术挑战。

现在，Amazon Q Developer 的智能体功能有了更多的扩展，包括：1）增强代码库中的文档 (/doc)，2）支持代码审查以检测和解决代码质量问题 (/review)，3）在 IDE 或 GitLab Duo with Amazon Q（预览版）上自动生成单元测试、提高整个软件开发生命周期的测试覆盖率（/test）的功能。

新版 Amazon Q Developer 强化了用于 .NET、大型机和 VMware 等工作负载的转换功能。亚马逊云科技还宣布在 Amazon Q Developer 中推出了帮助调查和修复运营问题的新功能预览版。

Amazon Q Developer 正在改变传统的开发工作流程，让开发环境中集成各种生成式 AI 功能。这种无缝集成有助于人们保持专注，同时加速除代码之外的各种开发任务，从而提高生产力。

Amazon Q Developer 还把智能体带入到了 GitLab，将其转变为支持 AI 驱动的 DevSecOps 统一开发体验，能利用 AI 智能体来协助复杂的多步骤任务，并提供增强的代码审查和单元测试功能。

亚马逊云科技表示，通过 GitLab 快速操作与 Amazon Q Developer 的交互非常简单：直接在问题描述、一般评论或合并请求评论中输入 /q，开发者即可呼叫 AI 能力来帮助处理日常任务和复杂的工作流程。

从一系列新能力中，我们可以看到，亚马逊云科技对于 AI 智能体能力的应用有别于微软、Anthropic 等提出的方案，前者更多基于自身的微服务，更加面向具体的工作目标。

可以说，亚马逊云科技长久以来基于真实工程任务的经验塑造了其生成式 AI 工具的可用性。这种面向生产的技术能够帮助开发者们更快地部署新能力、简化工作流程、管理状态，并在专门的智能体之间动态分配任务。

这些 AI 能力想必会很快获得大规模应用，毕竟在生产环境中，实用性说了算。

一个窗口搞定所有开发

下一代 Amazon Sagemaker 拿捏了

生成式 AI 技术的确抬高了技术系统处理复杂任务的能力，但与此同时带来的系统复杂度提升，也成为了一座难以跨越的大山。

对于各家所有云服务和数据平台提供商来说，这个问题更加值得深入思考——因为它们的客户分布于千行百业，需求各不相同。

在这一次有关于生成式 AI 的发布中，亚马逊云科技化零为整，将所有的数据管理、AI 开发、分析能力打包装进了下一代 Amazon SageMaker。

Amazon SageMaker 诞生至今已有数年，最初是它只是一项用于开发和部署机器学习模型的托管服务。但在随后的几年里，这项服务一直在沿着 AI 技术的演化稳步进行现代化改造。

如果说前几年亚马逊云科技始终专注于大幅扩展 Amazon SageMaker 的功能，那么今年，「精简」是新的目标。它是所数据、分析、和 AI 需求的中心，包含全新发布的 SageMaker Unified Studio 以及 SageMaker Lakehouse，集成数据目录与治理，支持数据源的无缝对接，将数据分析、数据治理以及 AI/AL 整合于一体。

全新发布的 Amazon SageMaker Unified Studio 就像是一个「全家桶」，既有积累多年的机器学习开发功能，又加入了之前分散的数据管理和应用程序开发服务，几乎涵盖了数据探索、准备和集成、大数据处理、快速 SQL 分析、机器学习 (ML) 模型开发和训练以及生成式 AI 应用程序开发所需的所有组件。

基于新版本的 Amazon SageMaker HyperPod，用户只需几分钟即可开始训练和微调这些基础模型并获得最先进的性能，包括 Llama 3.1 405B。

当然，Amazon SageMaker Unified Studio 也内置了 Amazon Q Developer，用来提供辅助。必要的时候，开发者可以直接使用自然语言提问，比如「我应该使用哪些数据来更好地了解产品销售情况？」或「生成 SQL 以按产品类别计算总收入」。

除了 Amazon SageMaker Unified Studio 之外，亚马逊云科技还推出了 Amazon SageMaker Catalog 和 Amazon SageMaker Lakehouse。前者允许管理员使用具有精细控制的单一权限模型定义和实施 Amazon SageMaker 中 AI 应用程序、模型、工具和数据的访问策略，后者提供了从 Amazon SageMaker 和其他工具到存储在 AWS 数据湖、数据仓库和企业应用程序中的数据的连接。

这种转变的决心来源于亚马逊云科技对客户需求变化的洞察。生成式 AI 技术的爆发直接改变了数据团队和开发团队的合作方式，逐渐走向无缝协作的境界，目前的显著挑战在于数据孤立且分散在各个系统中，他们必须构建和维护复杂的数据管道，而且由于访问控制不一致，团队难以有效地访问和使用数据。

这也是为什么亚马逊云科技在迭代时，选择将数据、分析和 AI 集成到同一个界面中的原因。

通常来说，生成式 AI 开发中混合的模型类型和数据类型越多，就越能丰富分析输出、丰富业务工作流程。而 Amazon SageMaker Unified Studio 在集成上迈出的这一步，减少了用户用于管理多方面数据和多方面分析的工具和平台数量，带来了技术系统复杂性的大大降低。

数据存储、数据库的「加减法」

为用户减负做到极致

在部署和调用生成式 AI 的过程中，开发人员和企业用户会遇到很多难题，尤其在数据层面，要全方位考虑数据存储、数据库建设与迁移等不断演化的事实以及随之而来，对技术和功能的更高要求。

正如 Werner Vogels 在会上所言，「软件系统必须要具备轻松适应未来变化的能力」。面对数据层面日新月异的变化，亚马逊云科技从一开始便要在基础架构的可演化性层面下足功夫。

针对数据存储，亚马逊云科技早在 2006 年就推出 Amazon S3（Simple Storage Service）云服务，成为其高度可扩展、持久、安全且低成本的多类型数据存储基础设施。此后，Amazon S3 在功能演化的同时注重做减法。新推出的 Amazon S3 Tables 功能支持 Apache Iceberg 格式的云存储，相较通用 S3 存储桶提供了 3 倍的查询性能、10 倍的每秒事务数（TPS），并能自动管理表维护任务。

如今 Amazon S3 微服务数量已经达到了 300+ 个，通过微服务架构将整个应用拆解为多个独立、功能明确的子服务，与 S3 的交互被大幅简化，相应的数据存储在独立的 S3 存储桶中，有助于数据隔绝管理，还能轻松扩展存储容量、确保高可用性和数据持久性。

可以看到，Amazon S3 的演化历程呼应了 Werner Vogels 所说的将复杂性分解成小的构建模块、组织成单元形式并在复杂系统中缩小影响范围等经验，既精简了流程，也降低了用户的使用门槛。

不仅如此，亚马逊云科技还进一步更新 Amazon S3 的一项默认行为，自动验证用户数据是否通过网络从应用程序正确传输到 S3 存储桶中。并且 S3 可以在数据到达服务器时计算并校验数据完整性，主动监控数据的冗余性，减少并发故障的出现。

51c大模型~合集84_大模型_73

数据库是每个应用程序的基础构建块，客户要依靠它们来搞定自身最关键的工作负载。为了更高效支持用户在 Amazon EC2（Elastic Compute Cloud）上运行数据库，亚马逊云科技推出 Amazon Aurora DSQL（分布式 SQL 数据库）、Amazon DynamoDB NoSQL 全局表、Amazon MemoryDB 多区域功能，进一步保障需要跨多区域运行的最苛刻工作负载。

与其他流行的分布式 SQL 数据库相比，Amazon Aurora DSQL 能帮助用户构建具有最高可用性、强一致性、兼容 PostgreSQL 且读写速度提升 4 倍的应用程序，进而实现进阶版的系统分解、低耦合 / 高内聚、定义明确的 API 以及细粒度控制、独立扩展和定制化安全。

Amazon DynamoDB 全局表支持多区域强一致性，确保用户的应用程序始终在全局表的任何区域读取最新数据，消除了跨多个区域管理一致性的繁重工作，并且无需更改任何应用程序代码。

Amazon MemoryDB 多区域功能则可以进一步帮助用户构建 99.999% 高可用性、全球分布的应用程序，并实现微秒级读取和个位数毫秒级跨区域延迟。

51c大模型~合集84_大模型_74

最后，亚马逊云科技在 Amazon S3 文件传输和数据库迁移服务两个方面也竭力为用户减负。其中通过 Transfer Family Web 应用程序，用户可以创建一个完全托管的 Web 应用程序，轻松地列出、上传、下载、复制和删除特定 Amazon S3 中的数据。DMS（Database Migration Service）的 Schema Conversion 现在可以使用生成式 AI 来自动执行耗时的数据库架构转换，自动化率达到 90%，无疑会大大减少手动工作量。

可以预见，亚马逊云科技通过持续功能上的加法、用户部署上的减法，让人们得到了在数据存储和数据库层面的最优选择，质优、价低、上手易，赢得更多青睐也是理所当然。

越简单，越强大

如今，生成式 AI 已经进入到了比拼落地能力的关键阶段，对于众多应用开发者来说，关注点不仅仅是模型强不强，更关注好不好用、用不用得起。相关基础设施和配套服务的完善程度很大程度上将决定用户的选择。

这几天的 re:Invent 大会，无时无刻不在释放这样一种信号：亚马逊云科技不仅要在大模型的能力上对标甚至超越 OpenAI、谷歌、Anthropic，更要践行用户为上的理念。

「为用户创造价值」说来简单，但拆解开来，将是一场漫长的变革：不断将产品和服务的复杂性降到最低，通过功能创新、AI 自动化流程来简化一切客户体验。

51c大模型~合集84_大模型_75

一旦我们习惯了如此简单、强大的技术系统，就很难再想象没有它的日子。

2024 年行将结束的当口，终于有一家公司把生成式 AI 与生产力切实结合到了一起。不得不说，亚马逊云科技为生成式 AI 的落地，吹响了加速的号角。

#杭州95后学霸坐C位

Grok 3登顶App Store！Hinton高徒、多伦多华人博士领衔

官宣免费后，Grok火速登顶美区App Store榜首，同时，xAI也放出官方博文，秀了一把模型的数学、代码、ASCII Art演示。最引人瞩目的两位C位华人，均来自多伦多大学，分别和Hinton、Bengio有交集。

昨日官宣免费不过几小时，Grok直接在美区App Store榜一。

马斯克甚至欣喜地表示，这还没有集成语音模式，未来几天即将上线。

付费用户可以提前体验Grok 3语音模式

这场史诗级发布，焦点不仅仅在Grok 3上，还有发布会现场坐在C位的两位华人科学家。

一位是多伦多大学计算机科学助理教授Jimmy Ba，另一位是xAI联创吴怀宇（Tony Wu）。

值得一提的是，吴怀宇是四人当中唯一一个95后，毕业于杭州建兰中学，博士期间在多伦多大学，曾是AlphaGeometry、AlphaStar核心开发者。

Jimmy Ba还是AI大佬Hinton的学生。

Igor Babuschkin、Jimmy Ba、吴怀宇、马斯克

值得一提的是，Grok 3 Beta官方技术博客也终于出炉了，被称为跨入推理智能体时代的AI。

20(/10)万块GPU训出的首款Grok，在推理、数学、编码、世界知识等任务方面，取得了显著提升，成功为Scaling Law续命。

博客详细介绍了Grok 3的各个功能和基准测试结果

xAI最强智能系统

18号，xAI推出了迄今为止最先进的模型Grok 3：它将强大的推理能力与广泛的预训练知识融为一体。

Grok 3在xAI的Colossus超级计算集群上训练，运算能力是现有顶尖模型的10倍，在推理、数学、编程、世界知识和指令遵循任务方面都表现出显著提升。

Grok 3的推理能力通过大规模强化学习（RL）得到提升，使其能够进行持续数秒到数分钟的思考，纠正错误、探索替代方案，并提供准确答案。它在学术基准测试和真实用户偏好方面都表现出色，在Chatbot Arena中获得了1402的Elo评分。

与此同时，xAI还推出了Grok 3 mini，代表着高效推理的新突破。

更深入的思考：测试时计算与推理

Grok 3（Think）和 Grok 3 mini（Think）这两个beta版的推理模型，使用RL进行训练，规模前所未有。因此，CoT推理过程得到提升，实现了高效的高级推理。

RL训练后的Grok 3（Think），学会了完善问题解决策略，还能用回溯来纠正自己的错误、简化步骤，并且会利用预训练中获得的知识。

就像人类面对复杂问题时一样，它会花费几秒到几分钟的时间去推理，还能用多种方法验证答案，评估如何精准满足要求。

比如这个问题「人生的意义是什么？」

Grok 3会花费4秒钟思考，总结说：对生命意义的追问，是人类几百年来的困难，表现形式会因提问者和所看重的东西而大相径庭。

这两个模型虽然仍在训练中，但在多个基准测试中已经展现出卓越的表现。

xAI表示，他们在2月12日（仅7天前）发布的2025年美国数学邀请赛（AIME）上测试了这些模型。

他们使用最高级别的测试时计算参数（cons@64），Grok 3（Think）在这项竞赛中达到了93.3%的正确率，在研究生级别的专家推理测试（GPQA）中达到了84.6%的成绩，在代码生成和问题解决的LiveCodeBench测试中达到了79.4 %。

此外，Grok 3 mini在不需要太多世界知识的科学、技术、工程和数学（STEM）任务中实现了高效推理能力的新突破，在2024年AIME中达到95.8 %的正确率，在LiveCodeBench中达到80.4 %的成绩。

要使用Grok 3的推理能力，只需点击「Think」（思考）按钮即可。

Grok 3（Think）的思维模式完全开放，使用户不仅可以看到最终答案，还可以了解模型的完整推理过程。它的推理能力可以广泛应用于各类问题领域。下面，让我们看看Grok 3的一些推理示例。

代码

在这个任务中，Grok 3被要求用pygame创建一款混合两种经典游戏的的混合游戏，看起来要很漂亮。

思考6分钟后，Grok 3给出了完整的代码实现。

它做出了一个功能完整的2D游戏，代码结构清晰，注释详细，易于理解和修改。游戏结合了经典元素（Breakout 和 Pong），娱乐性拉满。

而视觉效果，是通过粒子和颜色增强呈现的。

51c大模型~合集84_大模型_76

上下滑动查看

所以，Grok 3是怎样满足「让游戏看起来很漂亮」这个要求的呢？

它用五彩斑斓的砖块、砖块破碎时的粒子效果、渐隐粒子等，实现了动态的外观呈现。

另外，Grok 3还有一些更加别具匠心的设计，比如添加弹跳的音效，使用更大的球拍、更快的球增加力道、添加背景渐变等。

51c大模型~合集84_大模型_77

ASCII Art

这个任务中要求Grok 3创建一个高保真Frank Lloyd Wright风格住宅的ASCII字符艺术。

Frank Lloyd Wright是一位著名的美国建筑师，以其有机建筑风格著称，作品通常与自然环境融为一体，特征包括水平线条、开放空间和大窗户。

Grok 3思考了3分钟后开始输出它的作品。

51c大模型~合集84_大模型_78

可以看出，Grok 3生成的图片通过ASCII字符生动地再现了Frank Lloyd Wright草原风格建筑的经典特征。设计简洁而富有层次感，完美捕捉了草原风格建筑的本质。

图片下方还提供了详细的设计说明和注意事项，解释了每个ASCII字符的象征意义：屋顶用斜线和横线强调水平线条，烟囱位于屋顶左侧增加平衡，墙壁和窗户强化水平延伸，基础线体现有机整合。

上下滑动查看

24点游戏

这个任务中，Grok 3被要求用4、4、10、10来玩24点游戏，目标是添加加减乘除运算符，得出24。

它需要选出，成功完成这个游戏的第一个运算是什么。

思考3分钟后，它得出了解法：使用((10×10)−4)÷4这个表达式，因此选出答案F。并且，它还进一步进行了验证，排除了其他选项的可能性。

51c大模型~合集84_大模型_79

上下滑动查看

数学

接下来，是一道难度不小的数学题。

这道题给出了一个递归定义，涉及到了正整数n和一系列从集合{1,…,n} 中均匀随机选择的整数m_n,k。

最终，题目要求计算出期望值E(n)，并求出在n趋于无限时，E(n)/n的极限值。

Grok 3思考了4分钟后，确定了自己需要完成的步骤。

首先，需要分析状态空间和转换，然后要定义漂移项和期望值的递推关系，第三步要解决递归，最后一步就是计算极限。

最终，Grok 3给出了最终答案：(1-e^(-2))/2。

51c大模型~合集84_大模型_80

上下滑动查看

超大规模预训练

当不启用推理功能时，Grok 3能够即时提供高质量回答。

在常规模型（非推理模式）中，Grok 3在多项学术基准测试中均达到了SOTA，这些测试包括：研究生级科学知识评估（GPQA）、高级通用知识测试（MMLU-Pro）、数学竞赛解题能力（AIME）等。

同时，Grok 3在图像理解能力测试（MMMU）和视频内容理解任务（EgoSchema）中也展现出卓越表现。

Grok 3的上下文处理窗口可达100万个token，是Grok 2的8倍，这使其能够处理超长文档并响应复杂提示词，同时保持极高的指令执行准确度。

在专门测试长文本RAG能力的LOFT基准测试（支持128k长度）中，Grok 3在12项不同任务的平均准确率上达到了SOTA，充分展示了其卓越的信息检索能力。

Grok 3同时在事实准确性和文风把控方面都取得了显著提升。以代号「chocolate」发布的Grok 3早期版本在LMArena Chatbot Arena排行榜上独占鳌头，其Elo评分在所有评估类别中均超越竞争对手。

目前，xAI正在扩大发展规模，准备利用配备20万个GPU的计算集群来训练更大规模的模型。

Grok智能体：融合推理能力与工具运用

为了理解宇宙，xAI让Grok与现实世界实现交互。通过整合Code Interpreter（代码解释器）和互联网访问能力，Grok 3模型能够主动查询所需的上下文信息，灵活调整处理方法，并通过反馈不断优化其推理能力。

作为实现这一愿景的第一步，xAI推出了他们的首个AI智能体——DeepSearch。

这是一个反应极速的AI智能体，专注于在浩瀚的人类知识库中持续探索真相。

无论是实时掌握最新资讯，解决社交难题，还是开展深度科研工作，DeepSearch都能提供远超普通搜索引擎的体验。它最终会生成一份精炼而全面的总结报告，助你在这个快速发展的世界中把握先机。

两位华人坐镇C位，还有一位杭州95后

Grok 3直播画面中，马斯克与三位技术负责人并肩而坐，一开场，还谦虚地说自己什么也没干。

其中两位华人颇有缘分，Jimmy Ba和吴宇怀均在多伦多大学完成了博士学位。

个人资料显示，Jimmy Ba目前是多伦多大学计算机科学系助理教授，他的学士、硕士学位也是在多伦多大学完成，导师分别是Brendan Frey和Ruslan Salakhutdinov。

博士期间，曾在Geoffrey Hinton指导下完成了学业。

Jimmy Ba还曾获得了2016年Facebook研究生奖学金，2023年诺奖风向标「斯隆研究奖」。

提及个人贡献，Jimmy Ba曾提出了大名鼎鼎的深度学习训练算法Adam优化器，这是一种自适应学习率的优化算法。

这篇发表在2015年的论文，被引数量突破了20万。

另一篇被引最高的论文，是与Hinton一起完成「层归一化」（Layer Normalization），一种深度学习中用于优化神经网络的方法。

另一位吴宇怀，是一位名副其实的95后学霸。

小学一年级就读于新安江一小，后转学到杭州紫阳小学。到了初中，进入杭州建兰中学学习，随后高中又转到加拿大。

他的职业生涯更为丰富，从OpenAI、谷歌DeepMind，到斯坦福博士后研究员、谷歌研究科学家，再到如今xAI联创，走出了不同寻常的人生轨迹。

他曾参与了许多人熟知的AI研发，比如STaR、Minerva、AlphaGeometry、Autoformalization、Memorizing Transformer、AlphaStar等。

吴怀宇也曾与图灵奖得主Bengio有交集，在2016 NrurIPS上，他们与多位合著者共同提出了Multiplicative Integratio架构，共同改善循环神经网络。

论文地址：https://arxiv.org/pdf/1606.06630

除了他们两人，事实上，xAI团队还有不少有名的华人科学家。

联创Greg Yang(杨格)，出生在湖南，本硕就读于哈佛大学数学系，大学时期的导师是数学家丘成桐。在加入xAI前，他是微软的高级研究员，负责AI理论研究。

他的学术生涯充满传奇色彩，在哈佛求学期间，他曾两度休学，一次是为了追求自己的DJ梦想，另一次则是为了深入研究数学。于2018年荣获摩根奖（Morgan Prize）荣誉奖，现研发TensorPrograms理论和扩展神经网络的实践。

他的研究方向深受数学驱动，他曾在社交平台上写道：「Math for AI, and AI for Math!」（数学推动AI，AI反过来也能推动数学）。在AI研究人员眼中，他不仅是一位科学家，更是一位愿意挑战AI理论极限的数学家。

清华校友Zihang Dai（戴子航），前谷歌大脑研究员，获得了清华和CMU的学位。此前，他还在百度美国分公司和蒙特利尔大学的MILA进行过研究实习。

戴子航本科毕业于清华大学计算机科学系，大学期间，连续三年拿下专业第一，并在大三暑假，师从著名计算机视觉专家朱松纯开展研究。2020年博士毕业于卡内基梅隆大学计算机系，随后加入谷歌研究院。

他在自然语言处理（NLP）领域拥有深厚的积累，尤其擅长Transformer架构的优化与创新。他曾在谷歌和百度美区实习，并在多个顶级AI会议上发表论文。

浙大校友Guodong Zhang（张国栋），也是机器学习和人工智能领域的研究者，曾就职于多伦多大学和矢量研究所（Vector Institute），因研究大模型训练、微调、对齐而闻名。

他本科就读于浙江大学信息工程专业，大学时连续三年排名专业第一，拿了三年的国家奖学金，还获得过全国大学生数学建模竞赛一等奖，美国大学生数学建模竞赛一等奖。

大二时，他对人工智能产生了浓厚兴趣，投入到计算机视觉领域的研究中；大三暑假，跟着全球著名计算机视觉专家朱松纯从事相关研究。加入xAI之后，他的研究方向主要聚焦于如何优化AI训练效率，并提升模型的稳定性。

另有网友绘制了一幅xAI成员背景图，可以看华人学者占据近一半比例。

参考资料：

https://x.ai/blog/grok-3

https://x.com/elonmusk/status/1892578053135425969

https://hznews.hangzhou.com.cn/kejiao/content/2025-02/19/content_8863698.htm

https://www.fortunechina.com/zhuanlan/c/2025-02/19/content_462665.htm

#xxx

上一篇：51c大模型~合集83

下一篇：51c~网络相关~合集1

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯