#纽约大学教授感受到了AI博士生的焦虑与挫败
2024 年 12 月 10-15 日,今年度的 NeurIPS 已在加拿大温哥华成功举办。今年的会议上,我们看到了 Ilya Sutskever 关于预训练即将终结的预测,也看到了引发广泛争议的 MIT 教授 NeurIPS 演讲公开歧视中国学生的事件。
该会议也展现了人工智能领域的研究盛况 —— 本届 NeurIPS 共收到 15671 篇有效论文投稿,比去年又增长了 27%,但最终接收率仅有 25.8%。如此低的接收率就必然意味着许多研究者的失意和挫败。但这并不是研究者们感到挫败的唯一原因。
近日,纽约大学计算机科学和数据科学教授、生物技术公司 Prescient Design 联合创始人兼资深主管 Kyunghyun Cho 一篇题为「我在 NeurIPS’24 上感受到了焦虑和挫败」的博客文章引发了广泛讨论。他在文中指出,现在许多博士生和博士后很有挫败感,因为许多学校培养的本科生就已经具备企业所需的标准化机器学习开发技能,而大量博士生却因此找不到合适的工作;原因是随着 AI 相关技术的产品化,企业对博士技能(研究和创新)的需求已经大幅下降,而更多需要支持其产品迭代的工程师。
看完这篇文章后,许多读者也分享了自己的经历和看法。
有 AI 博士现身说法,指出很多博士研究者对学术环境之外的状况关注不足,从而对未来的职业有了过高的期待。
一些读者对文章表示认可,表示要在科技行业工作,光有专业技能还不够,还得通过 leetcode / 系统设计和领导力准则考试。
而博士研究者虽然收入高,但行业需求不足,毕竟一家公司并不需要那么多研究科学家:
但也有读者并不认可,表示参加 NeurIPS 的人已经有顶会论文傍身,找份工作应该不难。
以下是 Kyunghyun Cho 教授的博客全文,也请与我们分享你的经历和看法。
我在 NeurIPS’24 上感受到了焦虑和挫败
上周在 NeurIPS’24 上,一个非常突出的现象是:四年级博士生和博士后表现出了焦虑和挫败,他们对就业市场感到困惑,因为无论是看起来还是感觉上,就业市场与他们五年前申请博士项目时的预期大不相同。并且,其中一些博士生和博士后正是在我自己的指导之下。这让我反思人工智能研究和开发领域正在发生的情况。这篇文章更像是一连串的思考,而不是一篇结构良好的文章(不过我好像也没有写过一篇结构良好、经过深思熟虑、准备充分的博客文章。)。
对机器学习领域以及更广大的人工智能领域而言,过去十年左右是一段非常有趣的时间。从 2010 年左右的语音识别开始,深度学习已经在当年的最佳技术上实现了大幅提升,并且已经可以解决多种多样的高难度也实用的问题,比如从图像中识别物体和机器翻译。到 2014 年,很明显大的要来了,每一家大公司,无论是不是科技公司,都想确保自己是这场持续革命的一部分,并从中获利。
由于那时候,深度学习很多年来都未曾成为主流,因此几乎没有本科课程严肃地教授深度学习背后的基本思想和技术。事实上,当然许多机器学习和人工智能课程都只会简单提到人工神经网络。于是,深度学习人才方面出现了巨大的供需不平衡,这就迫使那些比其他公司更早看到这场革命的公司激进地从全球少数实验室招募博士生。
因为当时世界上只有少数几个实验室在认真研究深度学习(不像现在这样),所以公司们都在激烈争夺这些实验室的毕业生甚至教授。这种激烈的争夺自然导致这些拥有人工神经网络经验和专业知识的博士生的薪酬大幅增加。这使得人工智能领域中的学术薪酬与行业薪酬之间的差距还要更大,让大学很难招募到此类人才来教育学生。事实上,在 2010 年至 2015 年期间获得博士学位并且在攻读博士学位期间研究人工神经网络,并作为终身教职人员加入大学的人非常少,我就是其中之一。这种现象自然会导致人才供应的增加大大延迟,而需求还在继续飙升。
这种激烈的人才争夺有一个有趣的副作用:即使这些人才不能为营收或利润做出贡献,公司也会招募他们。这些公司聘用他们的原因是为不可避免的、迫在眉睫的革命做好准备 —— 这场革命将改变他们所做的一切。因此,那时候很多被聘用的博士的任务就是自由地做研究;也就是说,他们可以选择自己想做的事情,发表自己想发表的文章。这就像一个学术研究职位,但薪酬是原来的 2-5 倍,而且外部可见度更高,没有教学任务、行政开销,也没有不断撰写资助提案的压力。真是一个绝佳的机会!
我想,这在当时的学生看来是个不可错过的机会,包括大学生和高中生(甚至初中生)。有机会获得惊人的金钱回报、优厚的福利,可以自由选择自己喜欢的研究课题,只要它是在人工智能领域内。然而,这个机会看起来只提供给在人工神经网络方面发表过学术论文的博士。这就导致大量的博士申请者申请成为(现在所谓的)人工智能博士生(AI PhD students)。
申请者的大量涌入并不一定意味着我们最终会有大量博士生,因为限制博士生数量的并不是申请者的数量,而是导师的数量。虽然 15 年前那会儿,研究人工智能的实验室并不多,但到 2016 年时,许多教授已经将他们的实验室转型为深度学习实验室,并通过招收大量博士生来积极扩大实验室规模。
因此,我们似乎已经造出了一个非常好的 AI 人才训练管道。很多优秀的学生申请攻读博士学位。大量研究 AI 的教授录取并培养这些优秀的学生成为下一代博士。少数大型科技公司和其他公司用难以想象的优厚薪酬和研究自由来聘用他们。
然而,事后看来,这显然是不可持续的。要继续下去,唯一的办法就是让深度学习继续成为能够在五年内彻底改变行业(甚至整个社会)的东西,而且每年都必须是五年。如前所述,公司正在招募这些人才,并投资建设给他们进行研究的环境,以应对未来不可避免的变化。换句话说,他们必须为未来做准备,才能让这条管道继续下去。
第一代幸运的博士(包括我!)是因为运气好(或不好)进入了这个领域,而不是因为职业前景;之后,我们开始有一系列更聪明、更有目标的博士从事深度学习工作。因为这些人非常有动力,他们不是靠运气而是靠他们的优点和热情被选中。他们开始取得更快、更明显的进步。不久之后,这些进步开始以实际产品的形式出现。尤其是以大规模对话语言模型为代表的大规模模型开始展现出:这些产品是真正革命性的产品,既可以改变未来,又可以在当下产生经济价值。换句话说,通过将深度学习变成大规模对话语言模型及其变体形式的产品,这些新一代的优秀博士们成功地将未来带入了当下。
产品化意味着很多事情,但本文尤其关注两个方面。
第一,产品化需要在开发和部署过程中实现某种标准化。然而,这种流程标准化与科学研究背道而驰。我们不需要持续不断的创造性和颠覆性创新,而需要基于标准化流程的渐进式和稳定的改进。博士们不擅长这方面,因为这恰恰与博士项目的培养目标背道而驰。博士生的目标是提出创新的想法(是的,虽然每个想法都能否算是创新想法这一点值得商榷,但往往至少有大量噪声才算是创新),从理论或实证角度验证这些想法,通过撰写论文向社区报告研究结果,然后继续前进。一旦某样东西变成了真正的产品(或产品类别),我们就不能简单地创新然后继续前进,而需要坚持下去,不断为它提供支持。有了完善的流程体系,博士学位的必要性就会迅速消失。
第二,产品化创造了一条通往收入的明显而具体的路径。这对那些投资招募这些杰出人才并提供资源让他们在组织内部而不是其他地方进行创新的公司来说是件好事。不幸的是,一旦有了一条通往收入(最终是利润)的具体路径,研究人员就越来越难以继续要求充分的研究自由。许多人将被要求直接为产品(或产品类别)做出贡献,并证明他们的报酬以及整体就业情况的合理性,只有少数人将被允许继续享有研究自由。这是很自然的事情,也可能是大多数组织(包括营利组织、非营利组织、政府组织等)的研究团队往往比产品团队小得多、获得的资源也少得多的原因。
此外,在过去几年中,大学在一定程度上跟上了需求,开始对本科生和硕士生进行这些新技术背后的基础知识和实用理念方面的教育、培训和培养。他们知道如何训练这些模型、测试这些模型和部署这些模型,以及这些模型背后的理论理念。更好的是,他们大概率没有博士那么「自我」,而且通常思想更加开放。
这些因素加在一起,彻底打破了之前概述的人工智能人才梯队。公司不再需要那么多博士,因为他们可以招聘本科生或硕士生,这些学生可以按照标准化流程立即直接为人工智能产品做出贡献。学生们不需要进入博士课程学习必要的技能,因为大学可以将其作为本科课程的一部分进行培训。目前的博士生们,即使是因为基于这一人工智能人才梯队的积极职业前景而加入博士课程,也会被排除在人工智能人才梯队的这次大重组之外。
在这一点上,这些即将结束博士学业的学生焦虑和挫败的程度大大增加也许并不奇怪。他们仰慕我这一代人(虽然还相对年轻、资历较浅,但在这个领域可能算是资历较深的人),认为只要他们的博士学位与机器学习及邻近领域有一定关联,他们就能享有类似的职业前景 —— 成为大科技公司的高薪研究科学家,享有极大的研究自由。
但从他们的角度来看,就业市场突然要求他们在大规模语言模型及其变体这个狭窄得多的领域展示自己的创新能力,并直接为这些建立在大规模模型之上的产品做出贡献。
话虽如此,但我必须强调,这绝不意味着这些大模型之外的人工智能研究课题不重要或不受追捧。
例如,在 Prescient Design 公司,我们一直在不断招聘博士级研究科学家,他们专门从事不确定性量化、因果机器学习、几何深度学习、计算机视觉等方面的研究,因为这些领域的研究和开发与我们的工作(即 lab-in-the-loop)直接相关。
大模型只是近年来备受关注的人工智能的一个特殊子领域。我对这些大模型的进展和进步感到无比兴奋,但它们并不是唯一值得关注和投资的领域。然而,对大语言模型及其变体的关注程度高得离谱,这很容易蒙蔽我们的眼睛,尤其是那些还是学生的人,甚至是所谓精英大学的教师。学生们如果没有或正在撰写关于大模型的论文,自然会感到焦虑,因为他们可能得不到这些机会。
在这一点上,我觉得上周在 NeurIPS 大会上与高年级博士生和博士后的交谈和聆听中感受到的高度焦虑和挫败感是事出有因的。他们中的一些人可能感到被背叛了,因为他们之前得到的承诺与现在看到的差距正在迅速拉大。他们中的一些人可能感到无助,因为他们选择的研究课题和他们在这些课题上的工作似乎不太受这些公司的欢迎。他们中的一些人可能感到挫败,因为本科生或硕士生似乎更擅长训练和部署这些大模型,而且看起来比他们更有价值。
遗憾的是,我只能努力理解这些才华横溢的学生感受到的焦虑和挫败感,却想不出什么办法来帮助他们减轻这种挫败感!
参考链接:
https://kyunghyuncho.me/i-sensed-anxiety-and-frustration-at-neurips24/
#Veo 2
有导演用AI生成了一部短片,看完后我确定,AI视频的时代来了
AI 大模型的发展还在快速进行中。刚刚,我看到美国导演 Jason Zada 在他的社交媒体平台 X 上发布了一个短片,他表示,这个短片中的所有画面都是由 Google 的最新视频生成模型 Veo 2 生成的。
我看了下,效果很好,我放下面你看看。
,时长01:56
看来,2025 年,AI 生成视频将会迎来新的发展阶段。最近,国内外很多公司都在密集推进着自己的视频生成产品,比如快手的可灵、抖音的即梦,还有 OpenAI 的 Sora。说个可能不是共识的观点,从目前我的观察看,谷歌在 AI 生成视频方面,应该是领先 OpenAI 的。Sora 并没有预期中的炸裂。
Jason Zada 是美国著名导游与编剧,他在 2016 年导演的《自杀森林》广受好评,此外,他参与开发的互动体验项目《Take This Lollipop》曾荣获艾美奖,全球观看人数超过 1 亿。
Jason Zada 在 LinkedIn 上透露,为了完成这条视频,他进行了几千次尝试。最终成品的效果令他无比震撼。视频的高质量、稳定性以及与原始提示词的高度一致性都超出了他的预期,让他感到非常惊讶。
当他尝试描述 “80 年代粗犷的纽约” 这一场景时,Google Video 2 总能稳定且完美地呈现出预期效果。他承认视频仍有改进空间,但坚信 Google Video 2 是目前最出色的视频生成模型,其性能远远领先于市场上的其他同类产品。
他特别强调,这部电影在制作过程中并没有引入任何视觉特效(VFX)、剪辑或色彩校正。所有的制作环节,从始至终,都是由 Veo 2 直接完成的。
他说这类工具的出现证明了一个事实:只要掌握了这项技术,有才华的电影制作人就能够将任何可能的创意变为现实。
网友们在观看视频后,纷纷表示赞叹。
Google Veo 2 是最近由 Google DeepMind 发布的新一代视频生成 AI 模型,能够制作出长达两分钟、分辨率高达 4K(4096 x 2160 像素)的视频片段。
Veo 2 在模拟真实物理效果和动态捕捉方面表现出色,它能够精确地模拟运动、流体动力学和光影效果,包括不同的镜头和电影效果,以及细致入微的人类表情。这些特性使得生成的视频片段都极具真实性,几乎可以与真实拍摄的视频相媲美。
,时长00:08
此外,Veo 2 还增强了对物理原理的理解,能够更真实地模拟运动和流体动力学,如将咖啡倒入杯子等场景。
Veo 2 还具备根据文本提示生成视频的能力,用户可以简单地通过描述他们想要的场景来指导 AI 创建视频内容。
Veo 2 还配备了高级相机控制功能,能够精确操控相机移动,创造出多样化的镜头风格和视角。
,时长00:08
为了确保生成内容的安全性和真实性,Veo 2 生成的视频将嵌入隐形的 SynthID 水印技术。这一技术不仅有助于识别 AI 生成的视频内容,还能有效打击虚假信息的传播,并确保内容的版权归属。
虽然 Veo 2 在技术上取得的进步明显,但 DeepMind 也承认在连贯性和一致性方面仍有提升空间。Veo 2 目前还无法长时间根据复杂提示生成视频。
Veo 2 目前还处于测试阶段,并不完全开放给所有用户使用,它目前通过 Google 的实验性视频创建工具 VideoFX 提供访问,但需要通过邀请制度加入等候名单,而且 Veo 2 的使用仍处于限制状态,在 VideoFX 上,分辨率最高为720p,时长限制为 8 秒。
#STIV
超越CogVideoX-5B、Pika、Kling 和 Gen-3!苹果再发新作,视频生成大模型全面报告
STIV模型的核心创新在于使用未加噪声的图像条件隐空间替换带噪声的隐空间,并引入联合图像-文本条件的无分类器引导(CFG)。实验结果显示,STIV在多个视频生成任务中取得了优异的性能,超越了包括CogVideoX-5B、Pika、Kling和Gen-3在内的一系列领先的开源和闭源模型。
论文链接: https://arxiv.org/abs/2412.07730
HuggingFace链接: https://huggingface.co/papers/2412.07730
亮点直击
- 提出了STIV,一个能够同时执行文本到视频(T2V)和文本-图像到视频(TI2V)任务的单一模型。其核心思想是用未加噪声的图像条件隐空间替换带噪声的隐空间,并引入联合图像-文本条件的无分类器引导(CFG)。
- 进行了 T2I、T2V 和 TI2V 的系统研究,涵盖了模型架构、高效稳定的训练技术和渐进式训练方案,以便在模型规模、空间分辨率和时长上进行扩展。
- 这些设计特性使得该模型易于训练,并能适应各种任务,包括视频预测、帧插值和长视频生成等。
- 实验包括对不同设计选择和超参数的详细消融研究,评估了在 VBench、VBench-I2V 和 MSRVTT 上的表现。结果表明,与一系列开源和闭源SOTA视频生成模型相比,所提模型在性能上具有优势。
- 8.7B 参数的模型在 512x512 分辨率下,在 VBench T2V 任务上取得了 83.1 的成绩,超越了包括 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开源和闭源模型。在 VBench I2V 任务上取得了90.1的SOTA成绩。
动机
视频生成领域随着基于扩散Transformer(Diffusion Transformer, DiT)架构的视频生成模型 Sora的提出,取得了显著进展。研究人员一直积极探索如何将文本和其他条件有效地融入到 DiT 架构中。例如,PixArt-α利用交叉注意力,而 SD3 将文本与带噪声的图像块拼接,并使用 MMDiT 块应用自注意力。许多视频生成模型 [21, 46, 65] 采用类似的方法,在文本到视频(T2V)任务中取得了重要进展。然而,纯 T2V 方法常常难以生成连贯且逼真的视频,因为其输出没有基于外部参考或上下文约束。为了解决这一问题,文本-图像到视频(TI2V)方法引入了初始图像帧和文本提示,为生成的视频提供了更为具体的基础。尽管视频生成取得了实质性进展,但要实现像 Sora 那样的 T2V 和 TI2V 性能仍然具有挑战性。一个主要的挑战是如何将基于图像的条件无缝整合到 DiT 架构中,这要求采用创新的技术,能够平滑地将视觉输入与文本提示结合。同时,对于稳定、高效的大规模训练策略的需求日益迫切,也需要提高训练数据集的整体质量。为了解决这些问题,一种全面、分步骤的“方案”将大大有助于开发一个统一的模型框架,能够同时处理 T2V 和 TI2V 任务。克服这些挑战对推进该领域的发展,并充分实现视频生成模型的潜力至关重要。尽管已有一些研究 [2, 6, 11, 14, 49, 62, 70] 探讨了将图像条件集成到 U-Net 架构中的方法,但如何将这些条件有效地融入 DiT 架构仍未解决。此外,现有的视频生成研究往往集中在单一方面,忽略了它们对整体性能的集体影响。例如,虽然像 QK-norm这样的稳定性技巧已经被提出,但它们在模型规模增大时效果不足,而且没有现有方法成功地在单一模型中统一 T2V 和 TI2V 能力。这种缺乏系统性、整体性研究的情况限制了更高效、更多样化的视频生成解决方案的进展。
提出的方案
在本研究中,首先对模型架构和训练策略进行全面研究,为 T2V 任务建立稳健的基础。分析揭示了三个关键见解:
- 稳定性技术如 QK-norm 和 sandwich-norm对有效扩展大型视频生成模型至关重要;
- 采用因式分解的时空注意力、MaskDiT和切换到 AdaFactor显著提高了训练效率,并在性能损失最小的情况下减少了内存使用;
- 渐进式训练,即将空间和时间层从不同模型初始化,优于在相同计算约束下使用单一模型。
以 PixArt-α 为基准架构,我们通过这些稳定性和效率措施解决了扩展挑战,并通过 Flow Matching、RoPE和微条件进一步提高了性能。结果,我们的最大 T2V 模型(8.7B 参数)达到了最新的语义对齐,并在 VBench 上获得了 83.1 的分数。
随后,我们确定了在 T2V 设置中建立的最佳模型架构和超参数,并将其应用于 TI2V 任务。我们的结果表明,仅仅用未加噪声的图像条件隐空间替换第一个带噪声的隐空间,就能取得良好的性能。尽管 ConsistI2V [49] 在 U-Net 设置中提出了类似的思路,但它要求每帧进行空间自注意力,并使用基于窗口的时间自注意力来达到我们的质量。相比之下,DiT 架构天然地通过堆叠的时空注意力层传播图像条件的第一帧,从而避免了这些额外操作。然而,随着空间分辨率的扩展,我们观察到模型产生了缓慢或几乎静止的运动。为了解决这个问题,我们在训练过程中引入了图像条件的随机丢弃,并在推理过程中应用联合图像-文本条件无分类器引导(JIT-CFG)。这一策略解决了运动问题,并使得单一模型能够在 T2V 和 TI2V 任务中都表现优异。
通过这些改进,最终完成了模型,并将其规模从600M 扩展到 8.7B 参数。最佳STIV 模型在 512²分辨率下,在 VBench I2V 任务中达到了 90.1 的最新成绩。除了提升视频生成质量外,还展示了将我们的框架扩展到各种下游应用的潜力,包括视频预测、帧插值、多视角生成和长视频生成等。这些结果验证了我们方法的可扩展性和多样性,展示了其解决不同视频生成挑战的能力。
STIV的基础
基础模型架构
STIV 模型基于 PixArt-α,该模型将输入帧转换为空间和时间隐空间嵌入,使用冻结的变分自编码器(VAE)。这些嵌入随后通过一组可学习的 DiT 类块进行处理。采用 T5 分词器和内部训练的CLIP文本编码器来处理文本提示。整体框架如图3 所示。
其他重要的架构改动如下所述。
空间-时间注意力我们采用因式分解的空间-时间注意力来处理视频帧。我们首先将时间维度折叠到批次维度上,然后对空间标记进行空间自注意力。接着,我们将输出重新排列并将空间维度折叠到批次维度上,以便对时间标记进行时间自注意力。通过使用因式分解的空间-时间注意力,我们可以轻松地从一个文本到图像(T2I)模型中预加载权重,因为图像是视频的特例,只有一个时间标记,只需空间注意力即可。
单例条件使用原始图像分辨率、裁剪坐标、采样步幅和帧数作为微条件,用于编码训练数据的元信息。我们首先使用正弦嵌入层来编码这些属性,然后通过一个多层感知机(MLP)将其投影到一个 d 维的嵌入空间。这些微条件嵌入与扩散时间步嵌入以及 CLIP 模型最后一层的最后一个文本标记嵌入一起加和,形成一个单例条件。我们还对每个单例嵌入应用无状态层归一化,然后将它们加在一起。这个单例条件用于生成共享的尺度-平移-门控参数,这些参数会在每个 Transformer 层的空间注意力和前馈层中使用。
旋转位置嵌入使用旋转位置嵌入(RoPE)[56],使得模型在处理相对时间和空间关系时具有较强的归纳偏差。此外,RoPE 可以与高计算应用中使用的掩码方法兼容,并且对分辨率变化具有高度适应性 [76]。我们在因式分解的空间-时间注意力中的空间注意力部分应用 2D RoPE [39],而在时间注意力中应用 1D RoPE。
流匹配没有采用传统的扩散损失,而是选择了流匹配(Flow Matching)训练目标。该目标定义了从源分布和目标分布中分别抽取的两个样本之间的条件最优传输。在我们的案例中,我们假设源分布为高斯分布,并使用线性插值来实现这一点。
训练目标被公式化为:
其中的速度向量场 。 。
在推理时, 我们求解对应的逆向时间 SDE, 从时间步 0 到 1 , 生成从随机采样的高斯噪声 中得到的图像。
模型扩展
随着模型规模的扩大,我们遇到了训练不稳定和基础设施挑战,尤其是在将更大的模型加载到内存中的问题。本节概述了稳定训练和提高训练效率的方法。
稳定训练方案我们发现 QK-Norm —— 在计算注意力对数之前,对查询(query)和键(key)向量应用 RMSNorm —— 显著地稳定了训练。这一发现与 SD3 中报告的结果一致。此外,我们将 MHA 和 FFN 中的pre-norm改为sandwich-norm,即在 STIV 块内的每一层加入前归一化和后归一化,并使用无状态层归一化。
高效 DiT 训练我们遵循 MaskDiT的做法,在将空间标记输入主要 DiT 块之前,随机遮掩 50% 的空间token。去除遮掩后,添加了两个额外的 DiT 块。还将 AdamW 优化器更换为 AdaFactor,并使用梯度检查点(gradient checkpointing)来仅存储自注意力输出。这些修改显著提高了效率,并减少了内存消耗,使得能够在更高分辨率和更长时长下训练更大的模型。
图像条件
帧替换
在训练过程中,将第一帧的带噪隐空间替换为图像条件的未加噪声隐空间,然后再将这些隐空间输入到 STIV 块中,并对替换帧的损失进行掩蔽。在推理过程中,使用原始图像条件的未加噪声隐空间作为每个 TI2V 扩散步骤中的第一帧。
帧替换策略为扩展 STIV 到各种应用提供了灵活性。例如,如果 ,则默认为文本到视频(T2V)生成。相反,如果 是初始帧,它就成为典型的文本-图像到视频(TI2V)生成。此外,如果提供多个帧作为 , 即使没有 , 它们也可以用于视频预测。此外, 提供第一帧和最后一帧作为 可以使模型学习帧插值,从而生成它们之间的帧。更进一步地,将 T2V 和帧插值结合起来,可以生成长时间的视频:T2V 生成关键帧,帧插值则生成每对连续关键帧之间的帧。最终,通过随机选择适当的条件策略,可以训练一个模型来执行所有任务。
图像条件丢弃
如前所述,帧替换策略为训练不同类型的模型提供了显著的灵活性。在此,我们展示了一个特定的应用场景,其中我们训练一个模型来同时执行 T2V 和 TI2V 任务。在这种情况下,我们在训练过程中随机丢弃 和 ,类似于 T2V 模型仅对文本条件进行随机丢弃的做法。
无分类器引导(CFG)是文本到图像生成中常用的技术,它通过将概率质量引导到给定条件下的高概率区域,显著提高了生成图像的质量。在此概念基础上,我们引入了联合图像-文本无分类器引导(JIT-CFG)方法,利用文本和图像条件进行引导。它修改了速度估计,如下公式所示,
其中𝑠是引导系数。当时,它退化为标准的 CFG,用于 T2V 生成。尽管可以引入两个独立的引导系数,如 [4] 中所做的那样,用于平衡图像和文本条件的强度,但我们发现我们的双重传递方法取得了较强的效果。此外,使用两个引导系数需要三次前向传播,增加了推理成本。
实证观察表明,结合 JIT-CFG 使用图像条件丢弃,不仅能够自然地实现多任务训练,而且还解决了 512² STIV 模型的过时问题。假设图像条件丢弃可以防止模型对图像条件的被动过拟合,使其能够更有效地捕捉来自底层视频训练数据的运动信息。
渐进式训练方案
我们采用了渐进式训练方案,如图 4 所示。该过程首先训练一个文本到图像(T2I)模型,该模型用于初始化文本到视频(T2V)模型。接下来,T2V 模型作为初始化 STIV 模型的起点。为了促进更高分辨率和更长时长训练的快速适应,我们在空间和时间维度中都加入了插值的 RoPE 嵌入,同时使用来自低分辨率、短时长模型的权重初始化模型权重。
STIV方案研究
基本设置
在深入研究视频生成模型的架构和数据之前,我们首先介绍训练、数据和评估设置。随后,我们将介绍模型和实验研究。
训练设置除非另有说明,否则使用 AdaFactor 优化器(β1 = 0.9,β2 = 0.999),并不使用权重衰减。如果梯度范数超过 1.0,会进行梯度范数裁剪。使用恒定学习率调度,采用 1k 步的线性预热,最大学习率为 2 × 10⁻⁴。对于 T2I 模型,训练每个模型 400k 步,批量大小为 4096。对于我们的内部 T2I 数据集,这大约是 1.4 个 epoch。对于 T2V 和 TI2V 模型,训练每个模型 400k 步,批量大小为 1024。这大约是 5.5 个 epoch。对于所有模型,我们使用指数移动平均权重,衰减率为 0.9999,并将其用于评估。当使用 MaskDiT 时,在前 400k 步中使用 50% 的空间随机遮掩。此后,我们进行未遮掩的微调,使用所有tokens。对于 T2I 模型,进行 50k 步的未遮掩微调,T2V 和 TI2V 模型则进行 100k 步微调。
数据构建了一个视频数据引擎pipeline,包括视频预处理、描述生成和过滤,用于加速处理大规模视频时的模型开发。具体来说,使用 PySceneDetect 来分析视频帧,检测并分割场景,基于突发过渡和渐变淡出进行分割。接着,进行特征提取以进行过滤,包括运动分数、美学分数、文本区域、帧维度、清晰度分数、时间一致性和视频方向等。对于每个视频片段,执行密集的描述生成和分类,以全面了解视频的分布情况。
为了进一步提高描述质量,我们改编了DSG并提出了DSG-Video,一种用于评估幻觉率和描述整体质量的度量标准。该数据引擎在过滤视频和为不同训练阶段准备定制数据集方面起着至关重要的作用:我们的数据来源包括 Panda-70M和我们内部制作的 4200 万个高质量视频数据集。通过数据引擎,制作了超过 9000 万个高质量的视频-描述对。
接下来,将深入进行更细粒度的调制研究。如图 5 所示,遵循从基本的 T2I 模型到时序感知的 T2V 模型,再到通过添加图像条件的 TI2V 模型的研究原则。
评估设置我们主要使用 VBench、VBench-I2V 和 MSRVTT来评估 T2V 和 TI2V 模型。对于 VBench,主要报告质量(时间质量和逐帧质量)、语义(与不同输入文本提示的语义对齐)和总分(质量和语义的加权平均),这些分数可以分解为 16 个维度。VBench-I2V 在 VBench 的基础上新增了三个视频-图像对齐度量:主题一致性、背景一致性和相机运动控制。这些额外的度量提供了一个更全面的评估,专注于生成的视频与输入图像和指定提示指令的对齐程度。关于这些维度的更多细节,请参见 F.1 节。
我们展示了三种模型规模:XL、XXL 和 M,其配置详细信息见表 1。以下章节中,使用符号 X-S-T 来表示一个 X 大小的模型,分辨率为 S²,帧数为 T。如果没有特别说明,默认配置为 256² 分辨率和 20 帧。
T2I 关键变化的消融研究
进行了一项全面的消融研究,以了解第 2 节中提到的各种模型架构设计和训练策略对文本到图像(T2I)生成任务的影响。为了评估生成质量,使用了一套流行的自动化指标,包括 FID 分数、Pick Score、CLIP Score、GenEval、DSGEval、人类偏好分数(HPSv2)和图像奖励。
从基础 T2I-XL 模型开始,这是一个基于 DiT的模型,增强了交叉注意力层以与文本嵌入进行集成。最初,应用了一系列稳定性技术,包括 QK-norm、三明治归一化和单例条件归一化,这些都使得结果与基线相当。值得注意的是,这些技术使能够在将学习率从 提高到 时仍能稳定训练。我们证明,在训练过程中加入流量匹配(Flow Matching)并在推理时采用 CFG 重新归一化(CFG-Renormalization)显著提高了所有指标。随后,探索了减少训练内存的技术,如 AdaFactor 优化器、MaskDiT 和共享 AdaLN,这些方法保持了相似的性能。使用微条件和 RoPE 进一步降低了 FID 分数,并提高了 DSGEval 和图像奖励。最后,加入内部训练的 bigG CLIP 模型使所有指标得到了进一步提升。值得注意的是,结合合成重caption与原始caption达到了几乎所有指标的最佳结果。
基于 T2I 消融研究中的最佳模型架构和训练超参数作为 T2V 和 TI2V 实验的起点。
T2V 关键设计的消融研究
关键调制根据 VBench 评估,在模型设计中做了一些选择,如图 6a 所示。基础模型使用 2 大小的时间路径、非因果时间注意力,并使用 0.5 的空间遮掩比例。如预期所示,使用时间路径大小为 1 的模型表现最好,但在 2 倍计算量下,性能仅略有提升。然而,使用时间路径大小为 4 的模型明显下降。使用因果时间注意力同样导致质量和总分的显著下降。向时间注意力层添加尺度-移位门(scale-shift-gate)虽然参数更多,但性能稍逊于基线。此外,移除空间遮掩会导致语义分数略微下降,但质量和总分有所提升。然而,这需要更多的计算,因为标记的长度增加了一倍。另一方面,使用时间遮掩显著降低了模型性能,VBench 质量和最终分数有较大下降。
模型初始化研究了初始化对 T2V-XL 模型性能的影响。在控制总 FLOP 设置的情况下,训练了 512² T2V 模型,并使用四种不同的路径进行初始化:从头开始、从低分辨率的 T2V-256 模型初始化、从 T2I-512 模型初始化,以及分别加载 T2V-256 和 T2I-512 模型的时间和空间权重(图 6b)。我们发现,从低分辨率的 T2V 模型和高分辨率的 T2I 模型共同初始化,可以实现更好的 VBench 指标。这种联合初始化方法与从头开始训练相比,略微提高了 FVD 值,并且在低分辨率模型已经存在的情况下,能够在实验效率和成本上带来优势。
在类似的方法下,还探索了训练更多帧(40 帧)的 T2V 模型,初始化时从较短的 T2V 模型(20 帧)开始。图 6c 显示,训练更多帧时,从低帧数模型初始化能够比直接从 T2I 模型初始化获得更好的指标。使用 RoPE 嵌入的插值方法相比于外推,能提高 VBench 分数。此外,还发现,从使用比例较低帧率(更大帧子采样步幅)训练的 T2V 模型初始化高帧数训练模型,能够改善 VBench 指标,尤其是运动平滑度和动态度。
TI2V关键设计的消融研究
为了将图像条件与文本条件结合起来, 我们将模型重新表述为 , 其中 和 分别是文本和图像条件。接下来, 研究了 TI2V 框架中的每个设计组件, 并解决了在训练高分辨率 T 12 V 模型时遇到的多任务学习和陈旧性问题。
帧替换的有效性
在 STIV-XL 模型上对 TI2V 进行了几个模型变体的消融实验,结合了以下关键组件:帧替换(FR)、交叉注意力(CA)、大投影(LP)和首帧损失(FFL)。如表 3 所示,值得注意的是,添加大映射层增强了交叉注意力传递的信息,从而提高了主题和背景一致性。然而,这种方法可能会过度限制模型,正如动态度得分的降低所示(FR + CA + LP 为 22.36,而 FR + CA 为 35.4),这表明模型可能对生成的输出施加了过度的控制。此外,虽然添加首帧损失看似有益,但它却导致了整体评分的下降,特别是在运动质量方面,表明这一损失可能无意中约束了模型的时间动态性。相比之下,仅使用帧替换已证明是一种稳健有效的方法,能够在不负面影响其他视频质量维度的情况下,持续提升模型性能。帧替换(FR)模型在 I2V 平均分(I2V 主题、I2V 背景和相机运动的平均分)和总平均分上取得了高分。这些结果强调了帧替换作为基础组件的优势,为在各个维度上保持质量提供了稳定的支撑。
图像条件丢弃的有效性
实验表明,图像条件丢弃结合 JIT-CFG 不仅支持多任务训练,还解决了 512² STIV 模型中的陈旧性问题。
多任务训练通过在 STIV 训练中使用图像条件丢弃,我们有效地实现了 T2V 和 TI2V 两种能力。如表 4 所示,仅针对 T2V 或 TI2V 任务进行训练的模型无法执行其他任务,而使用图像条件丢弃的 STIV 模型能够很好地处理这两个任务,且其性能与最好的单任务模型相当。
更强的运动表现在实际应用中,我们观察到,虽然 STIV-M-512 在 VBench-I2V 上表现良好,但有时会生成静态帧。VBench-I2V 指标倾向于偏好运动较少的视频,优先考虑视频的平滑性和一致性。如表 5 所示,结合 JIT-CFG 的 STIV 模型在动态度得分上表现更高,但以牺牲一致性和流畅度分数为代价。还展示了从图 14 到图 16 的视觉比较。
JIT-CFG 及其变体我们自然会考虑将传统的无分类器引导(CFG)扩展为一种三重加权方法,其中考虑三种条件模式:(1) 空条件:图像 和文本 条件均为空( )。(2)仅图像条件:图像条件为源图像,文本条件为空。(3)联合条件:同时提供图像和文本条件。速度估计的组合方式如下:
其中 和 分别是图像条件(CFG-I)和联合条件(CFG-T)的引导比例。称其为独立的图像和文本无分类器引导(SIT-CFG)。
使用 STIV-M-512-JIT 在 MSRVTT 测试集上进行实验,设置 在 JIT-CFG 中取得了 FVD 。同时, 对 STIV-M-512-JIT 进行了实验, 针对 和 进行了网格搜索, 搜索空间为
如图7所示,观察到:
- 固定CFG-T时,随着CFG-I的增加,FVD先减小然后增加;
- 固定CFG-I时,随着CFG-T的增加,FVD持续减小,除非CFG-I非常小(1.1或1.5),在这种情况下,FVD先减小然后增加;
- 最佳配置出现在CFG-T = 7.5和CFG-I = 1.5时,此时FVD为95.2。
然而,总体而言,SIT-CFG相比于JIT-CFG并没有显著的优势,且在推理时使用两个副本的效率明显较低。需要注意的是,这次搜索是针对MSRVTT优化的,对于其他需要更强依赖于第一帧主题的提示,可能需要更大的CFG-I值。
模型初始化
还研究了 TI2V 模型的初始化方法对性能的影响,包括从 T2I 或 T2V 开始初始化。使用相同的总步骤数来检查在 VBench-I2V 上的最终性能。从表 6 可以看出,从 T2V 模型初始化可以获得更好的相机运动得分和略微更好的动态度,且在其他维度上与从 T2I 初始化的性能相当。
视频数据引擎
数据质量对于视频生成模型至关重要。然而,由于噪声描述、幻觉和视频内容及时长的多样性有限,制作大规模高质量数据集仍然是一个挑战。为了解决这些问题,提出了一个视频数据引擎(见图 8)——一个全面的pipeline,用于改善数据集质量并减少幻觉,从而提升模型性能。
方法聚焦于三个关键问题:
- 如何预处理原始视频以提高一致性?
- 数据过滤对模型性能有何影响?
- 如何通过先进的视频描述生成减少幻觉并改善结果?
使用 Panda-70M作为工作示例,并通过我们的pipeline生成了一个整理过的子集 Panda-30M。
视频预处理与特征提取我们使用 PySceneDetect来去除突变过渡和不一致的片段,从而生成更连贯的剪辑。接着,提取关键特征(如运动和美学分数)来指导后续的过滤过程。
数据引擎与过滤有效的数据过滤对于提高数据集质量并减少幻觉至关重要。开发了一个自动化的过滤基础设施,支持高效的数据选择、质量控制和在模型开发生命周期中的持续改进。例如,可以根据预定义的分辨率/运动分数对视频进行抽样,以用于微调阶段。该过滤系统使我们能够系统地去除低质量视频,专注于提升模型性能的数据。从 Panda-30M 中,进一步基于运动分数和美学分数进行过滤,得到 Panda-10M,即 Panda-30M 的高质量版本。结果总结在表 7 中:与追求数据量不同,更高质量的视频能实现更有前景的结果。
视频描述模型高质量的视频-文本对对于训练文本到视频模型至关重要。现有的数据集常常存在噪声或无关的描述,且在描述时间动态方面有限。最初尝试了基于帧的描述生成方法,并通过大模型(LLM)进行总结,但发现单帧描述未能有效表现运动,而 LLM 总结则可能引发幻觉。为了提高描述质量并平衡成本,我们采用了 LLaVA-Hound-7B,这是一种视频大语言模型,能够生成更连贯和运动感知的描述。
描述评估与消融为了客观评估描述的准确性,引入了 DSG-Video(见图 9)模块,该模块借鉴了 DSG,通过用 LLM 生成的问题对描述进行探测,并使用多模态 LLM 验证样本视频帧中是否存在提到的物体,从而检测幻觉。该方法生成了两个指标:DSG-Videoi 和 DSG-Videos 7,分别反映了在物体级别和句子级别的幻觉。比较了两种描述生成策略——基于帧的加 LLM 总结(FCapLLM)和直接视频描述生成(VCap)——在 Panda-30M 数据集上的表现。如表 8 所示,VCap 减少了幻觉,并增加了描述物体的多样性,从而提升了 T2V 模型的表现。这些结果表明,丰富且更准确的视频描述能显著提升后续生成的质量。
结果
基于以上研究,将 T2V 和 STIV 模型的规模从 600M 扩展到 8.7B。在下面表 9 和表 10 中展示了主要结果,将我们的模型与最先进的开源和闭源模型进行了比较,证明了方法的有效性。具体而言,在预训练的视频生成模型(SFT)上进行微调,基于从 Panda-70M中筛选出的 20,000 个视频进行训练,如前面所述。由于在预训练阶段采用了 MaskDiT 技术,尝试以非遮掩方式(UnmaskSFT)对模型进行微调。还将 STIV 模型微调为时序上采样器,用于插值我们主要的 T2V 和 STIV 模型生成的视频,以提升运动平滑度(+TUP)。
T2V 性能首先展示了 T2V 模型作为 STIV 基础的有效性。表 9 展示了不同 T2V 模型变体在 VBench 上的比较,包括 VBench-质量、VBench-语义和 VBench-总分。我们的分析表明,随着模型参数的增加,T2V 模型在语义追踪能力上的表现得到了提升。具体而言,随着模型规模从 XL 到 XXL,再到 M,VBench-语义得分从 72.5 提升到 72.7,再到 74.8。这个明确的趋势(从 XL 到 XXL,再到 M)表明,较大的模型在捕捉语义信息方面更具优势。然而,对视频质量的影响较小,VBench-质量得分从 80.7 提升至 81.2,再到 82.1。这个发现表明,扩展模型对语义能力的提升影响更大,而对视频质量的提升较为有限。此外,将空间分辨率从 256 提升到 512 显著提升了 VBench-语义得分,从 74.8 提升到 77.0。详细结果请见表 11。
SFT 的影响此外,使用高质量的 SFT 数据对模型进行微调,显著提高了 VBench-质量得分,从 82.2 提升到 83.9。微调模型时不使用任何遮掩令牌略微提升了语义得分。我们的最佳模型达到了 79.5 的 VBench-语义得分,超越了 KLING、PIKA 和 Gen-3 等知名闭源模型。在使用时序上采样器后,我们的模型在所有其他模型中达到了最先进的质量得分。
TI2V 性能如前面表 10 所示,我们的模型在与最先进的方法的比较中表现出色。它还显示,虽然扩展模型规模能提高 I2V 得分,但对质量的影响有限。相比之下,增加分辨率对质量和 I2V 得分的提升更为显著。我们在表 12 中提供了各个维度的完整结果。
灵活应用
这部分展示了如何将STIV 扩展到各种应用,例如视频预测、帧插值、多视图生成和长视频生成。
视频预测从 STIV-XXL 模型初始化,训练一个基于前四帧的文本-视频到视频模型。正如下图 10a 所示,视频到视频模型(STIV-V2V)在 MSRVTT测试集和 MovieGen Bench上的 FVD 得分明显低于文本到视频模型(T2V)。这一结果表明,视频到视频模型能实现更优的表现,对于自动驾驶和具身 AI 等应用中要求高保真度和一致性的生成视频帧具有前景。
帧插值提出了 STIV-TUP,一个从 STIV-XL 模型初始化的时序上采样器,并继续进行训练,基于文本条件对连续帧进行采样(步长为 2)。图 10b 显示了可以在 MSRVTT 测试集上基于文本和图像条件进行不错的帧插值。观察到,使用文本条件在 FID 和 FVD 上略优于图像条件。还将时序上采样器与我们的主要模型级联,探索它是否能提升主要性能。正如前面表 9 和表 4 所示,使用时序上采样器能提高质量表现,同时保持其他得分。
多视图生成多视图生成是一个专注于从给定图像创建新视角的专门任务。这个任务要求视角一致性,并且可以从良好预训练的视频生成模型中大大受益。通过将视频生成模型适应于多视图生成,我们可以评估预训练是否有效地捕获了隐空间的 3D 信息,从而增强多视图生成。采用了 Zero123++中规定的新视角相机定义,该定义为每个输入图像指定了六个新视角。我们的 TI2V 模型将初始帧设为给定图像,接下来六帧为预测的未来帧,表示新的视角。我们用 Objaverse数据集对 TI2V-XL 模型进行了 110k 步微调,训练时将分辨率提升至 320,与 Zero123++ 保持一致。我们的评估使用来自 Google 扫描物体数据集的对象,与地面真值渲染进行比较。如前图 10c 所示,尽管只使用时序注意力来确保跨视角的一致性,我们的方法与 Zero123++ 达到了相当的表现。这一结果验证了我们的时空注意力在保持 3D 一致性方面的有效性。和Zero123++之间的视觉比较如下图11所示
长视频生成提出了一种有效且高效的框架来生成长视频。具体而言,我们提出了一个分层框架,包括训练 STIV 模型的两种不同模式:(1)通过学习均匀采样的视频帧(步长为 20)进行关键帧预测,并进行图像条件丢弃;(2)通过学习连续视频帧,并将第一帧和最后一帧作为图像条件来生成插值帧。在采样阶段,我们变化图像和微条件,先使用第一种模式生成关键帧,然后使用第二种模式生成插值帧,从而生成长视频。在生成视频时,传统的自回归方法容易受到误差传播的影响,且缺乏全局一致性。因此,我们提出了一种简单而有效的基准,完全基于我们的 STIV 框架。正如主文中所述,我们设计了一个分层框架,训练 STIV 的两种模式,分别生成关键帧和插值帧,最终生成长视频。在图 12 中展示了一个长 T2V 和 TI2V 示例,共生成了 380 帧视频((20 −1) ×20 = 380)。
相关工作
文本到视频生成近年来,基于扩散的方法已成为文本到视频生成的主流方法,涵盖了闭源模型 [42, 44, 46] 和开源模型。一些研究[6, 7, 27]利用隐空间扩散模型(LDMs)提高训练效率。VideoLDM将时序卷积和注意力机制集成到 LDM U-Net 中,用于视频生成。最近,模型架构逐步从 U-Net 转向基于扩散Transformer的架构[21, 46, 66, 75]。CogVideoX采用了 SD3的框架,通过自注意力机制对整个 3D 视频序列进行处理,并结合文本条件。Lumina-T2X采用零初始化注意力,将噪声转换为不同模态。与以往的模型相比,重点是通过空间、时间和跨模态注意力机制,利用多种技术将基于扩散Transformer的视频生成模型扩展到超过 8B 参数,并在 VBench 上取得了良好表现,成为我们文本-图像到视频模型 STIV 开发的强大基线。
文本-图像到视频生成仅通过文本控制视频内容面临重大挑战,尤其是在实现视频与输入文本之间的对齐以及对视频生成过程的精细控制方面。为了解决这一问题,近期的方法整合了第一帧和文本,以增强视频生成的控制力[6, 24, 49, 62, 70],大多基于 U-Net 架构。I2VGen-XL基于 SDXL 并采用级联技术生成高分辨率视频。DynamiCrafter和 VideoCrafter使用跨模态注意力来结合图像条件。ConsistentI2V采用类似的帧替换策略,但还需要对初始帧进行时空注意力,并通过特殊噪声初始化来增强一致性。Animate Anything也采用帧替换技术,但需要使用运动强度损失来增强运动效果。然而,它们在 VBench-I2V 上的动态度较低,仅为 2.7%。在 DiT 架构上应用了帧替换技术,并结合我们提出的图像条件丢弃方法,JIT-CFG 可以生成高质量的 I2V 视频,同时有效解决了运动滞后的问题。
结论
总之,我们进行了全面的研究,探讨如何构建一个良好的视频生成模型,并提出了一种可扩展且灵活的方法,将文本和图像条件整合到一个统一的视频生成框架中。我们的模型不仅在公共基准测试中表现出色,还在下游应用中展现出多样性,支持可控的视频生成、视频预测、帧插值、长视频生成和多视图生成,这些都突显了它作为广泛研究基础的潜力。
#Formal Mathematical Reasoning
对 AI 研究者来说,数学既是一类难题,也是一个标杆,能够成为衡量 AI 技术的发展重要尺度。近段时间,随着 AI 推理能力的提升,使用 AI 来证明数学问题已经成为一个重要的研究探索方向。著名数学家陶哲轩就是这一方向的推动者,他曾表示:未来数学家可以通过向类似 GPT 的 AI 解释证明,AI 会将其形式化为 Lean 证明。这种助手型 AI 不仅能生成 LaTeX 文件,还能帮助提交论文,从而大幅提高数学家的工作效率和便利性。
如今,已经诞生了 Gemini 2.0 Flash Thinking 和 o1/o3 等强大推理模型,那么用 AI 来进行形式化数学推理又已经走到了哪一步呢?
Meta FAIR 和斯坦福大学等多所机构的一篇新的立场论文(position paper)或许能为你给出这个问题的答案。
- 论文标题:Formal Mathematical Reasoning: A New Frontier in AI
- 论文地址:https://arxiv.org/pdf/2412.16075
本文一作杨凯峪在 X 上表示,AI4Math 的下一步是使用证明助手等形式化系统来实现形式化数学推理。他也在推文以及论文中感谢了陶哲轩等数学家提供的反馈。
Meta 研究科学家田渊栋也分享转发了这篇立场论文,并表示很期待看到 AI 能基于现有的互联网数据在数学阶梯上能到达何种高度。
这篇论文的内容相当丰富,将在此介绍该论文的主要内容结构,尤其是该团队对多个相关研究方向的分级策略。这些分级可以帮助我们更好地界定 AI 在形式化数学推理方面的进展。下图为该综述的目录截图。
自 AI 诞生之初,研究者就梦想着构建能够自动进行数学推理的 AI 系统。历史上,首个此类 AI 程序是 Newell 和 Simon 打造的 Logic Theorist(逻辑理论家),这个定理证明系统能够证明《数学原理》中的 38 条定理。
自那之后已过去数十年,AI 的中心已经从符号方法转移到了机器学习,并出现了一个新领域:用于数学的统计式人工智能(AI4Math)。
这是一个非常吸引人的领域。原因不难理解,很多推理和规划任务本质上都是数学问题。另外,数学在定量学科中起着基础性作用,因此 AI4Math 有可能给科学、工程和其他领域的人工智能带来革新。也正因为这些原因,LLM 开发者通常会把数学问题求解能力作为一个核心衡量指标,人们也在努力创造能在数学问题上比肩甚至超越人类的 AI 系统。
AI4Math 的重要性吸引了大量研究者,他们开始使用来自自然语言处理(NLP)领域的技术来开发数学 LLM。
一种常用方法是使用数学数据来对 LLM 进行持续预训练,比如可以使用来自 arXiv 论文和 MathOverflow 网页的数据,然后在精心选择的数学问题数据集(其中会提供详细的分步解决方案)上对模型进行微调。该团队称之为非形式化(informal)方法。
类似于通用 LLM,数学 LLM 的配方也很简单,秘诀往往在于数据的整编。在 GSM8K、MATH、AIMO Progress Prize 等常用基准上取得进展的数学 LLM 通常包含精心整编的训练数据集、思维链等推理时间技术、自我一致性和工具使用能力。
然而,直到本文写作时,非形式化方法得到的 AI 的数学能力基本都不超过 AIME 的高中数学水平。
那么,问题就来了:非形式化方法的规模扩展之路还能走多远?它能让数学 LLM 解决更具挑战性的竞赛问题(例如,IMO、国际数学奥林匹克)甚至还在研究中的数学问题吗?
从高中到更高级的数学,非形式方法面临的难题无法仅仅通过规模扩展解决。
首先,训练数学 LLM 需要高质量的数据,而高质量高等数学数据很稀缺。对于新的研究数学问题,不可能在互联网上找到类似问题的解答或大规模手动标注数据。如果没法扩大数据规模,就不可能充分享受到 LLM 的 Scaling Law。
第二,很多高等数学的解并不是数值,因此难以通过比较 ground truth 来进行评估。例如证明问题需要一系列复杂的推理步骤。
LLM 还有个臭名昭著的幻觉问题,会生成看起来可行的推理步骤,因此评估模型输出或收集有用反馈的难度非常大。
这些问题都难以通过扩大非形式化方法的规模来解决。
如果训练时间扩展不够用,那我们还需要什么呢?OpenAI o1 展示了一个可能方向:在推理时间扩展非形式化方法,比如将搜索与神经验证器组合起来缓解推理幻觉。
虽然这种方法吸引了很多人的眼球,但它究竟能不能有效解决高等数学问题还有待解答。
而本篇立场论文关注的则是一个较少被探索的补充方法:形式化数学推理(formal mathematical reasoning。
该团队表示,形式化数学推理是指立足于形式化系统的数学推理,而形式化系统包括但不限于一阶 / 高阶逻辑、依赖类型理论和带有形式规范注释的计算机程序。
这种形式化系统可提供验证模型推理并提供自动反馈的环境。它们不同于现代 LLM 使用的「工具」,因为它们可以建模广泛命题的真与假,并且还是可证明的。此类系统提供的反馈可以缓解数据稀缺问题;此外,此类系统还可以进行严格的测试时间检查,以抵抗幻觉。
相比之下,非形式化数学是指教科书、研究论文和在线数学论坛中常见的数学文本。非形式化数学会将自然语言与符号(例如 LATEX)交织在一起,但这些符号没有自我包含的形式语义,而是依靠非形式文本来传达其含义的重要部分。
AlphaProof 和 AlphaGeometry 是这一想法成功的两个突出例子。在此之前,很多研究者尝试过使用 LLM 来解决奥数级数学问题,但都失败了。上述系统的关键区别在于原则性地使用了符号表示和证明检查框架。其中,符号组件(AlphaProof 的 Lean、AlphaGeometry 的特定领域几何系统)的作用是执行神经网络的推理步骤并生成高质量的合成数据,从而实现前所未有的数学推理能力。
AlphaProof 和 AlphaGeometry 之前,已经有许多文献做好了铺垫 —— 它们探讨了形式化方法和机器学习在数学任务中的协同使用。具体涉及的主题包括神经定理证明、自动形式化(autoformalization)等。
LLM 的出现大大加速了这一领域的研究。例如,由于缺乏用于微调的已对齐非形式化 - 形式化对,自动形式化长期以来一直都进展缓慢。LLM 可以通过合成数据或执行无微调自动形式化来缓解此问题。因此,人们开始认识到自动形式化在引导神经定理证明器方面的潜力。LLM 也是定理证明的强大工具;事实上,最近已有方法利用 LLM 来预测证明步骤并修复有缺陷的证明,同时还无需基于形式化证明数据进行明确训练。
围绕 LLM 和形式化推理的研究基础设施正在迅速成熟。Lean 这种用于编写形式化证明的语言在数学家中越来越受欢迎,并催生了形式化研究数学和通用数学库。现在已有多个框架可支持 LLM 和 Lean 之间的交互。这些框架支持基于人工编写的形式化证明提取训练数据,以及通过与形式化环境的交互进行定理证明。
除了 Lean 之外,Coq 和 Isabelle 等证明语言的多语言基础设施也已在构建中 。
最后,LLM 已被用于协助人类数学家编写形式化证明 ,这可能会启动一个数据飞轮,其中不断增长的人类编写的形式化数学数据会产生更强大的 LLM,从而让人可以更轻松地创建更多数据。
AI 在形式化数学推理方面大有机会,因而研究繁盛。AI 在形式化数学推理方面的新兴机会导致了研究活动的蓬勃发展。正如最近的一项调查给出的那样,该领域的发表文献数量在 2023 年几乎翻了一番,并且很可能在 2024 年再翻一番。通过将自动形式化与强化学习相结合,AlphaProof 成为第一个在 IMO 中获得银牌的人工智能。
该领域的进展也可直接应用于形式化验证(formal verification) ,这是一个核心的计算机科学问题,传统上一直是形式化数学最重要的应用之一。虽然形式化验证可以得到极其稳健和安全的软件和硬件系统,但从历史上看,除了安全性至关重要的应用之外,形式化验证其实很少用,因为其部署成本太高。AI 可以通过自动化形式化和证明工作来大幅降低这一成本。这可能导致未来大规模生产的软件和硬件系统比现在更加稳健。
该团队表示:「出于所有这些原因,我们相信基于 AI 的形式化数学推理已经到达了一个转折点,未来几年将取得重大进展。然而,仍有大量工作要做。」
本立场论文概述了该领域在数据和算法方面面临的难题,以及未来进步的可能路线。
AI4Math 与形式化数学推理
数学推理是 AI 领域的前沿研究方向。本节首先将介绍 AI4Math 的非形式化方法及其局限性。然后将介绍在推进 AI4Math 方面,形式化数学推理是一条有希望的道路。这一节涵盖的内容包括:
当前最佳的数学 LLM 以及它们的局限性,目前的难题包括数据稀缺、缺乏验证正确性的手段。
用于形式化数学推理的 AI:这一节将介绍从非形式化到形式化的转向、证明助理和 Lean 等。
数学 AI 的其它方向:AI4Math 范围很广,还包含其它许多研究方向,比如使用神经网络来近似函数等等。
用于形式化数学推理的 AI 的最新进展
AI 已在形式数学推理方面取得了实质性进展。本节首先将讨论两个关键任务的进展:自动形式化和定理证明。然后将抽样两个相邻领域 —— 自然语言和代码生成 —— 它们可受益于形式化方法实现的可验证推理。
在自动形式化方面,本文介绍了基于规则的自动形式化、基于神经和 LLM 的自动形式化、自动形式化的应用。
在神经定理证明方面,本文介绍了专家迭代、从错误中学习、非正式证明草图、库学习、前提选择和检索等主题。
此外,这一节还介绍了自然语言中的验证推理、形式系统验证和验证生成。
挑战与未来的方向
这一节,该团队分享了几个仍待解决的挑战和有希望的研究方向,包括形式化数学推理的数据和算法、协助人类数学家和证明工程师的 AI 工具,以及集成 AI 和形式化方法来生成可验证代码。
数据
数据稀缺是首要问题。潜在的解决方案包括:
- 从教科书、论文和讲义中自动形式化非形式化数学内容
- 基于数学公理生成合成的猜想和证明
- 从不同的证明框架和代码等数据丰富的领域迁移知识
算法
在这个方面,又有许多亟待解决的问题,该团队也提出了一些解决的设想:
问题 1:如何让 AI 能够自动地将非形式化的内容转换成形式化的数学语言?
- 建立自动形式化语句的评估指标
- 将形式化过程分解为小步骤
- 加强与形式系统的交互
问题 2:如何改进数学推理的模型架构?
- 增强多步推理、长文本处理、抽象和分层规划能力
- 通过合成基准诊断推理失败之处
- 利用检索和搜索等推理技术辅助模型
问题 3:如何有效地搜索证明?
- 对搜索进行扩展以利用更多的测试时间计算;
- 对模型、搜索算法和超参数进行系统性评估;
- 用于评估证明目标并为其设定优先级的价值模型。
问题 4:如何利用定理证明中的层次结构?
- 将大型、高级证明目标逐步分解为较小的目标。
问题 5:如何学习数学抽象?
- 学习在成熟的证明助手中构建新的定义、引理和策略。
问题 6:如何利用现有的数学知识?
- 为形式数学推理量身定制的检索器;
- 处理动态增长的知识库。
问题 7:如何协调专家方法和通用方法?
- 识别跨领域联系的通用方法;
- 针对各个领域的有效性的专家方法以及与数学家合作的专家方法;
- 将通用方法和专家方法结合起来,例如为 LLM 配备特定领域的工具。
用于辅助人类数学家的工具
这方面的主要问题是:AI 如何更好地协助人类研究形式化数学?
这个方面的难题和潜在研究方向包括:
- 资源、激励措施和工程开发,以提高可用性和用户友好性;
- 研究数学家如何使用形式化工具的行为;
- 支持大规模分布式协作的工具。
形式验证和已验证生成
这方面的主要问题是:AI 如何辅助人类开发正确和安全的软件?
这个方面的难题和潜在研究方向包括:
- 将形式化方法纳入 AI 辅助的系统设计和实现中;
- 增强 AI 进行形式化软件和硬件验证的能力;
- 将基于 AI 的生成与形式化验证结合起来。
评估标准
在解决问题的过程中,一个关键问题逐渐浮现:如何有效衡量进展?
受自动驾驶汽车自动化等级的启发,该团队提出了一个评估 AI 数学推理能力的分级框架。他们强调,在这个新兴领域还需要建立更多新的基准和评估方法。
定理证明能力
目前,AI 在形式数学领域的主要工作集中在自动定理证明上。像 Lean 这样的形式系统提供了巨大优势 - 一旦找到证明,即使人可能没完全理解,就能保证其正确性。
研究团队根据表 1 给出了 AI 形式定理证明的分级基准。
在最基础的 0 级水平,AI 能够识别正确的形式证明。
到了 1 级,AI 系统可以提供潜在有用的数据,但还不能写出证明。
2 级及以上的系统可以生成完整或部分证明。人类专家设计和编写的固定证明策略和规则,AI 按照这些预设的策略执行证明过程。
在 3 级水平,AI 系统能够在一般领域自动证明定理,但仍局限于简单定理。
4 级系统应该能够自主规划和执行形式化项目,分解大型结果,提出新的定义和定理,并在探索的过程中尝试不同的解决方案。
5 级则意味着系统能够解决超出人类水平的问题。
自然语言推理验证能力
研究团队首先提出了一个问题:如何在不完全形式化的情况下实现严谨的推理?
他们发现,让 AI 在形式系统和自然语言之间切换是一个很有前景的方向。这样的 AI 系统应该能够进行逻辑推理、数值计算,并以严谨且易懂的方式生成答案。
虽然推理过程可能不是严格的形式化证明,但其中的部分内容仍可以在人工的监督下以半自动化的形式验证。该团队将这种能力称为「自然语言验证推理」,并提出了一个分级框架 (表 2)。
在 0 级水平,AI 能够用自然语言生成逐步推理过程,但不涉及验证。
到了 1 级,AI 系统在生成推理的同时具备了验证能力,可以评估每个推理步骤的正确性。
在 2 级,AI 系统能够利用外部工具,执行单靠神经网络难以学会的计算任务。
第 3 级的 AI 系统将可以使用外部工具进行严格的逻辑推理。
在第 4 级,AI 系统能够识别日常任务中的数学问题并使用严谨的方法。对其进行推理
自动形式化的能力
该团队提出了一个自动形式化能力评估体系,评估 AI 如何在数学知识的非形式化表述和形式化表述之间自动转换。
根据表 3,在最基础的 0 级水平,AI 系统能够存储和检验形式化知识,方便人工形式化。
在第 1 级,AI 将可以为自动生成形式化的几种草稿,并通过持续收集和存储人类反馈来不断改进系统性能。
到了第 2 级,AI 应能够在两者之间进行稳定且准确的转换,准确度接近人类水平。
第 3 级的 AI 系统能够在形式化的过程中推断出缺失饿信息,并标记出它无法补全的部分。
在第 4 级,AI 将具备遇到错误或对不上的输入时自我纠正的能力。
最后在第 5 级,该团队预计 AI 将能够创造新的数学定义,有望降低证明的复杂度。
猜想能力
研究团队发现,在数学研究中,提出定理证明之前的猜想阶段同样重要。该团队认为,AI 有望自主提出数学猜想。
根据表 4 的分级标准,0 级水平是指 AI 能够针对特定问题或目标结果提出相关猜想。更进一步,在 1 级水平上,AI 就预计可以在给定研究领域内自主提出猜想,而不必局限于某个具体定理了。
形式化验证与验证生成的结果
研究团队最新发现,把 AI 应用到程序验证和系统开发时,面临的挑战与数学研究有很大不同。为了更好地理解这个领域,该团队设计了一个 4 级能力评估体系 (表 5)。
在最基础的第 1 级,AI 已经能够完成一些简单的验证工作,比如检查小段代码是否正确,或者自动生成一些简单的可验证代码。
到了第 2 级,AI 的能力提升到可以帮助开发团队验证整个项目,并且能处理更复杂的问题。
第 3 级是一个重要突破,AI 不仅能生成代码,还能提供证明并帮助维护系统。
在最高的第 4 级,AI 可以帮助开发人员制定技术规范,包括自动生成规范文档、解释具体要求,以及帮助找出规范中的问题。
#o3智商高达157?
从韦氏智商测试来看,如果 o3 的 IQ 真这么高,则称得上非常优秀。
OpenAI o3 的智商(IQ)竟然已经这么高了吗
今天,Reddit 上一则热帖宣称「OpenAI o3 的 IQ 估计为 157」,并放出了一张数据图。
这意味着什么呢?人类中的 0.0075% 才能达到这个智商水平。更具体地说,每 13,333 个人中才出来一个这么高智商的。
对比之下,GPT-4o 的 IQ 为 115、o1 preview 为 123、o1 为 135、o1 pro 为 139、o3 mini 为 141。
同样更具体地讲,GPT-4o 每 6 人中有一个、o1 preview 是每 16 人、o1 是每 93 人、o1 pro 是每 200 人、o3 mini 是每 333 人。
这些 IQ 是如何计算出来的呢?疑似原作者表示,他根据 Codeforces 编码评级来粗略地估计 IQ,并假设报名时竞争程序员排名前 15%,最后得出 GPT-4o、o1 preview、o1、o1 pro、o3 mini 和 o3 的 IQ 以及在人类中的排名。
图源:X@i_dg23此前还有人整理了 GPT-4o 与 o1 preview、o1、o3 在 2024 年 AIME 数学竞赛题目测试(AIME 2024)中的结果,从 13.4 到如今的 96.7,七个月的时间,数学能力实现了飞跃式提升。
图源:X@zbgoodwin仅从以上数据来看,AI 大模型的进步速度着实令人震惊。不过,毕竟开局一张图,o3 的 IQ 真的如表格中那么高吗?
有人找到了「Tracking AI」中 o1 在挪威门萨智商测试(Mensa Norway)IQ 测试中的结果(为 133,与上面表格中估计的 135 相差不大),一定程度上验证了 o3 估计智商的可靠性。
图源:X@facundo_fagalde图源:https://www.trackingai.org/home因此,未来等 o3 正式发布以后,它的挪威门萨智商测试结果将更加值得期待。
图源:X@AILeaksAndNewso3 IQ 如此之高,瞬间引爆了大家伙的评论热情。
网友热评
有网友直呼:「这张图是我见过最愚蠢的东西之一,这些数据根本不能代表智商。他们用编码表现的 z 分数代表智商。但编码不是智商测试,尤其是对于参加编码测试的 LLM 来说,它们对所有在互联网上分享的代码具有完美的数字记忆。o3 甚至无法解答我 6 岁和 8 岁的孩子可以解答的问题。」
也就是说,如果 LLM 针对编码测试进行训练,那么用编码表现分数代表智商是毫无意义的。
但另一位网友表示:「并非如此,这是一种基于相关性的『转换』,但首先相关性有点弱,其次它转化为机器智能的效果尚不明确,即人工智能模型可能擅长编码,但在其他领域却不行。」
网友指出:「IQ 本身就是用来评估人类的指标。它评估与智力相关的特定技能,并理所当然地认为人类应该拥有许多其他特征。而这张图通过考虑人工智能可以擅长的单一指标来假设广义智能,他们甚至没有使用智商测试来得出这个结论,而是根据与智商相关的指标来推断。」
总的来说,人们对于所谓的「o3 智商高达 157」并不认可。或许,这又是一场炒作吧。
参考链接:https://www.reddit.com/r/singularity/comments/1hkxmi6/o3s_estimated_iq_is_157/
#照片+音频让蒙娜丽莎秒变播客主理人
本文作者来自字节跳动智能创作数字人团队,介绍了名为「INFP」的交互式人像生成技术。利用该技术生成的智能体能像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。
在大语言模型和 AIGC 的热潮下,科研人员对构建「视觉对话智能体」(Visual Chat Agent)展现出极大兴趣。其中,可实时交互的人像生成技术(Audio-Driven Real-Time Interactive Head Generation)是实现链路中极为关键的一环。它确保了在与用户的多轮对话过程中,智能体形象能够像真人一样提供自然、逼真的行为和视觉反馈,令用户获得沉浸式的交互体验。
,时长00:24
,时长00:26
之前的人像生成 / 驱动技术大多面向的是对话场景中的「单一方向交互」,如:说话人像生成(Talking Head Generation)或倾听人像生成(Listening Head Generation),因此无法直接应用于智能体的构建。近期陆续有一些工作开始关注研究交互式的人像生成,但它们都需要显式地指定「说话」或「倾听」的状态,且无法像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。
近日,字节跳动提出了一套面向二元对话场景的交互式人像生成技术 INFP,该方案仅需输入一段双轨对话音频(分别来自智能体本身和对话伙伴的说话内容),即可实时驱动单张肖像照片生成相应的对话视频,且能够在多轮对话中生成自然的人物行为和反馈,例如表情、眼神、口型、姿态变化以及流畅的说话 - 倾听状态切换。
- 论文链接:https://arxiv.org/pdf/2412.04037
- 项目网页:https://grisoon.github.io/INFP
技术方案
INFP 包含 2 个阶段:
1. Motion-Based Head Imitation:在第一阶段,模型从大量对话视频中学习如何提取对话时的交互和运动行为,包括非语言动作(non-verbal motion)和语言动作(verbal motion),并将其映射到运动隐空间(motion latent space)。映射后的运动编码(motion latent code)可以用来驱动肖像照片,生成相应的视频。一个好的运动隐空间应该具备高度的解耦性,即头部姿势、面部表情和情绪应该与外观完全解耦。为此,文章提出对输入图像进行面部结构离散化和面部像素遮罩处理。
2. Audio-Guided Motion Generation:在第二阶段,模型将双轨对话音频输入映射到第一阶段预训练的运动隐空间,以获得相应的运动潜码。该部分由一个交互运动引导模型(Interactive Motion Guider)和一个条件扩散模型(Conditional Ddiffusion Transformer)组成。前者将来自智能体及其对话伙伴的音频作为输入,从可学习的记忆库(Learnable Memory Bank)中检索语言和非语言动作,以构建交互式动作特征。后者利用交互式运动特征作为条件,与其他信号一起通过去噪生成运动潜码。
实验结果
在实验章节中,文中从多个方面详细对比了 INFP 和其它市面上 SOTA 方案,以此来证明该方法的有效性。
此外,文中页分别对比了 INFP 和 Talking Head Generation 以及 Listening Head Generation 方法,以此证明该方法在「单一交互」场景中的生成效果依然可以做到 SOTA。
效果展示
动作多样性效果展示
,时长00:12
,时长00:13
,时长00:15
非真人效果展示
,时长00:18
,时长00:14
即时交互 demo 效果展示
,时长00:24
,时长00:17
安全说明
此工作仅以学术研究为目的,会严格限制模型的对外开放和使用权限,防止未经授权的恶意利用。
团队介绍
字节跳动智能创作数字人团队,智能创作是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术,丰富智能创作内容生态。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。