#DRT-o1
引入长思维链!微信基于阿里千问大模型搞出个翻译版o1
最近,类 o1 模型的出现,验证了长思维链 (CoT) 在数学和编码等推理任务中的有效性。在长思考(long thought)的帮助下,LLM 倾向于探索、反思和自我改进推理过程,以获得更准确的答案。
在最近的一项研究中,微信 AI 研究团队提出了 DRT-o1,将长 CoT 的成功引入神经机器翻译 (MT)。实现这一目标有两个关键点:
一是适合在机器翻译中使用长思考的翻译场景:并不是所有的场景都需要在翻译过程中进行长思考。例如,对于简单的表达,直译就可以满足大多数需求,而长思考的翻译可能没有必要;
二是一种能够合成具有长思考能力的机器翻译数据的方法。
展开来说,文学书籍中可能会涉及明喻和隐喻,由于文化差异,将这些文本翻译成目标语言在实践中是非常困难的。在这种情况下,直译往往无法有效地传达预期的含义。即使是专业的人工翻译,也必须在整个翻译过程中仔细考虑如何保留语义。
为了在 MT 中模拟 LLM 的长思考能力,本文首先从现有文学书籍中挖掘包含明喻或隐喻的句子,然后开发出了一个多智能体框架通过长思考来翻译这些句子。
该框架有三个智能体,即翻译者(translator)、顾问(advisor)和评估者(evaluator)。数据合成过程是迭代的,每次迭代包括以下三个步骤:
(1)翻译者根据前一步的翻译和顾问的相应改进建议生成新的翻译;
(2)顾问评估当前翻译并提供详细反馈;
(3)评估者评估当前翻译并使用预定义的评分标准给出评估分数。一旦评估者提供的翻译分数达到预定义的阈值或迭代次数达到最大值,迭代将停止。
此后,每一步中的翻译和建议都可以形成长思考的机器翻译样本。为了提高长思考数据的可读性和流畅性,本文使用 GPT-4o 来重新表述长思考的内容。
基于收集的长思考机器翻译样本,本文分别使用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作为主干模型,对 DRT-o1-7B 和 DRT-o1-14B 进行训练(SFT)。在文学翻译上的实验结果证明了 DRT-o1 的有效性。例如,DRT-o1-7B 的表现比 Qwen2.5-7B-Instruct 高出 8.26 BLEU、1.31 CometKiwi 和 3.36 CometScore。它的表现也比 QwQ32B-Preview 高出 7.82 BLEU 和 1.46 CometScore。
本文贡献主要包括:
- 提出 DRT-o1,旨在构建具有长思考机器翻译能力的 LLM。为了实现这一目标,本文挖掘了带有明喻或隐喻的文学句子,并收集具有长思考过程的机器翻译样本;
- 为了合成长思考机器翻译样本,本文提出了一个多智能体框架,其中包括翻译者、顾问和评估者。这三个智能体以迭代方式协作,在机器翻译过程中产生长思考。最后,使用 GPT4o 进一步提高合成长思考机器翻译样本的质量;
- 在文学翻译上的实验结果验证了 DRT-o1 的有效性,通过长思考,LLM 可以在机器翻译过程中学会思考。
- 论文标题:DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought
- 论文链接:https://arxiv.org/pdf/2412.17498
- 项目地址:https://github.com/krystalan/DRT-o1
DRT-o1 数据
论文以英译汉为研究对象,在本节中通过三个步骤介绍如何收集 DRT-o1 训练数据:
(1)收集在翻译过程中往往需要长时间思考的英语句子(§ 2.1);
(2)通过设计的多智能体框架对收集到的句子进行长时间思考翻译过程的合成(§ 2.2);
(3)改进长时间思考内容的可读性和流畅性,形成最终的长时间思考 MT 样本(§ 2.3)。
最后,对收集到的数据进行统计,加深理解(§ 2.4)。
文学图书挖掘
研究者利用了古腾堡计划公共领域书籍库中的文学书籍,这些书籍通常有 50 多年的历史,其版权已过期。他们利用了大约 400 本英文书籍来挖掘含有比喻或隐喻的句子。
首先,从这些书籍中提取所有句子,并过滤掉太短或太长的句子,即少于 10 个单词或多于 100 个单词的句子,最终得到 577.6K 个文学句子。
其次,对于每个句子,使用 Qwen2.5-72B-Instruct 来判断该句子是否包含比喻或隐喻,并舍弃不包含比喻或隐喻的句子。
第三,对于剩下的句子,让 Qwen2.5-72B-Instruct 将其直译为中文,然后判断译文是否符合母语为中文的人的习惯。如果答案是否定的,则保留相应的句子,将其视为「适合长思考翻译」。
这样,最终从 577.6K 个涉及比喻或隐喻的文学句子中收集了 63K 个直译也有缺陷的句子,称为预收集句子。
多智能体框架
对于每个预先收集的句子(用 s 表示),研究者设计了一个多智能体框架,通过长时间的思考将其从英文翻译成中文。如图 1 所示,框架包括三个智能体:翻译者、顾问和评估者。合成过程如下:
(1) 词语级翻译。
(2) 初步翻译。
(3) 翻译完善循环。
长思考重配方
经过多智能体协作,得到了一个漫长的思考过程:
其中,P (s) 表示 s 的多智能体思考过程,m 为迭代步数。为了强调有效的思维过程,没有分数变化的翻译将被删除。也就是说,如果 s^i 等于 s^(i-1)(i = 1,2,...,m),研究者将舍弃 P (s) 中的⟨t^i , f^i , s^i ⟩,结果为:
其中 1≤r_1 < r_2 < ... < r_n ≤ m,n 为剩余步数。如果 n < 3,将放弃整个样本,即 P (s) / P′ (s)。
对于其余样本,研究者效仿 Qin et al. (2024) 的做法,利用 GPT-4o 将 P ′ (s) 修改并打磨为自我反思描述。最后,获得了 22264 个带有长思考的机器翻译样本。图 2 举例说明了合成结果。
数据统计
研究者将收集到的 22264 个样本分为训练集、验证集和测试集,样本数分别为 19264、1000 和 2000。表 1 列出了 DRT-o1 数据和以往类似 O1 数据的数据统计。对于 Marco-O1 CoT 数据,由于其尚未完全发布,此处使用其演示数据来计算数据统计。可以看到,合成的思考中的平均 token 数达到了 500 多个,这与之前面向数学的 O1 类 CoT 数据相似。
实验
为了计算 CometKiwi 和 CometScore,研究者使用了官方代码和官方模型。为了计算 BLEU 分数,使用 sacrebleu 工具包计算语料库级别的 BLEU。此处,研究者采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作为 DRT-o1 的骨干。
下表 2 显示了文献翻译的结果。研究者将 DRT-o1-7B 和 DRT-o1- 14B 与之前的 Qwen2.5-7B-Instruct、Qwen2.5- 14B-Instruct、QwQ-32B-preview 和 Marco-o1- 7B 进行了比较。根据收集到的数据进行指令调整后,DRT-o1-7B 的 BLEU、CometKiwi 和 CometScore 分别为 8.26、1.31 和 3.36,优于 Qwen2.5-7B-Instruct。DRT-o1-14B 在 7.33 BLEU、0.15 CometKiwi 和 1.66 CometScore 方面优于 Qwen2.5-14B-Instruct。此外,DRT-o1-14B 在所有指标方面都取得了最佳结果,显示了长思考在机器翻译中的有效性。
图 3 显示了 DRT-o1-14B 的一个示例。可以看到,该模型学习了收集的数据的思维过程。DRT-o1-14B 首先执行词级翻译,然后尝试初步翻译。接下来,它会不断改进翻译,直到它认为翻译足够好为止。
更多研究细节,可参考原论文。
#SageAttention
4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级
论文共同第一作者张金涛、黄浩峰分别来自清华大学计算机系和交叉信息研究院,论文通讯作者陈键飞副教授及其他合作作者均来自清华大学计算机系。
大模型中,线性层的低比特量化已经逐步落地。然而,对于注意力模块,目前几乎各个模型都还在用高精度(例如 FP16 或 FP32)的注意力运算进行训练和推理。并且,随着大型模型需要处理的序列长度不断增加,Attention(注意力运算)的时间开销逐渐成为主要开销。
此前,清华大学陈键飞团队提出的 8-Bit 的即插即用 Attention(SageAttention),将 Attention 中的 QK^T 量化至 INT8,将 PV 保持为 FP16 精度并使用 FP16 精度的矩阵乘法累加器,同时提出 Smooth K 技术保持了量化 Attention 的精度,实现了 2 倍加速于 FlashAttention2,且在各类大模型上均保持了端到端的精度表现。
目前,SageAttention 已经被业界及社区广泛地使用于各种开源及商业大模型中,比如 CogvideoX、Mochi、Flux、Llama3、Qwen 等。
近日,陈键飞团队进一步提出了 4-Bit 的即插即用 Attention(SageAttention2),相较于 FlashAttention2 和 xformers 分别实现了 3 倍以及 4.5 倍的即插即用的推理加速,且在视频、图像、文本生成等大模型上均保持了端到端的精度表现。
- 论文标题:SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization
- 论文链接:https://arxiv.org/abs/2411.10958
- 开源代码:https://github.com/thu-ml/SageAttention
即插即用举例
SageAttention2 实现了高效的 Attention 算子,可以实现即插即用的推理加速。输入任意 Q, K, V 矩阵,SageAttention2 可以快速返回 Attention Output (O)。
具体来说,SageAttention2 使用起来很方便,克隆仓库(git clone https://github.com/thu-ml/SageAttention)并执行 python setup.py install 后,只需一行代码便可以得到 Attention 的输出,可以使用该接口方便地替换任意模型中的 Attention 函数:
效果上,以开源视频生成模型 CogvideoX-1.5-5B 为例,使用 SageAttention2 可以端到端加速 1.8 倍,且生成的视频无损:
,时长00:10使用全精度 Attention
,时长00:10使用 SageAttention2
更重要的是,SageAttention2 提供了比 SageAttention 更广泛的硬件支持。除了在 RTX 4090 上可以 3 倍加速于 FlashAttention 外,在 L20、L40、L40S 可以实现 2 倍的加速,在 A100、A800、A6000 上可以实现 1.45-1.6 倍的加速(基于 SageAttention)。
接下来,研究团队将从前言、挑战、方法以及实验效果四个方面介绍 SageAttention2(总体流程图如下图)。
前言
随着大模型需要处理的序列长度越来越长,Attention 的速度优化变得越来越重要。下图展示了一个标准的 Transformer 模型中各运算的时间占比随序列长度的变化:
为了方便指代注意力运算中的矩阵,我们先回顾一下注意力的计算公式:
尽管 SageAttention 提出将 Q,K 量化至 INT8,将 P,V 保持 FP16 精度且采用 FP16 的矩阵乘法累加器来加快 Attention 的速度。然而,这样做的缺点是:1)INT8 的矩阵乘法只达到了一半的 INT4 矩阵乘法的速度,2)使用 FP16 的乘法累加器的 FP16 的矩阵乘法的加速只在 RTX4090 和 RTX3090 显卡上有效。
为了克服上述缺点,SageAttention2 提出将 Q, K 量化至 INT4,并将 P, V 量化至 FP8 来加速 Attention。然而,这样做的挑战是很大的。
4-Bit 注意力量化有什么问题?
研究团队发现直接将注意力运算中的 Q, K 量化为 INT4 后将会导致在几乎所有模型和任务上都会得到极差的结果,例如,在 CogVideoX 文生视频模型中,会得到完全模糊的视频;Llama2-7B 进行四选一选择题任务上得到 25% 的准确率。
经过仔细分析后,研究团队发现主要是两个原因导致了量化注意力的不准确:
(1)INT4 的数值范围相比 INT8 非常小,导致其量化误差在 Q,K 矩阵中出现一些异常值时会变得十分明显,恰好大多模型都在 Q, K 中表现出来了较大的通道维度的异常值。这极大削减了 QK^⊤矩阵乘法的精度。
(2)研究团队发现 Nvidia 的显卡上,FP8 的矩阵乘法指令 (mma.f32.f8.f8.f32) 的乘法累加器并不是官方宣称的 FP32 精度,而是只有 FP22 精度,这导致了 PV 矩阵乘法出现较大的累加误差。
技术方案
为了解决上述的两个挑战,研究团队提出了对应的解决办法。
(1)保留 SageAttention 中对 K 进行平滑处理的同时,提出对 Q 进行平滑处理:Q – mean (Q)。其中 mean (Q) 是沿着通道维度的平均值向量。完成该平滑操作后需要在 Attention 计算过程中将 mean (Q) 和 K^T 的向量与矩阵乘法的结果补偿到 S 中。
这使得相比直接量化 Q, K 至 INT4 的准确度有质的改变,如下表展示了对比了该方法和直接量化 Q, K 至 INT4 在 Cogvideo 和 Llama3.1 上的端到端表现。
矩阵 Q 平滑前后的数据分布可视化的结果如下,可以发现平滑后的 Q 对 INT4 数据范围的利用度更高:
(2)对 Q, K 进行 Per-thread 量化。对于矩阵 Q, K,SageAttention2 采用了根据 mma 指令对矩阵内存排布的要求,对 Q,K 中的 Token 按照 GPU 线程进行分组,使量化粒度比 SageAttention 中的 per-block 细化 16 倍,极大提高了 4Bit 的 QK^⊤乘法准确度的同时不引入任何额外开销。
具体来说,在 SageAttention 中,每个 Q 的块将被划分为 c_w 个段,由 GPU 流处理器(SM)中的 c_w 个 GPU warp 处理。然后,每个包含 32 个线程的 warp 会使用 NVIDIA 的 mma.m16n8k64 PTX 指令来执行 QK^⊤运算。根据这一指令的布局要求,研究团队发现一个 warp 内的 Q [8×(n%8)] 可以共用一个量化缩放参数,而一个 warp 内的 K [8×(n%8)] 和 K [8×(n%8+1)] 也可以共用一个量化缩放参数,其中 n 是 token 索引。
这种量化方法更为细致且不增加额外开销。这是因为它根据 MMA 指令的布局将不同的 GPU 线程分配到不同的量化 Token 组,每个线程只对应一个量化缩放参数进行反量化。而非 Per-token 量化那样,每个线程对应多个量化缩放参数。
如下表所示,可以发现 per-thread 量化的准确度比 SageAttention 中采用的 per-block 量化高得多,准确度和 per-token 量化几乎没有差别。
(3)对 FP8 的 PV 矩阵乘法采用 FP32 的寄存器将每次 FlashAttention 分块粒度的 PV 的 FP22 的乘法结果累加起来。这种做法可以有效地避免 FP22 的乘法累加器沿着序列长度累积过多的误差,将 FP22 累加器带来的误差控制在 FlashAttention 分块的粒度中,提高了 FP8 的 PV 乘法的准确度。
(4)针对 P 和 V,研究团队对比了多种量化的数据类型,对比发现使用 E4M3 数据格式的 FP8 精度最准确,基本接近了 FP16 的准确度。因此采用将 P 和 V 量化至 E4M3。
下图展示了 SageAttention2 的算法流程:
SageAttention2 共实现了两种 Kernel,区别在于对 Q, K 进行 INT4 量化还是 INT8 量化:
此外,SageAttention2 还提出一种可选的对矩阵 V 进行平滑处理的技术,可以进一步提高 PV 矩阵乘法的准确度。具体来说,当某些模型中 V 矩阵具有通道维度的偏移时,可以将 V 减去其通道维度的平均值 mean (V) 来去除偏移,之后进行正常的量化 Attention 运算。只需要对最终 Attention 的 Output 加上 mean (V) 即可保持计算的正确性。
这种做法可以提升准确度的原因如下图所示。在 FP22 的表示范围内,数值越大,相比 FP32 的误差越大。而 P 的范围是 0~1 之间,那么当 V 矩阵的列有较大的数值偏移时,PV 的 FP22 累加器的精度就越差,通过平滑 V 去除偏移后,就可以加强 PV 矩阵乘法的准确度。
实验效果
SageAttention 实现了底层的 GPU CUDA Kernel,在算子速度以及各个模型端到端准确度上都有十分不错的表现。
具体来说,算子速度相比于 FlashAttention2 和 xformers 有大约 3 倍以及 4.5 倍的加速:
算子的准确度方面也是比对 Q, K 进行 SmoothQuant 和 Hadamard 变换要更加准确:
各模型在真实场景的端到端精度表现中,在视频、图像、文本生成等大模型上均保持了端到端的精度表现:
下图是在 HunyuanVideo 中的可视化实例:
下图是在 Cogvideo 中的可视化实例:
下表展示了各个语言、视频、图像生成模型中 SageAttention2 的端到端精度表现:
端到端的速度表现上,SageAttention2 两个 Kernel 的实现均可以有效地对长序列模型进行加速,比如可以端到端 1.8 倍加速 CogVideoX1.5-5B,其他模型上也均有 1.6 到 1.8 倍的提速。
#中国AI应用支棱起来了吗
2024即将结束,中国AI应用支棱起来了吗?这家公司交出95分答卷
在 AI 生成的这些视频中,你能判断出哪个是 Sora 生成的吗?
,时长00:15
左为 Sora 生成,右为国产智象多模态大模型生成。
12 月 10 日,OpenAI 发布了 Sora。但与 10 个月前的预览效果相比,正式发布并没有带来预期的震撼效果。许多国产模型在某些方面甚至超越了 Sora。
与此同时,关于图像、视频生成模型应用前景的问题也被再次提起。记得 2 月份 Sora 刚发布预览版的时候,国内 AI 公司就是否跟进这一方向出现了一波分歧 —— 有人认为这个方向有着广阔的应用前景,值得做;但也有人认为这类模型的商业化要五年甚至十年,因此坚持不做。10 个月后,我们看到,那些选择去做的公司不仅在模型效果上有所突破,也确实摸索出了一些当前就可以落地的场景。
贡献上述 demo 的智象未来(HiDream.ai)就是这样一家公司。
智象未来成立于 2023 年 3 月,核心团队在几年前就开始研究视频、图像生成模型。如今,他们的智象多模态生成大模型已经更新到了 3.0 版本,还发布了理解大模型 1.0。
该公司 CTO 姚霆告诉,其实在视频、图像生成领域,「我们不需要等到基础模型达到 100 分才去做应用。在现有的基础模型能力之上,如果你能找到真正解决用户痛点的场景,并在应用上做得很深,真正做到端到端的 95 分以上,用户就会买单。」
基于这一发现,智象未来对他们的模型做了很多场景驱动的优化,特别关注基础模型在上层应用中的表现,去解决用户「最后一公里」的问题,同时也在探索效果更好、效率更高的模型架构。我们将在下文中详细探讨这些内容。
从场景出发去优化模型
智象多模态生成大模型迎来 3.0 版本
什么样的模型才是用户真正需要的?姚霆在采访中分享了他从用户反馈中观察到的现象。
他提到,「我们和一些 90 后、00 后的年轻人聊过,他们认为目前 AI 生成的一分钟单镜头视频,他们根本不会看,因为觉得有些无聊。但一些简单的、带特定 IP 的动态壁纸,却能吸引他们付费。」这些应用并不复杂,「但他们的要求很精准 ——IP 的每个细节不能变,比如五官。」
B 端场景也类似,比如需要将商品 logo 印在衣服上,要求效果自然、直接可用。
这些现象揭示了模型和应用之间的 gap:研究人员以为他们要把基础模型做到 100 分才会有人买单,因此拼命让模型参加各种能彰显通用能力的「考试」。而用户其实只想要一个在解决自己特定问题上能达到 95 分的模型。现阶段,这样的模型并不好找。这种 gap 让姚霆意识到,从场景需求的角度出发去优化模型,才有可能做出真正好用的产品。
智象多模态生成大模型 3.0 就是在这样的理念下被打磨出来的。总的来说,它实现了三大方面的优化:
- 一是画面质量和相关性提升;
- 二是镜头运动和画面运动更可控;
- 三是特色场景下的生成效果提升。
画面质量更高,相关性更强
对于图像生成模型来说,过硬的画面质量和遵循提示的能力是模型落地的基础。为了在这些方面实现提升,智象未来在技术架构上引入了 Diffusion Transformer (DiT) + Autoregressive model (AR) 的混合架构。
DiT 的优势无需多言。在 Sora 发布后,它已经成为视觉生成模型的主流架构。不过与此同时,也有不少学者在研究基于 AR 的视觉生成路线,因为这类模型的可扩展性已经在语言模型中得到了验证。而且,它们可以通过一个 token 化的过程打通语言、视觉等多种模态,把生成和理解统一在一个框架内,提升生成模型的可控性(如 IP 保持、提示遵循)。
考虑到两种架构各有其优点和局限性,智象未来团队选择将二者融合,使得新架构在保持 DiT 中连续图像编码优势的同时实现自回归过程和轻量化扩散过程结合。最终,除了提高生成质量和可控性,这种融合还带来了一个好处,就是模型推理速度的提升,这可以让用户更快地得到生成结果。
下图显示了智象多模态生成大模型与其他模型在图像生成效果上的差异。可以看到,在画面设计方面,智象多模态生成大模型的角色设计明显更加立体、生动,例如愤怒角色带有火焰效果,快乐角色微笑明显。在与提示的相关性方面,智象多模态生成大模型的生成效果最贴合文字描述,各个角色的情绪特征都表达得准确且生动。架构升级所带来的提升一目了然。
与此同时,智象多模态生成大模型的视频生成质量也有所提升,因为智象未来延续了之前高效的时空建模方法,并进一步增大了 DiT 模型的规模,从而实现了对复杂高清细节和逻辑关系的时空建模,提升了每帧的画面质量和整体相关性。
,时长00:32
影视级运镜与生动的画面运动
广义的视频运动本质上包含了复杂的全局镜头运动和局部画面运动。当前的很多模型都存在两种运动的不协调问题(想象一下,一个人在小路上往前走,后面的山却没有逐渐往后退),从而影响了画面的真实感和可用性。
为了解决这个问题,智象未来把镜头运动和画面运动进行联合训练,强化了对于影视级别镜头的学习和模拟,同时也提升了画面本身运动的自然度。
如下面这几个视频所示,智象多模态生成大模型能够处理非常复杂的镜头运动,如平移、缩放、旋转等,而且在镜头变化的同时,主体也在发生合理的变化(如蚂蚁随着镜头变焦而缩小),且主体动作非常连贯、丝滑(如旋转镜头中车的运动)。
「所有真实的视频都需要这样的(运镜水平)。哪怕是一个简单的宣传片,它也要过渡自然,里面有一些运镜手法。再延伸一下,运镜手法其实是可控性的一种,生成内容要遵从给定的运镜指令,不然的话这个工具就没法用了。」在提及这一方向的优化动机时,姚霆解释说。
特色场景拿来即用
用户真实的开放场景是最考验模型泛化性和垂域特色的,智象未来利用多场景学习放大多模态生成大模型的产品能力特色,实现不同特色场景下的生成效果提升,完成了用户「最后一公里」的需求。
以营销场景下的 IP 迁移功能举例(如商品 logo 等),虽然场景很简单,但要想达到让用户付费的水平,必须做到端到端的 95 分以上,在技术上就需要更多地去考虑如何兼顾用户侧生成内容的真实性以及最大化 IP 保持的程度。
如下图所示,在将 logo 迁移到商品上之后,智象多模态生成大模型能够做到毫不突兀地将其与商品融为一体,而且在需要适当变形的情况下(比如右下角的咖啡杯),模型也能「随机应变」,同时保持 IP 与原图完全一致,做到了拿来即用。
在视频生成中,智象多模态生成大模型也能把IP(例如上述生成的带logo的咖啡杯)自然地嵌入广告场景。
,时长00:15
理解、生成相辅相成
智象多模态理解大模型 1.0 亮相
在多模态大模型中,理解与生成是相辅相成的。因此,智象未来在生成大模型 3.0 的训练中加入了理解增强。同时,他们还专门推出了一个新的理解大模型 —— 智象多模态理解大模型 1.0。这个模型通过对物体级别的画面建模以及事件级别的时空建模,实现了更精细、准确的图像与视频内容理解。
此外,这一理解大模型还可以进一步服务于理解增强的多模态生成技术,搭配多模态生成大模型实现多模态检索 + 多模态内容编辑与生成的创作平台。
这个平台的运行效果如下:你只需输入文字描述,即可在系统中搜索到可用的视频片段,并通过文字交互的形式进行编辑。在现实中,基于真实视频进行二次创作的操作需求可能比从头开始制作视频更为常见,尤其是在一些以 IP 为核心的二次创作场景中。因此,基于智象多模态理解大模型 1.0 和多模态生成大模型 3.0 打造的这个系统有望大幅降低创作门槛,提高创作效率。
,时长00:38
让 AIGC「飞入寻常百姓家」
对于做生成式模型的公司来说,最近发生了一些值得关注的趋势。一方面,所有人都在讨论「scaling law 是否到头,预训练是否即将终结」。另一方面,多模态大模型正在被寄予更高的期望,有人认为这类模型有望展现出新的 scaling law,并最终通往 AGI。
然而,这些讨论并没有在姚霆心中泛起太多波澜。
当谈到多模态大模型技术未来是否就是 AGI,他有着更接地气的观点,「我们倾向于在基础模型的通用性和对垂直应用的泛化性之间找一个平衡。AGI 不是我们的目标,应用才是。」
这样的理念帮助他们在商业化方面取得了亮眼的成绩。据悉,该公司目前已累计服务了全球一百多个国家和地区的一千多万个人用户和四万多家企业客户,其中包括中国移动、中国联通、人民网、央视网、联想、科大讯飞、商汤、微软、上影、华策、彩讯、捷成世纪等头部企业。鉴于多模态大模型的应用尚处于起步阶段,这样的成绩并不多见。
姚霆表示,未来,他们会继续坚持这一路线,以更接地气方式致力于用户最后「一公里」的问题,让 AIGC「飞入寻常百姓家」。
最新融资消息
智象未来科技有限公司是全球领先的多模态生成式人工智能初创企业。公司自主研发的智象多模态大模型是超百亿级别的大模型,拥有目前行业中最丰富的多模态版权语料库,具备强大的视觉内容生成与理解能力,同时是首批完成模型和算法双备案的多模态大模型。
近日,智象未来获得数亿元人民币 Pre-A 和 A 轮融资。已完成的 Pre-A 轮融资,领投方是在文化科技领域内知名的投资机构敦鸿资本。正在进行的 A 轮融资,领投金额过亿元人民币,领投方系以合肥产投为主的国资基金,跟投方有安徽省人工智能母基金,湖北省长江电影集团有限公司等,目前还有知名战略资本正在持续推进当中。
#AGI前夜的思考
2025年将出现真正的AI智能体,年轻人需要快速适应
2025 新年将至。对于新的一年和未来几年,你对 AI 领域有什么期待和设想呢?你是否认为 AGI 将要实现了而人类社会的一切都将因之而改变。
创业公司 Exa 的 CEO Will Bryk 在 X 上发了一篇长文,以「AGI 前夜的思考」为题,详细阐述了他对 o3 模型的看法、对未来几年的预测以及 AI 领域面临的主要挑战和风险。之后,他还给年轻人提出了一些建议,以帮助他们为不可避免的 AI 时代做好准备。
这篇文章启发了不少讨论和深度思考:
针对此文,网友们也有很多的好奇,一个关键问题是:毕竟 o3 在高计算量模式下每个任务的成本达到了数千美元。
答案也很简洁:Money is all you need!
接下来,让我们看看 Will Bryk 这篇充满未来主义的文章究竟说了什么以及预言了一个怎样的未来。
AGI 前夜的思考
o3 本不应该让人震惊。OpenAI 在 2 个月前就已经放出了测试时间扩展图,而计算机的发展历史已经告诉我们应该相信趋势线,不管这个趋势多么令人难以置信。真正令人震惊的是这才不过 2 个月时间。2 个月,本科水平的 AI 就进化成了博士水平的 AI。在人类看来,变化激动人心,但快速变化则会让人震惊。
接下来会发生什么是显而易见的。任何任务,只要能够定义其奖励函数,o3 这样的模型都能非常尤其特别(reeeaally)擅长对其进行优化。数学和编程都是非常容易设计奖励函数的任务。写小说要难点。
所以这意味着在短期内(1 年),就会出现尖峰模型。它们在数学、编码和一般推理方面基本上能达到 AGI 级别,但写的小说还很普通。尽管更好的推理能力能让这些模型整体上给人更聪明的感觉,但对于它们没有针对性强化学习过的任务(即未在其训练数据中),它们仍然会失败。
当时间拉到更长范围(1-3 年),我们会不断为其增加新的训练领域(情绪数据、感官数据等),直到补齐各个盲点。此时,这些模型显然就是 AGI 了 —— 可能 Gary Marcus 不会这样想。
Gary Marcus 是 AGI 即将实现论的强烈反对者
智能体将在 2025 年真正到来。o3 这样的模型没有道理不能使用浏览器 / 应用程序。这类任务的奖励模型很容易设计。自动化计算机工作也是一个巨大的市场,因此对于需要说明其巨额开支用途的实验室来说,这能提供巨大的激励。我猜想,到 2025 年 12 月,你就能让你的计算机完成各种工作流程了,不管是浏览网页 / 应用,还是搬运数据。
AI 将会给哪些工作造成重大影响?
在各种知识类工作中,受影响最大的可能是数学家。数学家的工作领域范围是符号空间。他们的工作与物理世界几乎没有联系,因此不会受到物理世界的阻碍。LLM 是符号空间之王。数学其实并不难,灵长类动物只是不擅长而已。正则表达式也是一样。
OpenAI 的 o3 模型在数学和科学基准上都表现非常出色
一个大问题是制作研究级合成数据很难。我猜也没那么难。博士级数学和研究员级数学在我们看来在质量上有所不同,但在 AI 看来可能是一样的,只是需要更多数量级的强化学习。
我给数学家 700 天时间。(这听起来很疯狂,但如果说 o6 还不能打败数学家,听起来同样疯狂;所以我对这个预测的把握超过一半,就像这篇文章中的所有其他预测一样)。还有 700 天,人类就不再是已知宇宙中数学领域的顶尖群体了。
我们软件工程师呢?短期内,AI 将助益软件工程师。每位软件工程师都能晋升为技术主管,很不错。在那些完全采用 LLM 的人看来,到 2025 年底,编程将更像是编排一堆小任务再让小智能体去执行。
任何有明确规范的 PR(拉取请求)都可由 o4 系统完成,并且错误率也小得可以接受。不过,也有个问题:上下文窗口太小,无法装下一个代码库,但 Sam 这样的领导者也很清楚这一点。
AI 自动化将很快接替所有人类软件工程师吗?并不会。软件工程不只是基于明确清晰的提示词做 PR。不同于数学家,软件工程师需要不断与物理世界(也就是其他人)互动。工程师必须与客户和团队合作,才能理解他们的需求。当工程师设计架构或编写代码时,会涉及到大量有关组织的上下文知识。o4 将无法做到这一点。但是 o4 将帮助有上下文的工程师提速 10 倍以上。
如果软件工程师提速 10 倍了,那么就会需要更少的软件工程师吗?嗯,如果说的是一家具体的公司,那么可能软件工程师需求确实会下降,因为他们可以用更精简的团队实现相同的产出。然而,全世界对软件工程师的需求可能会增加,因为这个世界肯定还需要 10 倍以上的高质量软件。所以我认为我们将看到精简公司应用开发的黄金时代。每个人和每家企业都将获得自己的个性化微应用。
更长远地看(大于 2 年就算是长期了),软件工程将变得完全不同,但很难说会变成怎样。当 o6 系统问世并且完全整合进我们的应用,又怎么会不变呢?3 年后,前端工程师这样的岗位可能就不存在了。很奇怪吗?没那么怪啦 ——30 年前也同样不存在前端工程师。
回头看看,我们能看到每一代软件都会发生天翻地覆的改变。软件的核心一直都围绕着将需求变成纯逻辑。在抽象层级上,这种转变过程已经从二进制代码上升到了 Python。现在则是向英语等自然语言上升。
能用英语编程就为非技术人士进入这一领域打开了大门。但最好的开发者依然还是那些能在各个抽象层级上移动的人。
简而言之,由于软件工程实际上就是通过代码来理解和解决组织的需求,因此软件工程完全自动化的那天就是所有组织完全自动化的一天。
前面已经讨论了一些知识工作者,那 AI 对体力工作者有何影响呢?AI 也会接替体力劳动,但会更慢一些,因为还必须处理重力和摩擦。不过,o 系列模型对机器人帮助不大,毕竟一次需要思考一个小时的模型对生产线上的机器人来说没多大用处。
而基础模型的进步能提供帮助,而 o 系列模型可帮助训练这些模型,但我认为这无法解决机器人领域的最大障碍。我认为,这个最大障碍是硬件提升以及快速 / 可靠的感知 + 动作模型。这些需要更长的时间才能获得改进(好几年)。
只有当机器人开始制造机器人并且 AI 开始进行 AI 研究时,才可能出现机器人技术的疯狂快速发展。这可能会由 o 系列模型实现,但我认为还需要再等几年。
波士顿动力的人形机器人已能后空翻
优化测试时间计算 vs 继续扩大规模
之前的讨论都是以年为单位,但也许可以「计算」为单位。时间能决定人类的产出,而计算能决定 AI 的产出,而 AI 产出将逐渐成为研究机构最重要的事情。正因为此,科技巨头正在激烈地竞相构建超级计算集群,比如 Meta 的 2GW 集群、xAI 新增的 10 万台 H100。
所有实验室都将快速跟进 OpenAI ,研发测试时间计算模型,有些实验室可以通过更多的计算来弥补起初较差的算法。他们会像赶上 GPT-4 一样赶上 o 系列模型。要造出这些模型,需要结合常识和每个实验室的秘密配方。
目前尚不清楚 OpenAI 在 o 系列模型方面有多少秘密配方,但它们的提升速度表明这是一种算法上的进步(更容易复现),而不是某种独特的数据组合(更难复现)。
在这个测试时间计算时代,我不清楚拥有更多计算更重要还是更优模型更重要。一方面,你可以通过投入更多的测试时间计算来弥补较差的模型。另一方面,稍好一点的模型可能会节省大量的计算。
如果 xAI 直接凭借更擅长打造超大集群而最终赶上了 OpenAI,那一定会很有意思。
无论如何,模型护城河都不会持续超过一年时间,因为实验室像交换棒球卡一样交换着研究者,也许更重要的是,实验室之间的研究者会一起聚会和睡觉。另外,我认为研究者非常理想化,如果出现状况,会乐于分享信息。
现在的情况有点疯狂。AI 竞赛就像核竞赛,但竞争双方会在周末聚会,并在推特上互相挑衅:打赌你不会在 2025 年拥有最大的核弹,哈哈……
AI 竞赛将继续给人一种嬉皮娱乐的感觉,直到政府介入和 / 或发生一些非常糟糕的事情。
o 系列模型会以几种有趣的方式改变计算扩展的动态。
o 系列模型将激励大规模扩建,因为它们能随着计算的增加而获得明显的收益。计算提供商最喜欢看到这样的 Scaling Law。我猜,当 Sam 想要一个数万亿美元的计算集群时,看到的就是这个定律。
对英伟达来说,这不见得是好事。o 系列模型使得推理比训练更重要。我认为,超级优化的推理芯片比训练芯片更容易制造,因此英伟达在这方面的护城河并没有那么不可撼动。
非常推测:如果 o 系列模型能释放全世界的聚合计算来训练最好的模型呢?比如,如果我们把 Macbook Pro 合在一起,组成一个推理千兆集群,那么开放源代码就能打败封闭源代码,那该有多酷?
AI 将会从根本上改变科学研究
计算之外的另一个新指数是代码本身。如果一个实验室拥有使用最智能模型的唯一或特别途径,他们的软件工程师的生产力比其他实验室高出 2 倍,那么他们就能更快地接近下一个生产力翻番的目标。
除非代码速度达到极限,有一长串实验需要运行,实验室再次陷入计算瓶颈。(我不知道,动态变化很难。如果能看到实验室如何模拟计算与人力之间的关系,那将是一件超酷的事)。
虽然所有这些计算建设和知识工作自动化听起来都很疯狂,但只有当科学家们开始感受到 AGI 的时候,这一切才会变得真正疯狂。我指的是物理学家、化学家和生物学家。
它会从任何理论名称开始,理论物理学是第一位的。如果数学真的被解决了(写这篇文章听起来都很荒谬,但这并不意味着不可能),那么理论物理学也不会落后太多。它也生活在符号领域,LLM 将在这个领域成为超人。
2024 年的诺贝尔物理学和化学奖授予了 AI 研究者
当我们有一百万个 AI 冯诺伊曼在卢萨纳(Meta 即将建立的数据中心)的田野上日夜工作时,会发生什么?它们能以多快的速度读完上个世纪成千上万篇物理学论文,并立即吐出更多正确的 token?
显然,这是难以预测的部分。理论物理、化学、生物学,如果这些对于用 RL 训练出来的 LLM 来说是个笑话呢?在这一点上,我们有什么合理的理由来证明它不会是笑话呢?
是的,我们还没有从这些模型中看到真正的创新,但它们主要是在高中 / 大学阶段,而这些年龄段的人并不会发明新的物理学。我们现在处于阶段性水平,所以我们可能会开始看到一些创造性。
一旦人工智能开始不断提出新的科学理论,进步的瓶颈将是在物理世界中进行测试和实验。那里的瓶颈是劳动力和材料。到那时,如果没有能制造出更多机器人的机器人,那才叫奇怪呢。因此,劳动力问题已经解决。然后,机器人可以开采材料。这里的时间表会很慢,因为建造 / 运输实物需要很长的时间,但这是几年而不是几十年。
AI 发展的阻碍与风险
我以上所说的一切,都是假定人工智能和机器人的研究 / 开发不会遇到新的瓶颈,而且模型可以随心所欲地学习。这几乎肯定不会发生,阻碍人工智能发展的最大瓶颈将是人类。
另一个风险是,人工智能会失控。也就是说,它会造成我们无法预料的大灭绝。特别是随着强化学习重回游戏,人工智能现在正在发现自己的优化方案,而不是试图匹配人类数据(匹配人类更安全)。但到目前为止,这些模型的底层大脑仍然是一个 LLM,而 LLM 已经显示出了对人的理解能力。
但我的兴奋感肯定多于害怕感。
未来十年可能实现的目标
我一直向往的科幻世界即将到来。它来得比预想的要快一些,因此我感到恐惧,但在所有可能到达那里的路径中,我不知道最好的路径会有多好。这是一个相当不错的时间表。
我最希望在十年内实现的目标是:
- 一些疯狂酷炫的物理发现;
- 最初由机器人建造的火星和月球基地;
- 完美的家庭教师 / 建议(快到了,需要良好的检索能力、记忆力和更多的个性);
- 零副作用的生物强化药物;
- 乘坐超级优化的无人机四处飞行;
- 使用核聚变、地热和大量太阳能等超级清洁能源;
- 一些意想不到:人工智能天文学家在望远镜数据中发现外星信号?人工智能化学家轻松设计出室温超导体?人工智能物理学家统一了一些理论?人工智能数学家解决了黎曼猜想?
这些看起来不再是科幻小说,而是近在咫尺的科学现实。
那么,这一切将何去何从?最终我们会得到超级智能,这意味着我们会得到物理定律所允许的一切,我希望能长生不老,并看到其他恒星系统。我还希望把我们的肉体升级到更好的东西。但到目前为止,我最想知道宇宙从何而来。
10 年前,我开始写日记,讲述我是多么想知道这个答案,以及人工智能将如何把我们带到那里,而现在这一切可能真的发生了,这太疯狂了。
我们现在生活的世界,这一切听起来都有可能实现。每一次新的人工智能发展都会让更多的人意识到这一点,o3 就是最近的一次。
我们应当守护我们的未来并适应变化
未来不超级棒的唯一可能就是我们这些人把它搞砸了。
人们认为人工智能实验室的人在控制我们的未来。我不这么认为。他们的工作已经确定。他们只是在探究模型架构,而就算这个实验室不做,也有另外的实验室来做。
但是,很多东西都是完全不确定的。这意味着我们是未来的守护者。我们每一个人都有责任帮助我们的世界渡过未来的艰难时期,让我们拥有一个美好的未来,而不是一个可怕的未来。
有很多方法可以帮助我们:帮助制造能让社会更稳定或让人们更聪明的产品(例如帮助人们规范社交媒体的应用程序)。帮助人们了解正在发生的事情(在社交媒体上提供更多高质量的评论、一个非常好的搜索引擎等)。帮助清理我们的街道,让这座要求把我们带入乌托邦的城市不会看起来反乌托邦。
几乎每个与我交谈过的人都害怕在人工智能世界中失去意义,你可能也是。我想对你说,这不正好相反吗?你生活在历史最重要的时期,你有能力影响它。帮助拯救世界就足够了,不是吗?你想回到那个只有你的事业进步而不是世界都在进步的时代吗?
也许,人们需要做的转变是从「通过个人成功获得意义」到「通过集体成功获得意义」。我们目前的许多工作很快就会自动化,我们必须适应。如果你从一项特定的技能中获得意义,这项技能可能在 5 年后就不再需要了,那你就倒霉了。但如果你能从力所能及的帮助世界中获得意义,那么这种意义永远不会消失。
对于所有因为 o3 而得到建议的新毕业生,我的建议是:学习成为一个高水平的问题解决者和出色的团队合作者。你在学习过程中学到的具体技能并不重要,因为世界变化太快。但是,在很长一段时间内,跳跃性地解决问题和与团队良好合作将非常重要。
你可能还需要接受不稳定世界中的不稳定生活。这会变得很奇怪。你可能不会在郊区有两个孩子和一条狗。你可能会在星际方舟上有两个机器人孩子和一只人工智能狗。
我们正生活在 AGI 的前夜,我希望你们能帮助 AGI 顺利过渡,这样我就能在公元 3024 年的圣诞夜,在四光年外绕着 Altman Centauri 运行的星球上向你们问好。
原文链接:https://x.com/WilliamBryk/status/1871946968148439260
#SimpleFlight
轨迹跟踪误差直降50%,清华汪玉团队强化学习策略秘籍搞定无人机
本文介绍了基于强化学习的无人机控制策略零样本泛化到真实世界的关键因素。作者来自于清华大学高能效计算实验室,通讯作者为清华大学汪玉教授和于超博士后,研究方向为强化学习和具身智能。
控制无人机执行敏捷、高机动性的行为是一项颇具挑战的任务。传统的控制方法,比如 PID 控制器和模型预测控制(MPC),在灵活性和效果上往往有所局限。而近年来,强化学习(RL)在机器人控制领域展现出了巨大的潜力。通过直接将观测映射为动作,强化学习能够减少对系统动力学模型的依赖。
然而,「Sim2Real」(从仿真到现实)的鸿沟却始终是强化学习应用于无人机控制的难点之一。如何实现无需额外微调的策略迁移,是研究者们追逐的目标。尽管有许多基于强化学习的控制方法被提出,但至今学界仍未就训练出鲁棒且可零微调部署的控制策略达成一致,比如:奖励函数应该如何设计才能让无人机飞得平稳?域随机化在无人机控制中到底该怎么用?
最近,清华大学的研究团队为我们带来了一个突破性的答案。他们详细研究了训练零微调部署的鲁棒 RL 策略所需的关键因素,并提出了一套集成五大技术、基于 PPO 的强化学习框架 SimpleFlight。这一框架在轨迹跟踪误差上比现有的 RL 基线方法降低了 50% 以上!如果你正为强化学习策略无法实际控制无人机而发愁,那么 SimpleFlight 能够帮助你训练出无需额外微调就能在真实环境中运行的鲁棒策略。
- 论文标题:What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study
- 论文链接:https://arxiv.org/abs/2412.11764
- 开源代码及模型项目网站:https://sites.google.com/view/simpleflight
实验效果一览
为了验证 SimpleFlight 的有效性,研究人员在开源的微型四旋翼无人机 Crazyflie 2.1 上进行了广泛的实验。
实验中,无人机的位置、速度和姿态信息由 OptiTrack 运动捕捉系统以 100Hz 的频率提供,并传输到离线计算机上进行策略解算。策略生成的 collective thrust and body rates( CTBR) 控制指令以 100Hz 的频率通过 2.4GHz 无线电发送到无人机。
研究人员使用了以下两种类型的轨迹作为基准轨迹:
- 平滑轨迹:包括八字形和随机多项式轨迹。八字形轨迹具有周期性,研究人员测试了三种速度:慢速 (15.0s 完成)、正常速度 (5.5s 完成) 和快速 (3.5s 完成)。随机多项式轨迹由多个随机生成的五次多项式段组成,每个段的持续时间在 1.00s 和 4.00s 之间随机选择。
- 不可行轨迹:包括五角星和随机之字形轨迹。五角星轨迹要求无人机以恒定速度依次访问五角星的五个顶点。研究人员测试了两种速度:慢速 (0.5m/s) 和快速 (1.0m/s)。随机之字形轨迹由多个随机选择的航点组成,航点的 x 和 y 坐标在 -1m 和 1m 之间分布,连续航点之间由直线连接,时间间隔在 1s 和 1.5s 之间随机选择。
图 1:四种轨迹的可视化
策略的训练数据包括平滑随机五次多项式和不可行之字形轨迹。训练过程持续 15,000 个 epoch,训练完成后,将策略直接部署到 Crazyflie 无人机上进行测试,没有进行任何微调。值得注意的是,由于策略在不同随机种子下表现稳定,研究人员在 3 个随机种子中随机挑选了一个策略而没有选择表现最好的那个。
表 1:SimpleFlight 与基线算法的表现对比
研究人员将 SimpleFlight 与两种 SOTA 的 RL 基线方法 (DATT [1] 和 Fly [2]) 进行了比较,如表 1 所示。结果表明,SimpleFlight 在所有基准轨迹上都取得了最佳性能,轨迹跟踪误差降低了 50% 以上,并且是唯一能够成功完成所有基准轨迹(包括平滑和不可行轨迹)的方法。图 2 是一些真机飞行的视频。
图 2:SimpleFlight 在 Crazyflie 2.1 无人机上的实验效果
研究人员指出,这些对比的核心目的并非进行绝对的横向评价,而是为了表明:SimpleFlight 实现了目前所知的在 Crazyflie 2.1 上的最佳控制性能,尽管没有依赖任何新的算法改进或复杂的架构升级。SimpleFlight 的意义更在于作为一套关键训练因素的集合,它能够轻松集成到现有的四旋翼无人机控制方法中,从而帮助研究者和开发者进一步优化控制性能。
此外,研究人员还进行了额外实验,将 SimpleFlight 部署到一款由团队自制的 250mm 轴距四旋翼无人机上。这款无人机配备了 Nvidia Orin 处理器,进一步验证了 SimpleFlight 在不同硬件平台上的适应性与效果。自制无人机的飞行视频和结果已上传至项目官网,供感兴趣的同行参考。
SimpleFlight 的五大核心秘诀
那么,SimpleFlight 是如何做到的呢?研究人员主要是从优化输入空间设计、奖励设计和训练技术三方面来缩小模拟到现实的差距,并总结出了以下 5 大关键因素:
- 采用与未来一段参考轨迹的相对位姿误差、速度和旋转矩阵作为策略网络的输入,这使得策略可以进行长距离规划,并更好地处理具有急转弯的不可行轨迹。研究人员指出,在强化学习策略的学习中,采用旋转矩阵而不是四元数作为输入,更有利于神经网络的学习。
- 将时间向量添加到价值网络的输入。无人机的控制任务通常是随时间动态变化的,时间向量作为价值网络的额外输入,增强了价值网络对时间信息的感知,从而更准确地估计状态值。
- 采用 CTBR 指令作为策略输出动作,使用连续动作之间的差异的正则化作为平滑度奖励。在无人机控制中,不平滑的动作输出可能导致飞行过程中的不稳定,甚至出现震荡和意外偏离轨迹的情况。而现实中的无人机由于硬件特性和动态响应的限制,比仿真环境更容易受到这些不稳定动作的影响。研究人员比较了多种平滑度奖励方案,结果表明使用连续动作之间的差异的正则化作为平滑度奖励,可以获得最佳的跟踪性能,同时鼓励策略输出平滑的动作,避免在现实世界中产生不稳定的飞行行为。
- 使用系统辨识对关键动力学参数进行校准,并选择性地应用域随机化手段。研究人员通过系统辨识对关键动力学参数进行了精确校准,确保仿真模型能够尽可能接近真实无人机的动力学特性。然而,研究也发现,域随机化的应用需要极为谨慎。对于那些能够通过系统辨识达到合理精度的参数,过度引入域随机化可能会适得其反。这是因为不必要的随机化会显著增加强化学习的学习复杂度,导致性能下降。换句话说,域随机化并非 「越多越好」,需要通过合理选择哪些参数应用随机化。
- 在训练过程中使用较大的 batch size。在 SimpleFlight 的训练过程中,研究人员特别关注了 batch size 对策略性能的影响。他们通过实验发现,增大 batch size 尽管对仿真环境中的性能提升并不显著,但在真实无人机上的表现却得到了显著改善。这表明,大 batch size 在缩小模拟与现实之间的 Sim2Real Gap 方面,扮演了关键角色。这种现象背后的原因可能与强化学习的泛化能力有关。在大 batch size 的训练中,策略能够在更广泛的状态分布上进行学习,从而提升其应对真实环境中复杂情况的鲁棒性。这种改进不仅帮助策略更好地适应现实世界中的不确定性,还减少了从仿真到现实部署时可能出现的性能退化问题。
另外值得注意的是,SimpleFlight 框架集成在研究人员自主开发的高效无人机仿真平台 OmniDrones,该平台基于 NVIDIA 的 Isaac Sim 仿真环境搭建,允许用户在 GPU 并行模拟之上轻松设计和试验各种应用场景,可以实现每秒超过 10^5 步的仿真速度,极大地加速了强化学习策略的训练。
图 4:OmniDrones 仿真平台示意图,来源:https://arxiv.org/abs/2309.12825
还等什么?赶快试试 SimpleFlight,把你的强化学习策略送上无人机吧!
#GRAPE
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
论文一作为北卡罗来纳大学教堂山分校张子健,指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao。共同第一作者为华盛顿大学 Kaiyuan Zheng,其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox,以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang。
- 论文标题:GRAPE: Generalizing Robot Policy via Preference Alignment
- 论文链接:https://arxiv.org/abs/2411.19309
- 项目地址:https://grape-vla.github.io
- 代码地址:https://github.com/aiming-lab/GRAPE
研究背景
近年来,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。
此外,这些模型通常通过微调来复制在不同环境下由专家收集的演示数据,这导致了分布偏差,并限制了它们对多样化操作目标(如效率、安全性和任务完成)的适应能力。
方法部分
为了解决这一问题,我们提出了 GRAPE,一种即插即用的算法,通过偏好对齐提升机器人策略的泛化能力,并支持将 VLA 模型对齐到任意设定的目标。GRAPE 的框架如下图所示:
图 1:GRAPE 的框架
GRAPE 带来了以下三大优势,显著增强了 VLA 模型的泛化性:
- GRAPE 在轨迹层面通过强化学习(RL)目标对 VLA 进行对齐,赋予模型全局决策能力,而不仅仅是简单的行为克隆;
- GRAPE 隐式建模了成功和失败尝试中的奖励,从而提升对多样化任务的泛化能力;
- GRAPE 采用可扩展的偏好合成算法。GRAPE 通过与任意目标对齐的偏好对轨迹进行排序,进而使得 VLA 模型能被对齐到设定的目标上。
具体而言,GRAPE 的框架可以被拆成三个部分:Trajectory-wise Preference Optimization、Customized Preference Synthesis 和 Iterative Online Alignment。以下是这三个部分的详细介绍:
Trajectory-wise Preference Optimization(轨迹级偏好优化):
GRAPE 将逐步训练的 VLA 模型扩展到轨迹级别,并通过强化学习(RL)目标进行训练,确保对齐后的策略能够优先选择被接受的轨迹,而非被拒绝的轨迹。
具体而言,我们基于 DPO 的 Loss 函数进行了改进,引入了一种全新的 TPO_Loss,使得模型能够学习轨迹级别的偏好。我们利用模型在任务中采集的较优与较劣的尝试(分别计为 ζ_w,ζ_l),建立了 TPO 偏好数据集,最终使得模型在 TPO 训练后在全局层面获得了对齐,并增强了其鲁棒性。
图 2 TPO-Loss 公式
Customized Preference Synthesis(定制化偏好合成):
基于 TPO-Loss 的设计,我们需要对于轨迹的优劣进行建模,从而构建对应的偏好数据集。然而,对于一些复杂的机器人任务,并没有能够用于轨迹排序的奖励模型。
针对这个问题,GRAPE 引入了一种可扩展算法,将复杂操作任务分解为独立阶段,并通过一个大型视觉-语言模型提出的关键点,自动引导偏好建模过程中的时空约束。这些约束具有灵活性,可根据需求进行定制,使模型与不同目标(如安全性、效率或任务完成)保持一致。
Iterative Online Alignment(迭代式在线对齐):
GRAPE 通过以下迭代循环不断优化对齐过程:1)在线样本采集,2)合成偏好排序,3)轨迹级偏好优化。这种方法逐步提升了 VLA 策略的泛化能力,并使其与任意目标更好地对齐。
实验结果
真机泛化实验
我们在域内任务以及五种分布外泛化(OOD)任务上评估了 GRAPE 的性能,这些 OOD 任务包括:视觉(新的视觉环境)、主体(未见过的物体)、动作(未见过的操作)、语义(未见过的提示)和语言落地泛化(物体处于未见过的空间位置)。
结果显示,GRAPE 在这些 OOD 任务上的表现分别比最先进的 OpenVLA-SFT 模型提升了 20.7%、27.5%、10.0%、5.0% 和 26.7%。这充分体现了通过偏好对齐过程所实现的卓越泛化能力。
仿真泛化实验
我们进一步在 Simpler-Env 和 LIBERO 环境中评估了 GRAPE 的性能,重点考察三种 OOD 任务的泛化能力:主体(未见过的物体)、物理属性(未见过的物体尺寸 / 形状)和语义(未见过的提示)。
结果显示,GRAPE 在这些 OOD 任务上相较 OpenVLA-SFT 模型分别提升了 8.0%、12.3% 和 19.0% 的表现。
图 3:真机与仿真实验统计结果
特定对齐目标分析
GRAPE 能够高效地将机器人策略与通过自然语言指定的多种目标对齐,例如任务完成、安全性和效率。这些目标被融入多阶段的成本函数中,进而影响采样轨迹的排序。
实验表明,当对齐目标为更安全或更高效的操作策略时,GRAPE 可将碰撞率降低 44.31%,或将执行轨迹的长度缩短 11.15%。
图4:指定的对齐目标(安全),训练后的模型学会了安全地执行操作
结论
本文提出了 GRAPE,一种即插即用的 VLA 模型对齐框架,在多种机器人任务场景下均能使用,能够基于轨迹偏好提升机器人策略的泛化能力,并支持将模型对齐到指定目标。
#OpenAI裂变成了两块
突发!刚刚,OpenAI裂变成了两块:一块营利,一块非营利
鱼上了岸,就不再是鱼?
本周五晚间,OpenAI 突然宣布了公司重组的消息,不仅让马斯克,也让我们有些措手不及。
根据 OpenAI 的最新声明,新一轮组织结构调整是围绕营利与非营利的矛盾展开的。
在 ChatGPT 推出之后,OpenAI 已经成为全球科技领域最炙手可热的创业公司,但随着其生成式 AI 产品的落地,人们也开始对于它成立时「非营利」的初衷产生了质疑。伊隆・马斯克甚至与 OpenAI 反目成仇,提起了诉讼。
今年年中时,就有媒体预测 OpenAI 将在 2025 年转为营利性机构,但似乎这一进程不得不加快了。
这一切来的似乎太早,OpenAI 对于新架构的表述也立刻引发了争议,并且网友的评论整体偏向负面。
正面评价自然也有,但不多。
截止到本文发稿时,马斯克与奥特曼等利益相关方都还没未对此事公开置评。不过有意思的是,奥特曼在 OpenAI 宣布组织结构调整后发了一系列推文感谢多已离职的 OpenAI 元老。
不知奥特曼是不是在以这种方式「承前启后」。
以下为 OpenAI 发布的博客全文。
为了推进我们的使命,为什么 OpenAI 的组织结构必须进化
用营利性的成功支持更强盛的非营利事业。
OpenAI 董事会正在评估我们的公司结构,以便最好地支持我们的使命:确保通用人工智能(AGI)能够造福全人类。我们有三个目标:
- 选择一个对这一使命的长期成功最有利的非营利或营利性结构。
- 让非营利组织可持续发展。
- 让每个部分都各司其职。
今天起,我们有了一个非营利组织和一个营利组织,我们将继续同时拥有这两个组织。营利组织的成功能使非营利组织获得充足的资金、更好的支持,并在完成使命方面处于更有利的地位。
我们认为这项使命是我们这个时代最重要的挑战。它需要同时提高 AI 的能力、安全性和对世界的积极影响。在这篇文章中,我们分享了我们当前结构的历史、我们认为有必要进行变革的原因以及我们正在考虑哪些具体变革。
过去
我们成立于 2015 年,一开始是一个研究实验室。我们的愿景是 AGI 真的能实现,我们希望能尽可能地为其提供帮助。在早期,我们认为进步依赖于顶级研究人员提出的关键思想,而超级计算集群则不那么重要。
我们进行了各种实验,从游戏 AI 工具包到机器人研究和发表论文。我们没有产品,没有业务,也没有商业收入。
我们当时给出的目标是「以最有可能造福全人类整体的方式推进数字智能,不受产生资金回报的需求的限制。」非营利结构似乎很合适,我们以各种形式筹集捐款,包括现金(1.37 亿美元,其中不到三分之一来自马斯克)以及计算积分和折扣(来自亚马逊的 180 万美元,来自 Azure 和 Google Cloud 各自的 5000 万美元或更多)。
最终,很明显,最先进的 AI 将不断使用越来越多的计算,而扩大大型语言模型的规模是一条有希望的 AGI 之路,它植根于对人类的理解。为了完成我们的使命,捐赠可不够,我们需要远远更多的计算,因此也需要更多的资本。
现在
2019 年,我们从一个实验室变成了一家初创公司。我们估计我们需要筹集 100 亿美元左右的资金来构建 AGI。这种计算和人才资本水平意味着我们需要与投资者合作才能继续非营利组织的使命。
我们创建了一个定制的结构:一个营利性组织,由非营利组织控制,投资者和员工的利润份额有上限。我们打算赚取巨额利润来回报股东,使我们的使命成为可能,并将剩余资金流向非营利组织。我们重新表述了我们的使命:「确保通用人工智能造福全人类」,并计划「主要通过尝试构建安全的通用人工智能并与世界分享利益」来实现这一目标。言语和方式的改变都是为了服务于同一个目标 —— 造福人类。
那一年,作为营利组织,OpenAI 在首轮融资中筹集了超过 1 亿美元,随后又从微软筹集了 10 亿美元。
到 2020 年,为了筹集更多资金,我们需要证明我们的技术可以在达到 AGI 之前产生收入。所以我们构建了我们的第一个产品。在此过程中,我们了解到现实世界的安全性与我们在实验室中的预期有多么的不同。与此同时,我们也开始提供我们使命中的「收益」部分,而不必等到实现通用人工智能之后。
2022 年,我们推出了 ChatGPT,一款让人工智能走进普通人日常生活的产品。如今,每周有超过 3 亿人使用它来提高工作效率、学习效率等,其中大部分是免费的。
2024 年,我们发现了一种新的研究范式:o 系列模型展示了新的推理能力,可以通过「思考」计算进行扩展,并与训练计算叠加在一起。
我们的影响力不仅在于我们创造的东西,还在于我们是如何影响他人的。部分原因在于我们的进步,该领域的活力与竞争,从类似于 ChatGPT 的商业产品到开源大模型,到各领域积极的创新、对于安全的追求等等。这项活动只是人工智能经济的开始,OpenAI 展示了对该领域领导地位的追求,激励了其他组织共同推进这一使命。
目前,大型公司在人工智能开发上的数千亿美元投资,显示了 OpenAI 继续追求使命所需的真正投入。我们需要再次筹集比我们想象的多的资本。虽然投资者想要支持我们,但在如此大规模的资本面前,他们需要常规的股权结构,而不是过于固化的结构。
未来
随着我们步入 2025 年,我们将不得不超越一个实验室和初创公司 —— 我们必须成为一家可持续的企业。
基于在董事会与外部法律和财务顾问协商,考虑如何最好地构建 OpenAI,以推动通用人工智能(AGI)惠及全人类的使命,董事会的目标是:
1. 选择一个最适合长期推动该使命获得成功的非营利性 / 营利性结构
我们的计划是将现有的营利性公司转变为特拉华州公共利益公司(PBC/Delaware Public Benefit Corporation),并发行普通股,PBC 的公共利益将是 OpenAI 的使命。PBC 是一种结构,许多其他公司也采用这种结构,它要求公司在决策过程中平衡股东利益、利益相关者利益和公共利益。它将使我们能够以常规条款筹集所需的资金,就像这个领域中的其他公司一样。
2. 使非营利组织可持续发展
我们的计划将使 OpenAI 成为历史上资源最丰富的非营利组织之一。非营利组织对现有营利性公司的重要股权将以 PBC 中的股份形式出现,股份的公允估值由独立的财务顾问确定。这将使我们的捐赠者所提供的资源成倍增加。
3. 使每个部门都发挥作用
我们当前的结构不允许董事会直接考虑那些为我们的使命融资的人的利益,也无法使非营利组织轻松做出超越控制营利性公司的决策。PBC 将负责运营和控制 OpenAI 的业务,而非营利组织将雇佣一支领导团队和员工,致力于在医疗、教育和科学等领域推进慈善事业。
我们已经学会将 OpenAI 的使命视为一个可持续的目标,而不仅仅只是构建某个单一系统。如今的世界正在为了 21 世纪的经济提供服务,而建设新基础设施,包括能源、土地利用、芯片、数据中心、数据、AI 模型和 AI 系统。
我们寻求不断发展,以迈出我们使命的下一步,帮助建设 AGI 经济,并确保其惠及人类。
虽然 OpenAI 的这篇博客,花了较大篇幅阐明他们的使命和确保使命可持续性发展而作出的努力。但并没有解除网友们的疑惑:到底是营利还是非营利?这是个问题。
毫无疑问,OpenAI 在这里引入了一个不常见的公司组织架构模式,引发了很多人的困惑。
据介绍:在特拉华州公共利益公司(PBC)中,董事会负责管理公司,以便其对公司的信托责任和为股东实现价值最大化,与受公司运营影响的其他群体(包括员工、客户、供应商、环境或整个社会)的利益相平衡。所述公益可以与公益公司的商业业务相关,但不必相关。
例如,在与公司业务相关的公益中,一家维生素公司可以承诺将其部分产品捐赠给营养不良的母亲或第三世界孤儿院,以改善公共卫生。
为了保证这一目的,董事会需要负责发布两年一次的公益报告。该报告必须分发给股东,并可在公益公司空闲时更广泛地发布。报告必须描述公司为实现公益目的所做的努力,并就其进展情况以及衡量此类进展的标准和指标提供具体指导。
与美国其他州公益公司要求的类似报告不同,特拉华州公共利益公司(PBC)编制的两年一次报告不必按照第三方标准或认证机构的措施完成或使用其措施,尽管公司可以根据其认为合适的情况采用此类标准或获得第三方认证机构的认证。公益公司不必公开此报告。
对这一轮 OpenAI 组织结构的调整,你的看法是什么呢?
参考内容:
https://x.com/OpenAI/status/1872628736690123213
https://openai.com/index/why-our-structure-must-evolve-to-advance-our-mission/
#让AI理解费马大定理的证明
两个月过去了,进展如何?
1637 年,费马在阅读丢番图《算术》拉丁文译本时,曾在第 11 卷第 8 命题旁写道:「将一个立方数分成两个立方数之和,或一个四次幂分成两个四次幂之和,或者一般地将一个高于二次的幂分成两个同次幂之和,这是不可能的。关于此,我确信我发现一种美妙的证法,可惜这里的空白处太小,写不下。」
这就是著名的费马大定理(FLT,也叫费马最后定理):
当整数 n > 2 时,关于 x, y, z 的不定方程 xⁿ + yⁿ = zⁿ 无正整数解。
此后,无数数学家和数学爱好者都尝试过证明这个定理;甚至对该定理的证明一度成为「民间数学家」最爱挑战的难题之一,这个现象让数学历史学家霍华德・伊夫斯(Howard Eves)忍不住感慨:「费马大定理的独特之处在于它是迄今为止发表错误证明最多的数学问题。」
对费马大定理的首个完整证明直到 358 年之后的 1995 年才真正发表。为此,英国数学家安德鲁・怀尔斯(Andrew Wiles)使用了一系列复杂的数学工具和理论。整体而言,怀尔斯的证明建立在模形式和椭圆曲线之间的深刻联系(即谷山 - 志村猜想的一部分)之上,整个证明非常复杂,论文《Modular elliptic curves and Fermat’s Last Theorem》就有 109 页。
近日,伦敦帝国学院数学教授 Kevin Buzzard 在自己的博客上分享了一个非常有趣的项目:教计算机理解费马大定理的证明。这项工作可以帮助验证对费马大定理的证明,修正其中可能存在疏漏的部分。虽然计算机还没有完全理解,但也确实取得了一些进展。
这篇博客在 Hacker News 上吸引了大量讨论,很多人都分享了自己的见解或经历,尤其是关于数学形式化的重要性。
以上截图均来自 Hacker News 和谷歌翻译,更多讨论请访问:https://news.ycombinator.com/item?id=42399397
以下是 Buzzard 教授的博客全文(原文段落较长,这里进行了适当拆分和调整)。
费马大定理 —— 进展如何?
我已经花了两个月时间来教计算机理解马大定理(FLT)的一个证明。
大部分的「进展如何」解释起来都相当繁琐且技术性:长话短说,怀尔斯证明了「R=T」定理,而到目前为止的大部分工作都是教计算机理解什么是 R 和 T;我们仍然还没有完成这两者中任何一个的定义。
但是,我的博士生 Andrew Yang 已经证明了我们需要的抽象可交换代数结果(「如果抽象环(abstract rings)R 和 T 满足许多技术条件,则它们相等」),这是令人兴奋的第一步。
我们使用的系统是 Lean 及其数学软件库 mathlib,该软件库由 Lean 证明器社区维护。如果你对 Lean 和数论有所了解,可以考虑阅读贡献指南、查看项目仪表板并认领一个问题。
下面是一些相关链接:
- 蓝图和进展:https://imperialcollegelondon.github.io/FLT/blueprint/
- Lean:https://lean-fro.org/
- mathlib:https://github.com/leanprover-community/mathlib4
- 贡献指南:https://github.com/ImperialCollegeLondon/FLT/blob/main/CONTRIBUTING.md
- 项目仪表盘:https://github.com/orgs/ImperialCollegeLondon/projects/102
- 问题:https://github.com/ImperialCollegeLondon/FLT/issues
蓝图页面截图
如前所述,我们已经进行了两个月。但是,我们已经有一个我认为值得分享的有趣故事了。谁知道这是否预示着某个未来。
我们的目的并不是形式化 1990 年代那个 FLT 证明。自那以后,已经有很多人(Diamond/Fujiwara、Kisin、Taylor、Scholze 等人)对该证明进行了泛化和简化。我的部分动机是要证明这些更通用、更有力的结果。为什么这是因为如果 AI 真的可以变革数学(有可能),并且 Lean 被证明是一个重要的组成部分(也有可能),那么计算机将能够更好地帮助人类突破现代数论的界限。对于这种形式化工作,计算机能够以它们理解的方式来获得关键的现代定义。
怀尔斯的原始证明中没有使用的一个概念,在我们正在形式化的证明中使用了,它就是晶体上同调(crystalline cohomology)。
这是 20 世纪六七十年代在法国巴黎发展起来的理论,其基础是由数学家 Berthelot 根据另一位数学家 Grothendieck 的思想搭建的。基本思想是经典指数和对数函数在微分几何(例如 Lie 代数和 Lie 群)发挥关键作用,特别是在理解德拉姆上同调(de Rham cohomology,)中,不过它们在更多的算术情况下不起作用(例如在特征 p 中)。
20 世纪六十年代,Roby 在一系列精彩的论文中提出了「除幂结构」(divided power structures),在构建可用于算术情况的类函数中发挥了至关重要的作用。注:我们要想教计算机晶体上同调,首先需要教它除幂理论。
数学领域的研究者 Antoine Chambert-Loir(简称 Antoine)和 Maria Ines de Frutos Fernandez(简称 Maria Ines)一直在教 Lean 除幂理论,而整个夏天,Lean 都时而出现一种令人恼火的情况:它会抱怨标准文献中人为提出的论证,并经过仔细检查发现人为论证有待改进,特别是 Roby 的工作中有一个关键引理似乎不正确。当 Antoine 告诉我这件事时,他觉得我会认为这很有趣,而他收到的回复中一长串大笑的表情符号确实证实了这一点。
然而,Antoine 比我更专业,认为我不应该发推讨论这个问题(反正我也不发,我已经抛弃了推特并转向了社交平台 bluesky),而应该尝试解决这个问题。
我们以完全不同的方式来处理这个问题,Antoine 把它列入了自己的工作清单,而我却完全忽略了它,只是偶尔向人们提及这个证明有问题,是弱证明。我之所以说是弱证明,是因为这一观察必须放在某种背景下。
根据我目前对数学的观察(作为形式主义者),当 Antoine 发现这个问题时,整个晶体上同调理论就从文献中消失了,并带来巨大的附带损害(例如数学家 Scholze 的大量工作就消失了,整本的书籍和论文都化为乌有)。但这种消失只是暂时的,晶体上同调在实际意义上并没有错误。这些定理毫无疑问仍然是正确的,只是就我而言,证明是不完整的(或者至少 Antoine 和 Maria Ines 遵循的证明不完整)。因此我们的工作就是修正它们。
我想强调的是,我和 Antoine 都很清楚,即使中间引理是错误的,主要结果的证明当然可以修正,这是因为从 20 世纪 70 年代以来晶体上同调就得到了广泛使用。如果它有问题,早就该暴露出来了。我交流过的每个专家都同意这一点,有几位甚至认为我在小题大做。但也许他们不明白形式化在实践中到底意味着什么:你不能只是说「我相信它可以修正」,你必须真正地修正它。另外,Roby、Grothendieck 和 Berthelot 都已经去世了,我们无法从这些原来的专家那里直接寻求帮助。
对更多技术细节感兴趣的人可以先看这里:Berthelot 的论文并没有从头开始发展除幂理论,他使用了 Roby 的「Les algebres a puissances divisees」,1965 年在 Bull Sci Math 上发表。该论文的引理 8 似乎是错误的,而且如何修正证明也没说明白。该引理的证明错误引用了 Roby 1963 年 Ann Sci ENS 论文中的另一个引理。其正确的表述是「Gamma_A (M) tensor_A R = Gamma_R (M tensor_A R)」,但其中一个张量积在应用中意外脱离。这就打破了 Roby 关于「模(module)的除幂代数具有除幂]的证明,从而阻止我们定义环 A_{cris}。
所以,正如我所言,Antoine 正致力于解决这个问题,而我只是在向专家们八卦闲谈,而且我犯了一个错:在伊斯灵顿的一家咖啡店告诉了時枝正(Tadashi Tokieda)这件事,他回到斯坦福后向 Brian Conrad 提到了这件事,然后 Conrad 就开始在我的收件箱里问我晶体上同调有问题到底是怎么回事。
我解释了这个问题的技术细节,Conrad 同意这好像确实是一个问题,然后他开始思考。几个小时后,他回复了我,并指出,在 Berthelot-Ogus 的关于晶体上同调的著作的附录中,存在对「模的一般除幂代数具有除幂」这个断言的另一个不同的证明,而且 Conrad 认为这个方法没有问题。证明又回来了!
这差不多就是故事的全部。上个月我访问了伯克利,和 Arthur Ogus 共进午餐,我 90 年代在那里做博士后的时候就认识他了。我答应过 Arthur,给他讲一个他如何拯救费马大定理的故事,吃饭的时候我告诉他,他的附录如何把我从困境中救了出来。他的回答是「哦!那个附录有几个错误!但没关系,我想我知道如何修正它们。」
在我看来,这个故事表明,人们在编写现代数学文档方面做得很差。似乎有很多东西是「专家们已知的」,但却并没有得到正确的文档化。
这些专家们一致认为,重要的想法足够强大,可以经受住这样的打击,但实际发生的细节可能并不像人们期望的那样。对我来说,这只是人类想要正确记录数学的众多原因之一,即在形式系统中,错误的可能性要小几个数量级。
然而,大多数数学家都不是形式主义者,对于这些人,我需要以不同的方式说明我的工作的合理性。对于那些数学家而言,我认为教会机器理解我们的论证是让机器自己做这件事的关键一步。在此之前,我们似乎注定要手动修正人为错误。
不过,这个故事确实有一个圆满的结局 —— 两周前,Maria Ines 在剑桥数学形式化研讨会(Cambridge Formalization of Mathematics seminar)上发表了一个关于除幂的形式化的演讲。根据这个演讲,我的理解是这些问题现在已经得到解决了。所以我们实际上又回到了正轨。直到下一次文献让我们失望……
参考链接:
https://xenaproject.wordpress.com/2024/12/11/fermats-last-theorem-how-its-going/
https://news.ycombinator.com/item?id=42399397
#Real-time Identity Defenses against Malicious Personalization of Diffusion Models
可在手机终端部署,人大等提出全新人物图片保护模型RID
RID 的作者来自于中国人民大学和 Sea AI Lab。第一作者为香港大学在读博士生郭瀚中,该工作为其硕士期间完成,其研究方向为扩散模型。本文由中国人民大学孙浩教授和李崇轩教授共同指导,其他作者包括中国人民大学博士生聂燊和 Sea AI Lab 研究员庞天宇和杜超。
近年来许多论文研究了基于扩散模型的定制化生成,即通过给定一张或几张某个概念的图片,通过定制化学习让模型记住这个概念,并能够生成这个概念的新视角、新场景图片。
但是当有用户恶意使用定制化生成技术,例如利用发布在社交平台的照片生成假照片,会对用户的隐私权造成威胁。一些研究通过对原始图片加扰动的方式来保护图片不被定制化学习,而由于这些研究都是通过梯度上升的方式去优化对应的扰动,因此瓶颈在于计算时间和计算开销上,为了给一个图片添加保护的扰动,需要花费几分钟甚至几十分钟,并且需要较大的显存消耗。
本文中,中国人民大学和 Sea AI Lab 联名提出名为 RID 的全新人物图片保护模型,通过一个提前训练的小网络实现输入图片输出扰动的方式,在 RID 范式下,图片的防定制化保护只需要几十毫秒并且可以在用户手机终端部署。
- 论文标题:Real-time Identity Defenses against Malicious Personalization of Diffusion Models
- 论文地址:https://arxiv.org/pdf/2412.09844
- 项目地址:https://github.com/Guohanzhong/RID
为了更助于理解,RID 提供了涉及到的不同任务和解决方案的流程框图。定制化学习的概念是指用户提供几张同个概念的几张图片(RID 聚焦在人物的保护上),微调预训练扩散模型,如下图 a 所示。在定制化学习完后,用户可以利用定制化微调模型实现原始概念的新图片生成,如下图 b 所示。而目前为了保护图片不被定制化,存在的方案是基于预训练模型梯度上升优化一个微小扰动,但是这个过程对计算时间和计算量要求较大,如下图 c 所示。而 RID 是利用 Adv-SDS 的方式在使用前优化一个小网络,如下图 d 所示。RID 使用的时候即输入图片输出扰动,实现低成本、实时的图片保护,如下图 e 所示。当对 RID 保护后的图片再进行定制化学习,微调得到的定制化模型则已经无法生成真实、正常的图片,即图片被定制化保护成功,如图 f 所示。
对抗得分蒸馏采样 Adv-SDS
RID 的目标是通过一个小网络的单步推理,实现对图片增加微小的扰动实现图片不被成功定制化学习。受到 Dreamfusion 的 score distillation sampling (SDS) 启发,RID 与 Dreamfusion 本质上都是优化一个图片生成器,在 Dreamfusion 里是不同角度渲染图片,而 RID 的场景是通过添加一个扰动得到一个 “新” 的图片。而 RID 与 Dreamfusion 的任务定义不同,Dreamfusion 目的是生成一个不同角度渲染的图片符合扩散模型空间的,因此需要 SDS 损失最小,而我们是希望 RID 保护后的图片不被定制化学习,因此通过引入一个最大化 SDS 损失的 Adv-SDS。
但实验中 RID 发现,如果只通过 Adv-SDS 优化,RID 会陷入局部最优,RID 产生的扰动是网格状的,为了更好的保护效果以及让扰动更不易察觉,RID 还引入了一个回归损失。RID 会提前离线产生干净图片、扰动数据对,这个扰动是通过基于梯度优化的方式制造的,例如 AdvDM 或 Anti-DB 等。完整的 RID 优化见下图所示,相比仅采用其中一种损失优化,在两个损失共同优化下,RID 可以达到较好的保护效果。
模型架构:由于 RID 的目的是输入图片,输入扰动,这个任务和扩散模型网络的任务类似,扩散模型是输入带噪图片,输出预测噪声,因此本文采用 DiT 作为主要网络架构,由于我们不需要额外的条件引导,因此 RID 的网络架构是将 DiT 的条件注入变成常数。此外为了限制 RID 的输出扰动大小,RID 会在网络最后增加一个 tanh 非线性映射并进行缩放达到每个 RID 网络可以产生不同大小约束的扰动。
实验结果
训练评估测试集构建:RID 的训练数据集是经过筛选后的 70k VGG-Face 2 数据集,评估集是从 Celeba-HQ 中随机筛选的 15 个 ID,每个 ID 的 12 张图片组成的。
评估方式:对于每个 ID,会对 12 张干净图片或者不同方法的保护图片进行定制化学习,定制化学习均采用 Dreambooth 损失,微调参数为 Textual Inversion (TI),TI + LoRA, 全参数微调 (DB),RID 默认的评估定制化方法为 TI + LoRA,训练的 prompt 均为 “photo of a <news>/sks person”。用每组定制化模型再推理 12 张图片,定量评测的时候推理均用 “photo of a <news>/sks person”,定性分析的时候会做任意文本的组合泛化生成。
从下图 a 中可以看出,经过 RID 保护的图片可以有效的实现图片的反定制化,即保护后的图片的定制化模型无法生成正常的图片。并且图 b 展示了不同方法之间的保护对数时间,RID 可以在一张 GPU 上实现 8.33 Images/Second 的保护速度,虽然图 c 展示 RID 的定量指标上有所下降,但从图 d 的定性中说明不同方法间均能使用有效的保护,因此说明 RID 的有效性。
并且 RID 能够在不同定制化方法、 不同定制化使用的预训练模型、不同噪声幅度下均达到有效的保护效果。
并且对于黑盒攻击场景和图片后处理场景下,无论从定性上还是定量上,RID 均可以展现出有效的保护效果。下图展示了 RID 保护成功的原理,相比干净图片,RID 保护的图片在扩散模型不同时间步上的损失均有较大程度的上升,而定制化模型本质上只是引入了一个新的概念,对于同一组图片,定制化前后的模型损失变化并不大,因此没办法覆盖 RID 增加扰动所带来的损失上升,因此 RID 保护的图片对于模型而言是一个 OOD 的图片概念,模型无法正确学习到并且生成。
思考和展望
目前基于 SD 系列集成训练的 RID 展现出来了鲁棒的保护能力,但目前主流开源的还有许多 DiT 架构的扩散模型,因此未来如何将 DiT 架构的扩散模型融合进 Adv-SDS 一起优化实现更鲁棒的保护效果值得探索。此外,目前 RID 的扰动仍然是随机优化的扰动,未来能否设计一种具有良性作用的扰动,例如将扰动设计为妆照,也是值得更深入的研究。
#Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models
视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法
本文作者来自西安交通大学、南洋理工大学、新加坡科技管理局前沿研究中心。作者列表:郭淇,庞善民,加小俊,Liu Yang 和郭青。其中,第一作者郭淇是西安交通大学博士生。通讯作者西安交通大学庞善民副教授(主页:https://gr.xjtu.edu.cn/web/pangsm)和南洋理工大学的加小俊博士后研究员(主页:https://jiaxiaojunqaq.github.io)。论文已被计算机网络信息安全领域顶级期刊IEEE TIFS录用。
对抗攻击,特别是基于迁移的有目标攻击,可以用于评估大型视觉语言模型(VLMs)的对抗鲁棒性,从而在部署前更全面地检查潜在的安全漏洞。然而,现有的基于迁移的对抗攻击由于需要大量迭代和复杂的方法结构,导致成本较高。此外,由于对抗语义的不自然性,生成的对抗样本的迁移性较低。这些问题限制了现有方法在鲁棒性评估中的实用性。
为了解决这些问题,作者提出了 AdvDiffVLM,一种利用扩散模型通过得分匹配生成自然、无约束且具有针对性对抗样本的方法。具体而言,AdvDiffVLM 使用自适应集成梯度估计(Adaptive Ensemble Gradient Estimation, AEGE),在扩散模型的反向生成过程中调整得分,确保生成的对抗样本具备自然的针对性对抗语义,从而提升迁移性。
同时,为了提高对抗样本的质量,他们引入 GradCAM 引导的掩模生成(GradCAM-guided Mask Generation, GCMG),将对抗语义分散到整个图像中,而不是集中在单一区域。最后,AdvDiffVLM 通过多次迭代,将更多目标语义嵌入到对抗样本中。实验结果表明,与最新的基于迁移的对抗攻击方法相比,该方法生成对抗样本的速度提高了 5 到 10 倍,同时保持了更高质量的对抗样本。
此外,与之前的基于迁移的对抗攻击方法相比,该方法生成的对抗样本具有更好的迁移性。值得注意的是,AdvDiffVLM 能够在黑箱环境中成功攻击多种商用视觉语言模型,包括 GPT-4V。
- 论文题目:Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models
- 论文链接:https://arxiv.org/abs/2404.10335
- 代码链接:https://github.com/gq-max/AdvDiffVLM
研究背景
大型视觉语言模型(VLMs)在图像生成文本和文本生成图像等任务中表现出色,广泛应用于自动驾驶、视觉辅助和内容审核等领域。然而,VLMs 对对抗攻击高度敏感,可能引发安全隐患。因此,评估其对抗鲁棒性至关重要。
早期研究主要集中于白盒和非针对性攻击,但黑盒和针对性攻击对模型构成更大威胁,因而更具研究价值。现有方法如 AttackVLM 在黑盒和针对性场景中具有开创性,但由于其高查询次数和复杂结构,效率较低,难以满足全面评估的需求。此外,基于迁移的攻击方法尽管适用于黑盒场景,但其生成对抗样本速度缓慢,且对抗语义不自然,限制了迁移性。无限制对抗样本的出现为解决这些问题提供了新思路,通过融入自然的对抗语义,提升了对抗样本的质量和迁移性。然而,这些方法在针对 VLMs 时仍存在高成本和适用性问题。
本文提出了 AdvDiffVLM,一个高效框架,通过扩散模型和得分匹配生成自然、无约束且具有针对性的对抗样本。得分匹配最初由 Hyvarinen 等人提出,用于概率密度估计,并由 Song 等人引入图像生成领域,证明了其通过修改得分函数指导生成目标语义图像的能力。基于这些进展,Song 等人将得分匹配与扩散模型结合,大幅提升了图像质量。
受此启发,本文研究了得分匹配在 VLM 攻击中的应用,旨在嵌入比现有方法(如 AdvDiffuser)更丰富的对抗目标语义。
本文提出了专门针对 VLM 攻击的得分生成理论,并在此基础上开发了自适应集成梯度估计(AEGE)。为提高生成结果的自然性,作者设计了 GradCAM 引导的掩模生成模块(GMGC),有效分散对抗目标语义,避免对抗特征集中在图像特定区域,从而提升整体图像质量。此外,通过多次迭代进一步嵌入目标语义,优化对抗样本的视觉质量。与传统方法的对比如图 1 所示。
图 1:不同基于迁移的攻击方法与本文方法在 VLM 上的对比:(a) 攻击性能对比。(b) 图像质量对比。
动机与理论分析
随着视觉语言模型(VLMs)在自动驾驶和内容审核等关键应用中的广泛部署,确保其在对抗攻击下的鲁棒性已成为维护系统安全性和可靠性的必要条件。尽管现有方法在评估 VLM 鲁棒性方面取得了一定进展,但在效率和效果上仍面临基本局限性。高计算成本和有限的迁移性限制了对多样化 VLM 的全面鲁棒性评估能力。这一挑战激发了本文的研究,旨在开发一种高效、高质量且具有良好迁移性的方法来生成对抗样本,从而更有效地评估 VLM 的鲁棒性。作者通过借助扩散模型和得分匹配技术的洞见,实现了这一目标。
作者希望在反向生成过程中获得满足以下条件的分布,即对抗样本具有目标语义信息:
接下来,他们从 score matching 的角度出发,考虑该分布的 score。根据贝叶斯定理:
其中第一项和第二项分别表示添加目标文本语义的噪声过程和不含目标语义的噪声过程。从直观的角度看,无论是否存在目标文本,前向噪声添加过程都遵循高斯分布,并且添加的噪声保持一致,这表明梯度仅依赖于 x_t。由于在生成对抗样本时会施加约束以确保对抗样本与原始图像的变化最小,故无目标文本的 x_t 与包含目标文本的 x_t 之间的差异很小。因此最终的 score 为:
因为 score matching 和去噪是等价过程,因此最终的 score 为:
方法
图 2:自适应集成梯度估计(AEGC)的框架
作者使用替代模型(CLIP)去估计梯度,进而去估计 score。由于单个替代模型估计的 score 并不准确,因此他们使用了集成的方法去估计 score:
由于不同的图像对于不同的替代模型的敏感程度不同,他们使用了自适应的方式减少具有快速变化损失的替代模型的权重,以确保不同替代模型的梯度估计同时更新:
基于上述方式,作者提出了自适应集成梯度估计方法(AEGE),如图 2 所示,但观察到仅仅依赖它在特定区域产生明显的对抗特征,导致较差的视觉效果。为了平衡视觉质量和攻击能力,他们进一步提出了 GradCAM 引导的掩码生成(GCMG),它使用一个掩模将前向噪声图像和生成的图像结合起来。这种组合将对抗性语义分布到整个图像中,提高了对抗性示例的自然视觉质量。
图 3:AdvDiffVLM 的主要框架
最后他们使用 AEGE 和 GCMG 来生成对抗样本,如图 3 所示。
实验效果
开源 VLM 上的结果
表 1:在开源 VLM 上几种方法生成的对抗样本的有效性比较。
表 1 展示了不同方法在开源 VLM 上攻击的结果。显然,本文的方法在攻击能力,迁移能力以及生成速度方面都优于 baselines。作者也进一步展示了可视化结果,如图 4 所示,可以看出本文的方法能够成功诱导 VLM 输出目标响应。
图 4:开源 VLM 攻击的可视化结果
商业大模型上的结果
表 2:在商业大模型上几种方法生成的对抗样本的有效性比较。
作者也在商业大模型上进行了评估,如表 2 所示,他们的方法与 baseline 相比,诱导商业大模型输出目标响应的可能性更高。作者进一步可视化了商业大模型的输出结果,如图 5 所示,可以看出商业大模型输出了他们想要的目标语义。
图 5:商业大模型上攻击的可视化结果
防御能力比较
表 3:防御实验的比较结果。
防御方法可以大致分为对抗训练和数据预处理。由于对抗性训练的高时间、资源成本和不稳定性,尚未应用于 VLM 防御。相比之下,数据预处理是独立于模型和高度适应性的,使其成为跨各种模型的流行防御策略。
为了证明本文的方法在抵抗数据预处理攻击方面的有效性,作者对位缩减、STL、JPEG 压缩、DISCO、DISCO+JPEG 和 DiffPure 进行了广泛的实验。实验结果如表 3 所示,本文的方法在所有的防御实验中都优于 baseline。
图像质量比较
表 4:图像质量的比较结果
图 6:图像质量比较。
对抗样本的图像质量同样至关重要,质量较差的对抗样本容易被检测到。作者使用四个评估指标来进一步评估生成对抗样本的图像质量:SSIM、FID、LPIPS 和 BRISQUE。
正如表 4 所示,与 baseline 相比,本文方法生成的对抗样本具有更高的图像质量。具体来说,在 SSIM、LPIPS 和 FID 评估指标上,本文的方法显著优于基准方法。而在 BRISQUE 指标上,AdvDiffuser 的表现优于本文的方法。这是因为 BRISQUE 是一种无需参考的图像质量评估算法,对模糊、噪声、色彩变化等非常敏感。正如图 6 所示,AdvDiffuser 生成的对抗样本在这些元素上缺乏明显异常,因此其结果略优于本文的方法。然而,从图 6 可以看出,本文方法引入的扰动是语义性的,而 AdvDiffuser 显著改变了非显著区域,导致较差的视觉效果。这表明 AdvDiffuser 生成的对抗样本不适用于更复杂的场景,例如攻击 VLMs。此外,基于迁移的方法生成的对抗样本中存在显著噪声,这进一步表明本文的方法在图像质量方面具有明显优势。
结语
在本研究中,作者提出了 AdvDiffVLM,一种针对视觉语言模型(VLMs)的无约束且具有针对性的对抗样本生成方法。他们基于 score matching 的思想设计了 自适应集成梯度估计模块(AEGE),将目标语义嵌入到对抗样本中,从而能够更高效地生成具有增强迁移性的针对性对抗样本。为平衡对抗样本的质量与攻击效果,作者提出了 GradCAM 引导的掩码生成模块(GCMG)。此外,通过多次迭代,他们进一步加强了目标语义在对抗样本中的嵌入效果。大量实验表明,与基准方法相比,他们的方法生成针对性对抗样本的速度提高了 5 至 10 倍,同时实现了更优的迁移性。
#生成亚洲人最好看的文生图大模型
这几天,打开社交媒体平台,很多人正在热烈讨论一个叫做「AI 模特」的玩法。
点开几个 Demo,确实惊艳。下方视频是一位海外网友自制的穿搭合辑,你能分得清这是 AI 还是真人吗?
,时长00:39
来源:https://x.com/mad_mask/status/1872522970050253178
一般来说,都是先有真人模特照片,用 AI 换装也不新鲜。但这个平台能一站式完成模特主体、换装、展示视频的生成:
,时长00:09
上述作品,都来自刚刚重磅更新的可灵 AI。
在 2024 年的尾声,可灵 AI 给所有用户送上了新年大礼包:全新的「可图 1.5」和「可灵 1.6」,目前已全量上线。
可图 1.5 带来了更丰富的场景层次、更自然的画面细节和更真实人像生成。就说下方这两张人像,你能确定哪个是实拍、哪个是可图生成的吗?
答案揭晓:左图为可图大模型生成,右图为真人实拍。AI 生成的水准,完全达到了以假乱真的程度。
基于可图大模型能力的更新,「AI 模特」功能也正式上线。
Prompt:美丽的印度人,明亮面部,柔和光线,白色吊带露出腰部,白色喇叭阔腿长裤,赤脚,,双手自然深插裤袋,下巴微抬,目光平视镜头,表情冷静自信,浅灰色背景,全身构图,街拍风格
让这位 AI 模特换上指定款式的服装,再使用一下可灵图生视频功能,一条精美的服装展示视频这不就有了吗?
看到这里,感到震惊的不只是普通用户,电商和广告领域的从业者一定也陷入了沉思……
是的,我们都知道 AI 会成为推进社会生产力的重要一环,只是没想到这场变革来得这么快,而且这么彻底。
如果你想上手尝试,测评地址在这里:https://klingai.kuaishou.com/
可图 1.5 上线
我们真的分不清 AI 与实拍了
从 2022 年的 Stable Diffusion 开始,过去两年的文生图领域是飞速发展的。不管是技术还是应用层面,都出现多次爆发式的增长。在这个过程中,众多科技公司都推出了文生图应用,并在「卷」的过程中将这一领域推向新的高度,包括 Midjourney、Stability AI,快手的「可图」也是其中一支重要力量。
当下的文生图产品已经非常优秀,在很多生成任务的表现上近乎无可挑剔。剩下的难点主要集中于一些具体应用场景,比如对人像真实度、画面细节丰富度等维度的把控。
这次,新上线的可图 1.5 就着重从这两点入手。
一方面,可图 1.5 生成的画面美感显著提升,构图与光影更加协调,人像美观度大幅提升,呈现出更高级的美学效果。
有网友尝试用可图 1.5 生成古风摄影,原图直出就是惊艳的程度,人物一致性保持得也很好:
作为尊贵的年卡黄金会员,也对可图 1.5 模型进行了一场全面测评。
我们发现,可图 1.5 对亚洲人的人像生成更加擅长,相比之下,ChatGPT 给出的结果就不那么如人意了。
Prompt:高级时尚肖像,柔和魅力打光,亚洲女模特,飘逸黑色长发搭配空气刘海,身穿浅蓝色衬衫式连衣裙,薰衣草花田背景,专业美妆摄影
作为更适合中国用户体质的文生图应用,可图 1.5 生成的人像发丝根根分明,前额刘海的空气感很强,五官和脸型也更符合我们对亚洲女孩的认知。
将这张图片一键输入「图生视频」,静态人物鲜活了起来:
Prompt:美女微微一笑,拨动了头发,动人心弦。
,时长00:05
另一方面,可图 1.5 生成的画面质量显著提升。增强了画面细节表现,色彩还原更加自然,层次感更加丰富。如下图所示:
Prompt:长发女孩站在高处眺望城市全景,浅色上衣,远处是山脉和城镇以及中国传统风格的建筑群,屋顶整齐排列,延伸到远方,背景是蓝天白云,云朵层次分明,阳光明媚,两侧被青翠的山脉环绕,与城市形成鲜明对比,色调柔和,动画风格,宁静的氛围。
Prompt:生成一幅带有 “merry christmas” 的电影海报,创意独一无二的想像力,卡通风格,圣诞老人,礼物,大师作品,获奖作品。
可以看到,可图 1.5 为海报设置了前景(圣诞老人)、中景(圣诞树屋)、远景(远山和夜空)三个层次,由近处的暖色逐渐过渡到远处的冷色,明暗对比强烈,制造出真实的深度感,并运用定向光源的元素为画面增加了立体感。
Prompt:土拨鼠拟人化,阳光透过厨房的窗户,光线通过空气中的面粉产生丁达尔效应,耶稣光,一只穿着蓝色围裙的土拨鼠妈妈在白色色调的厨房里蒸馒头,案板上放着已经整形好的馒头,两只可爱的小土拨鼠在旁边玩耍,身上沾满了面粉,精致线条,温暖的阳光,虚幻引擎渲染,8K 电影效果,真实的光影效果。
一般来说,动物毛发和面粉状态会是生成难点。在这幅画中,土拨鼠的毛发纹理非常逼真,具有明显的柔软感和立体感,且毛发受光部位明亮,背光部分暗淡,细节清晰可见。案板上面团的质感细腻,表面略微反光,也体现出湿润柔软的特性。面粉漂浮在空气中的动态效果增加了画面的活力,严格遵循了丁达尔效应的文字指令。土拨鼠的表情专注温和,精准实现了拟人化特性的表达。
据了解,基于可图 1.5 模型的参考图 / 垫图功能正在快速赶来的路上,我们可以先期待一下。
「AI 模特」+「尾帧生成」
广告片制作已经不需要真人了
基于可图大模型在人物生成方面的能力提升,一项极具应用潜力的新功能应运而生:AI 模特。
我们都知道,在传统的广告片生产流程中,通常包含场景布置、拍摄执行、后期调整等工作,演员、设备、场地、道具、后期都需要一定的预算,且需要聘请专业团队协作完成。
现在,打开可灵 AI 网站,任何用户都可以通过文本描述,一键生成高质量的 AI 模特图像。并且,这种生成结果的视觉表现力完全是专业级的:精致真实的五官细节、自然的姿态、清晰的服装质感。
当然,如果用户生成素材的目的是用来展示商品,上图的 AI 模特可以无缝衔接 AI 换装功能,一键完成服装更换和搭配展示。
同时,基于可灵 1.6 的图生视频能力,即可生成自然、真实的动态服装展示视频,让商品展示更具感染力与真实感。
脑洞一下,以后的广告片可能只需要拍摄商品图,甚至不需要再聘请真人模特,也不需要搭建任何场景了。
商业广告场景之外,这种让任意静态图动起来的一站式方案,还可以加速影视作品制作:
,时长00:05
目前在可灵 1.5 模型高品质模式中,还支持仅使用尾帧完成图生视频,比如向前生成 5s/10s 的视频,非常适合生成商品展示、酷炫入场动效、远景到近景等场景。
Prompt:一幅图像从空白的白纸过渡到超流畅的无缝水墨笔触,逐渐流畅,像宣纸上的水一样融合在一起。笔触柔和自然,图像有机地形成,每个元素都在连续、优雅的过渡中展现出来。
,时长00:05
AI 技术落地的应用场景往往是具体的,但产生的价值却是非常宏伟的。对于普通人来说,技术能够帮助他们跨越专业领域原本存在的一些门槛,以更低的成本和更高的效率接近目标。
这让我们想到一位业内人士关于《AGI 实现前夜》的思考:「我们目前的许多工作很快就会自动化,我们必须适应。如果你从一项特定的技能中获得意义,这项技能可能在 5 年后就不再需要了。但如果你能从力所能及的帮助世界中获得意义,那么这种意义永远不会消失。」
疯狂的 2024
可灵 AI 的进化之路
在 2024 年的末尾回顾可灵 AI 这一年的发展历程,一定会让关注国产大模型的用户们百感交集。
作为国内顶尖的 AI 创意生产力平台,自今年 6 月发布以来,可灵 AI 至今已服务超过 600 万用户,生成 1.75 亿张图片和 6500 万个视频。
在文生图上,不断迭代「可图」已成为行业内顶尖的模型之一。得益于在文本表征方面的创新,以及图像数据对齐的大量工作,可图可以画出摄像级的画面质感,经过强化学习的训练,审美也和人类的普遍标准实现了对齐,并推出了「AI 试衣」、「AI 模特」等实用功能。
在视频生成上,「可灵 AI」成为全球首个用户可用的真实影像级视频生成大模型,继 Sora 之后,宣告了全球视频生成领域的新一轮竞争开启。不管是在画质质量、动态质量、美学表现、运动合理性和语义理解层面的表现,还是「文生视频」、「图生视频」、「视频续写」、「运动笔刷」等功能的陆续发布,都吸引了海内外用户的持续关注。
有人直呼:「Kling is killing!」这并非溢美之词,今年来,海外社区的确在经历一场中国 AI 飞速发展带来的震撼。
在即将到来的 2025 年,你对国产 AI 以及可灵 AI 有怎样的期许呢?欢迎在评论区讨论。
#OpenAI新模型o3
翻车,但微翻,翻了 12.5% 吧。
前几天,OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料,是新的推理系列模型 o3 和 o3-mini 。
从 o1 开始,OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI,这项基准已经提出了 5 年时间,但一直未被攻克。
而新模型 o3 是首个突破 ARC-AGI 基准的 AI 模型:最低性能可达 75.7%,如果让其使用更多计算资源思考更长时间,甚至可以达到 87.5% 的水平。
对于 o1 来说,此前在这项基准中能达到的准确率仅在 25% 到 32% 之间。
在 ARC-AGI 基准中,AI 需要根据配对的「输入 - 输出」示例寻找规律,然后再基于一个输入预测输出。ARC-AGI 发起者、Keras 之父 François Chollet 在测试报告中表示,虽然成本高昂,但仍然表明新任务的性能确实随着计算量的增加而提高。o3 在低计算量模式下每个任务需要 17-20 美元,高计算量模式下每个任务数千美元。但这些数字不仅仅是将暴力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了人工智能适应新任务的能力的重大飞跃。
「这不仅仅是渐进式的改进,而是真正的突破,标志着与 LLM 之前的局限性相比,人工智能能力发生了质的转变。o3 能够适应以前从未遇到过的任务,可以说在 ARC-AGI 领域接近人类水平的表现。」
比如,对于同一道题,Llama 系列的模型就会因为参数量的提高,从而推测出更加准确的答案。
但大家也注意到了,在 ARC-AGI 的 400 个任务中,还有 34 个任务是 o3 无法解决的,即使思考了 16 小时也没能给出正确答案。正如 François Chollet 所说:「事实上,我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败,这表明其与人类智能存在根本差异。」
这些任务是什么,难点又在哪里,接下来让我们一起看看。
人们惊讶于 o3 无法解决它(没有看到尝试)。实际上,这些样本可能没有详细说明,并且 o3 的第一个解决方案是正确的。
这个任务是整个数据集中唯一一个模型无法输出网格的样本 —— 在某些列上添加了错误的额外方块。在 ARC 上,使用较小的 LLM 时经常会看到这种情况。
这个题目看似简单,其实很有挑战性。
o3 的第一次尝试就是完全照搬了输入,啥都没改,相当于在答题卡上照抄了一遍题干。
这也能理解,对于一个只能一维思考的模型来说,识别二维物体确实很难。François Chollet 表示,之前就发现过一维推理的局限性,有意思的是,如果在第二次尝试时给大语言模型看旋转或翻转后的题目,它们的表现会明显提升。
这道题主要考验空间思维能力,不像其他题目那样需要对网格做复杂的改动,不过也不影响最后做错的结果......
这次算是一个不错的尝试 —— 虽然还是出了点问题。有意思的是,在输出第二个答案时,o3 虽然做了一堆推理,最后却只是简单画了几条重复的线(这明显不对)。说实话,感觉它就像是「算了算了,我不玩了!」
测试样本比训练样本大得多,这一点很有意思。
可以看到,和标准答案相比,o3 的结果不仅一点边都没沾上,第二次还直接「摆烂了」,交了白卷。
François Chollet 指出:「这恐怕是最不理想的一次测试案例。模型的表现难以解释,o3 似乎在这里直接放弃了尝试。不过还不确定这是否是因为第一次模型已经意识到自己的错误,从而触发了 OpenAI 预设的某种机制。」
每一行都是正确的,但在整个网格上却错位了。
o3 在两个答案中都漏了一些行、列。
o3 对俄罗斯方块类型的题完全没招,我们可以在前面的任务 [1acc24af] 中看到同样的情况。
这两次,o3 都在答案中少生成了一行。看来,它很难记住还有多少相同重复的行要输出。
参考链接:https://x.com/mikb0b/status/1870622741029941545
https://anokas.substack.com/p/o3-and-arc-agi-the-unsolved-tasks