#审视Tokenization

从2019年到现在,是时候重新审视Tokenization了


2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗?来自 HuggingFace 的一篇文章给出了解释。


「9.9 和 9.11 到底哪个大?」这个问题一度难坏了各家大模型。

关于模型为什么会答错,研究人员给出了各种猜测,包括预训练数据的构成和模型架构本身。

在一篇新博客中,来自 HuggingFace 的研究者讨论了可能造成这一问题的原因之一 ——tokenization,并重点分析了它如何影响模型的数学能力,尤其是算术能力。

回顾 Tokenization

早在 2019 年,GPT-2 论文就详细介绍了将 BPE(byte-pair encoding)用于语言模型的 tokenization 方法。此方法的工作原理是将频繁出现的子词合并为单个单元,直到词汇量达到目标大小。

然而,这种做法生成的词汇表在很大程度上取决于输入到 tokenizer 中的训练数据,从而导致了在数字编码方式上的不一致性。例如,在训练数据中常见的数字(例如 1-100、1943 年这样的表示)很可能被表示为单个 token,而较少见到的数字则被拆分成多个 token,如下所示:

51c大模型~合集101_大模型

四年后,Llama 系列来了!Llama 和 Llama 2 使用 SentencePiece (一个用于基于文本生成的无监督文本 tokenizer )的 BPE 实现,并对数字进行了显著的调整:它们将所有数字拆分为单个数字。这意味着只有 10 个唯一 token(0-9)来表示任何数字,从而简化了 LLM 的数字表示。Deepseek 后来发布了一个模型 (DeepSeek-V2),它有一个类似的单位数(single-digit)的 tokenizer 。

后来,Llama 3 采用了不同的方法来处理数字,将它们 tokenizing 为三位数。因此,从 1 到 999 的数字每个数都有唯一的 token,而从 1000 开始的数字由这些 token 组成。

一个新的范式:从右到左的 Tokenization

到目前为止,我们所看到的 tokenization 方法都是从左到右处理文本的。例如,如果三位数字的分词法遇到序列 12345,它将从开头扫描,将其分解为 123 和 45 这样的片段。

与从左到右(L2R)的分词方法不同,从右到左(R2L)的分词方法以三个字符为一组,从文本的末尾开始向开头处理。使用 R2L 分词,序列 12345 将通过从右侧扫描进行分词,首先分割出 345,然后再处理 12。最近,一些前沿的闭源模型也在探索使用这种 R2L 分词方法,这已经被证明对某些算术运算有益,因为 R2L 表示可以防止操作数的错位。还有传言称 Claude 使用了这种 R2L 分词方法。

为了更好地理解错位是什么样子的,让我们以 3789 + 8791 为例:

51c大模型~合集101_大模型_02

如上所示,在三位数从左到右(L2R)的例子中,9 + 1 应该映射到数字 0,但实际上却与 8 组合在一起形成了 80,因为前面的三个 token(125)已经被分在一起了。tokenization 边界的偏移在学习过程中引入了额外的复杂性,已经证明准确性是有害的。

而在从右到左(R2L)的例子中,数字 580 和对应的子操作数 789 和 791 很好地对齐了。

以下是用于处理数字 tokenization 的技术概述:

51c大模型~合集101_大模型_03

不同方法的比较

该研究旨在比较多个 tokenizer 以及它们处理数字的不同方式,以尽量减少模型架构、训练配置和预训练数据等外部因素在评估结果中的影响。因此,每个模型之间唯一的区别应该是 tokenizer。

实验选择了 3 种 tokenizer,分别是 GPT-2 的 BPE tokenizer、Llama 3 的三位数 tokenizer(three-digit tokenizer)和 Deepseek 的单位数 tokenizer(single-digit tokenizer)。

from transformers import AutoTokenizer
from tokenizers import pre_tokenizers, Regex




# Initialize all tokenizers
tokenizer = AutoTokenizer.from_pretrained ("meta-llama/Meta-Llama-3-8B")




# Add an extra step to the existing pre-tokenizer steps
tokenizer._tokenizer.pre_tokenizer = pre_tokenizers.Sequence (
            [
                # Added step: split by R2L digits
                pre_tokenizers.Split (pattern = Regex (r"\d {1,3}(?=(\d {3})*\b)"), 
                  behavior="isolated", invert = False),
                # Below: Existing steps from Llama 3's tokenizer
                pre_tokenizers.Split (pattern=Regex (r"(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p {L}\p {N}]?\p {L}+|\p {N}{1,3}| ?[^\s\p {L}\p {N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+"), 
                  behavior="isolated", invert=False), 
                pre_tokenizers.ByteLevel (add_prefix_space=False, trim_offsets=True, use_regex=False)
            ]
        )




print (tokenizer.tokenize ("42069")) # [42, 069]

训练模型使用了原始的 Llama 架构,此外,该研究还调整了隐藏层的数量,以确保每个模型大致具有相同数量的参数(约 14.5 亿)。

51c大模型~合集101_大模型_04

为了保持恒定的计算预算,本文减少了具有更大词汇表模型中的隐藏层数量。

结果

算术问题

如下图所示,单位数 tokenization 优于其他 tokenizer 方法。

51c大模型~合集101_大模型_05

51c大模型~合集101_大模型_06

51c大模型~合集101_大模型_07

结果显示,虽然在较简单的问题上差异不太明显,但随着问题复杂性的增加,表现最佳的 tokenizer(单位数分词)与其他 tokenizer 之间的差距越来越大。这表明单位数分词对于输入数据长度的变化更为鲁棒,并且能够更好地捕捉复杂的模式,从而在其他分词方法难以应对的场景中提升性能。

此外,本文还发现浮点数和整数之间的性能差距在所有 tokenizer 中都是相似的。这表明在这两个类别中选择 tokenizer 时,并不存在固有的权衡,即对于整数最优的 tokenizer 对于浮点数也是最优的。

如下图所示,三位数 R2L tokenization 比标准三位数 L2R tokenization 具有更好的性能。

51c大模型~合集101_大模型_08

本文发现,与使用默认 L2R token 数据进行训练相比,使用 R2L token 数据进行训练的模型取得了显著的改进(乘法除外)。这表明,与典型的从左到右编码相比,它是算术运算的最佳设置。

当数字被从右向左每 3 位一组进行分块时,Pure-BPE(Byte Pair Encoding)tokenizer 显示出不一致的性能。

51c大模型~合集101_大模型_09

显然,没有任何额外数字预处理的纯基于 BPE 的 tokenizer 不会从使用 R2L token 化中受益。一个可能的解释是,这些 tokenizer 中数字分组的方式缺乏结构。

基于单词的问题

51c大模型~合集101_大模型_10

虽然在基于单词的问题上,不同 tokenizer 之间的性能差距不太明显,但本文观察到单位数 tokenizer 和三位数 tokenizer 通常优于基于 BPE 的 tokenizer。这表明,无论是单词问题还是数字问题,这种趋势都是一致的。

Llama 3 R2L 推理

接下来本文进行了另一项测试,即现有的预训练 / 指令模型在接受与最初训练方案不同的 token 化方案时表现如何,而无需重新训练或微调。因此,本文基于 Llama3 8B Instruct 模型,并使用上述相同的代码修改其 tokenizer,以在推理期间执行 R2L tokenization,而无需重新训练新模型。

在三位数 tokenization 方案中进行两个数相加需要注意的是:结果有时会产生比输入数字更多的 token。例如将 999 和 111 相加时,它们单独只需要一个 token,但是当它们相加产生 1110 时,需要两个 token(1 和 110)。基于这个观察,本文想探索在使用 L2R 和 R2L tokenization 对不同的 token 长度执行加法时,会产生多大的差异。

接下来,本文将把导致额外 token 的加法称为进位(carry)加法,而那些没有进位的加法称为无进位(without carry)加法。

本文用 Llama3 8B Instruct 执行了不同数字长度和进位设置的算术任务。结果发现,减法、乘法或除法没有任何显著的性能差异,因此结果只展示了加法。

51c大模型~合集101_大模型_11

对于非进位加法,数字个数为 3 的倍数会产生完全相同的结果,因为像 528、491 这样的数字无论 token 化方向如何都具有相同的 token。

51c大模型~合集101_大模型_12

哪种 tokenization 方法适合数学

虽然 BPE 仍然是一种流行的 tokenization 方法,但如果你必须使用具有最多 3 位数的 tokenizer,请确保数据 token 方向为 R2L。

如果你已经有一个经过训练的模型,数据 token 方式为 L2R,那么你可以通过使用 R2L 来获得更好的数学性能。

最重要的是,对于算术运算,单位数 tokenization 的性能明显优于其他方法。

51c大模型~合集101_大模型_13

总结而言,tokenization 对语言模型中的算术性能有显著影响。通过仔细选择,我们可以根据问题类型优化 tokenization 策略,从而提高 LLM 在数学任务上的表现。


原文链接:https://huggingface.co/spaces/huggingface/number-tokenization-blog









#Memory Layers at Scale

Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE

预训练语言模型通常在其参数中编码大量信息,并且随着规模的增加,它们可以更准确地回忆和使用这些信息。对于主要将信息编码为线性矩阵变换权重的密集深度神经网络来说,参数大小的扩展直接与计算和能量需求的增加相关。语言模型需要学习的一个重要信息子集是简单关联。虽然前馈网络原则上(给定足够的规模)可以学习任何函数,但使用联想记忆(associative memory)会更高效。

记忆层(memory layers)使用可训练的键值查找机制向模型添加额外的参数,而不会增加 FLOP。从概念上讲,稀疏激活的记忆层补充了计算量大的密集前馈层,提供了廉价地存储和检索信息的专用容量。

最近,Meta 的一项新研究使记忆层超越了概念验证,证明了它们在大型语言模型(LLM)扩展中的实用性。

  • 论文标题:Memory Layers at Scale
  • 论文地址:https://arxiv.org/pdf/2412.09764
  • 项目地址:https://github.com/facebookresearch/memory

在下游任务中,通过改进的记忆层增强的语言模型的性能优于计算预算两倍以上的密集模型,以及在计算和参数相当的专家混合(MoE)模型。

这项工作表明,当记忆层得到充分改进和扩展时,可以用于增强密集神经网络,从而带来巨大的性能提升。通过用记忆层替换一个或多个 transformer 层的前馈网络(FFN)来实现这一点(保持其他层不变)。这些优势在各种基本模型大小(从 1.34 亿到 80 亿参数)和内存容量(最多 1280 亿参数)中都是一致的。这意味着存储容量实现了两个数量级的飞跃。

记忆增强架构

可训练的记忆层类似于注意力机制。给定一个查询

51c大模型~合集101_大模型_14

,一组键

51c大模型~合集101_大模型_15

,以及值

51c大模型~合集101_大模型_16

。输出是值的软组合,根据 q 和相应键之间的相似性进行加权。

在使用时,记忆层与注意力层之间存在两个区别。

  • 首先,记忆层中的键和值是可训练参数,而不是激活参数;
  • 其次,记忆层在键和值的数量方面通常具有更大的规模,因此稀疏查询和更新是必需的。

该研究将键-值对的数量扩展到数百万。在这种情况下,只有 top-k 最相似的键和相应的值被输出。一个简单的记忆层可以用下面的等式来描述:

51c大模型~合集101_大模型_17

其中,I 是一组指标,

51c大模型~合集101_大模型_18

,输出

51c大模型~合集101_大模型_19

扩展记忆层

扩展记忆层时面临的一个瓶颈是「查询 - 键」检索机制。简单的最近邻搜索需要比较每一对查询 - 键,这对于大型记忆来说很快就变得不可行。虽然可以使用近似向量相似性技术,但当键正在不断训练并需要重新索引时,将它们整合起来是一个挑战。相反,本文采用了可训练的「product-quantized」键。

并行记忆。记忆层是记忆密集型的,主要是由于可训练参数和相关优化器状态的数量庞大导致的。该研究在多个 GPU 上并行化嵌入查找和聚合,记忆值在嵌入维度上进行分片。在每个步骤中,索引都从进程组中收集,每个 worker 进行查找,然后将嵌入的部分聚合到分片中。此后,每个 worker 收集与其自身索引部分相对应的部分嵌入。该过程如图 2 所示。

51c大模型~合集101_大模型_20

共享记忆。深度网络在不同层上以不同的抽象级别对信息进行编码。向多个层添加记忆可能有助于模型以更通用的方式使用其记忆。与以前的工作相比,该研究在所有记忆层中使用共享记忆参数池,从而保持参数数量相同并最大化参数共享。

该研究通过引入具有 silu 非线性的输入相关门控来提高记忆层的训练性能。等式 (1) 中的输出变为:

51c大模型~合集101_大模型_21

其中 silu (x) = x sigmoid (x),⊙是元素的乘法(参见图 3)。

51c大模型~合集101_大模型_22

实验及结果

首先,该研究固定记忆大小,并与密集基线以及参数大致匹配的 MOE 和 PEER 模型进行比较。

从表 1 中我们可以看出,Memory 模型比密集基线模型有了大幅改进,在 QA 任务上的表现通常与密集参数数量为其两倍的模型相当。

Memory+ (有 3 个记忆层)比 Memory 有了进一步的改进,其性能通常介于计算能力高出其 2 到 4 倍的密集模型之间。

对于相同数量的参数,PEER 架构的表现与 Memory 模型相似,但落后于 Memory+。MOE 模型的表现远不及 Memory 变体。

51c大模型~合集101_大模型_23

图 4 显示了不同大小的 Memory、MOE 和密集模型在 QA 任务上的扩展性能。

51c大模型~合集101_大模型_24

图 1 表明 Memory+ 模型的实际 QA 性能随着记忆大小的增加而不断的增加。

51c大模型~合集101_大模型_25

在 6400 万个键(1280 亿个记忆参数)下,1.3B Memory 模型的性能接近 Llama2 7B 模型,后者使用了 10 倍以上的 FLOPs(见表 2)。

51c大模型~合集101_大模型_26

最后,本文在 8B 基础模型和 4096^2 个记忆值的基础上 (64B 记忆参数)扩展了 Memory+ 模型,表 2 报告了结果,发现记忆增强模型的表现明显优于密集基线。








#GeneralDyG

轻松进行动态图异常检测,南洋理工提出GeneralDyG

此项研究成果已被 AAAI 2025 录用。该论文的第一作者是南洋理工大学计算与数据科学学院 (CCDS) 的硕士生杨潇,师从苗春燕教授,主要研究方向是图神经网络。该论文的通讯作者为南洋理工大学百合研究中心的瓦伦堡 - 南洋理工大学校长博士后研究员赵雪娇;申志奇,南洋理工大学计算与数据科学学院高级讲师,高级研究员。

  • 论文标题:A Generalizable Anomaly Detection Method in Dynamic Graphs
  • 论文链接:https://arxiv.org/abs/2412.16447
  • 代码:https://github.com/YXNTU/GeneralDyG

研究背景与问题描述

随着动态图数据的广泛应用,它在社交网络、电商和网络安全等领域展现了强大的建模能力。然而,与静态图相比,动态图因节点和边的动态演变特性,给数据分析带来了更大的挑战,尤其是在异常检测方面。异常检测是保障系统安全和数据完整性的关键任务,旨在识别显著偏离正常模式的异常事件,例如欺诈交易、社交媒体垃圾信息和网络入侵等。及时发现这些异常对系统的可靠性和安全性至关重要。

基于深度学习的动态图异常检测方法已取得一定进展,例如利用图神经网络提取结构信息或通过时序模型捕获时间依赖性。然而,这些方法在通用性方面仍存在显著不足。具体而言,它们通常难以适应不同的数据集和任务场景,难以高效捕获动态图中局部与全局的复杂特征。此外,一些方法在处理大规模动态图时计算成本较高,异常事件的编码也不够准确,导致在新场景中的检测性能显著下降。

方法设计

本文针对动态图异常检测中的数据分布多样、动态特征捕捉困难以及计算成本高三大挑战,提出了一种通用方法(GeneralDyg)。首先,为应对数据分布多样问题,我们提取节点、边及其拓扑结构的关键信息,从而适应不同数据集的复杂特征分布。其次,为解决动态特征捕捉的难题,我们结合全局时间动态和局部结构变化,深入建模动态图中的多尺度动态模式。最后,为降低计算成本,我们构建了一种轻量化框架,能够高效捕获关键动态特征,同时显著提升计算效率。

如图 1 所示,本文方法由三部分组成,每部分针对上述挑战提供了解决方案:

(a)时间 ego-graph 采样模块,通过构建紧凑的子图结构有效应对计算资源限制;(b)图神经网络提取模块,全面捕获动态图的节点与边的多样性和复杂结构;(c)时间感知 Transformer 模块,有效融合全局和局部动态特征。

51c大模型~合集101_大模型_27

图 1 :动态图异常检测框架 GeneralDyG 的整体架构

(a)时间 ego-graph 采样模块旨在通过构建紧凑的子图结构有效缓解动态图大规模数据带来的计算压力。具体来说,该模块基于中心事件,通过 k-hop 算法提取其周围交互历史,构成时间 ego-graph。k-hop 算法的设计考虑了事件间的时间顺序与拓扑关系,确保采样过程兼顾时间动态与结构特性。此外,为了捕捉事件之间的层级关系,该模块引入了特殊标记(如层级标记符号)来分隔不同层次的交互信息。这些标记能够帮助 Transformer 模块更好地识别与学习时间序列中的层级动态。此外,该模块还通过限制 k 的范围来控制采样的规模,从而在信息完整性与计算效率之间取得平衡。这样的设计在保留动态结构信息的同时,显著降低了计算复杂度。

(b)在时间 ego-graph 的基础上,本文设计了一种新的图神经网络(TensGNN)来提取丰富的结构信息。TensGNN 通过交替应用节点层和边层来实现特征信息的传播与更新,从而在节点特征和边特征之间构建强关联。具体而言,节点层利用节点的邻接矩阵和特定拉普拉斯矩阵进行卷积运算,同时结合边的特征更新节点表示。相应地,边层则基于边的邻接关系和节点的状态更新边的特征表示。这种交替堆叠的方式能够更好地捕捉动态图中的局部与全局特性。此外,该模块引入了轻量化的算子,避免了冗余计算,在大规模数据集上也能保持较高的计算效率。

(c)时间感知 Transformer 模块:最后,GeneralDyG 通过时间感知 Transformer 模块整合时间序列和结构特征。在自注意力机制中,模型分别利用 Query 和 Key 编码图的拓扑结构信息,而将 Value 保留为原始事件特征,以确保异常检测的准确性。通过这一模块,模型能够有效捕获动态图中全局的时间依赖性和局部的动态变化,从而实现对复杂异常模式的准确建模。

实验验证

本文在节点级别(node level)和边级别(edge level)两个层面上进行了实验评估,使用了四个真实数据集:SWaT 和 WADI 用于节点级别异常检测,Bitcoin-Alpha 和 Bitcoin-OTC 用于边级别异常检测。

我们将 GeneralDyG 与 20 种主流基线方法进行对比,这些基线方法涵盖了图嵌入(如 node2vec、DeepWalk)和异常检测(如 TADDY、SAD、GDN)两大类别。实验通过 AUC、AP 和 F1 等指标全面评估模型性能,并在不同异常比例(1%、5%、10%)下进行了系统性测试。结果表明,GeneralDyG 在所有数据集上均显著优于现有方法,展现了卓越的通用性与检测能力,如图 2 所示。

51c大模型~合集101_大模型_28

图 2 Bitcoin-Alpha 和 Bitcoin-OTC 数据集上的边异常检测性能对比。

总结

总的来说,我们提出了一种通用的动态图上异常检测方法 GeneralDyg,解决数据分布多样、动态特征捕获难和计算成本高三大核心问题,GeneralDyG 展现了卓越的通用性和鲁棒性,为动态图异常检测提供了一种高效且通用的解决方案。详细方法流程以及实验结果请参考原文。








#大模型微调项目 / 数据集调研汇总

总结了一些热门的大模微调项目的亮点以及数据集。

本文主要总结本人最近跑过的大模型微调项目。

相信大家这几个月都会不断新出的微调大模型项目刷屏,频率基本每天都有高星的项目诞生,部分还宣称自己达到GPT的百分之多少,一方面弄得大家过度乐观,一方面弄得大家焦虑浮躁。

面对这种情况,我的建议是「多动手」。把这些项目 clone 下来,跑跑代码,把项目用到的数据集下载下来做做EDA,把项目训练完的checkpoint下载下来,用自己的例子跑跑。多接触反而心态平定了许多

回归正题,这篇博文聊聊一些热门的大模型微调项目。首先我觉得大量这些项目的诞生是源于以下三个节点:

  • 节点1 ChatGPT:由于 ChatGPT 惊人的效果,让大家意识到AGI的可能性,并重视起了大模型+开放指令微调+强化学习这种三阶段范式
  • 节点2 LLaMA:LLaMA 是 Meta 在今年2月份推出的基座模型,宣称 LLaMA-13B 在大多数基准测试中超过了 GPT-3 (175B),而 LLaMA-65B 与最好的模型 Chinchilla70B 和 PaLM-540B 相比非常有竞争力。此外,该项目还开源了7B、13B、30B和65B版本。
  • 节点3 Stanford Alpaca:在 LLaMA 的基础上,用 Self-Instruct 去制造了52K的指令微调数据集,最后发现训练出来的模型确实是能听懂指令的,能看出ChatGPT的雏形

这三个节点加起来相当于证明了一条可以低成本复现的道路,然后大量的人沿着这条道路去进行时间。

再来说说这些项目的,本质都是:底座模型(ChatGLM/LLaMA/BLOOM)+ 微调数据(主要是指令微调数据集) + 高效微调方案(Fulltuning/Lora/Freeze/Ptuning)

项目

这些介绍几个我认为比较好的,好的定义是:Github star 比较高的,持续在维护更新的,同时作者对自己的项目做了详细解析和深入研究的。

ChatGLM-6B

清华唐杰老师团队

项目: https://github.com/THUDM/ChatGLM-6B

Blog: https://chatglm.cn/blog

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于GLM架构,具有62亿参数。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约1T个标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。为了方便下游开发者针对自己的应用场景定制模型,项目还开源了基于 P-Tuning v2(https://github.com/THUDM/P-tuning-v2) 的高效参数微调代码。

亮点:

  • GLM 是一种 Prefix decoder 的结构,而目前大模型采用的主流结构是 Casual decoder,可以说GLM走出了自己的道路,但究竟那种结构更优,需要更科学的评定
  • 1T 个token的中英文预训练,对比 175B 的 GPT3 训练了300B个 token,540B的 PaLM 训练了780B个 token,而 ChatGLM-6B 的底座只是6B的模型,却训练了1T个 token,让人有种憧憬,用大数据训练小模型,是否能达到小数据训练大模型的效果
  • 项目号称经过监督微调、反馈自助、人类反馈强化学习

但是 ChatGLM-6B 没有公布它的训练细节和语料是怎么做的,有人说 ChatGLM-6B 的 IFT 也是通过 self-Instruct 得到的,这也不是空穴来风,相信用过 ChatGLM-6B 的人都会觉得,ChatGLM-6B的回复风格跟ChatGPT十分相似。

Alpaca-CoT

中科院的学生做的项目

项目:https://github.com/PhoebusSi/Alpaca-CoT/blob/main/CN_README.md

多接口统一的大模型指令微调平台。该项目做了一个框架,利用这个框架,可以方便地用不同的底座模型+不同的指令数据集进行大模型的微调,不足的地方是,只提供了使用Lora的训练方式。除此之外,该项目主打一个思维链 (CoT),把CoT数据集加入到指令微调中,在项目中还举了很多案例,证明加入了CoT数据集后对模型的提升作用。

亮点:

  • 统一了多个底座模型,包括有 LLaMA、ChatGLM、BLOOM
  • 整理统一了其他公开项目的数据集,如果大家想梳理下现在市面上开源的IFT数据集,建议可以通过这个项目了解
  • 项目集成了 Int8-bitsandbytes、Fp16-mixed precision、LoRA(hugging peft库)等高效训练的方法
  • 首个加入了 CoT 训练后的效果研究

BELLE

贝壳团队开源的项目

项目:https://github.com/LianjiaTech/BELLE

项目基于 Deepspeed-Chat 项目,包括全量参数微调(fine-tuning)和基于LoRA的参数高效微调。

亮点:

  • 开源了一个规模巨大的中文IFT数据集,现在加起来有300万以上,基本都是通过Self-Instructi得到
  • 做了一系列的实验,截止日前已发了4篇技术报告
  • 《Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences》
  • 《Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases》
  • 《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》
  • 《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》

建议大家把它们的数据集下载下来看看,并把这4篇实验报告都看一次。虽然这些实验并不是很客观,例如最后的test集也是用的belle自己的,然后用的是GPT3.5打分。不过整体的实验思路和实验结果还是可以大致参考的。

Chinese-LLaMA-Alpaca

科大讯飞&哈工大团队,很出名的团队,很多耳熟能详的中文预训练模型,如RoBERTa、MacBERT、PERT都出自它们团队

项目:https://github.com/ymcui/Chinese-LLaMA-Alpaca

该项目包括词表扩充、继续预训练和指令精调三部分,其中词表扩充的代码参见 merge_tokenizers.py ;预训练和指令精调代码参考了 transformers中的 run_clm.py 和 Stanford Alpaca 项目中数据集处理的相关部分。

亮点:

  • 相对完整的流程,不紧紧是指令微调这一步,还包括词表扩充、继续预训练
  • 针对LLaMA模型扩充了中文词表,提升了中文编解码效率。这一步是我觉得假如想用LLaMA去做中文必须要做的一个事情,因为原生LLaMA对中文支持不好,很多中文词不在它们的词表中,会被切成两个token,极大影响了效果
  • 对中文继续做了20G语料的预训练,这个预料规模一看就很熟,它们开源的RoBERTa、MacBERT也是在这个规模的预料上训练得到的
  • 在预训练介绍,分成两部分,第一阶段:冻结transformer参数,仅训练embedding,在尽量不干扰原模型的情况下适配新增的中文词向量,第二阶段:使用LoRA技术,为模型添加LoRA权重(adapter),训练embedding的同时也更新LoRA参数。这给大家做高效继续预训练的提供了一个方向。

StackLLaMA

项目:https://huggingface.co/spaces/trl-lib/stack-llama

Blog: https://huggingface.co/blog/stackllama

Hugging Face的研究人员发布的一个70亿参数的模型——StackLLaMA。这是一个通过人类反馈强化学习在LLaMA-7B微调而来的模型。

个人感觉有价值的是Hugging Face研究人员发布的一篇Blog:用RLHF训练LLaMA的实践指南。

亮点:

  • 博客更像是一个教程和指南,介绍如何使用RLHF来训练模型,而不是主要关注模型的性能表现
  • 重点介绍了指令微调和强化学习部分,其中强化学习部分利用的是StackOverflow构建的数据集,利用网民们的upvotes去进行评分,给我们构造强化学习数据集部分提供了一个思路,能否利用微博点赞、知乎点赞等数据去构造一个中文的强化学习数据集呢?

数据集

介绍几个比较有特色的中文数据集

Alpaca-CoT

对大部份中英文的开源IFT数据集进行了整理和汇总,包括有 Guanaco、belle、firefly、COIG,加上项目自己开源的CoT数据集。假如不想自己去疏离数据集的话,就看这个它们整理好的就行了。

Alpaca_GPT4

https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

微软论文《INSTRUCTION TUNING WITH GPT-4》开源的数据集。亮点是利用 GPT-4 生成的 Alpaca 数据,并做了中文的翻译。由于GPT4比GPT3.5强大很多的,因此质量自然会更高。

belle_data

https://github.com/LianjiaTech/BELLE/tree/main/data/10M

规模很大、类型也较多的数据集

  • School Math:包含约25万条中文数学题数据,包含解题过程。
  • Multiturn Chat:包含约80万条用户与助手的多轮对话。
  • Generated Chat:包含约40万条给定角色的多轮对话。
  • train_2M_CN:包含约200万条与Alpaca类似生成的多样化指令任务数据。

这些数据都是由ChatGPT生成,部分质量是不过关的,需要自己好好筛选一下。

COIG

https://huggingface.co/datasets/BAAI/COIG

规模很大,类型很全的数据集

  • 翻译指令数据集:基于开源数据集精选得到,并通过DeepL高质量翻译、并进行人工验证+人工修正
  • 考试指令数据集:中国高考、中考、公务员考试得到,可用作思维链 (CoT) 语料库
  • 价值对齐数据集:「中文世界的价值观念不同于英语世界的价值观」,作者构建了与普世华人价值观match的数据集,也是通过 self-instruct 生成的
  • 反事实校正数据集:构建了反事实校正多轮聊天数据集(CCMC)。CCMC 数据集包括学生和老师之间的 5 轮角色扮演聊天,以及他们所参考的相应知识。教师根据基本事实知识生成响应,并在每一轮中纠正学生问题或陈述中的事实错误或不一致之处
  • 代码指令数据集:Leetcode 数据集,包含有代码到文本和文本到代码

总体来说,这份数据集质量非常高,需要我们好好根据任务进行挑选。

个人感悟

数据清洗方案如何更好?

  1. 多样性:例如在 Self-Instruct 论文中,会使用 ROUGE 指标,过滤掉生成的指令与已有指令重合的指令。
  2. 高质量:使用 ChatGPT 生成数据,自然训练出来的模型就是模仿 ChatGPT 的回复风格。然而,ChatGPT(指 GPT3.5)自身的缺点包括浓浓的机翻味道、文绉绉的、不够活泼可爱,其次中文生成不够流畅。一种思路是使用 PPL 等指标筛选出生成的指令和回复,计算困惑度 Perplexity。Perplexity 低的通常是不流畅的,可以将低于一定阈值的去掉。
  3. 启发式:例如过滤掉问题是中文但回答是英文的,过滤掉生成的指令包含需要外部知识库的情况。

更多的清洗方案,可以多看看开源数据集中它们是如何处理的,留意里面的数据清洗方式。

哪种微调方案比较好?

从 BELLE 的技术报告《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》中可以看出,Full-Tuning 效果应该是最好的,但 Full-Tuning 需要机器资源多,训练时间长。其次是 P-TuningV2/Lora/Freezing 的话,貌似是 P-TuningV2 效果最佳,具体可以看这个https://github.com/liucongg/ChatGLM-Finetuning。然而,这些比较并不严谨,例如每个方案都有自己的超参,是否每个方法都做了超参搜索。

强化学习部分重要吗?

非常重要。现在发现 ChatGLM-6B 的回复虽然一看过去感觉像模像样,但仔细看会发现胡言乱语的情况很严重,也即幻觉问题。也有人会另辟蹊径,例如 COIG 中的 CCMC 数据集,通过将这些数据集加入到 IFT 训练中,让模型学习纠正不正确回复的能力。还有在 prompt 中加入“请不要生成虚假的、自我捏造的回复”等字眼,目的是让模型在生成更加谨慎。然而,这些都是折中的办法。个人认为减少幻觉问题这一步,还得靠强化学习。希望未来能看到更多构建强化学习数据和开源强化学习数据集、训练的方案。








#CMU等曝光GitHub「地下产业链」

450万个Star都是刷的

GitHub平台上日益严重的虚假star,不仅威胁到开源项目的透明度和声誉,还可能被利用于传播恶意软件和钓鱼攻击。CMU团队通过开发工具StarScout,系统分析了虚假star的特征、趋势及其对软件供应链安全的潜在影响。

什么?Github的star居然都能是假的了,甚至数量达到了惊人的450万!

大多数的研究人员都会将自己的项目发布到Github中,以增加曝光度。项目的star也一直被大家视作是用来检验项目热度的关键指标。

但是CMU团队新近研究StarScout却实锤了Github中疑似有450万star全都是假的!

很多项目存在恶意账户去刷star,以来吸引注意,甚至在对应的项目中注入恶意代码,以攻击那些想要复现项目的研究人员。

现在有15%的可能性,一个获得50个star的仓库涉及star造假。

论文链接:https://arxiv.org/abs/2412.13459

就像著名美国心理学家Donald T. Campbell所说,「任何量化社会指标在社会决策中用得越多,它就越容易腐败,就越容易扭曲和腐败它打算监测的社会进程」。

Github里高star项目这种足以风靡全球的吸引力,自然也逃不过如此规律。

如下关于GitHub仓库star数据的图表,展示了从2019年8月到2024年8月期间,每月获得至少50颗星的仓库数量(蓝色折线)以及每月疑似存在虚假星级活动的仓库数量(橙色柱状图)的变化情况。

  • 蓝色折线(#Repos>=50 star):代表每月获得至少50颗star的GitHub仓库数量。
  • 橙色柱状图(#Repos w. Suspected Campaigns):表示每月疑似存在虚假star活动的仓库数量。

从图表中可以看出,虽然获得至少50颗star的仓库数量总体较为稳定,但疑似存在虚假star活动的仓库数量在近年来呈现明显上升趋势,尤其是在24年。

如果你在谷歌中搜索「buy GitHub star」,就会显示出众多这方面的服务商。其中每个star的价格,最低购买数量,star到项时间都如下表一样,明码标价。

而更令人匪夷所思的是,很多服务商甚至宣称可以在数小时之内,甚至立刻就能让项目具有足够的star。

因此,GitHub库可以通过购买star来用于黑客攻击、发送垃圾邮件、求职简历造假,甚至去传播恶意软件而非法营利等有安全威胁的恶性事件。

例如这个拥有111颗star的项目,但其中109颗实际都是假的。项目的README文件(左上图)建议使用区块链应用程序,但如果执行,其代码(底部图)会使用隐藏的spawn函数来调用远程文件去执行脚本(名称为看似合法的JavaScript包)来窃取你的加密货币。

令人哭笑不得的是,项目有唯一的一个issue,大概是由受害者创建的,他警告这里隐藏着恶意软件。

而真正的开发者则对这种现象十分的不理解与抵触。

「我很困惑为什么有人会想买假的GitHub star。我的意思是,有这么多假账户而不是真实的人关注你又有什么意义。」

如何判定star是假的?

下述两幅图展示了涉及到假star的GitHub库对应的名称数据,分别为已删除的库和仍然存在的库。

可以发现,auto、bot、2024、telegram、free等都是涉嫌star欺诈的常见库名称。

而大多数已被删除的库似乎都是关于盗版软件的(加密货币机器人pixel-wallet-bot-free、Solana-Sniper-Bot)或游戏作弊(GTA5-cheat)。

下表描述了参与star欺诈活动的GitHub账户主要有哪些特征,可以看出其中没有GitHub组织、没有公司关系和没有个人网站的帐户所占比例最高。

也就是说,如果一个账户具有默认头像,也不属于GitHub上的组织,并且在其个人资料中没有任何从属关系或网站,他的项目仓库名还涉及到了上面两个词云图中的高频词的话,那么这个账户对应的仓库很大概率涉嫌star欺诈活动,甚至意图进行恶意欺诈和黑客攻击。

而就star交易来讲,从以往研究文献中可知,GitHub star黑市至少以三种不同方式运作:

  • 商家可以在自己的网站、即时通讯应用程序或淘宝等电子商务平台上公开出售GitHub star。
  • GitHub用户可能会组建交换平台(如GitStar或即时通讯群组),然后对彼此的GitHub仓库进行互star操作。
  • 一个GitHub仓库可能会直接用礼物激励其广告活动的受众为仓库加star(如OceanBase所发生的情况)。

所有这些运作方式似乎都违反了GitHub的可接受使用政策,该政策禁止以下行为:

  • 不真实的互动,如虚假账户和自动的不真实活动
  • 排名滥用,如自动加星或关注
  • 由加密货币、代币、积分、礼物或其他赠品等奖励所激励的活动

在上述讨论的所有三种情况下,研究者认为这些购买、交换或受激励而获得的 GitHub star是虚假的,因为它们是人为抬高的,并不真正代表真实GitHub用户对仓库的任何真实赞赏、使用或收藏。

StarScout设计

StarScout的概述图

从整体上看,StarScout在GHArchive上应用分布式算法,以从GitHub历史中定位两种异常star行为的特征:低活动特征和同步特征,这两者很可能与虚假star相关。

具体来说,低活动特征用于识别那些对一个或几个代码仓库star后便不再活跃的账户的stars;而同步特征识别来自n个账户集群的stars,这些账户在短的∆t时间窗口内反复一起对另一个包含m个仓库的集群进行star。

在虚假star与真实star之间划定明确边界并不容易,某些特殊情况,例如一个GitHub教程仓库要求读者为其点star作为教程的一部分,会增加这种区分的复杂性。

StarScout使用一个由用户和代码仓库组成的双向图(Stargazer Bipartite Graph)来处理这些特征的检测。

在低活动特征的检测中,StarScout会识别仅有一个WatchEvent(即只为一个GitHub仓库点star)以及在同一天最多一个附加事件(如ForkEvent)的账户。

尽管被检测的账户可能是由虚假star商控制的一次性机器人账户,但也可能是误判的真实用户,例如某人本来是合法注册的真实账户,但是在为一个仓库点star后就将自己的GitHub搁置了。

为了缓解这一问题,StarScout只考虑那些至少拥有50个被怀疑为虚假star的代码仓库。

这种行为是GitHub star商无法规避的,因为无论他们采用何种混淆方法,这些账户通常都是新注册的一次性账户,或者是在短时间内为多个仓库点star以满足交付承诺。

从数学角度来看,GitHub上的所有star可被建模为一个二分图:每个用户和代码仓库是一个节点,它们的star关系构成边,而star时间则作为边的属性。

如果一个虚假star商控制了一组n个账户,在承诺的交付时间内为m个代码仓库点star,那么它们将在star双向图中留下所谓的<n, m, ∆t, ρ>时间上连贯的近似二分核。

之前的一些研究也已表明,这种近似二分核于在线社交网络中很难自然形成,并且与欺诈活动高度相关。

然而,找到最大二分核的问题是NP难的。

因此,StarScout重新实现了CopyCatch,这是一种最先进的分布式局部搜索算法,曾用于Facebook检测虚假点赞。通过该算法,StarScout检测GitHub star双向图中的近似二分核。

CopyCatch从一组种子仓库(所有具有≥50颗star的仓库)开始;然后它迭代地生成一个时间中心,并增加n和m,为每个种子仓库在该时间中心内找到一个局部最大的近似二分核。最后,大于预定义n和m阈值的二分核将被视为虚假star。

虽然处理低活动特征和同步特征的两种启发式方法能够识别GitHub star数据中的显著异常模式,但并不能假定每个获得虚假star的代码仓库都是主动去获取这些star的。

例如,对于非常受欢迎的代码仓库,虚假star可能显得毫无意义。但免不了虚假账户可能故意为流行代码仓库点star,以规避平台检测。因此,后处理步骤旨在仅保留那些因虚假star激增而受益显著的代码仓库。

为此,StarScout汇总了每月的star数,并寻找符合以下条件的代码仓库:

(1) 至少有一个月获得超过50个虚假star,且虚假star比例超过50%;

(2) 所有时间段的虚假star比例(相对于所有star)超过10%。

StarScout将这些代码仓库视为发起虚假star的代码仓库,并将激增月份中点star的账户标记为参与虚假star活动的账户。

最终,StarScout在22,915个代码仓库中检测到453万个虚假star,这些star由132万个账户创建。

截至2024年10月,StarScout检测到并已在GitHub上删除的仓库/账户的百分比

与基准删除比例(仓库为5.84%,用户为4.43%)相比,已检测的仓库和账户的删除比例异常较高:虚假star活动中大约91%的仓库和62%的疑似虚假账户已被删除。

通过对GitHub事件分布的比较分析,研究人员发现,存在虚假star活动的仓库和账户往往更倾向于单一的star操作,其他类型活动事件的数量相较于普通仓库明显更少。

而且就算是在star活动数量上两者相近,但存在虚假star活动的账户和仓库通常仅有少量的Fork、Push和Create活动,而几乎没有Issue、PR和Comment活动。这主要是因为后三种活动相较于前三种活动更难以伪造。

假star真能以假乱真,提高热度吗?

研究者也对于假star是否能够像真star一样拥有「马太效应」进行了研究。

研究的目的探索假stars是否也能通过提高热度,以假乱真来吸引更多的用户去给出真实的star。

他们针对GitHub stars的影响制定了以下两个假设:

  • H1:积累真实的GitHub星级将有助于GitHub仓库在未来获得更多真实的 GitHub 星级。
  • H2:积累虚假的GitHub星级将有助于GitHub仓库在未来获得更多真实的GitHub星级,但效果不如真实星级强。

为了检验这两个假设,研究者通过向模型添加固定效应或随机效应项,稳健地估计了自变量对未观测到的异质性(即可能影响结果变量但未在模型中测量的因素)的纵向影响。

从上表中可以看出,H1假设得到了明确支持:根据固定效应模型,在保持所有其他变量不变的情况下,月t-1真实stars增加1%与月t真实星级预期增加0.36%相关。

类似地,也可以预测出从月t到月t+1真实stars能够增加0.36%。而该效应在月t+2则降至0.15%,在随后的所有月份降至0.11%,但效应始终为正。

换句话说,拥有更多真实stars的仓库在未来往往也会获得更多真实stars,这与社交网络中普遍存在的「富者愈富」现象相呼应。

另一方面,H2假设仅得到部分支持:在保持所有其他变量不变的情况下,月t虚假stars增加1%与月t+1真实stars预期增加0.08%以及月t+2真实stars预期增加0.04%相关。

换句话说,虚假stars在接下来的两个月内对吸引真实星级确实具有统计学上显著且纵向递减的正向效应,但该效应比真实星级的效应小三到四倍。

然而,月t虚假stars增加1%与月t+2及之后所有月份真实星级平均预期减少0.05%相关。

总的来讲,购买假star可能在短期内(即两个月以内)能够帮助一个仓库获得真实的关注,但其效果比真实的star小3到4倍。而且从长期来看,这种做法无疑也会产生深远的负面影响。

最后,研究者强调,GitHub库的star指标并不是一个可靠的高质量指标,所以至少不能是高风险决策的单一参考指标。

同时,研究者也建议开发者不要为推广自己的项目而去伪造star,因为这其实无济于事。

相反,他们建议在开源领域工作的存储库维护者和初创公司创始人应该战略性地专注于促进实际项目的进步,而不是表面上夸大star的数量。也就是说如果项目实际上并不是高质量的和维护良好的,那么即使高star可能会在短期内增加项目的可见度,也终究会迅速被大家排斥。

参考资料:

https://arxiv.org/abs/2412.13459











#天工4.0

昆仑万维「天工4.0」携超强o1/4o霸气上线!强推理+实时语音,免费无限体验

2024 年 12 月中旬,前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 大会上发表了一个惊人的观点:Scaling law 正在放缓,预训练时代即将结束,未来的研究方向将更加注重推理能力的提升。

如果 Ilya 的预测为真,那我们现在其实正在经历一场大模型发展路线的范式转移。

在国内,不少从业者也观察到了类似趋势。昆仑万维董事长兼 CEO 方汉曾提到,「从目前的情况来看,训练的 Scaling Law 其实还是有所放缓的,但是基于慢思考的、推理的 Scaling Law 又开始涌现。」

与此同时,国内外很多公司都在加码多模态。因为随着大模型应用范围的扩大,单一模态的局限性正变得愈发明显,只有实现多模态融合,用户才能获得更丰富的体验。

不过,在国内,能做到两条线齐头并进的公司还非常少。

昆仑万维就是其中之一。2024 年 11 月,机器之心报道了这家公司的两个大模型 —— 天工大模型 4.0 o1(Skywork o1)和天工大模型 4.0 4o(Skywork 4o)。

但令人意外的是,2025 年第一周刚过完,这两个模型就一起上线了!而且是全量上线,免费用。

打开天工 web 端网站,由 Skywork o1 加持的各项功能就会出现在眼前。o1 的提升主要体现在推理能力方面,在数学、代码、中文逻辑推理等问题中表现突出。

51c大模型~合集101_大模型_29

可以看到,在拿到一个提示后,Skywork o1 不会立马给出答案,而是一步一步去推导正确答案。与之前的「快思考」模型相比,这种「慢思考」的模式更适合去解决现实世界的复杂问题。

天工 web 端地址:https://www.tiangong.cn/ (点开立即体验 Skywork o1)

Skywork 4o 则有着拟人的语音对话能力,而且延迟低、可打断、音色逼真、情感丰富…… 利用这一模型,天工技术团队打造了实时语音对话 AI 助手 Skyo,通过天工 APP 的 Skyo 入口对外开放。

,时长00:38

Skywork o1 表现如何?  

当大模型学会复杂推理,一些原本很难解决的数学、代码等问题往往会迎刃而解。Skywork o1 的表现就证明了这一点。

在数学相关的基准测试中,Skywork o1 Preview 在包含数十道数学竞赛级别难度的测试问题的 AMC-23 中达到了 SOTA,在 AIME-24 和由国际数学奥林匹克等高难度数学竞赛题组成的 OlympiadBench 也取得了不错的成绩,仅次于 OpenAI 的 o1-mini。

51c大模型~合集101_大模型_30

在代码相关的基准测试中,Skywork o1 的表现也令人印象深刻。例如,在 HumanEval 和 MBPP 测试中,Skywork o1 preview 分别取得了 94.5 和 93.4 的高分,前者仅次于 o1-mini,后者比 o1-mini 高出 4.4 分。

51c大模型~合集101_大模型_31

此外,Skywork o1 团队还专门创建了一个私有评估集,用于更好地评估类 o1 模型的思考、规划以及反思等能力。这个评估集包含 20 种问题类型,每种问题类型包含 30 条不同难度或约束条件的问题样本。下表列举了在该评估集上 skywork o1 对比主流大模型的性能差异。结果显示,Skywork o1 的能力显著优于常规通用大模型,表现仅次于 o1-mini。

51c大模型~合集101_大模型_32

为了验证模型的真实能力,在 Skywork o1 全量开放的第一天,机器之心就进行了测试,全方位考察了该模型覆盖思考、反思和验证过程的推理能力。

hold 多类型推理

首先来看 Skywork o1 能不能应对「海龟汤题」,这是一类没有标准答案的开放性问题,通过设置一个故事情节来推导背后可能的深层原因, 用以考察大模型对故事内容、隐含信息等的筛选、理解、分析、关联性推理能力。

从结果来看,Skywork o1 初步具备了解读这类问题所需的能力,针对故事场景,通过发散性思维与联想给出了它自己以及我们也认为合理的解释。

51c大模型~合集101_大模型_33

再考它一道益智类「过河」问题,往往涉及多个人物、动物或物品,在遵守一定规则和限制条件的情况下,最终完成完全渡河的目标。此类问题主要考察大模型的逻辑推理、问题拆解和规划能力,Skywork o1 很擅长此道。

51c大模型~合集101_大模型_34

经典的「真话者与说谎者」问题可以用来考察大模型的问题解构与重构、逆向思维能力,Skywork o1 游刃有余,直接抓住了破解的关键点。

51c大模型~合集101_大模型_35

公务员行测中的类比推理题对 Skywork o1 来说是手拿把掐,此类问题主要考察大模型对集合概念、内在逻辑关系、跨学科常识知识的综合分析、归纳与判断能力。如下准确 get 到了抽象概念与学术领域相关的类比推理。

51c大模型~合集101_大模型_36

2025 管理类联考中的一道逻辑推理题,考察了大模型的演绎推理、信息整合与分析、空间排列理解等多方面的能力。Skywork o1 也能正常应对。

51c大模型~合集101_大模型_37

数学能力跃升:考研题不在话下

这次,我们在数学能力测试上给 Skywork o1 上了难度,让它做两道 2025 考研数学一的试题。

首先是一道填空题,考察了概率知识。经过一番缜密的思考与推理,Skywork o1 答对了。

51c大模型~合集101_大模型_38

然后是一道单选题,主要考察线性代数中矩阵秩(Rank)的相关概念以及在矩阵乘法中的应用,要求 Skywork o1 分析和验证不同秩关系,并利用已知条件进行推理和证明。从解题过程来看,它具备了比较扎实的线性代数基础和严密的数学推理能力。

51c大模型~合集101_大模型_39

不俗的代码能力

目前,Skywork o1 可以解决不同难度和技术领域的代码问题,比如「反转字符串里的单词」。

51c大模型~合集101_大模型_40

更复杂的创建智能体:   

51c大模型~合集101_大模型_41

一番体验下来,我们的最大感受是:从思考全链路、答案详实度与准确度、实际体验等多个维度来看,Skywork o1 称得上全能型高质量选手了。

擅长推理的大模型如何练就?  

Skywork o1 在逻辑推理任务上性能的大幅提升主要得益于天工自研的三阶段训练方案。

第一阶段是推理反思能力的训练,数据是其中的侧重点。其实,在 OpenAI o1 推理模型发布之前,Transformer 作者 Aidan Gomaz 等人就提到,AI 模型不擅长推理并不是因为推理本身很难,而是互联网上没有太多展示推理过程的训练数据,Cohere、OpenAI 和 Anthropic 等公司一直在收集这类数据。在打造 Skywork o1 的过程中,研究团队也在数据上下了很大功夫。通过自研的多智能体体系,他们构造了高质量的分步思考、反思和验证数据,并通过多样的高质量长思考数据对基座模型进行继续预训练和监督微调。

为了提高这一阶段模型的训练效率和逻辑推理能力,他们还在版本迭代中大规模使用了自蒸馏和拒绝采样。

第二阶段是提高推理能力的强化学习。Skywork o1 的工作方式是分步推理,确保每个步骤的正确性对于最终结果的正确性非常重要。为此,研究团队研发了适配分步推理强化的 Skywork o1 Process Reward Model(PRM),而且在短期内实现了新版本迭代。

与主要侧重于数学和代码的上一个版本相比,新版 PRM 增加了对更多常见推理领域的支持,例如常识推理、逻辑陷阱、伦理决策等。此外,在模块化评估方面,Skywork-PRM 还侧重优化了对 o1 风格思维链的试错与反思验证能力的支持,细粒度地为强化学习与搜索提供了更准确的奖励信号。

实验证明,Skywork-PRM 可有效地捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响,结合自研分步推理强化算法进一步加强模型推理和思考能力。

第三阶段是推理规划。Skywork o1 团队基于天工自研的 Q * 线上推理算法,配合模型在线思考,寻找最佳推理路径。

51c大模型~合集101_大模型_42

Skywork o1 团队自研的 Q * 算法,这也是全球首次将 Q * 算法实现和公开。图源:论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》。论文链接:https://arxiv.org/pdf/2406.14283

前面提到,通过使用高质量和多样化的长思考数据,研究团队对基座模型进行了预训练和监督微调,从而使其具备了结构化输出回答的能力。这种能力体现在 Skywork o1 能够对推理过程进行统筹规划,并实现模型回答的自动化分层输出。在这一过程中,Skywork o1 还会穿插进行反思和验证,以确保推理的准确性。

考虑到这类模型的回答通常比传统模型更长,如果使用以句子为单位的规划方法,会显得效率低下,并且容易导致过度思考。因此,Skywork o1 采用了一种新的规划方式,即以模块作为规划的步骤单位。这种模块化的树形结构推理不仅提高了规划效率,还使得 Skywork o1 的 PRM 能够更完整地观察到模块化的回答,从而做出更准确的判断,并指导 LLM 进行更有效的推理。

为了避免模型在回答简单问题时过度思考。Skywork o1 还采用了自适应分配搜索资源的方式,在搜索开始之前对用户 query 进行难度预估,自适应地控制搜索树的宽度和深度,在简单的问题上做到快速给出回答的效果,在复杂题目上做到反复多轮验证从而提高回答的准确率。

Skywork 4o 加持的 Skyo 和真人有多像?  

自从 OpenAI 发布 GPT-4o 以来,行业和用户对语音大模型的需求已经发生了变化:他们不单单追求自然、实时和准确的回复,还希望 AI 能够尽可能读懂对话中的情绪并给予相应的情感反馈,这就在情绪感知、情感共鸣方面提出了更高的要求。

实现以上这些在技术上面临着一些挑战,比如在数据层面,高质量、多样性和代表性的数据获取往往成本高昂,采集数据后还需要专业人员对包含各种噪声、口音、语速的语音数据进行标注。同时,更强的情绪感知和回应需要准确识别用户语音的音调、节奏、音量、语气等细微且复杂的变化,并在回答时根据情境调整语气和语调。总之,需要克服的问题不少。

Skyo 利用超过百万小时的语音数据进行了大模型预训练,学习到了真实世界各种场景、不同风格的说话表达方式,在回复时的语速、语调、情感方面不再干巴巴,变得更加自然、更加多变、更有人情味。

也得益于端到端建模(而非传统的 ASR + NLU + TTS 三阶段的级联方案),Skyo 能够像人类一样,能听懂用户的语音,并提供了高质量交互能力(包括极低延迟、实时打断)和自然、流畅的互动体验,用户也能快速获得智能的语音回应。

51c大模型~合集101_大模型_43

上图为 Skyo 所采用的语音对话框架,专为全双工端到端语音对话设计,方便用户通过自然的对话方式与智能系统交流。整个框架可以分为以下几步:

  1. 语音输入(Speech Query)与语音编码(Speech Encoder):用户通过语音表达自己的问题或请求,这些语音被系统接收,作为对话的起点。系统利用语音编码器将接收到的语音信号转换为语义表示。
  2. 适配转换(Adapter):语音的语义表示通过适配模块的模态对齐被调整为大语言模型(LLM)能够理解的格式,为语音与文本语义的无缝对接提供支持。
  3. 大语言模型(LLM):经过适配的语音信息被输入到核心智能模型(LLM),模型通过多模态的处理能力理解语音意图,并生成相应的解决方案或回答。
  4. 语音输出(Speech Token):系统支持直接输出语音 token(Speech Token),通过扩散模型将这些 token 还原为真实语音,实现从语音输入到语音输出的端到端交互。

,时长00:28

,时长00:23

从体验效果中我们能感觉到,Skyo基本能做到「像和真人一样说话聊天」的效果,两个影响体验的关键因素——响应速度和回复的自然流畅程度——都优化得非常好。由此可见,端到端建模的方式确实存在明显优势,它让 Skyo 不再仅仅是一个语音转录后进行理解问答的工具,而是成为了声音领域的智能专家。

2025 年,大模型竞争进入 Next Level

这段时间,关于 2025 年 AI 趋势的分析多了起来,大家不约而同地提到了一些关键词,比如推理时间计算、AI 智能体、空间智能、AI 应用…… 显然,大模型的竞争即将进入 Next Level。

IBM 发布的 2025 年 AI 趋势分析。

当然,并不是所有的企业都可以继续走下去。除了算力这种拦路虎,技术路线的环环相扣也是一个重要因素。比如要想做好 AI 智能体,模型的推理能力要足够强;要想做好空间智能和 AI 应用,多模态能力至关重要。毕竟,现实生活中的很多需求都是多模态而不是纯文字的,模型对真实物理世界的感知也要建立在强大的多模态理解能力之上。

在众多做大模型的国内公司中,昆仑万维是模型能力较为全面的一家。这些能力彼此增益,帮助昆仑万维实现了模型能力的快速迭代,也让他们在潜在应用的探索中拥有更高的自由度。

截至目前,昆仑万维已经在应用领域取得了不少成果,比如推出了最懂金融、学术的天工 AI 搜索,AI 音乐创作平台 Mureka,AI 短剧平台 SkyReels,AI 社交产品 Linky 等。对于这样的成绩,昆仑万维创始人周亚辉在朋友圈发文表示,「昆仑万维 24 年的 AI 战略我自己也打满分,原因是足够差异化,找到了自己小而大美的空间。」

更重要的是,这些已经取得的技术、产品成果让昆仑万维在实现其长期目标 —— 通用人工智能(AGI)的道路上,显得尤为坚定和有信心。

2024 年初,昆仑万维发布了新使命 —— 实现通用人工智能,让每个人更好地塑造和表达自我。

周亚辉认为,AGI 时代也可以叫做机器人时代。AGI 时代的标志是机器人开始真正进入人类社会,进入到人们工作和生活的方方面面的场景中。

不过,要想进入这个时代,需要解决空间智能大模型的构建、运动控制技术的改进、机器人的保值增值能源能耗这三大问题。目前,对推理大模型和多模态大模型的研究正逐步为这些技术难题提供解决方案。这些研究可能是通往 AGI 时代的必经之路。

未来一年,我们期待昆仑万维在 AI 领域的发展能够带给大家更多的惊喜。








#奥特曼回应一切

宫斗、马斯克、ChatGPT两周年

2022 年 11 月 30 日,OpenAI 的网站访问量达到了一个从未有过的峰值。当时,这家初创公司虽然在业内赫赫有名,但远没摸到大厂门槛,以至于其所有者甚至没有费心去追踪他们的网络流量。不过今天看来,那是这个公司最后一个「平静」的日子。

仅仅两个月后,OpenAI 的网站访问量就超过了 1 亿,大家都在尝试使用 ChatGPT 并惊叹于其能力。自那以后,一切都变了,尤其是对于 OpenAI CEO 山姆・奥特曼(Sam Altman)来说。

但 2023 年 11 月发生了一件令人震惊的大事,奥特曼突遭 OpenAI 董事会解雇,一时间引爆网络。但后来的事大家都知道了,奥特曼重回 OpenAI 执掌大权至今。

近日,彭博社专访了奥特曼,采访中,奥特曼解释了他那颇受讨论的四天解雇事件,他实际上如何运营 OpenAI,以及他对 AGI(通用人工智能)的不懈追求。

以下是机器之心关于采访内容的编译和整理。

Q(主持人):现在是回顾过去两年、反思一些事件和决策、并澄清一些事情的好时机。但在我们开始之前,您能否再讲述一次 OpenAI 创始晚餐的故事?

A(奥特曼):每个人都想要一个简洁的故事,希望有一个决定性的时刻让一切发生。保守地说,那一年(2015 年)大概有 20 次创始晚餐,但最终只有一次被载入史册,成为大家谈论的焦点。对我个人来说,最重要的一次是我和 Ilya 在加州山景城的 The Counter 餐厅的那次晚餐。只有我们两个人。

Ilya Sutskever 是 OpenAI 联合创始人,也是人工智能领域的顶尖研究人员之一。作为董事会成员,他参与了 2023 年 11 月解雇我的行动,但几天后他公开表示对他的决定感到遗憾。他于 2024 年 5 月离开 OpenAI。

再往前追溯,我一直对 AI 非常感兴趣。我在本科时就学习过 AI。后来有一段时间我分心了,直到 2012 年,Ilya 和其他人完成了 AlexNet 。我一直在关注进展,心想:天哪,深度学习看来成了(Man, deep learning seems real.)。而且,它似乎具有扩展性。这真的是一件大事。应该有人做点什么。



AlexNet 由 Alex Krizhevsky、Sutskever 和 Geoffrey Hinton 共同创建,它利用了一种强大的新型计算机程序 —— 深度卷积神经网络(CNN),能够以前所未有的准确度识别图像,从而推动了人工智能领域的重大进展。



于是我开始接触很多人,询问谁适合一起做这件事。在 2014 年,AGI 是多么非主流的目标,这一点怎么强调都不为过。人们甚至害怕和我交谈,因为我说我想启动一个 AGI 项目。他们总是回答这是虚幻的概念,可能会毁掉你的职业生涯。但很多人都说,有一个人你一定要聊聊,那就是 Ilya。于是我在一次会议上「跟踪」了 Ilya,在走廊里拦住了他,我们聊了起来。我当时就觉得:这家伙很聪明。我大致告诉了他我的想法,我们一起吃了顿饭。在我们的第一次晚餐中,他阐述了 —— 虽然用词和现在不同 —— 但基本上阐述了我们如何构建 AGI 的策略。

Q:那次晚餐畅聊的精神,有哪些至今仍然存在于公司中?

A:几乎所有的精神都还在。当然,在此基础上我们还增加了一些东西,但我们当时对深度学习的信念,对实现这一目标的具体技术路径的信念,以及对研究和工程相结合的信念 —— 让我感到惊讶的是,这些想法竟然如此有效。通常,当你有了这些想法时,它们并不一定完全奏效,而我们最初的一些构想显然也有完全不奏效的地方。但(我们相信)AGI 是可能的,相信这是值得押注的方向,后来这些想法被证明是非常正确的。

Q:最初 OpenAI 团队的优势之一就是招募人才。你们成功地将大量顶尖的 AI 研究人才收入麾下,尽管提供的薪酬往往远低于竞争对手。你们的吸引力是什么?

A:我们的吸引力很简单:就是一起构建 AGI。而这一招奏效的原因在于当时要构建 AGI 是多么异端,因此,你过滤掉了世界上 99% 的人,只吸引到那些真正有才华、有原创思维的人。这非常强大。如果你在做和其他人一样的事情,比如构建第 10000 个照片分享应用?那真的很难招募到顶尖人才。但如果你能让我相信没有其他人正在做这件事,并且吸引一小部分真正有才华的人?你就能把他们全部收入麾下。而且他们都想一起工作。

所以,我们当时提出的听起来可能有些大胆甚至离谱的想法,赶走了领域内所有资深专家,却吸引到了一群年轻、有才华的「杂牌军」,他们从一开始就很出色。

Q:你们多快就确定了各自的角色?

A:大多数人都是全职投入的。我当时还有一份工作(2014 年,奥特曼成为 Y Combinator 的首席执行官) ,所以一开始我参与得很少,但随着时间的推移,我越来越热爱这个项目。到了 2018 年,我已经完全沉浸其中了。Ilya 和 Greg 负责管理,但每个人都在做自己的事情。

Q:看起来你对最初的那几年有一种浪漫的看法。

A:当然,那绝对是 OpenAI 历史上最有趣的时光。我的意思是,现在也很有趣,但能够亲身参与我认为将是有史以来最伟大的科学发现时期之一 —— 考虑到它对世界的影响 —— 这是一种千载难逢的经历。如果你非常幸运的话。如果你极其幸运的话。

Q:2019 年你接任了 CEO 一职。这是怎么发生的?

A:我当时试图同时兼顾 OpenAI 和 Y Combinator 的工作,这真的非常困难。但我完全被我们实际上要构建 AGI 的想法吸引住了。有趣的是,我记得当时我还在想,我们会在 2025 年实现这一目标,但这完全是一个随机的数字,基于我们从开始算起的 10 年。那时候他们常常开玩笑说,我唯一会做的事情就是走进会议室说:扩大规模!虽然这不完全正确,但那确实是那个时期的主要方向。

Q:ChatGPT 的正式发布日期是 2022 年 11 月 30 日。你现在感觉如何?

A:我明年就 40 岁了。在我 30 岁生日时,我写了一篇博客,标题是「日子很长,但几十年很短」。今天早上有人给我发邮件说:「这是我最喜欢的博客文章,我每年都会读。等你 40 岁时,你会写一篇更新吗?」我笑了,因为我肯定不会写更新。我根本没时间。但如果我写了,标题会是「日子很长,而几十年也很长。」所以,这段时间感觉确实非常漫长。

博客地址:https://blog.samaltman.com/the-days-are-long-but-the-decades-are-short

Q:当第一批用户开始涌现,并且很明显这将成为一个巨大的现象时,你是否有一个「天哪(holy)」的时刻?

A:这里有几点要说。首先,我当时觉得它会表现得相当不错!公司其他人都说:「你为什么让我们发布这个?这是个糟糕的决定,它还没准备好。」我通常不会做出很多「我们要做这件事」的决定,但这次是个例外。

在最初的几天里,ChatGPT 开始运行时,白天的使用量比晚上多。团队都在打趣地说:哈哈,它在下降。但我在 YC 期间学到了一点,那就是,如果每次新的低谷都高于之前的峰值,那就意味着有一些非常不同的事情正在发生。在前五天里,情况看起来就是这样,我当时就想:我觉得我们手上有一些我们还没有充分认识到的东西。

这引发了一场疯狂的争夺计算资源的行动 —— 我们当时并没有足够的资源 —— 因为我们发布这个产品时没有任何商业模式,甚至没有考虑过商业模式。我记得在 12 月的一次会议上,我说:我会考虑任何关于如何为此付费的想法,但我们不能再这样下去了。当时有一些非常糟糕的想法 —— 但没有一个好的。所以我们只是说:好吧,我们就试试订阅模式,以后再想办法。这个模式就这样坚持了下来。我们发布的是 GPT-3.5,但 GPT-4 即将推出,所以我们知道它会变得更好。当我开始与使用它的人谈论他们用它做什么时,我们不断快速改进它,最终导致了全球媒体的关注。

Q:你是一个享受成功的人吗?你能够沉浸其中,还是已经在担心下一阶段的扩展了?

A:关于我或我的职业生涯,有一个非常奇怪的现象:一般的轨迹是你经营一家大型成功的公司,然后在 50 多岁或 60 多岁时,你厌倦了那么辛苦的工作,然后成为一名风险投资家。先成为一名 VC,并且有一段相当长的 VC 职业生涯,然后再去经营一家公司,这是非常不寻常的。虽然我认为这在很多方面都不太好,但有一个方面对我非常有利,那就是你有一种奇怪的预知能力,知道会发生什么,因为你已经观察并指导过很多人经历过这些。我知道自己既充满了感激之情,同时也感到「F--- 我要被绑在一艘火箭上,我的生活将完全不同,而且不会那么有趣。」我对这件事有很多黑色幽默。我丈夫(Altman 于 2024 年初与长期伴侣、澳大利亚软件工程师 Oliver Mulherin 结婚。他们预计在 2025 年 3 月迎来一个孩子。)会讲一些有趣的故事,关于那段时间我回到家时,他会说:这太棒了!而我会说:这真的很糟糕。对你来说也很糟糕。你只是还没意识到,但这真的很糟糕。

Q:你长期以来在硅谷都很有名,但 GPT 的出现带来的一个后果是,你迅速成为了世界名人。这是否让你管理团队的能力变得复杂?

A:这让我的生活变得很复杂。但在公司里,无论你是否是一个知名的 CEO,他们只会问:我的 GPU 在哪里?

我一生中都感受到这种距离,这真的很奇怪。当我和老朋友、新朋友在一起时,我都会有这种感觉 —— 除了最亲近的人之外的任何人。我想如果我和平时不怎么交流的人在一起,我确实会在工作中感受到这种距离。如果我必须和一个我几乎从未见过面的群体一起参加会议,我就能感觉到这种距离的存在,但我大部分时间都和研究人员在一起。

Q:你还记得第一次隐约意识到,一家拥有数十亿美元外部投资、向非营利董事会汇报的营利性公司可能会成为一个问题的那一刻吗?

A:肯定有很多这样的时刻。但从 2022 年 11 月到 2023 年 11 月的这一年,简直是一片疯狂的模糊,我几乎记不清了。感觉就像我们在 12 个月内几乎从零开始建立了一整个公司,而且还是在公众关注下完成的。回顾过去,我学到的一点是,每个人都说他们不会搞混重要和紧急事务的相对优先级 ,但每个人都会被紧急事务所迷惑。所以,我会说,我第一次冷静地面对现实 —— 意识到这行不通 —— 是在那个周五下午的 12:05 左右。

Q:当董事会解雇你作为 CEO 的消息传出时,确实令人震惊。但你似乎是一个情商很高的人。在那之前,你是否察觉到任何紧张的迹象?

A:我认为我的情商并不高,但即使对我来说,这也超出了我能察觉到的紧张范围。你知道,我们一直在讨论安全性与能力、董事会的角色以及如何平衡这些事情。

在第一个周末发生了很多烦人的事情。我对那段时间的记忆 —— 可能细节有误 —— 他们在周五中午解雇了我。周五晚上有一群人辞职了。到了周五深夜,我想:我们就去开始一个新的 AGI 项目吧。周五深夜,一些高管团队的人说:我们觉得可能会扭转局面。冷静点,等等看。

周六早上,两位董事会成员打电话来,想谈谈我回来的事情。我一开始非常生气,拒绝了。然后我想:好吧,行吧。我真的很在乎 OpenAI。但我说:「除非整个董事会辞职」。我希望我当时采取了不同的策略,但当时觉得这是一个合理的要求。然后我们在董事会问题上争论了一段时间。我们试图协商一个新的董事会。他们有一些我认为荒谬的想法。我也有一些他们认为荒谬的想法。但我以为我们总体上达成了共识。然后 —— 在整个过程中我最生气的时候 —— 这件事持续了整个周日。从周六到周日,他们一直说:快完成了。我们只是在等待法律建议,但董事会同意书正在起草中。我一直在说:我在维持公司的团结。你们有所有的权力。你们确定你们在说实话吗?他们会说「是的,你会回来的。你会回来的。」

然后周日晚上他们突然宣布 Emmett Shear 是新任 CEO。我当时想:好吧,现在我真完了,因为那是真正的欺骗。周一早上,所有人都威胁要辞职,然后他们说:好吧,我们需要扭转局面。

董事会表示,他们进行了一项内部调查,结论是你与他们的沟通不够坦诚。这个说法很具体 —— 他们认为你在撒谎或隐瞒了一些信息 —— 但也很模糊,因为没有具体说明你在哪些方面不够坦诚。你现在知道他们指的是什么吗?

我听到了不同的版本。有一种说法是,Sam 甚至没有告诉董事会他要推出 ChatGPT。我对这件事有不同的记忆和解释。但事实是,我确实没有说:「我们要推出这个东西,它将会是一个巨大的事情。」我更清楚的一点是,我与一些董事会成员在某些问题上存在分歧,我认为这些问题是冲突或有问题的行为,而他们对我想让他们离开董事会的方式感到不满。这是我学到的一个教训。

Q:我可以提供一个理论吗?

A:当然

Q:你曾经意识到,OpenAI 的结构会扼杀公司,甚至可能扼杀公司的发展。因为一个以使命为导向的非营利组织永远无法竞争计算能力,也无法做出 OpenAI 蓬勃发展所必需的快速转变。董事会由原教旨主义者组成,他们把纯粹置于生存之上。所以你开始决定让 OpenAI 参与竞争,这需要有点狡猾,而董事会 ——

A:我不认为我做的事情是偷偷摸摸的。我想说的是,本着速战速决的精神,董事会并没有了解全貌。有人说:「Sam 拥有创业基金,但他没有告诉我们这件事。」之所以发生这种情况,是因为我们有这个复杂的结构:OpenAI 本身不能拥有它,拥有 OpenAI 股权的人也不能拥有它。而我恰好是不拥有 OpenAI 股权的人。所以我暂时是它的所有者或 GP,直到我们建立了一个转让它的结构。

我对董事会是否应该知道这件事有不同的看法。但是,在表面上有所作为的情况下,是否应该更加清晰地传达这样的事情?是的,我会接受这种反馈。但这不是偷偷摸摸的。今年很疯狂,对吧?这家公司正以多种不同的方式以每小时一百万英里的速度前进。我鼓励你与任何现任董事会成员交谈,询问他们是否觉得我曾经做过任何鬼鬼祟祟的事情,因为我坚决不会这样做。



General partner,即普通合伙人。根据 2024 年 3 月 29 日提交给美国证券交易委员会的文件,OpenAI 初创企业基金的新 GP 是 Ian Hathaway。该基金约有 1.75 亿美元可用于投资专注于 AI 的初创企业。





OpenAI 目前的董事会由这些人组成:


Bret Taylor(董事长):前 Salesforce 联席CEO,FriendFeed 联合创始人。

Adam D'Angelo:Quora 公司联合创始人兼CEO。

Lawrence Summers:比尔・克林顿时期的财政部长,哈佛大学前校长。

Sue Desmond-Hellmann:比尔 & 梅琳达・盖茨基金会前CEO。

Nicole Seligman:索尼前执行副总裁兼法律总顾问。

Fidji Simo:Instacart 首席执行官兼董事长。

Paul Nakasone:美国国家安全局前局长(2018-24)。

Zico Kolter:计算机科学家,专门研究机器学习和人工智能安全。



我认为上一届董事会对人工智能出错的信念和担忧程度是真实的。在那个周末,其中一位董事会成员对团队说了一件事,人们因此还取笑她,那就是摧毁公司可能符合非营利董事会的使命。在我看来,这就是信念的勇气。我认为她是真心的。虽然我完全不同意所有具体的结论和行动,但我尊重这样的信念,我认为旧董事会的行为是出于错误但真诚的信念,他们相信什么是正确的。也许还因为,AGI 就在不远处,而我们却没有对此负责。因此,我可以在完全不同意其他细节的同时,对这一点保持尊重。



据报道,前 OpenAI 董事会成员 Helen Toner 曾表示,在某些情况下,摧毁公司「实际上符合董事会的使命」。奥特曼此前曾与乔治城大学安全与新兴技术中心战略总监 Toner 对峙,就她撰写的一篇批评 OpenAI 过快发布 ChatGPT 的论文展开争论。她还称赞了 OpenAI 的竞争对手之一 Anthropic,称其没有等待发布聊天机器人而「煽动人工智能炒作的火焰」。



Q:显然你赢了。因为是你现在坐在这里。但你难道没有被这一切所伤吗?

A:我确实很担心。最困难的部分不是经历这个过程,因为四天的肾上腺素飙升可以让你做很多事情。看到公司和更广泛的社区对我的支持,我感到非常温暖。但很快,一切都结束了,我的手头一团糟。情况一天比一天糟糕。就像又有政府调查,又有旧董事会成员向媒体泄露假新闻。所有那些我觉得真正毁了我、毁了公司的人都走了,现在我不得不收拾他们的烂摊子。实际上,大概是每年的这个时候(12 月),下午 4 点 45 分天就黑了,又冷又多雨,晚上我一个人在家里走来走去,既郁闷又疲惫。感觉很不公平,因为房子着火了,我根本没有时间恢复。

Q:当你回到公司时,你是否会因为担心自己可能被视为的角色会而对重大决定或公告感到自卑?让我说得更简单些,你是否觉得有些人可能会认为你很坏,而你需要让他们相信你是好人?

A:比这更糟糕。当一切都澄清之后,一切都好了,但在最初的几天里,没有人知道任何事情。我走在大厅里,人们会把目光移开。就好像我被诊断出癌症晚期一样。人们对我表示同情和同情,但(没有人)知道该说些什么。那真的很艰难。但我当时想:「我们有一项复杂的工作要做。我要继续做下去。」

Q: 你能具体说说你是怎么管理公司的吗?你平时都在做什么?比如说,你会和工程师一对一交谈吗?你有时间到处走走看看吗?

A:让我看看我的日程表。我们每周一都有三小时的管理层会议。然后,嗯,就说昨天和今天吧,我和六个工程师进行了一对一会谈。这个会面之后我还要去参加研究会议。明天有几个重要的合作伙伴会议和很多计算资源相关的会议。光是关于扩充计算资源的会议就有五个。明天还有三个产品头脑风暴会议,之后还要和一个重要的硬件合作伙伴共进晚餐。差不多就是这样。有一些是每周固定的安排,其他的就是随机应变了。

Q:你花多少时间在内部和外部沟通上?

A:内部沟通要多得多。我不是那种喜欢给员工写表扬邮件的人,但是我经常进行一对一和小组会议,然后在 Slack 上处理很多事情。

Q:所以你真的会深入到具体细节中去?

A:我是 Slack 的重度用户。在细节中你能获得很多信息。我是说,虽然没有什么比和小型研究团队开会更能深入了解情况,但是通过 Slack,你也能了解到很多广泛的信息。

Q:你之前说过你对 ChatGPT 的界面和使用体验有很多想法。那你觉得什么时候需要自己亲自动手去做,而不是在旁边指导别人做呢?

A:在这个层面上?其实不太会。昨晚我和 Sora 团队一起吃饭时,我确实写了好几页详细的建议,但这种情况很少见。还有待会儿的会议,我会向研究团队提出一个非常具体的提案,详细说明我认为他们未来三个月该做什么,不过这也是比较特殊的情况。



Sora 是 OpenAI 的视频生成模型,于 2024 年 12 月 9 日向公众发布。



Q:我们之前聊到过,科研有时会和企业架构产生冲突。你们把研究部门安排在离公司其他部门几英里远的另一栋楼里。这样安排是不是有什么象征意义?

A:不是,这纯粹是出于后勤和空间规划的考虑。我们最终会有一个大园区把所有人都集中在一起。当然,研究部门还是会有自己独立的区域。保护核心研究对我们来说至关重要。

Q:那是在保护哪些方面呢?

A:硅谷公司通常是这样发展的:一开始是个产品公司,在这方面做得很好,然后规模越来越大。随着规模扩大,收入增长率自然会放缓。

到了某个时候,CEO 就会想要建立一个研究实验室,希望能产生新想法推动进一步增长。这种模式在历史上确实成功过几次,比如贝尔实验室和施乐 PARC。但大多数时候都不成功。通常的结果是:你有一个很棒的产品公司,却有一个很糟糕的研究实验室。

我们很幸运,我们「嫁接」上去的小产品部门可能是有史以来发展最快的科技公司,至少是近几年最快的。但这很容易吞噬掉研究的魔力,我绝不会让这种事情发生。

我们的使命是开发通用人工智能 (AGI)、超级智能以及之后的一切。在这个过程中,我们会遇到很多精彩的事物,任何一个都可能让我们分心,偏离最终目标。我认为保持专注非常重要。

Q:作为一家公司,你们已经不怎么公开谈论 AGI 了,谈论的主要是不同智能等级的 AI,但你私下和我交流,个人层面上还是在讨论 AGI 吗?

A:我觉得「AGI」已经变成一个很模糊的词了。如果你看看 OpenAI 划定的五个等级,你会发现有人把每个等级都称作 AGI。设立这些等级的目的是为了更具体地确定我们所处的位置和进展情况,而不是纠结于到底是不是 AGI。

Q:你们会用什么标准来判定「好,我们现在已经实现 AGI 了」?

A:我个人比较粗略的想法是:当 AI 系统能够完成重要岗位上的高技能人类的工作时,我会称之为 AGI。

当然这又引出了一系列问题:是完成全部工作还是部分工作?它能不能从一个计算机程序开始,自己决定要成为一名医生?它能达到该领域最顶尖人才的水平,还是只能达到前 98% 的水平?它有多大的自主性?

这些问题我还没有特别明确的答案,但如果你能雇用一个 AI 作为远程员工,它能负责一个优秀的软件工程师的工作,我想很多人会说:「好吧,这差不多算是 AGI 了。」

当然,我们总是在不断提高什么是 AGI 的标准,这就是为什么这个问题很难回答。但我还是坚持这个答案。至于是否达到了超级智能,对我而言关键在于:这个系统能否快速地提高地球上的科学发现速度?

Q:ChatGPT 现在有超过 3 亿用户。从他们的使用行为中,你们对 ChatGPT 有了什么新的认识?

A:听用户分享他们使用或放弃使用 ChatGPT 的各种场景,对我们的产品规划很有帮助。以前经常出现的一个情况是,很明显人们在尝试把 ChatGPT 当搜索引擎用,但这其实不是我们最初发布时考虑

的功能。而且它在这方面表现得很糟糕。

但这显然成了一个重要的需求方向。老实说,自从我们在 ChatGPT 中加入搜索功能后,我几乎不用 Google 了。在我们只有内部原型的时候,我完全没想到 ChatGPT 会取代我使用 Google 的需求。

从用户那里我们还学到:很多人在寻求医疗建议时都依赖 ChatGPT。OpenAI 的员工经常收到一些很暖心的邮件,比如:「我生病好几年了,医生都查不出原因。最后我把所有症状和检查结果输入 ChatGPT,它说我得了这个罕见病。我去看医生,他们给我开了药,我完全好了。」这是个极端个例,但类似的事情经常发生,这让我们意识到人们需要这个功能,我们应该继续完善它。

Q:你们的产品价格从 0 美元到 20 美元到 200 美元都有,据传还可能会推出 2000 美元的档位。你们是如何给这种前所未有的技术定价的?是根据市场调研还是凭直觉?

A:我们一开始免费推出了 ChatGPT,人们开始大量使用,我们需要某种方式来支付计算成本。我记得我们测试了两个价格,20 美元和 42 美元。人们觉得 42 美元有点贵,但愿意付 20 美元。所以我们选择了 20 美元。这大概是 2022 年 12 月底或 2023 年 1 月初的事,和专门雇人做的定价研究不太一样。

我们也在考虑其他定价方向。很多客户告诉我们他们想要基于使用量的定价。比如「有些月份我可能需要花 1000 美元的算力,有些月份我想少花一点。」

我年纪已经上来了,还记得拨号上网的时代,美国在线(AOL)每月给你 10 小时或 5 小时的上网时间包。我很讨厌那种模式,不想让人感觉在计时。但我们正在规划其他一些基于使用量但又合理的定价方式。

Q:你是部署安全委员会(Deployment Safety Board,DSB)、安全咨询小组(Safety Advisory Group,SAG)和安全与安保委员会(Safety and Security Committee,SSC)这三个组织的成员吗?你对可能出现的风险有哪些认识呢?

A:这是个好问题,SAG 会向我报告,但我实际上并没有正式加入。他们发送报告给我,然后我回复同意或不同意,之后再发给董事会。我也不在 SSC,但是 DSB 的成员。

至于风险,我认为短期、中期和长期风险仍然大致相同。我预计在网络安全和生物 方面有需要缓解的严重或潜在严重的短期问题。从长远看,当你考虑一个真正具有惊人能力的系统时,可能会存在难以准确想象和建模的风险。虽然我认为这些风险是真实存在的,但同时也相信解决这些风险的唯一方式是推出产品并学习。

2024 年 9 月,OpenAI 承认其最新的 AI 模型存在被滥用于制造生物武器的风险。2023 年 5 月,Altman 与数百名其他签署者一起发表声明,强调了 AI 带来的生存威胁。

Q:谈到近期未来,业界似乎已经聚焦在三个潜在的发展障碍上:模型扩展、芯片短缺和能源短缺。我知道这些问题是相互关联的,但您能按照关注程度对它们进行排序吗?

A:我们在每个领域都有一个让我感觉不错的计划。在扩大模型的规模方面,我们在技术和安全性上都在持续取得进展。

我认为 2025 年将是一个不可思议的年份。你知道 ARC-AGI 挑战赛吗?五年前,主办方设立了非常困难的基准,作为衡量 AGI 的「敲门砖」。

上周五,我们宣布 o3 通过了这个基准。这个基准已经放在那里五年了,都没有模型能解决。如果模型能在这个测试中得到 85% 的分数,就能被认为「通过」了。而 OpenAI 的系统,完全是开箱即用,无需任何附加定制,就获得了 87.5% 的成绩。我们还有更好的研究和模型即将推出。

OpenAI 于 12 月 20 日推出了 Model o3 模型。它将在 2025 年初向用户开放。据 The Information 报道,OpenAI 跳过 o2,直接推出 o3,是为了避免与英国电信运营商 O2 产生潜在冲突。

在我的笔记本电脑上,Altman 打开了 ARC-AGI 网站,上面显示了一系列令人困惑的抽象网格。抽象正是其要点所在;要「解决」这些网格并实现 AGI,AI 模型必须更多地依靠推理而不是训练数据。

根据 ARC-AGI 的测试结果:OpenAI 的新 o3 系统在两种配置下都取得了优异成绩。使用普通配置(计算成本 1 万美元)时得分 75.7%,使用高性能配置 (计算成本 172 万美元) 时得分 87.5%。这两个分数都创造了新的记录。

我们一直在努力完善整个(芯片)供应链,与所有合作伙伴密切合作。我们有人为我们建造数据中心和制造芯片。我们有自己的芯片项目。我们与英伟达建立了超棒的合作关系。明年,我们将更详细地讨论这个问题,但现在是我们扩大芯片规模的时候了。

2024 年 11 月,英伟达 CEO 在东京 Nvidia 峰会上

Q:那么能源.....

A:核聚变会成功的。

Q:核聚变会成功。大概在什么时间框架内?

A:很快。很快我们就能看到净能量输出的核聚变演示。当然,接下来还需要建立一个稳定可靠的系统,进行规模化生产,解决工厂建设问题 —— 不是一两座,而是要建设多座工厂。同时还需要获得相关监管部门的批准。整个过程可能需要几年时间。但我相信 Helion 很快就能向你证明,核聚变技术是完全可行的。


Helion 是由 Sam Altman、Dustin Moskovitz 和 Reid Hoffman 共同创立的清洁能源创业公司,专注于开发核聚变。


Q:在短期内,是否有办法在不违背气候目标的情况下维持 AI 的增长?

A:是的,但在我看来,没有一种方法比快速批准核聚变反应堆更好。我认为 Helion 特有的核聚变方法是如此出色,我们应该朝着这个方向全速前进,一劳永逸。

Q:我看到你在 DealBook 上的评论,你认为 Elon Musk 不会利用他的职位从事任何与 AI 相关的不当行为。

A:我确实这么认为。

Q:但在过去几年里,Elon Musk 买下了 Twitter,然后又起诉要退出 Twitter 的收购。他恢复了 Alex Jones 的账号。他向扎克伯格发起笼斗挑战。这只是不当行为冰山一角。所以你真的相信他会 ——

A:哦,我认为他会做各种糟糕的事情。我认为他会继续起诉 OpenAI,撤销诉讼,提起新的诉讼,诸如此类。他还没有向我发起笼斗挑战,但事实证明他对扎克伯格也不是那么认真。正如你指出的,他说了很多事情,开始做,又撤销,被起诉,起诉别人,与政府发生冲突,被政府调查。这就是 Elon being Elon。问题是,他会不会滥用他现在自称的共同总统的政治权力来干扰商业竞争对手?我不认为他会这样做。我真诚地不这么认为。也许最终会被证明,是我错了。

Q:在你们两个合作得最好的时候,你会如何描述你们各自带来的贡献?

A:我们之间有一种很好的互补关系。虽然当时我们对 AI 的发展方向和具体路径都不太清晰,但我们都坚信这项技术对人类未来至关重要。我们有共同的愿景和使命感,也都愿意在前进的过程中不断调整和优化方向。这种共识让我们能够很好地合作推进这项事业。

Q:我很好奇实际你和 Elon 在工作中实际关系如何?

A:我不记得在导致分道扬镳的矛盾之前与 Elon 有过任何大的争执。但在那之前,尽管有各种传言 —— 人们谈论他如何斥责人、发脾气之类的,我都没有经历过。

原文地址:https://www.bloomberg.com/features/2025-sam-altman-interview/

刚刚,奥特曼发长文「反思」:十年艰难创业路,如今已掌握AGI秘诀

刚刚,奥特曼发出博文,反思了创业十年自己的经历和感悟。他再次回顾了被董事会解雇的「噩梦般的」那天,庆幸自己扛了过来。如今幸运的是,他确信OpenAI已经掌握了通往AGI之路的秘诀。 

就在刚刚,奥特曼发出了一篇长文博客,名为「反思」。

这篇博客发得很应景。就在前不久,奥特曼刚刚接受了彭博社的专访,曝出了不少猛料,包括对OpenAI前董事会的态度、与马斯克的恩怨,以及对川普时代AI走向的看法。

对于前董事会成员,他是这样描述的:「所有那些我认为严重损害了我个人和公司利益的人现在都离开了,而我却不得不来收拾他们留下的残局」。

而在今天的这篇「反思」中,奥特曼再次回顾了自己在OpenAI所经历的各种「冲突和误解」。

他将之前的风波,称之为「善意之人在治理上的一次重大失败」。

不过,好消息是——「OpenAI已经知道如何构建AGI了」。

「反思」全文

ChatGPT 的第二个生日仅仅过去一个多月,我们现在已经进入了能够具备复杂推理的模型的新范式。

新的一年,总会让人陷入沉思。在此,我想分享一些个人对于目前行业发展现状的思考,以及这段旅程给予我的启示。

随着我们越来越接近通用人工智能,现在似乎正是回顾OpenAI进展的重要时刻。诚然,未知与谜题仍旧重重,而且我们现在仍处于早期阶段。但比起刚开始时,我们已经懂得更多了。

将近九年前,我们怀着对AGI的憧憬创立了OpenAI。因为我们坚信这项技术可能成为人类历史上最具影响力的技术。

我们想要弄清楚如何构建它并使其带来广泛的益处;我们很兴奋能够尝试在历史上留下我们的印记。我们的野心极其远大,同时我们也坚信这项工作可能会以同样非凡的方式造福人类社会。

当时,很少有人关心这个,即使有人关注,也主要是因为他们认为我们不可能成功。

2022年,OpenAI还是一个默默耕耘的研究实验室,正在开发一个暂时称为「Chat With GPT-3.5」的项目。(我们在研究方面比起取名字要擅长得多。)

我们一直在观察人们使用我们API的playground功能,发现开发者们真的很享受与模型对话。

我们认为围绕这种体验建立一个演示会向人们展示未来的重要特征,并帮助我们使模型变得更好更安全。

最终,这个项目被命名为ChatGPT,并于2022年11月30日发布。

从理论上讲,我们一直都知道,在某个时刻我们会达到一个临界点,人工智能革命就会被引爆。

但我们不知道那个时刻会是什么。出乎我们意料的是,这就是那个时刻。

ChatGPT的问世带来了一个前所未有的增长曲线—在OpenAI、整个行业以及整个世界范围内都是如此。

我们终于看到了,我们一直希望从人工智能中获得的一些巨大好处,而且我们可以预见不久的将来会有更多突破性的进展

从0开始,很曲折,很糟心

这一路走来并不轻松。道路并不平坦,也没有什么明显正确的选择。

在过去的两年里,我们不得不几乎从零开始,围绕这项新技术打造一个完整的公司。

要培养人才,唯有在实践中学习,而且当面对一个全新的技术领域时,没有人能够准确告诉你应该怎么做。

在几乎没有现成经验可循的情况下,以如此高的速度发展公司,是一个艰难曲折的过程。

我们常常是向前迈两步,又不得不退回一步(有时甚至是前进一步,却要退回两步)。

虽然错误可以在过程中得到纠正,但对于这种开创性工作,确实找不到任何可以参考的手册或指南。

在未知的领域高速前进是一次令人难以置信的经历,但对所有参与者来说也带来了巨大的压力。冲突和误解接踵而至。

这些年对我来说,是最有收获、最快乐、最精彩、最有趣、最疲惫、压力最大的几年,而尤其是最近这两年,对我来说是压力最大、最不轻松的。

但最终萦绕我心头的是感激之情;我知道有朝一日,当我退休后在牧场里百无聊赖地看着植物生长时,一定会回想起:能够实现自己的童年梦想,是多么珍贵的一件事。

每当遇到那种在周五下午1点前就已经发生七件糟心事的日子,我就试图提醒自己记住这一点。

那一天,就像噩梦般萦绕

一年多前的某个周五,最糟糕的事情发生了:我在一次视频通话中,突然被解雇。

通话结束后,董事会立即发布了一篇关于此事的博文。

当时我正在拉斯维加斯的一间酒店房间里。那种感觉就像一场噩梦,不真实感几乎难以用言语形容。

在毫无预警的情况下,我就在公众面前被解雇了,随之而来的是几个小时的混乱,和持续数天的动荡。

最让人困惑的是那种「迷雾重重」的状态——没有人能够得到一个满意答案,关于事件的始末和原因。

在我看来,这整个事件反映出一次重大的管理失误,包括我在内的所有参与者虽然都是行的善意之举,却未能妥善处理。

回首往事,我确实希望自己当时能做出一些不同的事,而我也相信,经过这一年后,我已经成为一个更成熟、更懂得深思熟虑的领导者。

这件事让我深刻认识到,拥有多元化视角和丰富管理经验的董事会,在应对复杂挑战时有多么重要。

要实现良好的公司治理,需要建立充分的信任和信誉。

我由衷感激许多人共同努力,为OpenAI构建了一个更强大的治理体系,使我们能够继续追求「让AGI造福全人类」的使命。

我最大的感悟是心存感激,感恩之情难以言表。

感谢每一位OpenAI的同事,是他们选择投入时间和精力来追逐这个梦想;感谢在危机时刻伸出援手的朋友们;感谢那些始终支持我们、信任我们能够助力他们成功的合作伙伴和客户;更要感谢在我生命中用行动表达关爱的人们。

我们以更加团结和积极的姿态重新投入工作,我为我们此后展现的专注精神深感自豪。

我们完成了一些堪称最出色的研究成果。我们的周活跃用户数从约1亿增长到超过3亿。

最重要的是,我们持续向世界推出真正受用户喜爱、能够切实解决实际问题的技术。

很快,首批AI智能体上岗

九年前,我们完全不知道自己最终会成为什么样子;即使到现在,我们也仍在探索之中。

AI的发展经历了许多曲折,我们预计未来还会有更多变数。

有些转折令人欣喜,有些则充满挑战。看着研究突破不断涌现是一件令人振奋的事,许多曾经的质疑者也转而成为坚定的支持者。

我们也目睹了一些同事离开并成为竞争对手。随着规模扩大,团队人员变动在所难免,而OpenAI的发展速度更是惊人。

我认为这种情况某种程度上无法避免——初创公司在每个重要的规模增长阶段通常都会经历大量人员变动,而在 OpenAI,各项指标每隔几个月就呈几何级数增长。

过去两年的发展,堪比普通公司十年的历程。

当任何公司以如此快的速度成长和演变时,利益分歧自然会出现。

而当一家公司在重要行业中居于领先地位时,就会因各种原因遭受诸多攻击,尤其是来自竞争对手的挑战。

我们的愿景始终如一,但策略将持续演进。比如,创立之初,我们完全没想到要建立一个产品导向的公司,只以为专注于卓越研究就够了。我们也没预料到会需要如此庞大的资金投入。

如今我们必须着手建设一些几年前都未曾设想的新事物,而未来还会出现许多我们现在难以想象的创新。

我们为目前在研究和技术部署方面取得的成就感到自豪,并将继续推进在安全性和利益共享方面的思考。

我们始终认为,打造安全的AI系统的最佳方式是通过迭代和渐进式地将其推向世界,让社会有时间适应并与技术共同演进,从实践中汲取经验,不断提升技术的安全性。

我们坚信要在安全性和对齐研究领域保持全球领先地位,并以实际应用的反馈来指导研究方向。

我们确信,现在我们已掌握了如何构建传统意义上的AGI。我们相信,到2025年,我们可能会看到第一批AI智能体「正式就业」,从根本上改变企业的生产效能。

我们依然坚信,通过迭代方式将卓越的工具交到人们手中,终将带来广泛而积极的社会影响。

我们开始将目标转向更宏大的方向,即真正意义上的超级智能(Superintelligence)。

我们热爱现有的产品,但我们的终极使命是开创那个辉煌的未来。

有了超级智能,一切皆有可能。超级智能工具能够大幅加速科学发现和创新进程,远超人类现有能力,从而极大地提升社会财富和人类福祉。

现在谈论这些或许听起来像天方夜谭,甚至有些不切实际。但这没关系——我们早已习惯这种质疑,也不介意继续面对这种情况。

我们深信,在未来几年里,所有人都会看到我们所看到的景象,也会认识到在追求最大化普惠价值的同时,保持审慎态度是多么重要。

考虑到我们研究的重大意义,OpenAI注定不会是一家普通的公司。

能够参与这项工作,既是莫大的荣幸,也让我们倍感谦卑。

致谢

在之前的动荡中,有很多人为帮助OpenAI和我个人付出了难以想象的努力,但其中有两个人尤其重要。

Ron Conway和Brian Chesky的付出远远超出了职责所在,甚至难以用言语形容。

多年来,我一直就听闻Ron有着出色的能力和坚韧的性格,这几年我也一直与Brian保持密切交流,从他那里获得了无数宝贵的帮助和建议。

但只有在危机时刻并肩奋战,才能真正见证一个人的实力。我可以说,如果没有他们的帮助,OpenAI很可能就会土崩瓦解;他们夜以继日地工作,直到问题得到解决。

尽管工作强度惊人,但他们始终保持冷静,在整个过程中都展现出清晰的战略眼光和真知灼见。

他们不仅避免了我犯下几个重大错误,自己也从未失误。他们调动庞大的人际资源处理各项事务,游刃有余地应对各种复杂局面。我相信他们还在暗中做了许多我所不知道的事情。

然而,最令我感动的是他们所展现的关怀、同理心和支持。

我原以为自己懂得什么是支持一个创始人和一家公司,从某种意义上说确实如此。但我从未见过,甚至从未听说过像他们这样鼎力相助的故事。现在,我才真正明白为什么他们会享有如此传奇的地位。

虽然他们各有不同,并且都当之无愧地拥有自己独特的声誉,但他们却有着相似之处:那就是能够以超凡的能力为他人排忧解难,并且在别人最需要的时候始终不渝地给予支持。

科技行业因为有他们的存在而熠熠生辉。

当然,像他们这样的人,还有很多。这是我们行业弥足珍贵的特质,它对整个行业的发展起着比人们想象更大的推动作用。我期待有朝一日能够以同样的方式回报他人。

说到私人层面,我要特别感谢Ollie在那个周末和一直以来给予的支持;他在各个方面都堪称完美,甚至可以说,没有比他更好的伙伴了。

参考资料:

https://x.com/sama/status/1876081442775793984








#英伟达RTX5090规格曝光

自带32GB GDDR7内存


功耗高达 575W。


RTX 5090 到底长什么样?即将亮相的英伟达新一代显卡最近又曝光了更多信息。

上周末,外媒 VideoCardz 获得了一张非公版 RTX 5090 的包装盒照片,实锤了新一代旗舰显卡将使用 32GB GDDR7 显存。

虽然即将发布的 Inno3D RTX 5090 iChill X3 的包装没有透露有关英伟达旗舰下一代 GPU 的更多规格,但确实展示出了一些信息,比如它肯定会继续挑战人们的机箱容量,厚度达到了 3.5 Slot。在 32 G DDR7 内存的基础上,它具有 512 位的内存总线,可提供高达 1792 GB/s 的内存带宽。

过去几周,有关英伟达新一代显卡的传言越来越多。根据目前的信息汇总,RTX 5090 的显存(VRAM)预计将是 RTX 5080 的两倍,而且是 GDDR7,相对 RTX 4090 的 24GB GDDR6X 将是巨大的升级。事实上,它的 8GB 升级可能是系列独有的,有传言称 RTX 5060 会坚持使用 8GB。

此外,RTX 5090 可能会拥有 21760 个 CUDA 核心、近 1.8TB/s 的内存带宽和 575W 的 TDP—— 这一数字比 RTX 4090 又多了 125W。看来在芯片工艺制程提升有限的情况下,每代 GPU 只有通过增加功耗才能继续保持性能的提升。

至于价格,有人表示 RTX 5090 的价格会在 2000-2500 美元左右,这比 RTX 4090 1600 美元的发布价要高出不少。

好在这些信息是否准确很快就会有答案了。英伟达 CEO 黄仁勋将于 1 月 7 日上午在消费电子展 CES 上发表重要主题演讲,人们普遍预计英伟达将在会上发布其新一代消费级 GPU 系列,包括 RTX 5090、RTX 5080、RTX 5070 Ti、RTX 5070 等,或许还有一款面向国内的 RTX 5090D 型号。

上周也有消息表示,今年首先能买到的将是 RTX 5080,可能最早的上市日期会在 1 月 21 日。

51c大模型~合集101_大模型_44

看起来,RTX 5080 拥有 16GB GDDR7 内存,预计将成为第一款使用 PCIe 5.0 接口标准的消费级显卡。RTX 5080 将使用英伟达全新一代 GB203-400 Blackwell GPU,预计将拥有 10752 个 CUDA 核心。

参考内容:

https://videocardz.com/newz/exclusive-first-look-at-geforce-rtx-5090-with-32gb-gddr7-memory

https://www.techradar.com/computing/gpu/nvidia-geforce-rtx-5080-appears-to-leak-ahead-of-possible-ces-2025-announcement









#SparseViT 

IML领域首个稀疏化视觉Transformer

SparseViT 的主要科研成员来自四川大学吕建成团队,合作方为澳门大学潘治文教授团队。

  • 论文:《Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer》
  • 论文链接:https://arxiv.org/abs/2412.14598
  • GitHub:https://github.com/scu-zjz/SparseViT

随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影可分为语义和非语义特征。因此目前几乎所有的图像篡改检测模型(IML)都遵循「语义分割主干网络」与「精心制作的手工制作非语义特征提取」相结合的设计,这种方法严重限制了模型在未知场景的伪影提取能力。

研究内容

利用非语义信息往往在局部和全局之间保持一致性,同时相较于语义信息在图像不同区域表现出更大的独立性,SparseViT 提出了以稀疏自注意力为核心的架构,取代传统 Vision Transformer (ViT) 的全局自注意力机制,通过稀疏计算模式,使得模型自适应提取图像篡改检测中的非语义特征。

研究团队在统一的评估协议下复现并对比多个现有的最先进方法,系统验证了 SparseViT 的优越性。同时,框架采用模块化设计,用户可以灵活定制或扩展模型的核心模块,并通过可学习的多尺度监督机制增强模型对多种场景的泛化能力。

此外,SparseViT 极大地降低了计算量(最高减少 80% 的 FLOPs),实现了参数效率与性能的兼顾,展现了其在多基准数据集上的卓越表现。SparseViT 有望为图像篡改检测领域的理论与应用研究提供新视角,为后续研究奠定基础。

SparseViT 总体架构的设计概览图如下所示:

51c大模型~合集101_大模型_45

图 1:SparseViT 总体架构。

主要的组件包含:

1. 负责高效特征捕获的 Sparse Self-Attention

Sparse Self-Attention 是 SparseViT 框架的核心组件,专注于在减少计算复杂度的同时高效捕获篡改图像中的关键特征即非语义特征。传统的自注意力机制由于 patch 进行 token-to-token 的注意力计算,导致模型对语义信息过度拟合,使得非语义信息在受到篡改后表现出的局部不一致性被忽视。

为此,Sparse Self-Attention 提出了基于稀疏编码的自注意力机制,如图 2 所示,通过对输入特征图施加稀疏性约束,设输入的特征图

51c大模型~合集101_大模型_46

, 我们不是对 

51c大模型~合集101_大模型_47

的整个特征上应用注意力,而是将特征分成形状为

51c大模型~合集101_大模型_48

的张量块,表示将特征图分解为

51c大模型~合集101_大模型_49

个大小为

51c大模型~合集101_大模型_50

的不重叠的张量块,分别在这些张量块上进行自注意力计算。

51c大模型~合集101_大模型_51

图 2:稀疏自注意力。

这一机制通过对特征图进行区域划分,使模型在训练中专注于非语义特征的提取,提升了对图像篡改伪影的捕捉能力。相比传统自注意力,Sparse Self-Attention 减少了约 80% 的 FLOPs,同时保留了高效的特征捕获能力,特别是在复杂场景中表现卓越。模块化的实现方式还允许用户根据需求对稀疏策略进行调整,从而满足不同任务的需求。

2. 负责多尺度特征融合的 Learnable Feature Fusion (LFF)

Learnable Feature Fusion (LFF) 是 SparseViT 中的重要模块,旨在通过多尺度特征融合机制提高模型的泛化能力和对复杂场景的适应性。不同于传统的固定规则特征融合方法,LFF 模块通过引入可学习参数,动态调整不同尺度特征的重要性,从而增强了模型对图像篡改伪影的敏感度。

LFF 通过从稀疏自注意力模块输出的多尺度特征中学习特定的融合权重,优先强化与篡改相关的低频特征,同时保留语义信息较强的高频特征。模块设计充分考虑了 IML 任务的多样化需求,既能针对微弱的非语义伪影进行细粒度处理,又能适应大尺度的全局特征提取。LFF 的引入显著提升了 SparseViT 在跨场景、多样化数据集上的性能,同时减少了无关特征对模型的干扰,为进一步优化 IML 模型性能提供了灵活的解决方案。

研究总结

简而言之,SparseViT 具有以下四个贡献:

1. 我们揭示了篡改图像的语义特征需要连续的局部交互来构建全局语义,而非语义特征由于其局部独立性,可以通过稀疏编码实现全局交互。

2. 基于语义和非语义特征的不同行为,我们提出使用稀疏自注意机制自适应地从图像中提取非语义特征。

3. 为了解决传统多尺度融合方法的不可学习性,我们引入了一种可学习的多尺度监督机制。

4. 我们提出的 SparseViT 在不依赖手工特征提取器的情况下保持了参数效率,并在四个公共数据集上实现了最先进的(SoTA)性能和出色的模型泛化能力。

SparseViT 通过利用语义特征和非语义特征之间的差异性,使模型能够自适应地提取在图像篡改定位中更为关键的非语义特征,为篡改区域的精准定位提供了全新的研究思路。相关代码和操作文档、使用教程已完全开源在 GitHub 上(https://github.com/scu-zjz/SparseViT)。该代码有着完善的更新计划,仓库将被长期维护,欢迎全球研究者使用和提出改进意见。








#xxx





#xxx