#MTMamba

王座易位?香港科技大学MTMamba,超越 ViT与CNN!

本文作者提出了MTMamba,一种新型的多任务架构,具有基于Mamba的解码器,在多任务场景理解中表现出卓越的性能。

多任务密集场景理解,它学习一个用于多个密集预测任务的模型,具有广泛的应用场景。建模长距离依赖和增强跨任务交互对于多任务密集预测至关重要。

在本文中,作者提出了MTMamba,一个基于Mamba的新型多任务场景理解架构。它包含两种核心块:自任务Mamba(STM)块和跨任务Mamba(CTM)块。STM通过利用Mamba处理长距离依赖,而CTM显式地建模任务交互以促进跨任务的信息交换。在NYUDv2和PASCAL-Context数据集上的实验表明,MTMamba在基于Transformer和基于CNN的方法上取得了优越的性能。

特别值得一提的是,在PASCAL-Context数据集上,MTMamba在语义分割、人体解析和物体边界检测任务上分别比之前最佳方法提高了+2.08、+5.01和+4.90。

代码可在https://github.com/EnVision-Research/MTMamba。

1 Introduction

多任务密集场景理解是计算机视觉中的一个重要问题[36],并在各种实际应用中具有广泛用途,如自动驾驶[20, 23]、医疗保健[19]和机器人技术[48]。它旨在训练一个模型,能够同时处理多个密集预测任务,如语义分割、单目深度估计、表面法线估计和目标边界检测。

普遍的多任务架构遵循编码器-解码器框架,包括一个用于特征提取的任务共享编码器和用于预测的任务特定解码器[36]。这个框架非常通用,许多变体[42, 43, 37, 46]被提出以改进其在多任务场景理解中的性能。一种有前景的方法是关注解码器的方法[36],其目标是通过精心设计的融合模块增强任务特定解码器中的跨任务交互。例如,源自卷积神经网络(CNN)的PAD-Net[42]和MTI-Net[37]在解码器中引入了多模态蒸馏模块,以促进不同任务之间的信息融合,性能优于编码器-解码器框架。由于卷积操作主要关注局部特征[2],最近的方法[43, 46]提出了基于Transformer的解码器以及基于注意力的融合模块。这些方法利用注意力机制捕捉全局上下文信息,性能优于基于CNN的方法。先前的工作表明,增强跨任务相关性以及建模长距离空间关系对于多任务密集预测至关重要。

最近,源自状态空间模型(SSMs)[14, 15]的Mamba[13]这种新型架构,在包括语言建模[12, 13, 39]、图推理[1, 38]、医学图像分析[30, 41]和点云分析[49, 22]在内的各个领域,展示了比Transformer模型更好的长距离依赖建模能力和性能。然而,所有这些工作都关注单一任务学习,而如何采用Mamba进行多任务训练仍有待研究。此外,如何在Mamba中实现跨任务相关性,对于多任务场景理解是至关重要的,这尚未被探索。

为了填补这些空白,在本文中,作者提出了MTMamba,一种新型的多任务架构,具有基于Mamba的解码器,在多任务场景理解中表现出卓越的性能。整体框架如图1所示。MTMamba是一个关注解码器的方法,包括两种核心块:自任务Mamba(STM)块和跨任务Mamba(CTM)块,如图2所示。具体来说,受Mamba启发的STM能够有效地捕捉全局上下文信息。CTM被设计用来通过促进不同任务之间的知识交换,增强每个任务的特征。因此,通过在解码器中STM和CTM块的协作,MTMamba不仅增强了跨任务交互,而且有效地处理了长距离依赖。

51c大模型~合集7_数据集

51c大模型~合集7_多任务_02

作者在两个标准的 multi-task 密集预测基准数据集 NYUDv2[35] 和 PASCAL-Context[6] 上评估了MTMamba。定量结果表明,MTMamba在多任务密集预测上大大超过了基于CNN和Transformer的方法。特别是,在PASCAL-Context数据集上,MTMamba在语义分割、人体解析和目标边界检测任务上分别比之前最佳的性能提高了+2.08、+5.01和+4.90。定性研究表明,MTMamba比最先进的基于Transformer的方法生成了更好的视觉效果,具有更准确的细节。

作者的主要贡献总结如下:

  • 作者提出了MTMamba,一种新型的多任务架构,用于多任务场景理解。它包含一个基于Mamba的新型解码器,有效地建模长距离空间关系并实现跨任务相关性;
  • 作者设计了一种新型的CTM块,以增强多任务密集预测中的跨任务交互;
  • 在两个基准数据集上的实验证明了MTMamba在多任务密集预测上优于先前的基于CNN和Transformer的方法;
  • 定性评估显示,MTMamba捕捉到了具有判别性的特征并生成了精确的预测。

2 Related WorksMulti-Task Learning

多任务学习(MTL)是一种学习范式,旨在在单个模型中同时学习多个任务[50]。最近的多任务学习研究主要关注多目标优化和网络架构设计。在多任务密集场景理解中,现有的大部分工作集中在设计架构[36],尤其是设计解码器中的特定模块以实现更好的跨任务交互。例如,基于CNN,Xu等人[42]引入了PAD-Net,在解码器中结合了一个有效的多模态蒸馏模块,以促进不同任务之间的信息融合。MTI-Net[37]是一个复杂的多尺度和多任务CNN架构,具有跨不同特征尺度的信息蒸馏。由于卷积操作主要捕捉局部特征[2],最近的方法[43, 46]利用注意力机制来捕捉全局上下文,并为多任务场景理解开发基于Transformer的解码器。例如,Ye和Xu[46]引入了InvPT,这是一个基于Transformer的多任务架构,使用有效的UPT-Transformer块在不同特征尺度上进行多任务特征交互。MQTransformer[43]设计了一个跨任务 Query 注意力模块,以在解码器中实现有效的任务关联和信息交换。

先前的工作表明,长距离依赖建模和增强跨任务相关性对于多任务密集预测至关重要。与现有方法不同,作者提出了一种源自Mamba的新型多任务架构,以更好地捕捉全局信息并促进跨任务交互。

State Space Models

状态空间模型(SSM)是对动态系统的数学表示,它通过隐藏状态来建模输入输出关系。SSM具有普遍性,在强化学习[16]、计算神经科学[10]和线性动态系统[18]等广泛的应用中取得了巨大成功。最近,SSM被提出作为建模长距离依赖的替代网络架构。与旨在捕捉局部依赖的基于CNN的网络[17, 21]相比,SSM对长序列更为强大;与需要序列长度的二次复杂度的基于Transformer的网络[8, 40]相比,SSM在计算和内存效率方面更高。

最近提出了许多不同的结构来提高SSM的表达能力和效率。Gu等人[14]提出结构化状态空间模型(S4)以提高计算效率,其中状态矩阵是低秩矩阵和正常矩阵的和。许多后续工作试图提高S4的有效性。例如,Fu等人[11]设计了一个新的SSM层H3,以缩小SSM和Transformer在语言建模中的性能差距。Mehta等人[32]引入了一种使用门控单元的门控状态空间层,以提高表达能力。

最近,Gu & Dao[13]进一步提出了Mamba,其核心操作为S6,这是S4的输入相关选择机制,它实现了序列长度的线性扩展,并在各种基准测试中展示了超越Transformers的优越性能。Mamba已成功应用于图像分类[53, 27]、图像分割[41]和图预测[38]。与它们在单任务设置中使用Mamba不同,作者考虑了一个更具挑战性的多任务设置,并提出了新的自任务和跨任务Mamba模块来捕捉任务内和任务间的依赖。

3 Methodology

在本节中,作者首先在3.1节介绍了状态空间模型和Mamba的背景知识。然后在3.2节介绍了所提出的多任务Mamba(MTMamba)的整体架构。随后,作者详细探讨了MTMamba的每个部分,包括3.3节中的编码器,3.4节中基于Mamba的解码器以及3.5节中的输出头。

Preliminaries

状态空间模型(SSMs)[13, 14, 15]起源于线性系统理论 , 它通过一个隐藏状态  , 将输入序列  映射到输出序列 , 通过以下线性常微分方程:

51c大模型~合集7_编码器_03

其中  是状态矩阵,  是输入矩阵,  是输出矩阵,  是跳跃连接。方程(1)定义了隐藏状态  的演变, 而方程(2)确定输出是由隐藏状态  的线性变换和从  的跳跃连接组成。在本文的其余部分, 为了解释起见, 省略了  (即 )。

由于连续时间系统不适合数字计算机和通常为离散的实际世界数据, 引入了一个离散化过程来近似它到一个离散时间系统。令 

51c大模型~合集7_数据集_04

其中 , 以及

51c大模型~合集7_编码器_05

在S4 [14]中,  是通过梯度下降学习的可训练参数, 并且不显式依赖于输入序列, 这导致了对上下文信息提取的弱化。为了克服这一点, Mamba [13] 提出了 S6, 它引入了一个依赖于输入的选择机制, 允许系统根据输入序列选择相关信息。这是通过将 B、C 和  作为输入  的函数来实现的。更正式地说, 给定一个输入序列 , 其中  是批大小,  是序列长度,  是特征维度, 输入相关参数 

51c大模型~合集7_数据集_06

其中  是一个可学习的参数, SoftPlus(  是SoftPlus函数, Linear  是线性层。  是一个像在  中那样的可训练参数。计算出  后,  通过方程(5)进行离散化,然后输出序列 

Overall Architecture

MTMamba的概览如图1所示。它包含三个组件:一个现成的编码器,一个基于Mamba的解码器,以及特定任务的 Head 。

具体来说,编码器在所有任务中共享,负责从输入图像中提取多尺度的通用视觉表示。解码器由三个阶段组成。每个阶段都包含特定任务的STM块,以捕捉每个任务的长距离空间关系,以及一个共享的CTM块,通过跨任务交换知识来增强每个任务的特征。最后,使用一个输出 Head 来生成每个任务的最终预测。以下作者介绍每个部分的细节。

Encoder

作者以Swin Transformer [28]为例。考虑一个输入的RGB图像 , 其中  和  分别是图像的高度和宽度。编码器使用一个 Patch 分割模块将输入图像分割成非重叠的 Patch 。每个 Patch 被视为一个标记(token), 其特征表示是对原始RGB像素值的拼接。在实验中,作者使用标准的 Patch 大小  。因此, 每个 Patch 的特征维度是  。在 Patch 分割之后, 一个线性层被用于将原始标记投影到一个  维度的特征嵌入。经过转换后的 Patch 标记顺序地通过多个Swin Transformer块和 Patch 合并层, 它们共同生成层次化的特征表示。具体来说, Patch 合并层[28]用于将空间维度(即  和 

51c大模型~合集7_数据集_07

其中  和  的大小分别为  和 

Mamba-based Decoder

将SSMs扩展到2D图像中. 与1D语言序列不同,2D空间信息在视觉任务中至关重要。因此,第3.1节中引入的SSMs不能直接应用于2D图像。受到[27]的启发,作者引入了2D选择扫描(SS2D)操作来解决这个问题。该方法包括沿着四个方向扩展图像块,生成四个独特的特征序列。然后,每个特征序列被送入一个SSM(如S6)。最后,处理过的特征被组合起来构建全面的2D特征图。正式地, 给定输入特征  的输出特征 

51c大模型~合集7_多任务_08

其中  是四个不同的扫描方向, expand  是沿着方向  扩展2D特征图 是第3.1节中引入的S6操作, 而 

基于Mamba的特征提取器(MFE). 作者引入了一个基于Mamba的特征提取器来学习2D图像的表示。它是所提出基于Mamba的解码器中的一个关键模块。如图2(a)所示, 受到[13]的启发, MFE由一个线性层用于通过可控扩展因子  扩展特征维度, 一个带有激活函数的卷积层用于提取局部特征, 一个SS2D操作用于建模长距离依赖, 以及一个层归一化来规范化学习到的特征。更正式地说, 给定输入特征 , MFE的输出 

51c大模型~合集7_多任务_09

其中  是层归一化,  是激活函数, 在作者的实验中使用  函数, 

自任务Mamba(STM)块。作者基于MFE引入了一个自任务Mamba块,用于学习基于特定任务的特征, 如图2(a)所示。受到[13]的启发, 作者使用一个输入依赖的门来自适应地选择从 MFE中学到的有用表示。之后, 使用线性层减少在MFE中扩展的特征维度。具体来说, 对于输入特征 , STM块中的计算如下:

51c大模型~合集7_数据集_10

其中 

跨任务玛玛(CTM)块尽管STM块可以有效学习每个单独任务的表征, 但它缺乏任务间的连接以共享对MTL性能至关重要的信息。为了解决这个问题, 作者设计了一个新颖的跨任务玛玛块 (如图2(b)所示), 通过修改STM块以实现不同任务间的知识交换。具体来说, 给定所有任务的特征 , 其中  是任务的数量, 作者首先将所有任务特征进行拼接, 然后通过MFE学习一个全局表征  。每个任务也通过其自己的MFE学习相应的特征  。然后, 作者使用一个输入依赖的门来聚合任务特定表征  和全局表征 

51c大模型~合集7_多任务_11

其中公式部分按照要求保持原始输出。

其中 concat  是拼接操作,  是激活函数, 与STM块中使用的SiLU不同, 作者使用更适合生成门控因子 

阶段设计。如图1所示, 基于Mamba的解码器包含三个阶段。每个阶段都有类似的设计, 包括 Patch 扩展层、STM块和CTM块。Patch 扩展层用于将特征分辨率上采样2倍, 并将特征维度减少2倍。对于每个任务, 其特征将通过一个 Patch 扩展层进行扩展, 并通过跳跃连接与编码器中的多尺度特征融合, 以补充因下采样而造成的空间信息损失。然后, 使用线性层减少特征维度, 两个STM块负责学习任务特定的表示。最后, 应用CTM块通过跨任务的知识交换来增强每个任务的特征。除了CTM块, 其他模块是特定于任务的。更正式地说, -阶段 的前向过程可以表示为

51c大模型~合集7_编码器_12

其中 , PatchExpand  是 Patch 扩展层,  和 

Output Head

在从解码器获取每个任务的特征后, 每个任务都有自己的输出头以生成其最终预测。受  的启发, 每个输出头包含一个 Patch 扩展层和一个线性层, 这非常轻量级。具体来说, 对于解码器输出的第  个任务特征 , 其大小为 , Patch 扩展层执行  上采样以将特征图的分辨率恢复到输入分辨率 , 然后使用线性层输出最终的像素级预测。

4 Experiments

在本节中,作者进行了大量的实验来证明所提出的MTMamba在多任务密集场景理解中的有效性。

Experimental Setups

数据集。继[43, 46]之后,作者在带有多任务标签的两个广泛使用的基准数据集上进行了实验:NYUDv2 [35] 和 PASCAL-Context [6]。NYUDv2 数据集包含了各种室内场景,分别有795和654张RGB图像用于训练和测试。它包括四个任务:40类语义分割(Semseg)、单目深度估计(Depth)、表面法线估计(Normal)和物体边界检测(Boundary)。PASCAL-Context 数据集源自 PASCAL 数据集 [9],包括室内和室外场景,并提供像素级的标签,用于诸如语义分割、人体解析(Parsing)和物体边界检测等任务,以及由 [31] 生成的表面法线估计和显著性检测任务的附加标签。它包含4,998张训练图像和5,105张测试图像。

实现细节。作者使用在 ImageNet-22K 数据集 [7] 上预训练的 Swin-Large Transformer [28] 作为编码器。所有模型均以 8 的批量大小训练 50,000 次迭代。采用 AdamW 优化器 [29], 学习率为 , 权重衰减为  。在训练过程中使用多项式学习率调度器。MFE 中的扩展因子  设置为2。继[46]之后, 作者将 NYUDv2 和 PASCAL-Context 的输入图像分别调整为 和 , 并使用相同的数据增强, 包括随机颜色抖动、随机裁剪、随机缩放和随机水平翻转。作者使用 

评估指标。继[46]之后, 作者对语义分割和人体解析任务使用平均交并比 (mloU), 单目深度估计任务使用均方根误差(RMSE), 表面法线估计任务使用平均误差(mErr),显著性检测任务使用最大 F-measure (maxF) , 物体边界检测任务使用最优数据集尺度 F-measure (odsF) 。此外, 作者使用平均相对多任务学习性能 

Comparison with State-of-the-art Methods

作者对比了所提出的MTMamba方法与两类多任务学习(MTL)方法:基于卷积神经网络(CNN)的方法,包括Cross-Stitch ,PAP ,PSD ,PAD-Net ,MTI-Net ,ATRC [3]和ASTMT ,以及基于Transformer的方法,即InvPT [46]和MQTransformer [43]。

表1展示了在NYUDv2数据集上的对比结果。可以看出,提出的MTMamba方法在所有四个任务上均表现出色。例如,在语义分割任务上的性能显著优于基于Transformer的方法(即InvPT和MQTransformer),分别提高了+2.26和+0.98,这证明了MTMamba的有效性。与InvPT的定性比较展示在图5中,可以看出MTMamba生成了更准确的预测。

51c大模型~合集7_数据集_13

51c大模型~合集7_多任务_14

表2提供了在PASCAL-Context数据集上的对比结果。这些结果显示了所提出的MTMamba方法的明显优势。特别是,MTMamba在语义分割、人体解析和目标边界检测任务上分别显著提高了先前的最佳性能+2.08,+5.01和+4.90,再次证明了MTMamba的有效性。同时,与InvPT的定性比较展示在图4中,显示MTMamba提供了更精确的预测和细节。

51c大模型~合集7_多任务_15

51c大模型~合集7_多任务_16

Model Analysis

STM和CTM块的有效性。所提出的MTMamba包含两种核心块:STM和CTM块。作者在NYUDv2数据集上进行实验,研究在每个解码阶段使用Swin-Large Transformer编码器的每个块的有效性。结果如表3所示。"Swin only"(分别是"STM only")表示每个任务只使用每个解码阶段中的两个特定的Swin Transformer(分别是STM)块。"Single-task"是"Swin only"的单任务对应物,表示每个任务都有其特定任务的模型。"STM+CTM"是MTMamba的默认方法,即与"STM only"相比,在每个解码阶段添加了一个共享的CTM块。

51c大模型~合集7_编码器_17

根据表3,"STM only"在很大程度上超过了"Swin only",这表明STM块比Swin Transformer块更有效。此外,"STM only"的参数数量和FLOPs比"Swin only"少,这显示了STM块的效率。与"STM only"相比,"STM+CTM"表现更好,证实了CTM块的益处。此外,默认配置(即"STM+CTM")在所有任务上的表现显著优于"Single-task",这证明了MTMamba的有效性。MFE模块的有效性。如图2所示,MFE模块基于SSM,并且是STM和CTM块的核心。作者通过在NYUDv2数据集上用注意力模块替换MTMamba中的所有MFE模块来进行实验。如表4所示,MFE比注意力更有效且高效。

51c大模型~合集7_编码器_18

表4:MTMamba中MFE模块在NYUDv2数据集上的有效性。本实验使用了Swin-Large编码器。"W-MSA"是Swin Transformer中的基于窗口的多头自注意力模块。"MFE"表示STM和CTM块中的所有MFE模块。

线性门的有效性。如图2所示,在STM和CTM块中,作者使用一个输入依赖的门来自适应地从MFE模块中选择有用的表示。线性层是门函数的一个简单但有效的选项。作者通过在NYUDv2数据集上用基于注意力的门替换MTMamba中的所有线性门来进行实验。如表5所示,线性门(即MTMamba)在方面与注意力门表现相当,而线性门更高效。

51c大模型~合集7_编码器_19

CTM块中跨任务交互的有效性。CTM块的核心是跨任务交互, 即方程(23),作者通过一个特定任务的门  将特定任务表示  和共享表示  融合在一起。在这个实验中, 作者通过将其与  和  的情况进行比较来研究其有效性。实验是在NYUDv2数据集上使用SwinLarge Transformer编码器进行的。结果如表6所示。可以看出, 使用特定的  (即  的情况)或共享的  (即 

51c大模型~合集7_多任务_20

不同编码器的性能。在这个实验中,作者研究在NYUDv2数据集上,提出MTMamba与不同规模的Swin Transformer编码器的性能。结果如表7所示。可以看出,随着模型容量的增加,所有任务的表现相应地更好。

51c大模型~合集7_编码器_21

Qualitative Evaluations

在本研究中,作者提出了MTMamba,一个具有基于Mamba解码器的新型多任务架构,用于多任务密集场景理解。通过两个新型块(STM和CTM块),MTMamba能够有效地建模长距离依赖并实现跨任务交互。在两个基准数据集上的实验表明,所提出的MTMamba比先前的基于CNN和基于Transformer的方法取得了更好的性能。

图3展示了在语义分割任务中,所提出的MTMamba与基于 Transformer 的方法InvPT [46]在最终解码器特征上的比较。如图所示,作者的方法高度激活了具有上下文和语义信息的区域,这意味着它

51c大模型~合集7_多任务_22





#国产异构原生AI算力工具问世

不知道是不是又是吹b

打破生态孤岛,国产异构原生AI算力工具问世,来自中科加禾

「通过系统优化软件的帮助,开发的门槛会被降低,各种不同硬件会得到统一,让技术生态得到发展。这对于当前智能生态的进步有重要的意义,」中国工程院院士、中科院计算所学术委员会主任、CCF 理事长孙凝晖在发布会上致辞表示。「除了智能芯片、AI 行业应用以外,我们需要系统软件优化的一方参与进来共同努力,这样才能把国内生态做得更好。」

孙凝晖院士在发布会上

面对算力「卡脖子」问题,我们终于迎来了系统级的解决方案。

7 月 20 日,AI 基础设施创业公司中科加禾正式发布了第一代异构原生 AI 算力工具。

面向当前国产算力大规模落地的趋势,中科加禾提出的方法可以让不同种类的芯片大规模并行,同时发挥最大效率,并让算力的使用者无需关注不同芯片生态,做到直接拿来就用。

中科加禾创始人兼 CEO 崔慧敏发布并介绍,「加禾异构原生 AI 算力工具」已经在国产算力的 AI 基础设施上发挥一定作用。它兼容多种国产 AI 芯片,为屏蔽芯片差异提供了高性能的统一接口。在异构原生平台的基础上,AI 算力集群在大模型推理上的时延可以降低 3-74 倍,吞吐率提升 1.4-2.1 倍,能效比提升 1.46 倍,可支持 340B 参数量的稠密大模型,以及 640B 的 MoE 大模型

与此同时,中科加禾已实现对超过 10 家包括芯片、集成商、服务商等客户提供高性能推理支持,其架构支持国内外主流大模型,并可以进行多样化并行推理。

发布会现场宣布签约及达成合作的算力提供、应用方伙伴包括:AMD、宝德、华为、杭州人工智能计算中心、开放传神、摩尔线程、青云科技、Rise VAST、燧原科技、无问芯穹、云西算力、新华三等(按拼音首字母顺序排序)。

中科加禾创始人、CEO 崔慧敏在发布会上

异构原生 AI 算力,目标实现三零一高

中科加禾提出的方案,目标是让 AI 大模型应用在不同芯片上实现零成本迁移,零损耗使用,零延迟部署的高效使用

这套软件工具包含异构原生大模型推理引擎「SigInfer」、异构原生微调引擎「SigFT」以及算子自动生成、转译工具「SigTrans」三款产品。

其中,昨天发布的 SigInfer 是一款跨平台、高性能的异构原生推理引擎,不但支持服务器级的 AI 加速卡,还支持消费级 GPU。因此,它既可以部署于数据中心,也可以为各种端侧设备实现加速。

作为异构计算的技术底座,通过 SigInfer 接入的不同 AI 算力,可以做到调用接口统一,平滑迁移业务应用。SigInfer 会在调用多种不同算力的同时进行多层次深度优化,充分挖掘芯片算力的潜能。

它具备现代大模型推理引擎所具备的各种特征,如支持 API Serving、请求调度、Batch 管理、KV Cache 优化、张量并行、流水线并行、专家并行、甚至多机流水并行等能力。

中科加禾表示,SigInfer 已经支持了业界大部分的大模型结构。

目前,SigInfer 已经可以实现完备的推理引擎能力。其支持的异构加速卡集群可以灵活调度英伟达 AI 加速卡 + 国产 AI 加速卡进行混合推理,最高可扩展至万亿级的大模型。

51c大模型~合集7_多任务_23

使用 SigInfer 帮助 AI 芯片部署可以在业务访问需求提升时,让大模型服务保持较高的吞吐率和较低的时延,对于生成式 AI 的大规模应用来说,这些指标至关重要。

在同样使用英伟达显卡的情况下,我们可以看到 SigInfer 能提供较明显的加速效果:

51c大模型~合集7_多任务_24

再进一步,使用国产芯片完成同类任务时,SigInfer 可以同样提升并行计算时 AI 加速卡的吞吐率,同时大幅降低输出 Token 的延迟。

异构原生 AI 算力工具可以根据大模型任务处理的不同阶段、算子特征、优化目标自适应优化等方式调整 AI 加速器的计算频率,从而实现高效率。中科加禾给我们算了一笔账,数据中心运营的过程中,使用 A800 加 SigInfer,相比 vllm 能效比可以提升 46%。

除了对云基础设施实施优化以外,中科加禾还展示了对于端侧推理的性能优化。SigInfer 可以加速基于英特尔、高通、AMD 等大厂的芯片设备,相比业界主流部署方案,SigInfer 在端侧推理的效率最高可以提升 5 倍。

在异构计算和效率提升的背后,是一系列前沿技术和工程的应用与优化。

为了提升并行计算的效率,中科加禾引入了一系列优化。例如深入解码阶段的访存优化,让 KV Cache 可以得到寄存器级别的复用,相比从 L2 加载,延迟和带宽都得到了优化。

同时,为了缓解并行度的减少,中科加禾的研究人员在数据的 sequence 维度上也进行了并行划分。结合 KV Cache 的复用优化,既节约了访存,又增加了并行度,让整个注意力机制的核心计算提高了执行效率。

中科加禾也探索了异构算力的高性能算子生成方法。通过与算力厂商合作,中科加禾把 cutlass 迁移到了国产芯片架构上,大幅提升了矩阵乘法的运行效率。在这其中,该公司通过结合编译技术的优化实现了超过 20% 的性能提升。

在一系列技术的加持下,加禾异构原生 AI 算力工具实现了卓越的能效优化。

从编译技术出发:中科加禾的技术路线

与以往一些 AI 算力基础设施公司提供的能力不同,中科加禾提供的异构计算与加速,是围绕编译技术展开的

对于计算机而言,编译层所做的工作是「翻译」,它负责把人类编写的高级编程语言内容转化成机器理解并能执行的语言。

在这个过程中,编译还需要进行优化,即提高生成出来的机器代码的运行效率。对于芯片性能而言,编译发挥作用的范围很大,但时常被人忽略。

在目前业内最流行的英伟达芯片上,CUDA 计算平台发挥了重要作用。它包含编程语言、编译器、各种高性能加速库及 AI 框架,可以在计算机执行任务时充当分配者的角色,充分利用不同硬件的算力资源,让复杂的代码模型跑得更快。可以说如今的 AI 生态,很大程度上就是建立在 CUDA 之上的。

对于国产算力而言,为了实现大规模应用,就需要构建其需要的生态和能力。

在生成式 AI 时代,人们对于算力的需求推动了芯片技术的发展,然而新的挑战也已显现:

  • 从芯片公司的角度来看,生态也呈现多元碎片化发展,这会带来开发成本增加以及落地效率和兼容性等问题。
  • 从行业发展的角度来看,AI 技术正快速发展,其覆盖越来越多的场景,意味着更多种类的算力将会参与其中,这就进一步推动了异构计算的需求。

因此,业界迫切需要一套能够支持多种国产芯片的高效工具链。如果能够出现一套通用化、低成本、高性能的基础软件,并可以帮助生态伙伴快速移植基于英伟达生态开发的应用程序,就可以充分发挥出国产芯片的潜力,带动技术研发的步伐,从而逐步构建立起 AI 算力生态的正循环。

这就是中科加禾一直在做的事。

中科加禾提供的基础软件平台层,定位于算子、编译、框架层几个位置,在硬件和软件之间架设了一座桥梁。其提供的异构原生 AI 算力工具可以帮助用户平稳迁移 AI 模型和芯片架构,这就给 AI 应用带来了极大的便利性。

51c大模型~合集7_数据集_25

这些层面的能力都涉及了编译技术。AI 编译覆盖的范围既包含图层,也包含算子层,相对传统编译器在语义转换上的跨度更大。例如,AI 编译器一般要考虑计算图划分、子图融合、并行计算、数据分块等。这些都是较难解决的问题。

在这方面,中科加禾完成了大量研究,如在 Tensor 表达式层级做全局数据流分析,构建精确的计算图和数据依赖图,进而打破算子边界进行算子融合,取得了很好的效果。在一些网络上,其方法取得了相对于业界先进水平多达 3.7 倍的加速比。相关工作成果发表在今年的计算机领域顶级会议上。

构建端到端的算力使能解决方案,助力繁荣国产 AI 生态

中科加禾成立于 2023 年 7 月,团队主要来自于中科院计算所。创始人崔慧敏毕业于清华大学计算机系,是中科院计算所编译团队负责人。该公司的核心团队具备超过 20 年的编译器研发经验,曾作为核心成员主持或参与过多款国产芯片的编译器研发工作。

自成立以来,该公司聚焦于芯片编译与优化技术,致力于提供通用化、低成本、高性能的算力资源,以「聚芯片之合力,筑国产之生态」为使命。目前,中科加禾已收获了多轮共计近亿元融资。

51c大模型~合集7_多任务_26

中科加禾正在围绕三条路线打造系列产品,包括支持异构算力的 AI 大模型推理引擎、大模型微调框架、以及 AI 编译工具套件。它们既可以帮助算力使用方快速使用多元化的 AI 算力,也可以帮助算力供应方完善软件生态以及提升竞争力,补齐了国产 AI 算力生态的一块重要拼图。

更重要的是,中科加禾希望能成为一个「沟通」的桥梁,连接数量庞大的算力使用方和算力提供方,使双方能愉快的双向奔赴,从而推动异构原生 AI 算力的大规模应用和国产 AI 生态的蓬勃发展贡献力量。





#中国的人形机器人研究斩获最佳论文

中国的论文都是水货~~

近日,机器人领域著名会议 RSS(Robotics: Science and Systems) 2024 在荷兰代尔夫特理工大学圆满落幕。

尽管会议规模与 NeurIPS、CVPR 等 AI 顶会无法比肩,但 RSS 在过去几年中取得了长足的发展,今年的参会人数接近 900 人。

在大会的最后一天,最佳论文、最佳学生论文、最佳系统论文、最佳 Demo 论文等多个奖项同时出炉。此外,大会还评选出了「早期职业 Spotlight 奖」和「时间检验奖」。

值得注意的是,来自清华大学和北京星动纪元科技有限公司的人形机器人研究获得了最佳论文奖,华人学者 Ji Zhang 获得了本次时间检验奖。

以下是获奖论文信息介绍:

最佳 Demo 论文奖

  • 论文标题:Demonstrating CropFollow++: Robust Under-Canopy Navigation with Keypoints
  • 作者:Arun Narenthiran Sivakumar, Mateus Valverde Gasparino, Michael McGuire, Vitor Akihiro Hisano Higuti, M. Ugur Akcal, Girish Chowdhary
  • 机构:UIUC、Earth Sense
  • 论文链接:https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p023.pdf

在这篇论文中,研究者提出了一种基于经验的鲁棒性视觉导航系统,用于使用语义关键点的作物冠下农业机器人。

由于作物行间距较小(∼ 0.75 米)、多径误差导致 RTK-GPS 精度下降以及杂波过多导致激光雷达测量产生噪声,作物冠下的自主导航具有挑战性。早期名为 CropFollow 的工作通过提出一种基于学习的端到端感知视觉导航系统来应对这些挑战。然而,这种方法存在以下局限性:缺乏可解释的表征,以及由于置信度不够缺乏在遮挡期间对离群预测的敏感性。

本文系统 CropFollow++ 引入了模块化感知架构和学习的语义关键点表示法。与 CropFollow 相比,CropFollow++ 的模块化程度更高、可解释性更强,并提供了检测闭塞的置信度。CropFollow++ 在具有挑战性的晚季田间测试中的表现明显优于 CropFollow,每个田间测试跨度达 1.9 千米,所需的碰撞次数为 13 次对 33 次。研究者还在不同的田间条件下,将 CropFollow++ 大规模部署在多个作物冠下覆盖作物种植机器人中(总长 25 公里),并讨论了从中汲取的主要经验教训。

  • 论文标题:Demonstrating Agile Flight from Pixels without State Estimation
  • 作者:smail Geles, Leonard Bauersfeld, Angel Romero, Jiaxu Xing, Davide Scaramuzza
  • 论文链接:https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p082.pdf

四旋翼无人机是最敏捷的飞行机器人之一。尽管最近的一些研究在基于学习的控制和计算机视觉方面取得了进步,但自主无人机仍然依赖于明确的状态估计。另一方面,人类飞行员只能依靠无人机机载摄像头提供的第一人称视角的视频流将平台推向极限,并在看不见的环境中稳健飞行。

本文展示了首个基于视觉的四旋翼无人机系统,该系统可在直接将像素映射到控制指令的同时,自主高速通过一连串门。与专业的无人机赛车手一样,该系统不使用明确的状态估计,而是利用与人类相同的控制指令(集体推力和身体速率)。研究者展示了速度高达 40km/h 且加速度高达 2g 的敏捷飞行。这是通过强化学习(RL)训练基于视觉的策略实现的。使用非对称的 Actor-Critic 可以获取特权信息,为训练提供便利。为了克服基于图像的 RL 训练过程中的计算复杂性,研究者使用门的内边缘作为传感器抽象。在训练过程中,无需渲染图像就能模拟这种简单而强大的任务相关表示法。在部署过程中,研究者使用了基于 Swin Transformer 的门检测器。

本文方法可以利用标准的、现成的硬件实现自主敏捷飞行。虽然演示侧重于无人机竞赛,但该方法的影响已经超出了竞赛范围,可以作为未来研究结构化环境中真实世界应用的基础。

最佳系统论文奖

  • 论文标题:Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots
  • Cheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song
  • 机构:斯坦福大学、哥伦比亚大学、丰田研究院
  • 论文链接:https://arxiv.org/pdf/2402.10329

本文介绍了通用操纵界面(UMI),一种数据收集和策略学习框架,可将野外人类演示的技能直接转移到可部署的机器人策略中。UMI 采用手持式抓手和精心的界面设计,可为具有挑战性的双臂和动态操纵演示提供便携式、低成本和信息丰富的数据收集。为了促进可部署的策略学习,UMI 采用了精心设计的策略界面,具有推理时间延迟匹配和相对轨迹动作表示功能。学习到的策略与硬件无关,可在多个机器人平台上部署。有了这些功能,UMI 框架就能释放新的机器人操纵能力,只需改变每个任务的训练数据,就能实现零样本泛化动态、双臂、精确和长视野行为。研究者通过全面的真实世界实验证明了 UMI 的多功能性和有效性,在这些实验中,通过 UMI 零射频学习到的策略在不同的人类演示训练中可泛化到新的环境和物体。

51c大模型~合集7_编码器_27

  • 论文标题:Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments
  • 作者:Lukas Schmid, Marcus Abate, Yun Chang, Luca Carlone
  • 论文链接:https://arxiv.org/pdf/2402.13817

感知和理解高度动态和不断变化的环境是机器人自主性的关键能力。虽然在开发能准确估计机器人姿态的动态 SLAM 方法方面取得了长足进步,但在构建密集的机器人环境时空表征方面却重视不够。详细了解场景及其随时间的演变对于机器人的长期自主性至关重要,对于需要长期推理的任务也至关重要,例如在与人类和其他 Agent 共享的环境中有效运行,因此会受到短期和长期动态变化的影响。

为了应对这一挑战,这项研究定义了时空度量 - 语义 SLAM(SMS)问题,并提出了一个有效分解和解决该问题的框架。研究表明,所提出的因子化建议了一种时空感知系统的自然组织形式,其中一个快速进程跟踪活动时间窗口中的短期动态,而另一个慢速进程则利用因子图表述对环境中的长期变化进行推理。研究者提供了一种高效的时空感知方法 Khronos,并证明它统一了对短期和长期动态的现有解释,能够实时构建密集的时空地图。

论文提供的模拟和实际结果表明,Khronos 构建的时空地图能够准确反映三维场景的时间变化,而且 Khronos 在多个指标上都优于基线。

最佳学生论文奖

  • 论文标题:Dynamic On-Palm Manipulation via Controlled Sliding
  • 作者:William Yang, Michael Posa
  • 机构:宾夕法尼亚大学
  • 论文链接:https://arxiv.org/pdf/2405.08731

当前,对机器人执行非抓取性动作的研究主要集中在静态接触上,以规避滑动可能带来的问题。但是,如果根本上消除了「手滑」的问题,即能控制接触时的滑动,这将为机器人能做的动作开辟新领域。

在这篇论文中,研究者提出了一项挑战性的动态非抓取操作任务,该任务需要综合考虑各种混合接触模式。研究者采用了最新的隐式接触模型预测控制(MPC)技术,帮助机器人进行多模式规划,以完成各项任务。论文详细探讨了如何将用于 MPC 的简化模型与低级跟踪控制器相整合,以及如何使隐式接触 MPC 适应于动态任务的需求。

51c大模型~合集7_编码器_28

令人印象深刻的是,尽管众所周知,摩擦和刚性接触模型往往不准确,但这篇论文的方法能够对这些不准确性做出灵敏反应,同时快速完成任务。而且,研究者没有使用于常见的辅助工具,例如参考轨迹或运动基元辅助机器人完成任务,这进一步凸显了该方法的通用性。这是隐式接触 MPC 技术首次被应用于三维空间中的动态操作任务。

  • 论文标题:Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion
  • 作者:Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi
  • 机构:CMU、瑞士苏黎世联邦理工学院
  • 论文链接:https://arxiv.org/pdf/2401.17583

四足机器人在杂乱的环境中穿行时,需要同时具备灵活性和安全性。它们需要既能够敏捷地完成任务,又要避免与人或障碍物相撞。不过,现有的研究往往只注重其中一方面:要么是为了安全而设计速度不超过 1.0 米 / 秒的保守控制器,要么是追求灵活性却忽视了可能致命的碰撞问题。

这篇论文提出了一种名为「既敏捷又安全」的控制框架。这个框架让四足机器人在保持灵活性的同时,也能安全地避开障碍物和人,实现无碰撞的行走。

ABS 包括两套策略:一套是教机器人如何在障碍物之间灵活敏捷地穿梭,另一套则是万一遇到问题,如何快速恢复,保证机器人不会摔倒或者撞到东西。两套策略互相配合。

在 ABS 系统中,策略的切换由一个基于学习型控制理论的避碰价值网络来控制。这个网络不仅决定了何时切换策略,还为恢复策略提供了一个目标函数,确保机器人在闭环控制系统中始终保持安全。通过这种方式,机器人能够在复杂环境中灵活应对各种情况。

为了训练这些策略和网络,研究者们在模拟环境中进行了大量训练,包括敏捷策略、避碰价值网络、恢复策略,以及外部感知表示网络等等。这些经过训练的模块可以直接应用到现实世界中,配合机器人自身的感知和计算能力,无论机器人是在室内还是受限的室外空间,无论是面对不会动的还是能动的障碍物,都能在 ABS 框架下快速、安全地行动。

  • 论文标题:ScrewMimic: Bimanual Imitation from Human Videos with Screw Space Projection
  • 作者:Arpit Bahety, Priyanka Mandikal, Ben Abbatematteo, Roberto Martín-Martín
  • 机构:得克萨斯大学奥斯汀分校
  • 论文链接:https://arxiv.org/pdf/2405.03666

如果要教一个机器人如何用两只手同时做某件事情,比如同时打开一个盒子,实际上很困难。因为机器人需要同时控制很多关节,还要确保两只手的动作协调一致。对于人类,人们会通过观察别人,学会新的动作,再自己尝试并不断改进。在这篇论文中,研究者参考人类学习的方法,让机器人也能通过看视频学习新技能,并且在实践中提高。

研究者们从心理学和生物力学的研究中得到灵感,他们把两只手的动作想象成一种特殊的链条,这种链条可以像螺丝一样旋转,称之为「螺旋动作」。基于此,他们开发了一个名为 ScrewMimic 的系统。这个系统可以帮助机器人更好地理解人类的演示,并通过自我监督来改进动作。通过实验,研究者们发现 ScrewMimic 系统能帮助机器人从一段视频中学习到复杂的双手操作技能,并在性能上超越了那些直接在原始动作空间中进行学习和改进的系统。

51c大模型~合集7_多任务_29

ScrewMimic 的方法示意图

最佳论文奖

  • 论文标题:Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning
  • 作者:Xinyang Gu, Yen-Jen Wang, Xiang Zhu, Chengming Shi, Yanjiang Guo, Yichen Liu, Jianyu Chen
  • 机构:北京星动纪元科技有限公司、清华大学
  • 论文链接:https://enriquecoronadozu.github.io/rssproceedings2024/rss20/p058.pdf

当前技术只能让人形机器人在平坦地面,此类简单的地形上行走。然而,让它们在复杂环境,如真实的户外场景中自如行动,仍很困难。在这篇论文中,研究者们提出了一种名为去噪世界模型学习(DWL)的新方法。

DWL 是一个用于人形机器人的运动控制的端到端的强化学习框架。这一框架使机器人能够适应各种不平坦且具有挑战性的地形,例如雪地、斜坡和楼梯。值得一提的是,这些机器人仅需一次学习过程,无需额外的特别训练,便能在现实世界中自如应对多样化的地形挑战。

51c大模型~合集7_多任务_30

这项研究由北京星动纪元科技有限公司和清华大学联合完成。星动纪元成立于 2023 年,是一家由清华大学交叉信息研究院孵化,研发具身智能以及通用人形机器人技术和产品的科技公司,创始人为清华大学交叉信息研究院助理教授、博导陈建宇,聚焦于通用人工智能 (AGI) 前沿应用,致力于研发适应宽领域、多情景、高智能的通用人形机器人。

  • 论文标题:Real-Time Anomaly Detection and Reactive Planning with Large Language Models
  • 作者:Rohan Sinha, Amine Elhafsi, Christopher Agia, Matt Foutter, Edward Schmerling, Marco Pavone
  • 机构:斯坦福大学
  • 论文链接:https://arxiv.org/pdf/2407.08735

大型语言模型(LLM),具有零样本的泛化能力,这使得它们有希望成为检测和排除机器人系统分布外故障的技术。然而,想让大型语言模型真正发挥作用,需要解决两个难题:首先,LLM 需要很多计算资源才能在线应用;其次,需要让 LLM 的判断能够融入到机器人的安全控制系统中。

在这篇论文中,研究者提出了一个两阶段的推理框架:对于第一阶段,他们设计了一个快速的异常检测器,它能在 LLM 的理解空间里迅速分析对机器人的观察结果;如果发现问题,就会进入下一个备选选择阶段。在这个阶段,将采用 LLM 的推理能力,进行更深入的分析。

进入哪个阶段对应于模型预测控制策略中的分支点,这个策略能够同时跟踪并评估不同的备选计划,以解决慢速推理器的延迟问题。一旦系统检测到任何异常或问题,这个策略会立即启动,确保机器人的行动是安全的。

这篇论文中的快速异常分类器在性能上超越了使用最先进的 GPT 模型的自回归推理,即使在使用相对较小的语言模型时也是如此。这使得论文中提出的实时监控器能够在有限的资源和时间下,例如四旋翼无人机和无人驾驶汽车中,提高动态机器人的可靠性。

  • 论文题目:Configuration Space Distance Fields for Manipulation Planning
  • 作者:Yiming Li, Xuemin Chi, Amirreza Razmjoo, Sylvain Calinon
  • 机构:瑞士 IDIAP 研究所、瑞士洛桑联邦理工学院、浙江大学
  • 论文链接:https://arxiv.org/pdf/2406.01137

符号距离场(SDF)是机器人学中一种流行的隐式形状表示,它提供了关于物体和障碍物的几何信息,并且可以很容易地与控制、优化和学习技术结合起来。SDF 一般被用于表示任务空间中的距离,这与人类在 3D 世界中感知的距离概念相对应。

在机器人领域中,SDF 往往用来表示机器人每个关节的角度。研究者通常知道在机器人的关节角度空间中,哪些区域是安全的,也就是说,机器人的各个关节可以转动到这些区域而不会发生碰撞。但是,他们不经常用距离场的形式来表达这些安全区域。

在这篇论文中,研究者们提出了用 SDF 优化机器人配置空间的潜力,他们称之为配置空间距离场(简称为 CDF)。与使用 SDF 类似,CDF 提供了高效的关节角度距离查询和直接访问导数(关节角速度)。通常,机器人规划会分成两步:先在任务空间里看看动作离目标有多远,再用逆运动学算出关节怎么转。但 CDF 让这两步合成一步,直接在机器人的关节空间里解决问题,这样更简单,效率也更高。研究者在论文中提出了一种高效的算法来计算和融合 CDF,可以推广到任意场景。

他们还提出了一种使用多层感知器(MLPs)的相应神经 CDF 表示,用以获得紧凑且连续的表示,提高了计算效率。论文中提供了一些具体示例来展示 CDF 的效果,比如让机器人避开平面上的障碍物,一级让一个 7 轴的机器人 Franka 完成一些动作规划任务。这些示例都说明了 CDF 的有效性。

51c大模型~合集7_数据集_31

应用 CDF 方法的机械臂做抬盒子任务

早期职业 Spotlight

大会还评选出了早期职业 Spotlight 奖,本次获奖者为 Stefan Leutenegger,他的研究重点是机器人在潜在未知环境中的导航。

Stefan Leutenegger 是慕尼黑工业大学(TUM)计算、信息与技术学院(CIT)助理教授(终身教职),并与慕尼黑机器人与机器智能研究所(MIRMI)、慕尼黑数据科学研究所(MDSI)和慕尼黑机器学习中心(MCML)有所关联,曾是戴森机器人实验室的成员。他领导的智能机器人实验室(SRL)致力于感知、移动机器人、无人机和机器学习的交叉研究。此外,Stefan 还是伦敦帝国理工学院计算机系的客座讲师。

他参与创办了 SLAMcore 公司,这是一家以机器人和无人机的定位和绘图解决方案的商业化为目标的衍生公司。Stefan 获得了苏黎世联邦理工学院机械工程学士学位和硕士学位,并在 2014 年获得了博士学位,学位论文主题为《无人太阳能飞机:高效稳健自主运行的设计与算法》。

时间检验奖

RSS 时间考验奖授予至少十年前在 RSS 上发表的影响力最大的论文(也可能是其期刊版本)。影响力可以从三个方面理解:比如改变了人们对问题或机器人设计的思考方式,使新问题引起了社区的注意,或者是开创了机器人设计或问题解决的新方法。

通过这个奖项,RSS 希望促进对本领域长期发展的讨论。今年的时间检验奖颁给了 Ji Zhang 和 Sanjiv Singh 的研究《LOAM:激光雷达测距和实时测绘》。

论文链接:https://www.ri.cmu.edu/pub_files/2014/7/Ji_LidarMapping_RSS2014_v8.pdf

这篇十年前的论文提出了一种利用以 6-DOF 运动的双轴激光雷达的测距数据进行里程测量和绘图的实时方法。这个问题难以解决的原因是测距数据是在不同时间接收到的,而运动估计中的误差会导致所得到的点云的错误配准。相干的三维地图可以通过离线批处理方法建立,通常使用闭环来校正随时间的漂移。而本文方法无需高精度测距或惯性测量,即可实现低漂移和低计算复杂度。

获得这种性能水平的关键在于将复杂的同步定位和测绘问题分为两种算法,以同时优化大量变量。一种算法以高频率但低保真的方式进行测距,以估算激光雷达的速度;另一种算法以低一个数量级的频率运行,用于点云的精细匹配和注册。这两种算法的结合使该方法能够实时绘图。研究者通过大量实验以及 KITTI 测速基准进行了评估,结果表明该方法可以达到离线批量方法的 SOTA 精度水平。

更多大会及奖项信息,可参考官网内容:https://roboticsconference.org/





#Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

吴翼,清华大学交叉信息院助理教授,曾任 OpenAI 全职研究员,研究领域为强化学习,大模型对齐,人机交互,机器人学习等。2019 年在美国加州大学伯克利分校获得博士学位,师从 Stuart Russell 教授;2014 年本科毕业于清华大学交叉信息院(姚班)。其代表作包括:NIPS2016 最佳论文,Value Iteration Network;多智能体深度强化学习领域最高引用论文,MADDPG 算法;OpenAI hide-and-seek 项目等。

如何让大模型更好的遵从人类指令和意图?如何让大模型有更好的推理能力?如何让大模型避免幻觉?能否解决这些问题,是让大模型真正广泛可用,甚至实现超级智能(Super Intelligence)最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点,大模型对齐技术(Alignment)所要攻克的难题。

对齐技术中,最重要的算法框架就是根据人类反馈的强化学习(RLHF, Reinforcement Learning from Human Feedback)。RLHF 根据人类对大模型输出的偏好反馈,来学习基于人类反馈的奖励函数(Reward Model),并进一步对大模型进行强化学习训练,让大模型在反复迭代中学会辨别回复的好坏,并实现模型能力提升。目前世界上最强的语言模型,比如 OpenAI 的 GPT 模型和 Anthropic 的 Claude 模型,都极其强调 RLHF 训练的重要性。OpenAI 和 Anthropic 内部也都开发了基于大规模 PPO 算法的 RLHF 训练系统进行大模型对齐。

然而,由于 PPO 算法流程复杂,算力消耗大,美国 AI 公司的大规模 RLHF 训练系统也从不开源,所以尽管 PPO 算法非常强大,学术界的对齐工作却一直很少采用复杂的 PPO 算法进行 RLHF 研究,转而普遍使用 SFT(监督微调)或者 DPO(Direct Policy Optimization)等更简化、更直接、对训练系统要求更低的对齐算法。

那么,简单的对齐算法一定效果更好吗?吴翼团队发表在 ICML 2024 的工作 “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study” 仔细探讨了 DPO 与 PPO 算法的特点,并指出提升 RLHF 算法效果的关键点。在该工作中,吴翼团队基于自研的大规模 RLHF 训练系统,首次采用 PPO 算法及参数量更少的开源模型,在公认最困难的挑战 —— 代码生成任务 CodeContest—— 上超过闭源大模型 AlphaCode 41B。

51c大模型~合集7_数据集_32

相关成果被 ICML 2024 录用为 Oral Presentation,并将在 7 月 23 日于 ICML 2024 第一个 Oral session Alignment-1 上和 OpenAI、Anthropic 等知名机构的工作一起进行公开汇报。

51c大模型~合集7_编码器_33

接下来让我们对比一下 GPT-4 和经过 PPO 算法训练的 CodeLlama 34B 模型在代码生成上的效果,在例子 1 中,经过 PPO 算法训练的 CodeLlama 34B 模型与 GPT-4 模型生成了质量相当的代码。

51c大模型~合集7_数据集_34

在示例 2 中,可以看到经过 PPO 算法训练的 CodeLlama 34B 模型与 GPT-4 模型都能生成完整并且可运行的 python 代码。然而,在这个例子下,GPT-4 生成了错误的代码,在测试数据上无法正确输出。而经过 PPO 算法训练的 CodeLlama 34B 模型生成的代码可以通过测试。

51c大模型~合集7_数据集_35

51c大模型~合集7_多任务_36

在 ICML 2024 的这篇论文中,研究团队详细探讨了 DPO 与 PPO 算法的特点,并指出提升 DPO 和 PPO 能力的关键点。

  • 论文标题:Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
  • 论文地址:https://arxiv.org/pdf/2404.10719

DPO 算法的局限性

相比于 PPO,DPO 使用离线数据而非在线采样数据训练。经分析,DPO 算法会导致训练出的模型对训练数据分布之外的输出产生偏好,在某些情况下产生不可预料的回复。

于是,为了提升 DPO 算法的能力,研究团队总结了两个关键技术:在 RLHF 训练前进行额外的 SFT 训练,以及使用在线采样数据而非离线数据


51c大模型~合集7_数据集_37

实验表明,使用额外的 SFT 训练可以使 base 模型以及 reference 模型更偏向于数据集内的分布,大大提升 DPO 算法效果;另一方面,使用在线采样数据进行迭代训练的 DPO 算法可以得到稳步提升,表现远远优于基础的 DPO 算法。

PPO 算法的关键点

除去 DPO,论文中也总结了发挥 PPO 最大能力的三个关键点:

  • 使用大的批大小(large batch size)
  • 优势归一化(advantage normalization)
  • 以及对 reference model 使用指数移动平均进行更新(exponential moving average for the reference model)。

51c大模型~合集7_多任务_38

研究团队成功使用 PPO 算法在对话任务 Safe-RLHF/HH-RLHF 以及代码生成任务 APPS/CodeContest 上达到了 SOTA 的效果。

51c大模型~合集7_编码器_39

在对话任务上,研究团队发现综合了三个关键点的 PPO 算法显著优于 DPO 算法以及在线采样的 DPO 算法 DPO-Iter。

51c大模型~合集7_编码器_40

在代码生成任务 APPS 和 CodeContest 上,基于开源模型 Code Llama 34B,PPO 算法也达到了最强的水平,在 CodeContest 上超越了之前的 SOTA,AlphaCode 41B。

想要实现效果较好的大模型对齐,高效率的训练系统是不可缺少的,在实现大规模强化学习训练上,吴翼团队有长期的积累,从 2021 年开始就搭建了专属的分布式强化学习框架。

51c大模型~合集7_编码器_41

  • NeurIPS 2022 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games [1]:提出并开源了用于多智能体的强化学习并行训练框架 MAPPO,支持合作场景下的多智能体训练,该工作被大量多智能体领域工作采用,目前论文引用量已超过 1k。
  • ICLR 2024 Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [2]: 提出了用于强化学习的分布式训练框架,可轻松扩展至上万个核心,加速比超越 OpenAI 的大规模强化学习系统 Rapid。
  • ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [3]: 最近,吴翼团队进一步实现了分布式 RLHF 训练框架 ReaLHF。吴翼团队的 ICML Oral 论文正是基于 ReaLHF 系统产出的。ReaLHF 系统经过长时间的开发,经历大量的细节打磨,达到最优性能。相比于之前的开源工作,ReaLHF 可以在 RLHF 这个比预训练更复杂的场景下达到近乎线性的拓展性,同时具有更高的资源利用率,在 128 块 A100 GPU 上也能稳定快速地进行 RLHF 训练,相关工作已开源:https://github.com/openpsi-project/ReaLHF

除了提升大语言模型代码能力之外,吴翼团队还采用多种将强化学习算法和大模型结合的方式,实现了多种复杂 LLM Agent,并可以和人类进行复杂交互。

在 MiniRTS 中使用强化学习既能听从人类指令也能做出最优决策的语言智能体 [4]。

51c大模型~合集7_编码器_42

在狼人杀中训练策略多样化的强化学习策略以提升大模型的决策能力 [5]。

51c大模型~合集7_数据集_43

在 Overcooked 游戏中结合小模型与大模型实现能进行实时反馈的合作 Language Agent [6]。

51c大模型~合集7_数据集_44

结合强化学习训练的机器人控制策略与大语言模型推理能力让机器人能够执行一系列复杂任务 [7]。

51c大模型~合集7_多任务_45

为了使大模型能真正走进千家万户,对齐技术是至关重要的,对于学术界和大模型从业者来说,好的开源工作和论文无疑会大大降低实验成本和开发难度,也期待随着技术发展,会有更多服务于人类的大模型出现。





#VLPTransferAttack

让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性

本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生,此工作为其在新加坡科技局实习期间完成,实习导师为本文通讯作者郭青研究员(主页:https://tsingqguo.github.io)。本文的共同第一作者和共同通讯作者是南洋理工大学的加小俊博后研究员(主页:https://jiaxiaojunqaq.github.io)。

针对视觉-语言预训练(Vision-Language Pretraining, VLP)模型的对抗攻击,现有的研究往往仅关注对抗轨迹中对抗样本周围的多样性,但这些对抗样本高度依赖于代理模型生成,存在代理模型过拟合的风险。

为了解决这一问题,我们引入了对抗轨迹交集区域的概念。这个区域由干净样本、当前对抗样本以及上一步对抗样本所构成的三角形区域。通过利用这一区域的多样性,我们不仅考虑了更加多样化的扰动方向,还关注了干净样本周围的对抗多样性,从而提升了对抗样本的迁移性。

本篇工作的论文和代码均已开源。

研究背景

近年来,ChatGPT-4等视觉 - 语言预训练模型(VLP)展示了强大的多模态理解和生成能力,在图像识别、文本生成等任务中表现出色。然而,这些模型的强大性能也伴随着一个显著的安全隐患:对抗攻击(Adversarial Attacks)。对抗攻击是指通过对输入数据进行微小且难以察觉的扰动,诱使模型产生错误输出。这种攻击方式不仅可以影响模型的预测准确性,甚至可能导致严重的安全问题。

由于 ChatGPT-4 等商业模型通常是闭源的,攻击者无法直接访问其内部参数和结构信息,这使得直接攻击这些模型变得困难。然而,攻击者可以通过对类似的开源或已知结构的 VLP 模型(如 CLIP)进行研究,生成对抗样本并将其应用于闭源商业模型。这种方法被称为对抗攻击的迁移攻击(Transfer Attack)

对抗攻击的迁移性研究具有重要意义。一方面,了解对抗攻击在不同模型间的迁移性,可以提高对这些商业闭源模型的攻击成功率,从而帮助我们更好地评估和提升闭源模型的安全性,防止潜在的安全漏洞。另一方面,通过研究对抗样本在不同模型上的表现,可以进一步优化对抗训练方法,提高模型的鲁棒性和抗攻击能力。

动机

51c大模型~合集7_编码器_46

图 1:现有方法对于 VLP 模型在代理模型和目标模型上的攻击成功率 (图片来源:SGA (arXiv:2307.14061))。

SGA (ICCV2023 Oral) 是第一篇探索对 VLP 模型进行迁移攻击的工作,但实验结果显示在目标模型上的攻击成功率远低于代理模型。本研究的目标是探索 SGA 方法在目标模型上迁移性较差的因素,进一步提高对 VLP 模型迁移攻击的成功率

51c大模型~合集7_编码器_47

图 2:SGA 和我们方法的对比。

如图 2 所示,SGA 采用迭代攻击,并在迭代优化路径上通过图像增强(Resize)来增加对抗样本的多样性。然而,这种多样性仅考虑了对抗图像的周围区域,而对抗图像由代理模型生成,容易导致过拟合,从而降低了迁移性。

干净样本完全独立于代理模型,因此我们认为干净样本周围的对抗多样性同样重要。为此,我们利用对抗轨迹的交集区域构建更广泛的多样性,它由干净图像、当前对抗图像和上一步对抗图像构成。

方法

图像模态

首先,我们在所提出的对抗轨迹交集区域中采样多个图像,并得到多样化的对抗扰动方向:

51c大模型~合集7_编码器_48

随后,我们使用文本引导进行采样图像的选择:

51c大模型~合集7_编码器_49

此时即表示最佳的采样图像,我们同时采用了 SGA 的思想,通过图像增强操作进一步探索最佳采样图像周围的对抗扰动多样性,最终的迭代表示为:

51c大模型~合集7_多任务_50


文本模态

过去的研究在生成对抗文本时,先通过迭代优化生成对抗图像,随后使对抗文本偏离最终生成的对抗图像。然而,正如我们前面所述,对抗图像高度依赖于代理模型,这样生成的对抗文本也存在过拟合的风险。

我们提议让对抗文本偏离沿对抗轨迹的最后一个交集区域,具体而言,对抗文本应偏离由原始图像

51c大模型~合集7_多任务_51

、倒数第二个对抗图像

51c大模型~合集7_多任务_52

和最终对抗图像

51c大模型~合集7_编码器_53

构成的三角区域。此外,我们设置了可调节的系数因子,其中

51c大模型~合集7_编码器_54

51c大模型~合集7_数据集_55

实验效果

跨模型迁移性

下表 1 显示了在图像 - 文本检索(Image-Text Retrieval, ITR)任务中跨模型攻击的迁移性。相比于 SGA,我们的方法在多个跨模型迁移性上提升了 10% 以上。

51c大模型~合集7_数据集_56

跨任务迁移性

下表 2 显示了利用在图像 - 文本检索(ITR)任务上预训练的 ALBEF 模型,生成多模态对抗样本,以攻击 RefCOCO + 数据集上的视觉定位(VG)任务和 MSCOCO 数据集上的图像描述(IC)任务。基线表示每个任务在没有任何攻击时的性能,较低的值表示对这两个任务的对抗攻击效果更好。

51c大模型~合集7_编码器_57

攻击可视化

下图 3 显示了对视觉定位任务攻击的可视化。

51c大模型~合集7_多任务_58

下图 4 显示了对图像描述任务攻击的可视化。

51c大模型~合集7_数据集_59

从图 3 和图 4 可以看出,通过对抗攻击,使 VLP 模型在视觉定位和图像描述任务上均出现了严重错误。

下图 5 显示了对 ChatGPT-4 迁移攻击的可视化。

51c大模型~合集7_编码器_60

下图 6 显示了对 Claude-3 迁移攻击的可视化。

51c大模型~合集7_编码器_61

我们分别将干净图像和对抗图像输入 ChatGPT-4,Claude-3 等大模型,并使用查询「Describe this image.」得到输出结果,我们从图 5 和图 6 可以看到,两个大模型对对抗图像的理解已经出现很大的错误。

结语

尽管该工作在提升多模态对抗攻击迁移性方面取得了显著效果,但如何更充分地利用对抗攻击的交集区域,以及提供更深入的理论解释,仍然是未来值得深入研究的方向。我们对对抗轨迹交集区域及其对 VLP 对抗攻击迁移性的研究还在持续探索中,欢迎大家持续关注。如果有任何问题或进一步的想法,随时欢迎讨论。






#马斯克Grok新功能上线就火了

古早费曼论文手写公式也能转LaTeX,还能看懂梗图,马斯克Grok新功能上线就火了


Grok 大模型终于能看懂图像了。


设想一下,如果我们能够将所有 LaTeX 时代之前的文本资料输入到先进的大型语言模型(LLM)中,并从中获得格式规范的 LaTeX 文档库,这无疑将极大地推动科学文献的数字化进程和标准化工作。对于科研工作者而言,这不仅仅是技术层面的飞跃,它更标志着知识管理和信息传播方式的一次重大变革。

马斯克旗下的人工智能公司 xAI 发布的 Grok 大模型有助于实现这一目标 —— 在经历了最近的一次更新后,Grok 大模型终于能看懂图像了,甚至还能做公式 OCR、解释笑话。

51c大模型~合集7_多任务_62

AI 销售和营销自动化平台 Amplemarket 创始人 Luis Batalha 在试用后表示:借助 Grok,他能把理论物理学家 Feynman 博士论文中的公式转换成 LaTeX。

51c大模型~合集7_编码器_63

转化之前的文本长这样:

51c大模型~合集7_多任务_64

可以看出,里面的公式基本都是手写的,肉眼辨认尚有难度。而 Grok 可以把它们转化成如此工整的结果,而且准确率令人惊叹。

51c大模型~合集7_多任务_65

图源:https://x.com/luismbat/status/1850925670408544355

这个帖子吸引了众多研究人员的关注,整个帖子的浏览量已经突破 100 万。

51c大模型~合集7_编码器_66

还有人晒出了自己用 Grok 识别出的 18 世纪文件:  

51c大模型~合集7_数据集_67

在识别其他图像方面,Grok 表现也非常不错。比如网友上传了一张手表的照片,Grok 根据表壳形状和表带设计猜出了表的品牌(对手表有研究的读者可以看下猜得对不对)。

51c大模型~合集7_编码器_68

51c大模型~合集7_多任务_69

你还可以让 Grok 点评图片,它能从时尚、风格、表情等多个角度进行描述。比如针对下面这张图,Grok 回答:「图片中描述了一位动漫风格的人物,这位人物拥有中等长度的棕色头发,戴着眼镜,并且正在弹奏贝斯吉他。该角色展现了一种休闲、现代的造型,穿着一件格子衫外套和深色裤子,以及带有红色装饰的白色运动鞋。这种装扮表明这是一个年轻的、可能还在上学的角色,给人一种悠闲的艺术氛围……」

51c大模型~合集7_编码器_70

图源 https://x.com/ItsZeramy/status/1850810276784054313

马斯克表示,Grok 其实也可以用来解释笑话(梗图)。

51c大模型~合集7_多任务_71

今年三月,Grok-1 正式亮相,在数学、推理等能力上取得了不错的成绩。之后,xAI 迅速推出 Grok 1.5,新一代模型实现了长上下文理解和高级推理能力。8 月,Grok 2 上线,在常识、数学竞赛问题 (MATH)、研究生水平科学知识 (GPQA) 等领域与其他前沿模型相媲美。

如今,在 xAI 不断完善下,大家终于可以体验 Grok 的图像理解能力了。为了验证各路网友的说法,在第一时间进行了测试。

公式 OCR 能力实测

首先,测试了一下 Grok 对公式的处理能力。我们输入经典论文《 Attention Is All You Need 》中的一张公式截图,要求转换成 LaTeX 代码。

51c大模型~合集7_编码器_72

输入的公式截图,对应论文中的公式(1)。

51c大模型~合集7_数据集_73

然后,我们将 LaTeX 表达式输入到在线 LaTeX 公式编辑器中进行转换,比对之后发现结果完全正确。

51c大模型~合集7_数据集_74

公式来源:https://arxiv.org/pdf/1706.03762

之后,我们上了点难度,用手写公式进行测试,输入的公式截图看起来不是很规范,但 Grok 还是给出了结果。

51c大模型~合集7_数据集_75

51c大模型~合集7_多任务_76

梗图理解能力实测

接着,我们再看看 Grok 对图片的理解能力。

不知大家是否 get 到小女孩吃蛋糕这张图的笑点。如果没有,当你看完 Grok 的解释,有种恍然大悟的感觉。

51c大模型~合集7_数据集_77

不过,Grok 并不是总懂幽默。我们输入如下图片,图片原来的意思应该是想表达打工人的一天似乎都很疲惫,但到了深夜却格外精神。但 Grok 给出的结果并不是。

51c大模型~合集7_编码器_78

51c大模型~合集7_多任务_79

经过测试,我们还发现 Grok 对图片中的中文理解的不是很好,比如错把中文字符「我的精神状态」转换成「敌人的精神状态」。

51c大模型~合集7_数据集_80

Grok vs. ChatGPT,谁的识图能力更强?   

虽然识图是 Grok 的新功能,效果也很惊艳,但在众多 AI 模型中,这实在算不上一项新颖的功能。因此,有人在马斯克的评论区发出灵魂拷问,「Grok 到底进展到什么程度了?感觉远远落后于 ChatGPT 啊」。对此,马斯克耐心回复说,「我们只用了几个月就完成了其他人花了几年时间的工作。」言下之意似乎是不着急,慢慢打磨新功能。

51c大模型~合集7_多任务_81

还有网友上传了一张饮料图片,让 Grok 和 ChatGPT 进行回答。从上传的资料来看,图片内容并不清晰,而且还不是中文,对于不懂外语的小伙伴可能有点难度。但是 Grok 和 ChatGPT 都给出了回答。

Grok 回答:图片中的饮料是「백세주(Baekseju)」 ,这是一种传统的韩国酒精饮料。它是一种用人参和其他草药浸泡的米酒,以其假定的健康益处而闻名。瓶子上的标签显示了 D,这可能是 Baekseju 的某个特定品牌或变种。由于其浓烈的风味和药用属性,通常只消费少量。 

ChatGPT 回答:这款饮料是 Bacchus-D,一种在韩国流行的能量饮料。它通常包含咖啡因、牛磺酸和维生素 B2、B6、B12,这些成分被认为可以提升能量水平。在韩国,它常被用作快速提神的饮品。 

熟悉这款饮料的小伙伴,可以点评一下,这两个模型,哪个回答的更好。

51c大模型~合集7_数据集_82

51c大模型~合集7_编码器_83

图源:https://x.com/chrisfirsttt/status/1850745853843001418

对于 Grok 没有理解的梗图,我们在 ChatGPT 上也做了测试。ChatGPT 的回答明显更胜一筹,中文识别能力也更强。

51c大模型~合集7_多任务_84

51c大模型~合集7_多任务_85

经过一番测试以及网友给出的示例来看,Grok 在输出 LaTeX 表达式方面确实不错,对图片中出现的主体和场景解释的非常到位,但对梗图的解释时好时坏,有时能完全解释笑点,有时会解释错误,此外,Grok 对中文字符的识别能力也不是很好。

最后提醒大家一下,Grok 并不是免费的,付费用户才能体验。可以使用的小伙伴,可以进行测试了。

51c大模型~合集7_多任务_86

地址:https://x.com/i/premium_sign_up?referring_page=grok






#机器人ChatGPT时刻真来了?

强化学习训练一两个小时,100%自主完成任务:机器人ChatGPT时刻真来了?


把平均成功率从 50% 拉到了 100%。


最近,AI 的进步有目共睹,现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。

近日,UC 伯克利 BAIR 实验室的 Sergey Levine 研究团队提出了一个强化学习框架 HIL-SERL,可直接在现实世界中训练通用的基于视觉的机器人操作策略。HIL-SERL 的表现堪称前所未有的卓越,仅需 1-2.5 小时的训练就能在所有任务上实现 100% 的成功率。要知道,基线方法的平均成功率还不到50%。就算有外部干扰,机器人也能取得很好的表现。

论文一作 Jianlan Luo 的推文,他目前正在 UC 伯克利 BAIR 实验室从事博士后研究

51c大模型~合集7_数据集_87

团队导师 Sergey Levine 也发了推文宣传这项研究,他是一位非常著名的 AI 和机器人研究科学家,曾是 2021 年发表相关论文最多的研究者,参阅《2021 年 ML 和 NLP 学术统计:谷歌断层第一,强化学习大牛 Sergey Levine 位居榜首》

空口无凭,眼见为实,那就先让机器人来煎个蛋吧。

51c大模型~合集7_数据集_88

在主板上安装一块固态硬盘?机器人也能与人类搭配,轻松完成。

51c大模型~合集7_编码器_89

插入 USB,问题也不大,看起来比人执行这个操作还流畅,毕竟很多人插 USB 都要对准两三次才能成功。

51c大模型~合集7_多任务_90

这么好的效果,不禁让人怀疑,这不会是远程操控吧?Nonono!这些任务都是机器人独立完成的,这次人类的角色也不是站在身后发号施令,而是在它旁边捣乱。

对于没有独立思考能力的机器人来说,任务执行起来那是相当死板。一旦目标物体换了一个位置,它们就会迷失方向。但对于采取 HIL-SERL 框架的机器人,就算你强行夺走它手中这根 USB 线,它依然能自动定位,重新完成任务。

机器人如何变得如此厉害?下面我们就来看看 UC 伯克利的这项研究。

51c大模型~合集7_编码器_91

  • 论文标题:Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning
  • 论文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf
  • 项目地址:https://hil-serl.github.io/

简而言之,他们设计了一个有人类参与的强化学习框架。在此之前,基于强化学习的技术已经为机器人领域带来了一些技术突破,使机器人已经能够熟练地处理一些简单任务。但是,真实世界环境非常动态多变,而且非常复杂,如果能开发出某种基于视觉的通用方法,必定有助于机器人掌握更加复杂的技能。

这正是该团队做出贡献的地方,他们开发的基于视觉的强化学习系统可以让机器人掌握大量不同的机器人技能。

他们将该系统命名为 Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning,即有人类参与的样本高效型机器人强化学习,简称 HIL-SERL。

为了解决优化稳定性问题,他们采用了预训练的视觉主干网络来实现策略学习。

为了处理样本复杂性问题,他们利用了基于 RLPD 的样本高效型离策略强化学习算法,该算法还结合了人工演示和校正。

此外,为了确保策略训练期间的安全性,他们还纳入了一个精心设计的低级控制器。

在训练时,该系统会向人类操作员询问潜在的校正,然后以离策略的方式使用这些校正来更新策略。他们发现,这种有人类参与的校正程序可让策略从错误中学习并提高性能,尤其是对于这项研究中考虑的一些难以从头开始学习的任务。

如图 1 所示,该系统可解决的任务纷繁多样,包括动态翻转平底锅中的物体、从积木塔中抽出一块积木、在两个机器臂之间递交物体以及使用一个或两个机械臂组装复杂的设备,例如计算机主板、宜家置物架、汽车仪表板或正时皮带。

51c大模型~合集7_数据集_92

这些任务复杂而精细,有着动态且高维的动作空间。之前一些研究者甚至认为无法通过强化学习来学习其中一些技能,但 BAIR 这个团队的研究证否了这个说法。

研究和实验表明,他们的系统能在相当短的时间(1-2.5 小时)内在所有这些任务上都实现几近完美的成功率。

使用同样数量的人类数据(演示和校正的数量)时,他们训练的策略远胜过模仿学习方法 —— 成功率平均超过 101%,周期时间平均快 1.8 倍。

这是个具有重大意义的结果,因为其表明强化学习确实可以直接在现实世界中,使用实际可行的训练时间学会大量不同的基于视觉的复杂操作策略。而之前的强化学习方法无法做到这一点。此外,强化学习还能达到超越人类的水平,远远胜过模仿学习和人工设计的控制器。

下面展示了一个超越人类水平的有趣示例:用一根鞭子将一块积木抽打出去,同时保证积木塔整体稳定。很显然,这个任务对大多数人来说都非常困难,但这台机器人通过强化学习掌握了这一技能。

51c大模型~合集7_数据集_93

有人类参与的强化学习系统

系统概况

HIL-SERL 系统由三个主要组件组成:actor 过程、learner 过程和位于 learner 过程中的重放缓存。它们都能以分布式的方式运行,如图 2 所示。

51c大模型~合集7_数据集_94

actor 过程与环境交互的方式是在机器人上执行当前策略,并将数据发送回重放缓存。

环境采用了模块化设计,允许灵活配置各种设备,包括支持多个摄像头、集成 SpaceMouse 等用于远程操作的输入设备。

为了评估任务是否成功,也需要一个奖励函数,而该奖励函数是使用人类演示离线训练的。

在 actor 过程中,人类可使用 SpaceMouse 从强化学习策略接管机器人的控制权,从而干预机器人的行动。

该团队采用了两种重放缓存,一种是为了存储离线的人类演示(演示缓存),另一种则是为了存储在策略数据(RL 缓存)。

learner 过程会从演示缓存和 RL 缓存平等地采样数据,使用 RLPD 优化策略,并定期将更新后的策略发送到 actor 进程。

详细的系统设计选择这里不再赘述,请访问原论文。

有人类参与的强化学习

此前,强化学习理论 (Jin et al., 2018; 2020; Azar et al., 2012; Kearns and Singh, 1998) 已经证明了智能体能学会的难度和它要处理的信息量密切相关。具体来说,状态 / 动作空间的大小、任务的难度,这些变量不断累加,会导致智能体在找到最优策略时所需的样本成倍增加。最终在超过某个阈值时,所需要的样本量过多,智能体实在学不动了,摆烂了,在现实世界中训练 RL 策略也变得不切实际。

为了解决用强化学习训练真实机器人策略的难题,该团队研究后发现,人类反馈很好用 —— 可以引导学习过程,实现更高效的策略探索。具体来说,就是在训练期间监督机器人,并在有必要时进行干预,纠正其动作。如上图 2 所示。

在该系统的设计中,干预数据会被同时存储在演示缓存和 RL 缓存中,但仅有 RL 缓存带有策略转移(即干预前后的状态和动作)。事实证明,这种方法可以提升策略的训练效率。

这种干预在以下情况下至关重要:

  • 策略导致机器人处于不可恢复或不良状态时;
  • 当机器人陷入局部最优状态时 —— 如果没有人工帮助,就可能需要大量时间才能克服。

在训练过程的开始阶段,人类会更频繁地干预以提供正确动作,随着策略的改进,频率会逐渐降低。根据该团队的经验,相比于让机器人自行探索,当人类操作员给出具体的纠正措施时,策略改进速度会更快。

51c大模型~合集7_数据集_95

研究团队放出了任务训练过程的完整录像

更具体的训练过程请访问原论文。

实验结果

研究团队选择了七个任务来测试 HIL-SERL。这些任务对应着一系列挑战,比如操纵动态物体(在平底锅中翻煎蛋)、精确操作(插 USB 线)、动态和精确操作相结合(在主板移动时插入组件)、操纵柔性物体(组装正时皮带)、包含多个子任务的多阶段任务(组装宜家书架)。

51c大模型~合集7_编码器_96

如上表所示,在几乎所有任务上,HIL-SERL 在 1 到 2.5 小时的真实世界训练里达到了 100% 的成功率。这比基线方法 HG-DAgger 的平均成功率 49.7% 有了显著提高。对于抽积木、插入 RAM 条等,这种更复杂的任务,HIL-SERL 的优势就更为明显了。

51c大模型~合集7_编码器_97

上图中显示了采用 HIL-SERL 方法的机械臂在执行任务时被人工干预的次数。为了便于统计,研究团队计算了每次干预的时步数与单次尝试中的总时步数之比(干预率),并统计了 20 次实验的动态平均值。从图表中不难看出,干预率随着训练逐渐降低。这表明 HIL-SERL 策略会不断优化,越来越不需要人类操心了。

同时,人工干预的总时长也大幅度减少。策略不成熟时,机械臂犯错,需要花较长时间纠正,随着 HIL-SERL 不断完善,较短的干预就足以减少错误。相比之下,HG-DAgger 需要更频繁的干预,亦不会因为策略逐渐完善减少犯错的次数。

51c大模型~合集7_编码器_98

上图展示了 HIL-SERL 的零样本鲁棒性。这证明新提出的策略能够让机器人灵活地适应即时变化,有效地处理外部干扰。

比如有人故意地松开了齿轮上的皮带,受 HIL-SERL 指导的两个机械臂,一个把皮带放回了原位,另一个配合着把滑轮恢复到了适当的位置。

51c大模型~合集7_多任务_99

在两个机械臂对接时,研究人员有意让其中一个机械臂「失误」,放开了手中的物体。在 HIL-SERL 的加持下,两个机械臂自主分工合作,又恢复了搬运物体的平衡。

参考链接:

https://x.com/jianlanluo/status/1850902348010557453

https://x.com/svlevine/status/1850934397090078948






#权威AI开源标准1.0版发布

大模型开源的口号,不是随便说说的。


该来的终于来了。

本周,人工智能领域迎来了对于「开源」的官方定义。开放源代码促进会(Open Source Initiative,OSI)发布了「开源 AI 定义」的 1.0 正式版。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中,经常出现的模糊用法。

值得关注的是在此机制下,一直以来开源大模型的标杆 Llama 3 也不符合本规则。

51c大模型~合集7_编码器_100

长期以来,OSI 一直为开源软件的构成设定行业标准,但人工智能系统包含传统许可未涵盖的元素,例如模型训练数据。现在,要使 AI 系统被视为真正的开源系统,它必须提供:

  • 可访问用于训练 AI 的数据的详细信息,以便其他人可以理解和重新创建;
  • 用于构建和运行 AI 的完整代码;
  • 训练中的设置和权重,帮助 AI 产生相应的结果。

这一定义直接直击 Meta 推动的 Llama 大模型。虽然在生成式 AI 领域里,Llama 一直被广泛宣传为最大的开源 AI 模型,Llama 的使用条款中支持公众下载和使用,但其商业用途受到一定限制(对于拥有超过 7 亿用户的应用程序),且不提供对训练数据的访问,这导致其不符合 OSI 的无限制使用、修改和共享自由标准。

对此,Meta 发言人 Faith Eischen 对此表示,虽然「在很多事情上都同意合作伙伴 OSI 的观点」,但 Meta 不同意这一定义。不应该设置单一的开源 AI 定义,人们此前对于开源的定义没有涵盖当今快速发展的 AI 模型的复杂性。

不过,无论技术的定义如何,Meta 表示仍将继续与 OSI 和其他行业组织合作,以负责任的方式推动 AI 朝着可访问和免费的方向发展。

在「开源」这件事上,非营利组织 OSI 一直扮演着重要的角色。OSI 维护了一个被业内认可的许可证列表,其定义的开源包括十余个关键条款,如自由再分发、源代码可获得、允许修改和衍生作品等。自 1998 年定义「开源」标签并成立以来,OSI 对开源软件的定义已被开发人员广泛接受。

如今,随着人工智能重塑格局,科技巨头们面临着一个关键选择:是接受这些既定原则,还是拒绝它们。Linux 基金会最近也试图定义「开源人工智能」,这表明关于传统开源价值观如何适应人工智能时代的争论已日益激烈。

51c大模型~合集7_数据集_101

独立研究员和开放源代码创建者 Simon Willison 说:「既然我们已经有了一个强有力的定义,也许我们可以更积极地抵制那些『开源洗白(open washing)』并宣称自己的工作是开源的公司。」

Hugging Face 首席执行官 Clément Delangue 称:「 OSI 的定义对于围绕人工智能开放性展开讨论有巨大帮助,特别是在涉及训练数据的关键作用时。」

OSI 执行董事 Stefano Maffulli 表示,该公司花了两年时间咨询全球专家,通过与机器学习和自然语言处理的学界专家、哲学家、Creative Commons 的内容创作者等合作完善了这一定义。

OSI 对于开源 AI 的定义

OSI 表示,「开源」的人工智能系统需要满足以下几点:

  • 可将系统用于任何目的,无需征得许可;
  • 允许人们研究系统的工作原理并检查其组件;
  • 允许人们为任何目的修改该系统,包括更改其输出;
  • 人们可以出于任何目的,将系统共享给他人,无论是否经过修改。

这些自由既适用于功能齐全的系统,也适用于系统的离散元素。行使这些自由的先决条件是能够对系统进行修改。

再进一步,对于机器学习系统可修改的形式,OSI 也进行了定义。必须包含以下所有元素:

  • 数据信息:用于训练系统的数据的足够详细的信息,以便技术人员可以构建基本等效的系统。数据信息应根据 OSI 批准的条款提供。特别是,必须包括:
  • 用于训练的所有数据的完整描述,包括(如果使用)不可共享的数据,披露数据的来源、其范围和特征、数据的获取和选择方式,标签程序、数据处理和过滤方法;
  • 所有公开可用的训练数据的清单以及获取这些数据的方式; 
  • 可从第三方获得的所有训练数据的列表以及从何处获取(包括付费)。
  • 代码:用于训练和运行系统的完整源代码。该代码应展示出如何处理和过滤数据以及如何进行训练的完整规范。代码应在 OSI 批准许可下提供。
  • 例如,如果使用,则必须包括用于处理和过滤数据的代码、用于训练的代码(包括使用的参数和设置)、验证和测试、支持库(如分词器和超参数搜索代码)、推理代码和模型架构。
  • 参数:模型参数,例如权重或其他配置。参数应根据 OSI 批准条款提供。
  • 例如,训练中间阶段的检查点以及优化器状态。

对于机器学习系统,模型权重也是一个重要因素。OSI 在开源定义中表述道:

  • AI 模型由模型架构、模型参数(包括权重)和运行模型的推理代码组成。
  • AI 权重是一组学习参数,以根据给定输入生成输出。

对机器学习系统进行修改的范围也包括权重。「开源模型」和「开源权重」必须包括用于导出这些参数的数据信息和代码。

最后,OSI 表示,开源 AI 定义不需要特定的法律机制来确保模型参数可供所有人免费使用。它们可能本质上是免费的,或者可能需要许可证或其他法律文书来确保它们的可用。预计随着时间的推移,法规对于 AI 开放的定义也将变得更加清晰。

参考内容:

https://opensource.org/ai/open-source-ai-definition

https://lfaidata.foundation/blog/2024/10/25/embracing-the-future-of-ai-with-open-source-and-open-science-models/

https://www.theverge.com/2024/10/28/24281820/open-source-initiative-definition-artificial-intelligence-meta-llama







#OmniGen

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。

OmniGen 具有以下特点:

  1. 统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计算机视觉任务,将其转换为图像生成任务。
  2. 简单性:OmniGen 的架构高度简化。此外,与现有模型相比,它更加用户友好,可以通过指令完成复杂的任务,而不需要冗长的处理步骤和额外的模块 (如 ControlNet 或 IP-Adapter),从而大大简化了工作流程。
  3. 知识迁移:受益于统一格式的学习,OmniGen 有效地跨不同任务迁移知识,应对未见过的任务和领域,并展示新颖的功能。我们还探讨了模型的推理能力和思维链机制的在图像生成领域的潜在应用。
  • Paper: https://arxiv.org/pdf/2409.11340
  • Code: https://github.com/VectorSpaceLab/OmniGen
  • Demo: https://huggingface.co/spaces/Shitao/OmniGen

51c大模型~合集7_数据集_102

基于 OmniGen 的通用能力,可实施更灵活的图像生成,以上展示一个简单 Pipeline:文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合。

一、介绍

近年来,许多文生图模型在生成式 AI 的浪潮中脱颖而出。然而,这些出色的专有模型仅能基于文本生成图像。当用户产生更灵活、复杂、精细等的图像生成需求时,往往需要额外的插件和操作。

例如,若想参考任一姿态生成图像,常规方法是:用姿态检测器从参考图像中估计姿态作为条件输入,并加载对应的 Controlnet 插件,最后提取条件输入的特征馈入扩散模型生成图像。

此外,若想基于合照中的特定人物生成新图像,流程更加繁琐,需要裁剪图像以确保结果图像仅包含目标人物。

而诸如 InstandID 等方法还需使用额外的人脸检测器提取面部信息,并用面部编码器提取特征以输入模型。

值得注意的是,各种不同的生成任务甚至还需更多不同的插件和操作,如此复杂、琐碎而冗长的工作流极大地增加了训练和应用的成本。然而,即便如此繁琐,有时也仍难以满足一般的图像生成的需求,例如基于指定多张照片中的实体生成新图像。

相反,在文本生成领域,以 ChatGPT 为代表的模型可通过人类指令直接处理各种文本任务。那么,在图像生成领域,能否通过单个支持多种输入且耦合多项能力的模型,基于用户指令完成各种生成任务,而无需各种繁杂的流程吗?

为解决这一挑战性问题,智源发布了统一图像生成模型 OmniGen。OmniGen 模型具有良好的简洁性和易用性,集成了多种基础图像生成任务,包括但不限于:文生图、图像编辑、角色一致性生成、基于视觉条件的生成等。OmniGen 支持基于任意多模态的文图指令完成任务,而无需任何其他额外插件和操作。

二、能力

OmniGen 集多项能力于一体,包括但不限于:

  1. 文本到图像生成 (Text to Image Generation)
  2. 指代表达生成 (Referring Expression Generation)
  3. 通用图像条件生成 (General Image Conditional Generation)
  4. 图像编辑 (Image Edit)
  5. 经典计算机视觉任务:图像去噪、边缘检测、姿态估计等
  6. 一定的上下文学习能力 (In-context Learning) 

以下简要展示部分能力效果:

2.1 文本到图像生成

51c大模型~合集7_数据集_103

2.2 指代表达生成

OmniGen 具备类似 InstandID、Pulid 等模型生成角色一致性图像等能力,即:输入具有单个对象的图像,理解并遵循指令,输出基于该对象的新图像。

同时,OmniGen 具有更高阶的能力:指代表达生成能力,我们把这种能力定义为能够从包含多个对象的图像中,识别指令所指代的对象并生成新的图像。

例如,OmniGen 可根据指令直接从多人图像中定位目标对象,并生成遵循指令的新图像,而无需任何额外的模块和操作:

51c大模型~合集7_数据集_104

更多样例:

51c大模型~合集7_多任务_105

2.3 通用图像条件生成

OmniGen 不仅支持类似 ControlNet 根据特定显式条件生成图像的能力,还同时具备处理经典计算机视觉任务的能力(如人体姿态估计、深度估计等)。

因此,OmniGen 可凭借单个模型完成整个 ControlNet 流程:直接使用 OmniGen 对原图提取视觉条件,并基于所提取的条件生成图像,无需额外处理器。

同时,OmniGen 还能更进一步简化中间流程,一步出图:直接输入原图,输入指令「Following the human pose (or depth mapping) of this image, generate a new image:...」,就可根据输入图像的人体姿态或深度图关系生成新图像。

51c大模型~合集7_多任务_106

2.4 图像编辑

OmniGen 具备良好的图像编辑能力,并且可以在一次运行中同时执行多条编辑指令,例如:

51c大模型~合集7_编码器_107

2.5 更多能力

OmniGen 具备潜在的推理能力,可以处理对模型理解和推断能力具有一定要求的非显式查询指令。

例如,要求模型删除图中能装水的物品,则模型能够理解和推断出指令涉及的图中物体并删除:

51c大模型~合集7_数据集_108

另一方面,OmniGen 具有一定程度的上下文学习能力,可根据参考样例对图像进行处理。例如,输入一个分割皇后象棋的输入 - 输出配对样例 (Example),模型能识别并分割新输入图像中对应的物体:

51c大模型~合集7_数据集_109

思维链(Chain-of-Thought, CoT)方法将任务分解为多个步骤,并按顺序求解每个步骤以获得准确的最终答案,从而显著提高了 llm 的性能。我们考虑是否可以将类似的替代方案应用于图像生成。受人类绘画的基本方式的启发,我们希望模仿一步一步的绘画过程,从空白画布上迭代地生成图像。我们进行了初步的探索,微调后模型能够模拟人类行为一步步的生成图片,进一步的优化留给以后的研究。

51c大模型~合集7_多任务_110

OmniGen 的能力包括但不限于以上内容,还包括基本的图像去噪、边缘提取等能力。模型权重和代码已开源,用户可以自行探索更多 OmniGen 的能力。

三、模型

OmniGen 的核心设计原则是:简洁和有效。因此,我们最大程度舍弃了各种额外模块。OmniGen 的基本架构为:一个 Transformer 模型和一个 VAE 模块,共 3.8B 参数。其中,Transformer 继承于 Phi3-mini 模型,图像内部改用双向注意力 (Bidirectional Attention) 以契合图像数据特性。整体架构如下所示:

51c大模型~合集7_数据集_111

为实现强大的通用和泛化能力,研究人员需要基于大规模和多样化的数据集训练模型。然而,在图像生成领域,尚无一个可用的通用数据集。为此,我们构建了首个大规模且多样化的统一图像生成数据集 X2I,意为「Anything to Image」。其中,不同任务的数据格式被重新组织和统一,以便于管理和使用。X2I 数据集包含约 1 亿图像,未来经审查等流程后将开源,旨在进一步推动通用图像生成领域的发展。下图简要展示了 X2I 数据集的一些示例:

51c大模型~合集7_编码器_112

四、小结与展望

总之,OmniGen 的统一图像生成范式,不但有助于执行各种下游任务,而且有利于组合各种能力满足更通用的需求。当前,OmniGen 的报告、权重和代码等已开源,欢迎社区共同参与对 OmniGen 潜在能力的发掘、基本性能的提升和广泛应用的探索。

OmniGen 模型是对统一图像生成的初步尝试,还有很大的提升空间。未来,智源将进一步改进模型基本能力,拓展更多有趣的功能。同时,微调代码已发布,用户可简单对其进行微调,由于 OmniGen 的输入形式非常多样,用户可自行定义各式各样的微调任务,赋予模型更多有意思的能力。