今天给大家介绍何恺明团队的在文生图领域的最新突破性工作,论文中详细讨论了在视觉领域和文生图任务中自回归模型的扩展行为,并提出了使用连续token和随机顺序生成的新模型Fluid。 Fluid模型在MS-COCO 30K数据集上实现了新的零样本生成FID记录。下图展示来自 Fluid 10.5B 自回归模型的具有连续标记的样本。

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_AIGC

相关链接

  • 论文:https://arxiv.org/pdf/2410.13863

论文阅读

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_图像生成_02

摘要

在视觉中,扩展自回归模型的益处并不像在大型语言模型中那样大。论文在文本到图像生成的背景下研究了这个扩展问题,重点关注两个关键因素:

  1. 模型是否使用离散或连续标记
  2. 标记是否使用类似 BERT 或 GPT 的转换器架构以随机或固定光栅顺序生成。

实证结果表明,虽然所有模型在验证损失方面都具有有效的扩展性,但它们的评估性能(以 FID、GenEval 分数和视觉质量衡量)遵循不同的趋势。基于连续标记的模型比使用离散标记的模型实现了更好的视觉质量。此外,生成顺序和注意机制显着影响 GenEval 分数:与光栅顺序模型相比,随机顺序模型实现了明显更好的 GenEval 分数。

受这些发现的启发,作者在连续标记上训练了 Fluid,这是一个随机顺序自回归模型。 Fluid 10.5B 模型在 MS-COCO 30K 上实现了 6.16 的全新最佳零样本 FID,在 GenEval 基准上获得了 0.69 的总分。

方法

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_音视频_03

文本到图像生成框架。

经过预先训练的图像标记器将图像转换为离散或连续标记。使用预先训练的 T5 编码器嵌入文本,然后使用可训练的文本对齐器。然后,Transformer 从文本嵌入中获取交叉注意力来预测缺失的标记(此处仅显示随机顺序模型)。

图像标记器首先将原始图像转换为标记。然后对这些标记进行部分屏蔽,并训练转换器以根据文本重建屏蔽的标记。

图像标记器

使用预先训练的图像标记器将 256×256 图像编码到标记空间中。这样的标记器可以是离散的,也可以是连续的,从而有助于实现自回归模型的不同训练目标。实验中离散标记器是一个在 WebLI 数据集上预训练的 VQGAN 模型。将每幅图像编码为 16×16 离散标记,词汇量为8192。对于连续标记器采用了 Stable Diffusion 中广泛使用的标记器,它将图像编码为 32×32 连续标记,每个标记包含 4 个通道。为了使序列长度与离散标记器保持一致,进一步将每个 2×2 连续标记块分组为单个标记,最终序列长度为 256,每个标记包含 16 个通道。如图 4 所示,连续标记器可以实现比离散标记器更高的重建质量。

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_音视频_04

文本编码器

原始文本(最大长度为 128)由 SentencePiece(Kudo,2018)标记化,并通过预训练的 T5-XXL 编码器(Raffel 等人,2020)嵌入,该编码器具有 4.7B 参数并在训练期间冻结。为了进一步对齐文本嵌入以生成图像,我们在 T5 嵌入之上添加了一个由六个可训练转换器块组成的小型文本对齐器,以提取最终的文本表示。

Transformer

将原始图像编码为一系列标记后,使用标准的仅解码器的 Transformer 模型进行自回归生成。每个块由三个连续的层组成——自我注意、交叉注意和 MLP。自我注意和 MLP 层仅适用于视觉标记,而交叉注意层分别将视觉和文本标记作为查询和键。如下图所示,对于光栅顺序模型,Transformer 使用自注意块的因果注意根据先前的标记预测下一个标记,类似于 GPT。在随机顺序模型中,未知标记被可学习的标记掩盖,Transformer 使用双向注意预测这些被掩盖的标记,类似于 BERT。

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_人工智能_05

输出头

对于离散 token,遵循自回归模型的常见做法。输出通过 softmax 按照线性层转换为分类分布,其权重从输入嵌入层中重用。对于连续 token应用六层轻量级 MLP 作为扩散头来建模每个 token 的分布。

此头的嵌入维度与骨干变压器相同。每个 token 的扩散过程如下 。噪声计划具有余弦形状,

训练时有 1000 步;在推理时,它被重新采样为 100 步

实验

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_3d_06

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_图像生成_07

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_人工智能_08

随着模型尺寸的增加,视觉质量和图像文本对齐得到改善。Fluid实现最高视觉质量和最佳图像文本对齐。

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_AIGC_09

验证损失随模型大小呈幂律变化。验证损失的评估基于从 MS-COCO 2014 训练集中随机抽样的 30K 幅图像。x 轴和 y 轴为对数标度。每个图的 y 变化相对较小,使得对数标度类似于线性标度。

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_3d_10

使用连续标记(橙色)的随机顺序模型在评估指标上表现最佳。FID(越低越好)是在从 MS-COCO 2014 训练集中随机抽取的 30K 幅图像上进行评估的,而 GenEval 总体得分(越高越好)是使用官方基准提供的 553 个提示进行评估的,每个提示生成四幅图像。在所有模型中,随着模型大小的增加,连续标记上的随机顺序模型在评估指标上持续表现出改进,并取得了最佳的 FID 和 GenEval 分数。

更多结果

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_人工智能_11

何恺明团队在文生图领域最新突破性工作Fluid,刷新文生图质量纪录_人工智能_12

结论

论文对用于文本到图像生成的自回归模型的缩放行为进行了实证研究。研究了两个关键的设计因素:随机顺序与光栅顺序,以及离散标记与连续标记。

结果表明,具有连续标记的随机顺序模型在各种评估指标和视觉质量方面都实现了最佳性能和缩放行为。基于这些发现,论文将具有连续标记的随机顺序模型(即 Fluid)扩展到 10.5B 参数,并实现了最先进的文本到图像生成性能。