#RAM2~
1
#2022年一些论文
视觉 Transformer(ViT)学习什么?
论文链接:https://arxiv.org/pdf/2212.06727.pdf
关于视觉的探索显示,ViT 学习的归纳偏置或特征与卷积神经网络(CNN)学习的那些相似。例如,ViT 的 early layers 捕捉边缘和纹理,而 later layers 学习更复杂的表征以捕捉更广泛的概念。
视觉 Transformer 从 early layers(左)到 deeper layers(右)的可视化特征过程。
关于生成建模,ViT 倾向于生成比 CNN 更高质量的背景,这就提出了 ViT 如何处理预测任务中的背景和前景的这一问题。当背景被消除时,ViT 似乎比 CNN 更善于预测目标类别,并且在前景被消除时它们也依然表现得更好。这表明,ViT 在依赖基于其存在的某些特征时可能更具选择性,或者说,总体更为鲁棒。
一种生成蛋白质的扩散模型
论文链接:https://www.biorxiv.org/content/10.1101/2022.12.09.519842v1
在图像生成领域,扩散模型已经带来了突破性的性能,那么生成蛋白质结构呢?研究人员开发了一种新的蛋白质合成扩散模型,称为 RoseTTAFold Diffusion(RFDiffusion),这种蛋白质是从零开始创造的,而非来自于自然界中早已存在的蛋白质。
区分 de novo 蛋白质(在实验室中使用没有进化历史的氨基酸序列合成)与诸如 AlphaFold、 AlphaFold2 等系统(使用现有氨基酸序列数据预测蛋白质 3D 结构)十分重要。但值得注意的是,AlphaFold2 曾被用于验证 RDiffusion 研究的结果。
然后再谈谈最近的行业趋势。今天,在产业中实际使用的技术是什么?根据麦肯锡最近的 AI 全景报告 —— 并不是大型语言模型(Transformer)。特别说明,由于样本规模和代表性的限制,该报告中的调查结果可能无法准确反映所有公司的经验。
图源:麦肯锡 2022 年全景报告。
自然语言处理在行业内一直受到追捧,但其受欢迎程度经常被计算机视觉应用超越。但现在,我们第一次看到计算机视觉和自然语言处理几乎总是紧密联系在一起。
与此同时,自然语言文本理解(可能指文本分类)的受欢迎程度几乎是自然语言「生成」的两倍。请注意,自然语言生成的新闻通常会占据热点首页:如 GPT-3、Galactica、ChatGPT 等。(文本理解可能包括摘要,摘要也是「生成」的,所以我假设它在这里主要指的是类似分类的任务。那么反过来说,类别(categories)也是可以重叠的。)
值得注意的是,Transformer 的排名垫底。
似乎许多公司尚未采用类似 BERT 的语言模型编码器来进行文本理解和分类。相反,他们可能仍在使用基于词袋模型( bag-of-word-based)的分类器或递归神经网络。同样,类似 GPT 的模型解码器似乎还没有广泛应用于语言生成,因而文本生成可能仍严重依赖循环神经网络和其他传统方法。
基于下图,我发现了一些有趣的其他见解:
图源:2022 年麦肯锡 AI 全景报告。
- 能够利用「小数据」非常重要。当数据不可用时,生成合成数据的能力非常有用。
- 尽快将数据集成到 AI 模型中的能力是在竞争中脱颖而出的关键。那么,良好的软件框架和基础设备设置可能起到举足轻重的作用。
- 不幸的是,大多数高绩效公司迄今仍不关心模型的可解释性。
ConvNeXt
论文链接:https://arxiv.org/pdf/2201.03545.pdf
《A ConvNet for the 2020s》《A ConvNet for the 2020s》这篇论文我愿称之为全年最佳,因为作者们能够设计出一种纯卷积架构,其性能优于诸如 Swin Transformer 等流行的视觉 Transformer(当然,也优于在它之前出现的所有卷积神经网络)。
当卷积神经网络不仅应用于分类,还用于目标检测和实例分割时,这种所提到的 ConvNeXt 架构很可能成为新的默认架构 —— 例如,它可以用作 Mask R-CNN 的骨干网络(backbone)。
正如作者们在论文中所述,他们受到了当前视觉 Transformer 训练机制以及 Swin Transformer 混合架构表明卷积层仍然相关的事实启发。这均是因为纯视觉 Transformer 架构缺乏有用的归纳偏置,例如平移同变性和参数共享(即卷积中的「滑动窗口」)。
为了开发 ConvNeXt,作者们从 ResNet-50 基础架构出发,并采用了从现代 ViT 训练机制中运用的架构修改和训练机制。即使是赋予在卷积神经网络的背景,这些本来也没什么新奇。然而,新颖之处却在于作者们有效地使用、分析和组合了这些技术。
他们采用了哪些技术?这可以列一个很长的清单,包括深度卷积、反向瓶颈层设计、AdamW、LayerNorm 技术等等,具体的汇总你可以在下图中找到。此外,作者还使用了数据增强技术,如 Mixup、Cutmix 等。
MaxViT
尽管随着上述的 ConvNext 出世,卷积神经网络再度受到欢迎,但目前来说 ViT 仍然抢尽风头(并非刻意双关)。
MaxViT:多轴视觉 Transformer 突出显示了近年来视觉 Transformer 的发展。虽然早期的视觉 Transformer 具有二次复杂度,但已经可以通过许多手段来将视觉 Transformer 应用于具有线性缩放复杂度的更大图像中。
2022 年 9 月发布的 MaxViT,目前是 ImageNet 基准测试中的 SOTA 模型。
在 MaxViT 中,这是通过将注意力块(attention block)分解为具有局部 - 全局交互的两个部分来实现的:
- 局部注意力(「块注意力」);
- 全局注意力(「网格注意力」)。
值得一提的是,MaxViT 是一种也具备卷积层特征的卷积 Transformer 混合模型。它可以用于预测建模(包括分类、目标检测和实例分割)以及生成建模。
顺便提一句,在谷歌学术上搜索「视觉 Transformer」,仅 2022 年就产出了 5000 多个结果。这个结果虽然可能包括误报,但仍可表明人们对于视觉 Transformer 的广泛欢迎程度和感兴趣程度。
不过不用担心,视觉 Transformer 不会完全取代我们喜爱的卷积神经网络。相反,正如 MaxViT 所强调的,当前的趋势是将视觉 Transformer 和卷积网络一起整合到混合架构中。
Stable Diffusion
在 ChatGPT 成为最先进的模型之前,Stable Diffusion 早已在互联网和社交媒体上普及。这个概念其实最早来源于 2021 年 12 月上传的论文《High-Resolution Image Synthesis with Latent Diffusion Models》。
由于这篇论文在 2022 年 CVPR 会议上发表,并在 2022 年 8 月凭借 Stable Diffusion 受到高度关注,我认为将其列入 2022 年的 TOP3 论文名单是公平合理的。
扩散模型是一种概率模型,被设计用于通过逐渐对正态分布变量进行去噪来学习数据集分布。这个过程对应于学习长度为 T 的固定的马尔可夫链(Markov Chain)的逆过程。
扩散模型的图示。
与使用生成器 (Generator) 和鉴别器 (Discriminator) 之间的极大极小博弈(minimax game)训练的 GAN 不同,扩散模型是使用最大似然估计(MLE)训练的基于似然的模型。这有助于避免模式坍塌和其他训练不稳定性。
扩散模型已经存在了一段时间,但众所周知,在训练和推理过程中,从中取样仍非常昂贵。上述 2022 年论文的作者提到过,5 天的运行时间仅能采样 50k 张图像。
《High-Resolution Image Synthesis with Latent Diffusion Models》一文的新颖之处在于人们可以使用预训练的自编码器在潜在空间中应用扩散,而非直接使用原始图像的全分辨率原始像素输入空间。
上文提到的训练过程可以分为两个阶段:首先,对自编码器进行预处理,将输入图像编码到较低维度的潜在空间中,以降低复杂性。第二,在预训练的自动编码器隐层表征上训练扩散模型。
在潜在空间中进行运算,降低了用于训练和推理的扩散模型的计算成本和复杂性,并可以生成高质量的结果。
本文的另一个贡献是一般条件下的交叉注意力机制( cross-attention mechanism)。因此,除了无条件图像生成之外,所提出的潜在扩散模型还能够进行图像修复、类条件图像合成、超分辨率图像重建以及文本到图像合成 —— 后者正是 DALLE-2 和 Stable Diffusion 闻名的原因。
《「通才」智能体》(A Generalist Agent) 。在本文中,研究人员介绍了 Gato,它能够执行从玩游戏到控制机器人等 600 多种不同任务。
论文链接:https://arxiv.org/abs/2205.06175
《训练最优计算的大型语言模型》(Training Compute-Optimal Large Language Models)。为了在训练期间实现最优计算,研究人员认为通过相同的因子来缩放模型大小和训练 token 的数量都很有必要。他们创建了一个名为 Chinchilla 的模型,例如,该模型的性能优于 Gopher,可以使用比 Gopher 四分之一的参数输出四倍之多的数据。
论文链接:https://arxiv.org/abs/2203.15556
《PaLM:使用 Pathways 缩放语言模型》(PaLM: Scaling Language Modeling with Pathways):文中提出的 PaLM 模型在各种 BIG-bench 任务上都展示了令人惊叹的自然语言理解和生成能力。在某种程度上,它甚至能识别出因果关系。
论文链接:https://arxiv.org/abs/2204.02311
《基于大规模弱监督方法的鲁棒语音识别》(Robust Speech Recognition via Large-Scale Weak Supervision)。本文介绍了 Whisper 模型,该模型在多语言任务上接受了 68 万小时的训练,并表现出了对各种基准数据集(benchmarks)的鲁棒泛化性。本文介绍的 Whisper 模型给我留下了深刻的印象。我用它来为我的两门课程深度学习基础 —— 运用现代开源栈学习深度学习以及深度学习引言(Deep Learning Fundamentals – Learning Deep Learning With a Modern Open Source Stack)生成字幕。
论文链接:https://arxiv.org/abs/2212.04356
《再论表格深度学习的预训练目标》(Revisiting Pretraining Objectives for Tabular Deep Learning)。我喜欢阅读大量有关 Tabular 数据的深度学习论文。但我尤其钟爱这篇论文,因为它强调并提醒我们在附加(通常未标记)数据上进行模型预训练是多么重要。(使用如 XGBoost 等基于树模型无法轻松做到这一点。)
论文链接:https://arxiv.org/abs/2207.03208
《为什么基于树的模型在表格数据上的性能仍然优于基于深度学习的模型?》 (
Why do tree-based models still outperform deep learning on tabular data?)。该文的主要收获是基于树的模型(随机森林和 XGBoost)的性能优于在中型数据集(10k 训练示例)上应用表格数据的深度学习方法。但是随着数据集大小的增加(这里:10k → 50k),基于树的模型和深度学习之间的差距变得越来越小。遗憾的是,这篇论文没有包含特别多最先进的深度表格网络,不过它进行了鲁棒性分析和有趣的讨论,绝对值得一读。
论文链接:https://arxiv.org/abs/2207.08815
《用语言模型预测原子级蛋白质结构的进化程度》(Evolutionary-scale prediction of atomic level protein structure with a language model)。该论文提出了迄今为止预测蛋白质三维结构的最大语言模型,它也比以前的方法运算更快,同时还保持着同样的准确性。该模型创建了 ESM 宏基因组图谱,是宏基因组蛋白质的第一个大规模结构表征,具有超过 6.17 亿个蛋白质结构。
论文链接:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v3
One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations
- 作者:Yiming Zhu 、 Hongyu Liu 等
- 论文地址:https://arxiv.org/pdf/2210.07883.pdf
摘要:本文首先利用已有的编码器将需要编辑的图像转换到 StyleGAN 的 W^+ 语义空间中的潜在编码 w,再通过提出的语义调制模块对该隐编码进行自适应的调制。该语义调制模块包括语义对齐和语义注入模块,首先通过注意力机制对齐文本编码和 GAN 的隐编码之间的语义,再将文本信息注入到对齐后的隐编码中,从而保证该隐编码拥有文本信息从而达到利用文本编辑图像能力。
不同于经典的 StyleCLIP 模型,我们的模型无需对每个文本单独训练一个模型,一个模型就可以响应多个文本从而对图像做有效的编辑,所以我们的模型成为 FFCLIP-Free Form Text-Driven Image Manipulation。同时我们的模型在经典的教堂,人脸以及汽车数据集上都取得了非常不错的效果。
图 1:整体框架图
推荐:文本图片编辑新范式,单个模型实现多文本引导图像编辑。
Printed Organic Photovoltaic Modules on Transferable Ultra-thin Substrates as Additive Power Sources
- 作者:Mayuran Saravanapavanantham、Jeremiah Mwaura 等
- 论文地址:https://onlinelibrary.wiley.com/doi/10.1002/smtd.202200940
摘要:麻省理工学院的研究人员已经开发出一种可扩展的制造技术,可以生产超薄、轻质的太阳能电池,这种电池可以铺设在任何表面上。
MIT 的研究人员制造出了比人类头发还薄的太阳能电池板,该电池板每公斤提供的能量是目前玻璃和硅基太阳能电池板的 18 倍。这些太阳能电池板的重量只有传统光电电池的百分之一。
这种超薄太阳能板也可以安装到船帆、无人机机翼和帐篷上。它们在偏远地区和救灾行动中尤其有用。
推荐:MIT 造出薄如纸的太阳能电池板。
A Survey of Deep Learning for Mathematical Reasoning
- 作者:Pan Lu、 Liang Qiu 等
- 论文地址:https://arxiv.org/pdf/2212.10535.pdf
摘要:在近期发布的一篇报告中,来自 UCLA 等机构的研究者系统回顾了深度学习在数学推理方面的进展。
具体而言,本文讨论了各种任务和数据集(第 2 节),并研究了神经网络(第 3 节)和预训练语言模型(第 4 节)在数学领域的进展。此外还探讨了大型语言模型的上下文学习在数学推理中的快速发展(第 5 节)。文章进一步分析了现有的基准,发现对多模态和低资源环境的关注较少(第 6.1 节)。基于循证的研究表明,目前的计算能力表征是不充分的,深度学习方法在数学推理方面也是不一致的(第 6.2 节)。随后,作者建议在概括性和鲁棒性、可信推理、从反馈中学习和多模态数学推理方面改进目前的工作(第 7 节)。
推荐:深度学习如何慢慢推开数学推理的门。
Muse: Text-To-Image Generation via Masked Generative Transformers
- 作者:Huiwen Chang 、 Han Zhang 等
- 论文地址:https://arxiv.org/pdf/2301.00704v1.pdf
摘要:该研究提出了一种使用掩码图像建模方法进行文本到图像合成的新模型,其中的图像解码器架构以来自预训练和 frozen T5-XXL 大型语言模型 (LLM) 编码器的嵌入为条件。
与建立在级联像素空间(pixel-space)扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了离散 token,效率显著提升。与 SOTA 自回归模型 Parti (Yu et al., 2022) 相比,Muse 因使用并行解码而效率更高。
基于在 TPU-v4 上的实验结果,研究者估计 Muse 在推理速度上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,比 Stable Diffusion v1.4 (Rombach et al., 2022) 快 2 倍。研究者认为:Muse 比 Stable Diffusion 推理速度更快是因为 Stable Diffusion v1.4 中使用了扩散模型,在推理时明显需要更多次迭代。
模型体系架构概述。
推荐:推理速度比 Stable Diffusion 快 2 倍,生成、修复图像谷歌一个模型搞定。
Positive-Incentive Noise
- 作者:李学龙
- 论文地址:https://ieeexplore.ieee.org/document/10003114
摘要:在各式各样的科学研究的方方面面中,噪声大量存在,如仪器精度不足导致的仪器误差、人为操作中的失误导致的偏差、极端环境等外界干扰导致的信息失真等。研究者普遍认为噪声通常会对执行的任务产生不良影响,这已成为一个约定俗成的假设。因此,围绕着 “降噪” 这一核心任务产生了大量的研究工作。然而,西北工业大学李学龙教授团队在执行信号探测和处理任务时通过实验观察验证,对这一假设产生了质疑:科学研究中的噪声真的总是有害的吗?
恰如图 1 所示,在一个图像智能分类系统中,对图像加入适量的噪声后再训练,识别准确率反而上升了。这给我们带来一点启发:图像中加入一些噪声,而不是去除,再执行图像分类任务,可能效果会更好。只要噪声对目标的影响远小于噪声对背景的影响,产生 “伤敌(背景噪声)一千,自(目标信号)损八百” 的效果就有意义,因为任务追求的是高信噪比。从本质上来说,面对传统分类问题,在特征后随机加上适度的噪声,相当于升高了特征维度,某种意义上说,类似是给特征增加了一个核函数,实际上完成了一种低维空间到高维空间的映射,使数据更可分,从而提高了分类效果。
图 1 图像识别准确率随图像噪声强度的增大而 “反直觉” 地呈现出 “先增后减” 的关系。
推荐:西工大李学龙教授提出基于任务熵的数学分析框架。
ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo
- 作者:Biwen Lei 、 Xiefan Guo 等
- 论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Lei_ABPN_Adaptive_Blend_Pyramid_Network_for_Real-Time_Local_Retouching_of_CVPR_2022_paper.pdf
摘要:来自达摩院的研究者以实现专业级的智能美肤为出发点,研发了一套高清图像的超精细局部修图算法 ABPN,在超清图像中的美肤与服饰去皱任务中都实现了很好的效果与应用。
如上图所示,网络结构主要由两个部分组成:上下文感知的局部修饰层(LRL)和自适应混合金字塔层(BPL)。其中 LRL 的目的是对降采样后的低分辨率图像进行局部修饰,生成低分辨率的修饰结果图,充分考虑全局的上下文信息以及局部的纹理信息。进一步,BPL 用于将 LRL 中生成的低分辨率结果逐步向上拓展到高分辨率结果。其中,我们设计了一个自适应混合模块(ABM)及其逆向模块(R-ABM),利用中间混合图层 Bi,可实现原图与结果图之间的自适应转换以及向上拓展,展现了强大的可拓展性和细节保真能力。我们在脸部修饰及服饰修饰两个数据集中进行了大量实验,结果表明我们的方法在效果和效率上都大幅度地领先了现有方法。值得一提的是,我们的模型在单卡 P100 上实现了 4K 超高分辨率图像的实时推理。
推荐:一键抹去瑕疵、褶皱。
Image-and-Language Understanding from Pixels Only
- 作者:Michael Tschannen、Basil Mustafa 等
- 论文地址:https://arxiv.org/pdf/2212.08045.pdf
摘要:开发一个可以处理任何模态或模态组合的单一端到端模型,将是多模态学习的重要一步。本文中,来自谷歌研究院(谷歌大脑团队)、苏黎世的研究者将主要关注图像和文本。
本文将对使用纯基于像素的模型进行文本和图像的多模态学习进行探索。该模型是一个单独的视觉 Transformer,它处理视觉输入或文本,或两者一起,所有都呈现为 RGB 图像。所有模态都使用相同的模型参数,包括低级特征处理;也就是说,不存在特定于模态的初始卷积、tokenization 算法或输入嵌入表。该模型仅用一个任务训练:对比学习,正如 CLIP 和 ALIGN 所推广的那样。因此模型被称作 CLIP-Pixels Only(CLIPPO)。
推荐:参数减半、与 CLIP 一样好,视觉 Transformer 从像素入手实现图像文本统一。
#Sora~
OpenAI 推出了一款名为 Sora 的创新视频生成模型,这款模型能够将简短的文本描述转化为最长达一分钟的精细、高清视频片段。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
根据 OpenAI 向《麻省理工科技评论》展示的四个样本视频,这家位于旧金山的公司在文本到视频生成技术 —— 一项我们认为在 2024 年将成为研究热点的领域 —— 上取得了突破性进展。
OpenAI 科学家 Tim Brooks 表示:“构建能够理解视频内容并把握我们世界中各种复杂互动的模型,对于所有未来 AI 系统的发展至关重要。”
但是,需要注意的是,OpenAI 对 Sora 的介绍是在严格保密的前提下进行的。公司采取了不同寻常的策略,只有在我们同意在模型信息公开后再征询外部专家意见的条件下,才向我们透露了关于 Sora 的信息。【编辑注:我们已根据外部反馈更新了这一部分内容。】目前,OpenAI 还没有发布关于该模型的技术报告,也没有公开展示模型的实际运行情况,并表示短期内不计划公开发布 Sora。
视频都发不了...
这个视频精心描绘了这样一个场景:一个毛茸茸、身材矮小的怪物跪坐在一支正逐渐融化的红蜡烛旁。整个作品采用了三维逼真的艺术风格,特别注重光影和纹理效果的渲染。画面洋溢着一种探索的惊喜和好奇心,我们可以看到这个小怪物睁大了双眼,嘴巴微张,全神贯注地观察着跳动的火焰。它的姿势和表情洋溢着一种纯真与顽皮,仿佛它是第一次对周遭的世界进行探索。温暖的色调和戏剧化的光线处理,进一步营造了一种温馨舒适的画面氛围。
这个视频展现在眼前的是一个令人叹为观止的纸质工艺珊瑚礁世界,这里栖息着各种色彩斑斓的鱼类和海洋生物。每一处细节都通过精细的纸艺手法巧妙呈现,从而营造出一个既梦幻又生动的海底景象。
自 2022 年底首批能根据文本片段生成视频的模型问世以来,Meta、Google 以及一家名为 Runway 的初创企业最初推出的产品虽具开创性,但存在一些故障和画质不清的问题。随着技术的快速进步,Runway 在去年发布的第二代模型已能制作出与大型动画工作室相媲美的短视频,尽管这些视频大多仅有几秒钟。
OpenAI 的 Sora 提供的样品视频不仅画质高清,而且细节丰富。OpenAI 还宣布,其能够生成长达一分钟的视频。例如,一个展示东京街道场景的视频生动展现了 Sora 如何精准地在三维空间中构建物体关系:摄影机深入场景,紧随一对情侣穿行于商店前。
OpenAI 还表示,Sora 在处理物体遮挡时表现出色。传统模型常见的问题之一是,物体一旦从画面中消失,便难以再次准确跟踪。举个例子,如果一辆卡车遮挡了街道标志,该标志可能就不会再出现了。
在一段展示纸质水下世界的视频中,Sora 不仅加入了似乎是不同视频片段间的转换,还在这些片段之间保持了风格的一致性。
尽管如此,Sora 并非完美无缺。例如,在东京街道的视频中,一些汽车与行人相比显得过小,并且在树枝间出现消失,缺乏一致性。“在保持长期一致性方面,我们确实还有不少工作要做。”Brooks 表示,“比如,如果某个对象长时间消失在画面之外,它们可能就不会再回来,模型似乎会‘遗忘’它们原本应存在的位置。”
尽管这里展示的示例视频让人吃惊,但它们无疑是经过精心挑选的,旨在展示 Sora 在最佳状态下的表现。但由于缺乏更多信息,我们很难判断这些示例在多大程度上代表了该模型的典型输出效果。
要了解真相可能还需要一段时间。今天,OpenAI 对 Sora 进行了一次技术展示,但公司表示目前没有向公众发布此技术的计划。相反,OpenAI 会从今天开始,首次与第三方安全测试人员共享这一模型。
OpenAI 特别担心,高度逼真的虚假视频可能会被误用。OpenAI 科学家 Aditya Ramesh 表示:“我们在部署这一技术时非常谨慎,确保在向公众提供之前,所有预防措施都已就绪。”Aditya Ramesh 是该公司将文字转换成图片的模型 DALL-E 的创造者。
但是,OpenAI 正在考虑在未来某个时间推出这款产品。除了与安全测试人员分享模型外,公司还计划与一小部分视频制作者和艺术家合作,收集他们的反馈,以便让 Sora 更好地服务于创意行业专业人士。“我们的另一个目标是向大家展示未来的可能性,让大家预览这些模型未来能够实现的功能。”Ramesh 如是说。
在开发 Sora 的过程中,团队利用了最新版的 OpenAI 旗舰文本到图片模型 DALL-E 3 背后的技术。与大多数此类模型一样,DALL-E 3 基于一种被称为 “扩散模型” 的技术,该技术能够将一堆随机分布的像素点转化为清晰的图片。
Sora 这一技术突破,不是用在静态图片上,而是应用于视频。研究团队还引入了一种新技术。与 DALL-E 或大部分其他视频生成模型不同,Sora 把它的扩散模型与一种叫做 Transformer 的神经网络结合了起来。
Transformer 非常擅长处理像单词这样的长序列数据。这一特性使它们成为了像 OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini 等 LLM 的关键组成部分。然而,视频并非由单词构成。因此,研究人员必须寻找一种方式,将视频分割成可以当作 “单词” 处理的片段。他们采用的方法是同时在空间和时间上切割视频。“就好比你有一叠视频帧,然后你从中切割出小方块,”Brooks 解释道。
Sora 内置的 Transformer 可以处理这些视频数据块,其方式与 LLM 中的 Transformer 处理文本中的单词极为相似。研究人员表示,这使他们能够在多种不同类型的视频上训练 Sora,包括不同的分辨率、时长、宽高比和方向。“这对模型帮助很大,”Brooks 说。“这是一项我们所不了解的现有研究成果。”
几只雄伟的长毛象缓步穿越覆盖着雪的草地,它们浓密的长毛在微风中轻轻摇曳。远处,雪覆盖的树木和壮丽的雪顶山峰勾勒出一幅壮观的背景。午后的阳光穿透飘渺的云层,远方高悬的太阳洒下温暖的光辉,营造出一种温馨的氛围。低角度的镜头令人惊叹,精妙地捕捉了这种大型的毛茸茸哺乳动物的雄姿,通过美轮美奂的摄影技术和景深效果展现出来。
东京,这座被雪覆盖的城市,美丽而繁华。镜头穿梭在繁忙的街道上,紧随着几位正在享受这场美妙雪景并在街边摊位上选购商品的行人。在雪花飘扬的同时,绚丽的樱花瓣也随风起舞,美得如同画卷一般。
“从技术层面上讲,这显然是一个巨大的进步,” 人权组织 Witness 的执行董事 Sam Gregory 表示,这个组织专注于视频技术的使用及其滥用问题。“但问题有两面性,” 他补充道。“这种技术的表达能力的提高,意味着更多人可以通过视频来讲述故事。但同时,它也开启了滥用的大门。”
OpenAI 对生成视频模型带来的风险有着清醒的认识。我们已经目睹了深度伪造(deepfake)图像的大规模滥用。逼真的视频技术将这种风险推向了新的高度。
Gregory 指出,这种技术可能被用于误导人们关于冲突区域或抗议活动的信息。“它的风格多样性也很有吸引力,” 他说。如果能生成看似用手机摄制的不稳定视频,其真实性会更高。
尽管这项技术还未完全成熟,但生成视频在仅仅 18 个月内就从零发展至 Sora。“我们即将步入一个新的时代,届时将会出现完全合成的内容、人工制作的内容以及两者的混合体,”Gregory 表示。
OpenAI 团队打算借鉴去年对 DALL-E 3 进行的安全测试经验。Sora 已经内置了一个过滤器,它将拦截所有针对暴力、色情或仇恨内容以及知名人物图像的请求。另一个过滤器将审查生成的视频帧,阻止违反 OpenAI 安全准则的内容。
OpenAI 还表示,他们正在把为 DALL-E 3 开发的假图像检测技术适配到 Sora 使用。此外,公司将在 Sora 生成的所有输出中加入业界标准的 C2PA 标签,这是一种声明图像生成方式的元数据。但这些预防措施并非绝对可靠。假图像检测技术存在不确定性,元数据容易被删除,而且大多数社交媒体默认会删除上传图片的元数据。
“我们肯定需要收集更多反馈,进一步了解在考虑发布这项技术前需要解决的视频相关风险,”Ramesh 说。
Brooks 也表示赞同。“我们之所以现在讨论这项研究,是因为我们希望开始收集必要的反馈,进行必要的工作,以确定如何能够安全地部署这项技术,” 他说。
技术细节
对 Sora 背后的模型细节,我们知之甚少。据 OpenAI 博客,更多的信息将在后续的技术论文中公布。
博客中透露了一些基础信息:Sora 是一种扩散模型,它生成的视频一开始看起来像静态噪音,然后通过多个步骤去除噪音,逐步转换视频。
Midjourney 和 Stable Diffusion 的图像和视频生成器同样基于扩散模型。但我们可以看出,OpenAI Sora 生成视频的质量好得多。Sora 感觉像是创建了真实的视频,而以往这些竞争对手的模型则感觉像是 AI 生成图像的定格动画。
Sora 可以一次性生成整个视频,也可以扩展生成的视频,使其更长。通过让模型一次预见多帧画面,OpenAI 解决了一个具有挑战性的问题,即确保被摄体即使暂时离开视线也能保持不变。
与 GPT 模型类似,Sora 也使用了 transformer 架构,从而实现了卓越的扩展性能。
OpenAI 将视频和图像表示为称为 patch 的较小数据单元的集合,每个 patch 类似于 GPT 中的 token。通过统一数据表示方式,OpenAI 能够在比以往更广泛的视觉数据上训练扩散 transformer,包括不同的持续时间、分辨率和宽高比。
Sora 建立在过去 DALL・E 和 GPT 模型的研究基础之上。它采用了 DALL・E 3 中的重述技术,即为视觉训练数据生成高度描述性的字幕。因此,该模型能够在生成的视频中更忠实地遵循用户的文字提示。
除了能够仅根据文字说明生成视频外,该模型还能根据现有的静态图像生成视频,并准确、细致地对图像内容进行动画处理。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。
多项技术破纪录
借助于对语言的深刻理解,Sora能够准确地理解用户指令中所表达的需求,把握这些元素在现实世界中的表现形式。
也因此,Sora创造出的角色,能够表达丰富的情感!
它所制作出的复杂场景,不仅可以包括多个角色,还有特定的动作类型,以及对对象和背景的精确细节描绘。
此外,Sora还能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。
要知道,以前的AI视频,都单镜头生成的。
而这次OpenAI能在多角度的镜头切换中,就能实现对象的一致性,这不得不说是个奇迹!
这种级别的多镜头一致性,是Gen 2和Pika都完全无法企及的……
举个例子:「雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。」
Sora根据这个提示所呈现的,便是东京在冬日里梦幻的一幕。
可以说,Sora的效果已经领先到了恐怖的级别,完全跳出了用冷兵器短兵相接的时代,其他AI视频被彻底干趴。
世界模型成真了??
最最最可怕的一点来了,Sora身上,竟已经有了世界模型的雏形?
通过观察大量数据,它竟然学会了许多关于世界的物理规律。
下面这个片段太令人印象深刻了:prompt中描绘了「一个短毛绒怪物跪在一支红蜡烛旁的动画场景」,同时描述了怪物的动作和视频的氛围。
随后,Sora就创造了一个类似皮克斯作品的生物,它似乎融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。
让人震惊的是,Sora对于毛发纹理物理特性的理解,准确得令人惊掉下巴!
想当初,在《怪兽公司》上映时,皮克斯为了创造出怪物在移动时超级复杂的毛发纹理,可是费了好大一番功夫,技术团队直接连肝几个月。
而这一点,Sora轻而易举地就实现了,而且从没有人教过它!
「它学会了关于 3D 几何形状和一致性的知识,」项目的研究科学家Tim Brooks表示。
「这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。」
得益于DALL·E 3所使用的扩散模型,以及GPT-4的Transformer引擎,Sora不仅能够生成满足特定要求的视频,而且能够展示出对电影拍摄语法的自发理解。
这种能力体现在它对讲故事的独特才能上。
例如,在一个以「色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界」为主题的视频中,项目研究员Bill Peebles指出,Sora通过其摄影角度和拍摄时机,成功地推进了故事的发展。
不过,当前的模型并不完美。它在模拟复杂场景的物理效果上可能会遇到难题,有时也难以准确理解特定情境下的因果关系。比如,某人吃掉饼干的一部分后,饼干可能看起来仍然完整无损。
但是无可否认的是,可怕的事实已经就在面前:一个已经能够理解和模拟现实世界的模型,也就意味着AGI已经不远了。
「唯一真正的视频生成工作」
业内大佬张启煊评价道,「Sora是我目前看到唯一跳脱出空镜头生成、真正的视频生成工作。」
在他看来,目前看来Sora跟Pika、Runway是有代差的,视频生成领域终于被OpenAI支配。或许某天3D视频领域,有朝一日也能体会到这种恐惧。
网友们都被震惊到失语:「下一个十年会是疯狂的十年。」
技术介绍
Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。
Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。
通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。
与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。
OpenAI把视频和图像分解为较小的数据单元——「patches」,每个「patches」相当于GPT中的一个「token」。
这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。
Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。
除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。
Sora为理解和模拟现实世界的模型奠定了基础,对此OpenAI认为这是实现通用人工智能(AGI)的重要步骤。
作品欣赏
无人机从空中俯瞰大苏尔加雷角海滩附近的崎岖悬崖,海浪冲击着岩石,形成白色的浪尖,落日的金色光辉照亮了岩石海岸。远处有一个小岛上立着灯塔,悬崖边缘覆盖着绿色植被。从道路到海滩的陡峭下降和悬崖边缘凸出的景象,展现了海岸的原始美丽和太平洋海岸公路的崎岖风景。
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
原文链接:https://www.technologyreview.com/2024/02/15/1088401/openai-amazing-new-generative-ai-video-model-sora/
参考资料:
https:///OpenAI/status/1758192957386342435
对比
当然,随着 Sora 加入这场视频生成领域的战争,受到冲击最大的是同类竞品模型,比如 Runway、Pika、SDV、谷歌和 Meta。
看到 Sora 的生成效果之后,很多人认为,Sora 对这些「前辈」来了一波降维打击。事实真的如此吗?有推特博主已经做了对比。
这位博主给 Sora、Pika、Runway、Stable Video 四个模型输入了相同的 prompt:
美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位购物,绚丽的樱花花瓣随着雪花随风飘扬。
可以看到,相比于其他三个视频生成模型,Sora 在生成时长、连贯性等方面都有显著的优势。
在 Sora 震撼效果的背后,OpenAI 也于昨日公布了详细的技术报告。
技术报告地址 https://openai.com/research/video-generation-models-as-world-simulators
Sora 背后的技术
OpenAI 在技术报告中重点展示了:(1)将所有类型的视觉数据转化为统一表示,从而能够大规模训练生成模型的方法;以及(2)对 Sora 的能力和局限性进行定性评估。
令人遗憾的是,OpenAI 的报告不包含模型和训练的细节。
最近一段时间,视频生成是 AI 领域的重要方向,先前的许多工作研究了视频数据的生成建模方向,包括循环网络、生成对抗网络、自回归 transformer 和扩散模型。这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。
与之不同的是,OpenAI 的 Sora 是视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,而且最多可以输出长达一分钟的高清视频。
视觉数据转为 Patches
大型语言模型通过在互联网规模的数据上进行训练,获得了出色的通用能力中,OpenAI 从这一点汲取了灵感。LLM 得以确立新范式,部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。
在这项工作中,OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token,而 Sora 有视觉 patches。此前的研究已经证明 patches 是视觉数据模型的有效表示。OpenAI 发现 patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示。
在更高层面上,OpenAI 首先将视频压缩到较低维的潜在空间,然后将表示分解为时空 patches,从而将视频转换为 patches。
视频压缩网络
OpenAI 训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练,而后生成视频。OpenAI 还训练了相应的解码器模型,将生成的潜在表示映射回像素空间。
时空潜在 patches
给定一个压缩的输入视频,OpenAI 提取一系列时空 patches,充当 Transformer 的 tokens。该方案也适用于图像,因为图像可视为单帧视频。OpenAI 基于 patches 的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,OpenAI 可以通过在适当大小的网格中排列随机初始化的 patches 来控制生成视频的大小。
用于视频生成的缩放 Transformer
Sora 是个扩散模型;给定输入噪声 patches(以及文本提示等调节信息),训练出的模型来预测原始的「干净」patches。重要的是,Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的缩放特性,包括语言建模、计算机视觉、和图像生成。
在这项工作中,OpenAI 发现扩散 Transformers 也可以有效地缩放为视频模型。下面,OpenAI 展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。
可变的持续时间,分辨率,宽高比
过去的图像和视频生成方法通常需要调整大小、进行裁剪或者是将视频剪切到标准尺寸,例如 4 秒的视频分辨率为 256x256。相反,该研究发现在原始大小的数据上进行训练,可以提供以下好处:
首先是采样的灵活性:Sora 可以采样宽屏视频 1920x1080p,垂直视频 1920x1080p 以及两者之间的视频。这使 Sora 可以直接以其天然纵横比为不同设备创建内容。Sora 还允许在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型 —— 所有内容都使用相同的模型。
其次是改进帧和内容组成:研究者通过实证发现,使用视频的原始长宽比进行训练可以提升内容组成和帧的质量。将 Sora 在与其他模型的比较中,后者将所有训练视频裁剪成正方形,这是训练生成模型时的常见做法。经过正方形裁剪训练的模型(左侧)生成的视频,其中的视频主题只是部分可见。相比之下,Sora 生成的视频(右侧)具有改进的帧内容。
语言理解
训练文本到视频生成系统需要大量带有相应文本字幕的视频。研究团队将 DALL・E 3 中的重字幕(re-captioning)技术应用于视频。
具体来说,研究团队首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中所有视频生成文本字幕。研究团队发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。
与 DALL・E 3 类似,研究团队还利用 GPT 将简短的用户 prompt 转换为较长的详细字幕,然后发送到视频模型。这使得 Sora 能够生成准确遵循用户 prompt 的高质量视频。
以图像和视频作为提示
我们已经看到了文本到视频的诸多生成示例。实际上,Sora 还可以使用其他输入,如已有的图像或视频。这使 Sora 能够执行各种图像和视频编辑任务 — 创建完美的循环视频、静态图像动画、向前或向后延长视频时间等。
为 DALL-E 图像制作动画
只要输入图像和提示,Sora 就能生成视频。下面展示了根据 DALL-E 2 和 DALL-E 3 图像生成的视频示例:
狗戴着贝雷帽、穿着黑色高领毛衣
视频内容拓展
Sora 还能够在开头或结尾扩展视频内容。以下是 Sora 从一段生成的视频向后拓展出的三个新视频。新视频的开头各不相同,拥有相同的结尾。
不妨使用这种方法无限延长视频的内容,实现「视频制作永动机」。
视频到视频编辑
扩散模型激发了多种根据文本 prompt 编辑图像和视频的方法。OpenAI 的研究团队将其中一种方法 ——SDEdit 应用于 Sora,使得 Sora 能够在零样本(zero-shot)条件下改变输入视频的风格和环境。
我们还可以使用 Sora 在两个输入视频之间逐渐进行转场,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
图像生成能力
Sora 还能生成图像。为此,OpenAI 将高斯噪声 patch 排列在空间网格中,时间范围为一帧。该模型可生成不同大小的图像,最高分辨率可达 2048x2048。
涌现模拟能力
OpenAI 发现,视频模型在经过大规模训练后,会表现出许多有趣的新能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性的出现没有任何明确的三维、物体等归纳偏差 — 它们纯粹是规模现象。
三维一致性。Sora 可以生成动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中的移动是一致的。
长序列连贯性和目标持久性。视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。OpenAI 发现,虽然 Sora 并不总是能有效地模拟短距离和长距离的依赖关系,但它在很多时候仍然能做到这一点。例如,即使人、动物和物体被遮挡或离开画面,Sora 模型也能保持它们的存在。同样,它还能在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
与世界互动。Sora 有时可以模拟以简单方式影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界。Sora 还能模拟人工进程,视频游戏就是一个例子。Sora 可以通过基本策略同时控制 Minecraft 中的玩家,同时高保真地呈现世界及其动态。只需在 Sora 的提示字幕中提及 「Minecraft」,就能零样本激发这些功能。
这些功能表明,视频模型的持续扩展是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的道路。
局限性讨论
作为一款模拟器,Sora 目前还存在许多局限性。例如,它不能准确模拟许多基本交互的物理现象,如玻璃碎裂。其他交互,如吃食物,并不总能产生正确的物体状态变化。官方主页列举了该模型的其他常见失效模式,例如长时间样本中出现的不一致性或物体的自发出现。
不过,Sora 目前所展现的能力证明了持续扩大视频模型的规模是一个充满希望的方向,这也将助力物理和数字世界及其中的物体、动物和人类能够有更加精确的模拟。
更多详细内容,请参阅 Sora 原始技术报告。
参考链接:https://openai.com/research/video-generation-models-as-world-simulators
随着媒体狂炒Sora,OpenAI的介绍材料中称Sora是 “world simulator”,世界模型这个词又进入视野,但很少有文章来介绍世界模型。这里回顾一下什么是世界模型,以及讨论Sora是不是 world simulator。
什么是world models/世界模型
当AI领域中讲到 世界/world、环境/environment 这个词的时候,通常是为了与 智能体/agent 加以区分。研究智能体最多的领域,一个是强化学习,一个是机器人领域。因此可以看到,world models、world modeling最早也最常出现在机器人领域的论文中。而今天world models这个词影响最大的,可能是Jurgen 2018年放到arxiv的这篇以“world models”命名的文章,该文章最终以 “Recurrent World Models Facilitate Policy Evolution”的title发表在NeurIPS‘18。
该论文中并没有定义什么是World models,而是类比了认知科学中人脑的mental model,引用了1971年的文献。
Wikipedia中介绍的mental model,很明确的指出其可能参与认知、推理、决策过程。并且说到 mental model 主要包含mental representations 和 mental simulation 两部分。
an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.
到这里还是说得云雾缭绕,那么论文中的结构图一目了然的说明了什么是一个world model
图中纵向V->z是观测的低维表征,用VAE实现,水平的M->h->M->h是序列的预测下一个时刻的表征,用RNN实现,这两部分加起来就是World Model。
也就是说,World model的主要包含状态表征和转移模型,这也正好对应mental representations 和 mental simulation。
看到上面这张图可能会想,这不是所有的序列预测都是world model了?其实熟悉强化学习的同学能一眼看出来,这张图的结构是错误(不完整)的,而真正的结构是下面这张图,RNN的输入不仅是z,还有动作action,这就不是通常的序列预测了(加一个动作会很不一样吗?是的,加入动作可以让数据分布自由变化,带来巨大的挑战)。
Jurgen的这篇论文属于强化学习领域。那么,强化学习里不是有很多model-based RL吗,其中的model跟world model有什么区别?答案是没有区别,就是同一个东西。Jurgen先说了一段
在Jurgen文章的早期版本中,还说到很多 model-based RL,虽然学了model,但并没有完全在model中训练RL。
没有完全在model中训练RL,实际上并不是model-based RL的model有什么区别,而是model-based RL这个方向长久以来的无奈:model不够准确,完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。
聪明的Sutton在很久以前就意识到model不够准确的问题。在1990年提出Dyna框架的论文Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(发表在第一次从workshop变成conference的ICML上),管这个model叫action model,强调预测action执行的结果。RL一边从真实数据中学习(第3行),一边从model中学习(第5行),以防model不准确造成策略学不好。
可以看到,world model对于决策十分重要。如果能获得准确的world model,那就可以通过在world model中就反复试错,找到现实最优决策。
这就是world model的核心作用:反事实推理/Counterfactual reasoning , 也就是说,即便对于数据中没有见过的决策,在world model中都能推理出决策的结果。
了解因果推理的同学会很熟悉反事实推理这个词,在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯,最下层是“关联”,也就是今天大部分预测模型主要在做的事;中间层是“干预”,强化学习中的探索就是典型的干预;最上层是反事实,通过想象回答 what if 问题。Judea为反事实推理绘制的示意图,是科学家在大脑中想象,这与Jurgen在论文中用的示意图异曲同工。
左:Jurgen论文中的世界模型示意图。右:Judea书中的因果阶梯。
到这里我们可以总结,AI研究人员对world model的追求,是试图超越数据,进行反事实推理,回答what if问题能力的追求。这是一种人类天然具备,而当前的AI还做得很差的能力。一旦产生突破,AI决策能力会大幅提升,实现全自动驾驶等场景应用。
Sora是不是 world simulator
simulator这个词更多出现在工程领域,起作用与world model一样,尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组,但意思不变。
Sora生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答what if问题。
甚至难以评价Sora的生成能力有多强,因为完全不清楚demo的视频与训练数据的差异有多大。
更让人失望的是,这些demo呈现出Sora并没有准确的学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处[ OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?]
我猜测OpenAI放出这些demo,应该基于非常充足的训练数据,甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。OpenAI认为Sora证明了一条通往simulators of the physical world的路线,但看起来简单的堆砌数据并不是通向更高级智能技术的道路。
#技术详解及影响分析
sora的野心可远远不止视频生成。
从openai sora[1]的技术报告首段可以看出sora的野心远远不止视频生成,他们的目标是通过视频数据来学习一个世界模型或者世界模拟器,这才是真正令人兴奋和激动的部分。
1-数据工程
1-1 采用patches统一训练数据格式
最早在ViT[2]中出现将图片分patch输入给transformer。
Sora的做法会有些不同,首先通过一个encoder【VAE结构】将视频帧压缩到一个低维度隐式空间(包含时间和空间上的压缩),然后展开成序列的形式送入模型训练,同样的模型预测也是隐式的序列,然后用decoder解码器去解码映射回像素空间形成视频。注意在编码成Spacetime latent patches的时候可能用到了ViViT[3]的时空编码方式
如此一来有两个优势:
- 统一互联网上不同大小格式的视频和图片数据,统一为patches的格式输入
- 具有可扩展性,类似于llm中的token,数据格式往往跟网络结构相匹配的
- 在推理阶段可以通过将patches组合成不同形状从而控制视频生成的尺寸大小
1-2 在原始图片尺寸上训练
优点是使得视频在生成采样时更具有灵活性,可以生成不同尺寸的视频
- 不需要像2D图片一样去做一些旋转、剪切等数据增强工作,这样反而会影响最终的生成效果,原因可能是因为本来的视频数据是人为拍摄的(具有合理的角度和构图先验),如果去做裁剪,反而破坏了这样的先验信息。从而导致空间的不合理以及时间的不连续。
- 不需要统一输入的尺寸,因为可以通过encoder将不同尺寸的视频压缩成patches的形式输入
1-3 使用re-captioning获得text-videos对
在训练阶段,将视频按1帧或者隔n帧用DALLE3(CLIP)按照一定的规范形成对应的描述文本,然后输入模型训练。
在推理阶段,首先将用户输入的prompt用GPT4按照一定的规范把它详细化,然后输入模型得到结果。
DALLE2结构
2-网络结构
2-1 DiT[4]
简单来说就是tansformer+ddpm,核心就是用tansformer的结构替换掉stable diffusion中的unet结构,来预测噪声实现去噪。这个替换可以带来以下优势。
- 随着数据规模或者训练时间的增强,模型表现的效果越好(大力出奇迹的前置条件)
- 实验表明,模型越大,patches越小,效果越好
2-2 整体结构
参考b站up主ZOMI酱的画的Sora结构[5]。
这张图感觉相对完整准确了,这里补充几点可能的改动和补充。
- 在Conditioning阶段可能不是一帧对应一个文本,而可能是几帧十几帧对应一段文本描述
- 在编码成Spacetime latent patches的时候可能用到了ViViT[3]的时空编码方式
- 输入给Decoder的内容应该是去噪之后的patches序列,这里用patches描述比tokens更准确
3-影响
首当其冲当然是影视和短视频行业,之后可能会推出sora的迭代,生成的时间可能更长类比chatgpt不断增大的输入token,可能sora以后可以生成更多更长的patches。比单纯的视频生成更有价值的是这条道路能不能通向大家都神往的AGI。似乎至少出现了苗头~
3-1 世界模型[6]?
大家广泛讨论和关注的是sora到底是不是或者具不具备世界模型的特征。
简单来讲Sora 具有以下几项能力:
- 3D一致性。Sora可以生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中保持一致移动。可以认为它具有3D建模和3D生成的能力(可能还不够强,跟3D Gaussain[7]或者NeRF这种需要现实中的带位姿的图片来建模3D场景的能力还有一定细节差距)
- 长程一致性和物体永久性。对于视频生成系统来说,一个重要的挑战是在采样长视频时保持时间上的一致性。我们发现,Sora通常能够有效地建模短程和长程的依赖关系,尽管并非总是如此。例如,我们的模型可以在人、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样,它可以在一个样本中生成同一角色的多个镜头,并在整个视频中保持它们的外观。
- 与世界互动。Sora有时可以模拟对世界产生简单影响的动作。例如,画家可以在画布上留下持续存在的新笔触,或者一个人可以吃掉一个汉堡并留下咬痕。可以实现一定程度的物理交互,但是很多时候还是有幻觉或者不准确,但毕竟它竟然可以“实现“!这个能力简直是王炸,CG还需要复杂的光锥模拟、渲染么?还需要复杂的方程和绑定控制么?流体毛发的研究还有价值么?
- 模拟数字世界。Sora还能够模拟人工过程,一个例子是视频游戏。Sora可以同时使用基本策略控制Minecraft中的玩家,同时以高保真度渲染世界及其动态。通过提示Sora提到“Minecraft”的标题,可以激发这些能力。
很多大佬抨击深度学习不可解释性,可是这种解释性如果在模拟/生成的足够准确的情况下还有没有意义?(sora离足够准确还有一定的距离)
没有学过牛顿力学的人一样可以预测/知道物体自由落体的轨迹;没有学过压力和摩擦力的人一样能预测行驶中的自行车按住刹车的轨迹....对于模型或者机器的学习,是否一定要某个理论或者强制的条件约束?让它只依靠数据经验学习到底可不可行?
3-2 CV大一统?
Sora视频的生成能力同样可以扩展到2D和3D的生成,同样也影响诸如感知、理解等2D/3D任务,如果未来继续迭代变强,似乎能实现CV的大一统,并消灭CG。如果实现CV大一统,那么整个AI都在基于transformer的大力出奇迹的架构下实现了大一统。
参考
[1] https://openai.com/research/video-generation-models-as-world-simulators
[2] https://arxiv.org/abs/2010.11929
[3] abhttps://arxiv.org/pdf/2103.15691.pdf
[4] https://arxiv.org/abs/2212.09748
[5] https://www.bilibili.com/video/BV1Bx4y1k7BQ
[6] https://worldmodels.github.io/
[7] https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
# 技术解析报告
Sora 的出现是一个里程碑,对生成式 AI 的研究和发展产生了深远影响。本文将从建模、技术推演、语言指令跟随、提示工程、应用和局限性几个方面来解析Sora技术。
论文标题:Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
论文链接:https://arxiv.org/pdf/2402.17177.pdf
背景
在分析 Sora 之前,研究者首先盘点了视觉内容生成技术的沿袭。
在深度学习革命之前,传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。
如图 3 所示,在过去十年中,视觉类的生成模型经历了多样化的发展路线。
生成对抗网络(GAN)和变分自动编码器(VAE)的引入标志着一个重要的转折点,因为它在各种应用中都具有非凡的能力。随后的发展,如流模型和扩散模型,进一步增强了图像生成的细节和质量。人工智能生成内容(AIGC)技术的最新进展实现了内容创建的民主化,使用户能够通过简单的文本指令生成所需的内容。
在 BERT 和 GPT 成功将 Transformer 架构应用于 NLP 之后,研究人员尝试将其迁移到 CV 领域,比如 Transformer 架构与视觉组件相结合,使其能够应用于下游 CV 任务,包括 Vision Transformer (ViT) 和 Swin Transformer ,从而进一步发展了这一概念。在 Transformer 取得成功的同时,扩散模型也在图像和视频生成领域取得了长足进步。扩散模型为利用 U-Nets 将噪声转换成图像提供了一个数学上合理的框架,U-Nets 通过学习在每一步预测和减轻噪声来促进这一过程。
自 2021 年以来,能够解释人类指令的生成语言和视觉模型,即所谓的多模态模型,成为了人工智能领域的热门议题。
CLIP 是一种开创性的视觉语言模型,它将 Transformer 架构与视觉元素相结合,便于在大量文本和图像数据集上进行训练。通过从一开始就整合视觉和语言知识,CLIP 可以在多模态生成框架内充当图像编码器。
另一个值得注意的例子是 Stable Diffusion,它是一种多用途文本到图像人工智能模型,以其适应性和易用性而著称。它采用 Transformer 架构和潜在扩散技术来解码文本输入并生成各种风格的图像,进一步说明了多模态人工智能的进步。
ChatGPT 2022 年 11 月发布之后,2023 年出现了大量文本到图像的商业化产品,如 Stable Diffusion、Midjourney、DALL-E 3。这些工具能让用户通过简单的文字提示生成高分辨率和高质量的新图像,展示了人工智能在创意图像生成方面的潜力。
然而,由于视频的时间复杂性,从文本到图像到文本到视频的过渡具有挑战性。尽管工业界和学术界做出了许多努力,但大多数现有的视频生成工具,如 Pika 和 Gen-2 ,都仅限于生成几秒钟的短视频片段。
在这种情况下,Sora 是一项重大突破,类似于 ChatGPT 在 NLP 领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型,同时保持较高的视觉质量和引人注目的视觉连贯性,从第一帧到最后一帧都具有渐进感和视觉连贯性。
这是一个里程碑,对生成式 AI 的研究和发展产生了深远影响。
如图 2 所示,Sora 在准确解读和执行复杂的人类指令方面表现出非凡的能力。该模型可以生成包含多个角色的详细场景,这些角色在错综复杂的背景下执行特定的动作。研究人员认为,Sora 不仅能熟练处理用户生成的文本提示,还能辨别场景中各种元素之间复杂的相互作用。
此外,Sora 的进步还体现在它能够生成具有细微运动和交互描绘的扩展视频序列,克服了早期视频生成模型所特有的短片段和简单视觉渲染的限制。这种能力代表了人工智能驱动的创意工具的飞跃,使用户能够将文字叙述转换成丰富的视觉故事。
总之,这些进步显示了 Sora 作为世界模拟器的潜力,它可以提供对所描绘场景的物理和背景动态的细微洞察。
为了方便读者查阅视觉生成模型的最新进展,研究者在论文附录汇编了近期的代表性工作成果。
技术推演
Sora 的核心是一个预训练的扩散 Transformer。事实证明,Transformer 模型在许多自然语言任务中都具有可扩展性和有效性。与 GPT-4 等强大的大型语言模型(LLM)类似,Sora 可以解析文本并理解复杂的用户指令。为了提高视频生成的计算效率,Sora 采用了时空潜在 patch 作为其构建模块。
具体来说,Sora 会将原始输入视频压缩为潜在时空表示。然后,从压缩视频中提取一系列潜在时空 patch,以囊括短暂时间间隔内的视觉外观和运动动态。这些片段类似于语言模型中的词 token,为 Sora 提供了详细的视觉短语,可用于构建视频。Sora 的文本到视频生成由扩散 Transformer 模型完成。从充满视觉噪音的帧开始,该模型会对图像进行迭代去噪,并根据提供的文本提示引入特定细节。本质上讲,生成的视频是通过多步完善过程产生的,每一步都会对视频进行完善,使其更加符合所需的内容和质量。
如图 4 所示,Sora 的核心本质是一个具有灵活采样维度的扩散 Transformer。它由三部分组成:(1)时空压缩器首先将原始视频映射到潜在空间。(2) 然后,ViT 处理 token 化的潜在表示,并输出去噪潜在表示。(3) 类似 CLIP 的调节机制接收 LLM 增强的用户指令和潜在的视觉提示,引导扩散模型生成风格化或主题化的视频。经过许多去噪步骤后,生成视频的潜在表示被获取,然后通过相应的解码器映射回像素空间。
在本节中,研究者对 Sora 所使用的技术进行了逆向工程,并讨论了一系列相关工作。
数据预处理
Sora 的一个显著特征是它能够训练、理解和生成原始尺寸的视频和图像,如图 5 所示。而传统方法通常会调整视频大小、裁剪或调整视频的长宽比以适应统一的视频和图像。利用扩散 Transformer 架构,Sora 是第一个拥抱视觉数据多样性的模型,可以以多种视频和图像格式进行采样,范围从宽屏 1920x1080p 视频到垂直 1080x1920p 视频以及介于两者之间的视频,而不影响其原始尺寸。
如图 6 所示,Sora 生成的视频能够更好的展现主题,从而确保在场景中完全捕捉到拍摄对象,而其他视频有时会导致视图被截断或裁剪,导致拍摄对象脱离画面。
统一视觉表示。为了有效处理不同持续时间、分辨率和高宽比的图像和视频,关键在于将所有形式的视觉数据转换为统一表示。
Sora 处理的过程是这样的:首先将视频压缩到低维潜在空间,然后将表示分解为时空 patch 来对视频进行 patch 化(patchifies)。但是回看 Sora 技术报告,他们仅仅提出了一个高层次的想法,这给研究界的复现带来了挑战。在接下来的章节中,本文尝试对 Sora 的技术路径进行逆向工程,并且借鉴现有文献,讨论可以复现 Sora 的可行替代方案。
首先是视频压缩网络。Sora 的视频压缩网络(或视觉编码器)旨在降低输入数据(尤其是原始视频)的维度,并输出在时间和空间上压缩过的潜在表示,如图 7 所示。根据技术报告中的参考文献, Sora 压缩网络是基于 VAE 或 VQ-VAE 技术的。
然而,如果不像技术报告中对视频和图像调整大小和裁剪,那么 VAE 将任何大小的视觉数据映射到统一且固定大小的潜在空间挑战巨大。本文总结了两种不同的实现来解决这个问题:
空间 patch 压缩:涉及将视频帧转换为固定大小的 patch,类似于 ViT 和 MAE 中使用的方法(见图 8),然后将其编码到潜在空间中,这种方法对于适应不同分辨率和宽高比的视频特别有效。随后,将这些空间 token 按时间序列组织在一起,以创建时间 - 空间潜在表征。
时间 - 空间 patch 压缩:该技术旨在封装视频数据的空间和时间维度,从而提供全面的表示。该技术不仅仅分析静态帧,还考虑帧间的运动和变化,从而捕获视频的动态信息。3D 卷积的利用成为实现这种集成的一种简单而有效的方法。
图 9 描绘了不同视频压缩方式的比较。与空间 patch 压缩类似,使用具有预定卷积核参数(例如固定内核大小、步幅和输出通道)的时间 - 空间 patch 压缩会导致潜在空间维度也不同。为了缓解这一挑战,空间修补(spatial patchification)所采用的方法在这种情况下同样适用和有效。
总的来说,本文基于 VAE 或其变体如 VQ-VQE 逆向工程了两种 patch 级压缩方法,因为 patch 对处理不同类型的视频更加灵活。由于 Sora 旨在生成高保真视频,因此使用了较大尺寸的 patch 或内核尺寸以实现高效压缩。这里,本文期望使用固定大小的 patch,以简化操作、扩展性和训练稳定性。但也可以使用不同大小的 patch,以使整个帧或视频在潜在空间中的尺寸保持一致。然而,这可能导致位置编码无效,并且给解码器生成具有不同大小潜在 patch 的视频带来挑战。
压缩网络部分还有一个关键问题:在将 patch 送入扩散 Transformer 的输入层之前,如何处理潜在空间维度的变化(即不同视频类型的潜在特征块或 patch 的数量)。这里讨论了几种解决方案:
根据 Sora 的技术报告和相应的参考文献,patch n' pack(PNP)很可能是一种解决方案。如图 10 所示,PNP 将来自不同图像的多个 patch 打包在一个序列中。这种方法的灵感来源于自然语言处理中使用的样本打包,它通过丢弃 token 来实现对不同长度输入的高效训练。在这里,patch 化和 token 嵌入步骤需要在压缩网络中完成,但 Sora 可能会像 Diffusion Transformer(扩散 Transformer)那样,为 Transformer token 进一步 patch 化。
无论是否有第二轮修补,都需要解决两个问题:如何以紧凑的方式打包这些 token,以及如何控制哪些 token 应该被丢弃。
对于第一个问题,研究者采用了简单的「贪心」算法,即在第一个序列中添加足够剩余空间的样本。一旦没有样本可以容纳,序列就会被填充 token 填满,从而产生批处理操作所需的固定序列长度。这种简单的打包算法可能会导致大量填充,这取决于输入长度的分布情况。另一方面,可以控制采样的分辨率和帧数,通过调整序列长度和限制填充来确保高效打包。
对于第二个问题,直观的方法是丢弃相似的 token,或者像 PNP 一样,使用丢弃率调度器。不过,值得注意的是,三维一致性是 Sora 的优良特性之一。在训练过程中,丢弃 token 可能会忽略细粒度的细节。因此,研究者认为 OpenAI 很可能会使用超长的上下文窗口并打包视频中的所有 token,尽管这样做的计算成本很高,例如,多头注意力算子在序列长度上表现出二次成本。具体来说,一个长时间视频中的时空潜在 patch 可以打包到一个序列中,而多个短时间视频中的时空潜在 patch 则会串联到另一个序列中。
建模
- 图像 DiT
传统的扩散模型主要利用包含下采样和上采样块的卷积 U-Net 作为去噪网络骨干。然而,最近的研究表明,U-Net 架构对扩散模型的良好性能并非至关重要。
通过采用更灵活的 Transformer 架构,基于 Transformer 的扩散模型可以使用更多的训练数据和更大的模型参数。沿着这一思路,DiT 和 U-ViT 是第一批将视觉 Transformer 用于潜在扩散模型的作品。
与 ViT 一样,DiT 也采用了多头自注意力层和层范数和缩放层交错的逐点前馈网络。如图 11 所示,DiT 还通过 AdaLN 进行调节,并增加了一个用于零初始化的 MLP 层,将每个残差块初始化为一个恒等函数,从而大大稳定了训练过程。DiT 的可扩展性和灵活性得到了经验验证。
在 U-ViT 中,如图 11 所示,将包括时间、条件和噪声图像片段在内的所有输入都视为 token,并在浅层和深层 Transformer 层之间提出了长跳跃连接。结果表明,基于 CNN 的 U-Net 中的下采样和升采样算子并非总是必要的,U-ViT 在图像和文本到图像生成方面取得了破纪录的 FID 分数。
与掩蔽自编码器(MAE)一样,掩蔽扩散 Transformer(MDT)也在扩散过程中加入了掩码潜在模型,以明确增强图像合成中对象语义部分之间的上下文关系学习。
具体来说,如图 12 所示,MDT 在训练过程中使用边缘插值(side-interpolated)进行额外的掩蔽 token 重建任务,以提高训练效率,并学习强大的上下文感知位置嵌入进行推理。与 DiT 相比,MDT 实现了更好的性能和更快的学习速度。Hatamizadeh et al. 没有使用 AdaLN(即移位和缩放)进行时间条件建模,而是引入了 Diffusion Vision Transformers (DiffiT),它使用与时间相关的自注意力(TMSA)模块对采样时间步长内的动态去噪行为进行建模。此外,DiffiT 采用两种混合分层架构,分别在像素空间和潜在空间进行高效去噪,并在各种生成任务中取得了新的先进成果。总之,这些研究表明,利用视觉 Transformer 进行图像潜在扩散取得了可喜的成果,为面向其他模态的研究铺平了道路。
- 视频 DiT
在文本到图像(T2I)扩散模型的基础上,一些近期研究专注于发挥扩散 Transformer 在文本到视频(T2V)生成任务中的潜力。由于视频的时空特性,在视频领域应用 DiT 所面临的主要挑战是:i) 如何将视频从空间和时间上压缩到潜在空间,以实现高效去噪;ii) 如何将压缩潜在空间转换为 patch,并将其输入 Transformer ;iii) 如何处理长序列时空依赖性,并确保内容一致性。
这里将讨论基于 Transformer 的去噪网络架构(该架构旨在时空压缩的潜在空间中运行)下文详细回顾了 OpenAI Sora 技术报告参考文献列表中介绍的两项重要工作(Imagen Video 和 Video LDM)。
Imagen Video 是谷歌研究院开发的文本到视频生成系统,它利用级联扩散模型(由 7 个子模型组成,分别执行文本条件视频生成、空间超分辨率和时间超分辨率)将文本提示转化为高清视频。
如图 13 所示,首先,冻结的 T5 文本编码器会根据输入的文本提示生成上下文嵌入。这些嵌入对于将生成的视频与文本提示对齐至关重要,除了基础模型外,它们还被注入级联中的所有模型。随后,嵌入信息被注入基础模型,用于生成低分辨率视频,然后由级联扩散模型对其进行细化以提高分辨率。基础视频和超分辨率模型采用时空可分离的 3D U-Net 架构。该架构将时间注意力层和卷积层与空间对应层结合在一起,以有效捕捉帧间依赖关系。它采用 v 预测参数化来实现数值稳定性和条件增强,以促进跨模型的并行训练。
这一过程包括对图像和视频进行联合训练,将每幅图像视为一帧,以利用更大的数据集,并使用无分类器引导来提高提示保真度。渐进式蒸馏法用于简化采样过程,在保持感知质量的同时大大减少了计算负荷。将这些方法和技术相结合,Imagen Video 不仅能生成高保真视频,而且还具有出色的可控性,这体现在它能生成多样化的视频、文本动画和各种艺术风格的内容。
Blattmann et al. 建议将二维潜在扩散模型转化为视频潜在扩散模型(Video LDM)。为此,他们在 U-Net 主干网和 VAE 解码器的现有空间层中添加了一些临时时间层,以学习如何对齐单个帧。这些时间层在编码视频数据上进行训练,而空间层则保持固定,从而使模型能够利用大型图像数据集进行预训练。LDM 的解码器可进行微调,以实现像素空间的时间一致性和时间对齐扩散模型上采样器,从而提高空间分辨率。
为了生成超长视频,作者对模型进行了训练,以预测未来帧的上下文帧数,从而在采样过程中实现无分类器引导。为实现高时间分辨率,作者将视频合成过程分为关键帧生成和这些关键帧之间的插值。在级联 LDM 之后,使用 DM 将视频 LDM 输出进一步放大 4 倍,确保高空间分辨率的同时保持时间一致性。这种方法能以高效的计算方式生成全局一致的长视频。此外,作者还展示了将预先训练好的图像 LDM(如稳定扩散)转化为文本到视频模型的能力,只需训练时间对齐层,即可实现分辨率高达 1280 × 2048 的视频合成。
语言指令跟随
为了提高文本到视频模型遵循文本指令的能力,Sora 采用了与 DALL・E 3 类似的方法。
DALL・E 3 中的指令跟随是通过一种描述改进方法来解决的,其假设是模型所训练的文本 - 图像对的质量决定了最终文本 - 图像模型的性能。数据质量差,尤其是普遍存在的噪声数据和省略了大量视觉信息的简短标题,会导致许多问题,如忽略关键词和词序,以及误解用户意图等。描述改进方法通过为现有图像重新添加详细的描述性描述来解决这些问题。该方法首先训练图像描述器(视觉语言模型),以生成精确的描述性图像描述。然后,描述器生成的描述性图像描述将用于微调文本到图像模型。
具体来说,DALL・E 3 采用对比式描述器(CoCa),联合训练具有 CLIP 架构和语言模型目标的图像描述器。该图像描述器包含一个图像编码器、一个用于提取语言信息的单模态文本编码器和一个多模态文本解码器。它首先在单模态图像和文本嵌入之间采用对比损失,然后对多模态解码器的输出采用描述损失。由此产生的图像描述器将根据对图像的高度详细描述进行进一步微调,其中包括主要对象、周围环境、背景、文本、风格和色彩。通过这一步骤,图像描述器就能为图像生成详细的描述性描述。文本到图像模型的训练数据集由图像描述生成器生成的重新描述数据集和真实人工编写数据混合而成,以确保模型捕捉到用户输入。
这种图像描述改进方法带来了一个潜在问题:实际用户提示与训练数据中的描述性图像描述不匹配。DALL・E 3 通过上采样解决了这一问题,即使用 LLM 将简短的用户提示改写成详细而冗长的说明。这确保了模型在推理时接收到的文本输入与模型训练时的文本输入保持一致。
为了提高指令跟踪能力,Sora 采用了类似的描述改进方法。这种方法是通过首先训练一个能够为视频制作详细说明的视频描述器来实现的。然后,将该视频描述器应用于训练数据中的所有视频,生成高质量的(视频、描述性描述)对,用于微调 Sora,以提高其指令跟随能力。
Sora 的技术报告没有透露视频描述器是如何训练的细节。鉴于视频描述器是一个视频到文本的模型,因此有很多方法来构建它:
一种直接的方法是利用 CoCa 架构来制作视频描述,方法是获取视频的多个帧,并将每个帧输入图像编码器,即 VideoCoCa。VideoCoCa 以 CoCa 为基础,重新使用图像编码器预训练的权重,并将其独立应用于采样视频帧。由此产生的帧 token 嵌入会被扁平化,并连接成一长串视频表示。然后,生成式池化层和对比池化层会对这些扁平化的帧 token 进行处理,二者是用对比损失和描述损失联合训练的。
其他可用于构建视频描述的方法包括 mPLUG-2、GIT、FrozenBiLM 等。
最后,为确保用户提示与训练数据中的描述性描述格式一致,Sora 还执行了额外的提示扩展步骤,即使用 GPT-4V 将用户输入扩展为详细的描述性提示。
然而,Sora 训练描述器的数据收集过程尚不清楚,而且很可能需要大量人力,因为这可能需要对视频进行详细描述。此外,描述性视频描述可能会对视频的重要细节产生幻觉。本文作者认为,如何改进视频描述器值得进一步研究,这对提高文本到图像模型的指令跟踪能力至关重要。
提示工程
- 文本提示
文本提示工程对于指导文本视频模型制作出既具有视觉冲击力又能精确满足用户规格的视频至关重要。这就需要制作详细的描述来指导模型,以有效弥合人类创造力与人工智能执行能力之间的差距。
Sora 的提示涵盖了广泛的场景。近期的作品(如 VoP、Make-A-Video 和 Tune-A-Video)展示了提示工程如何利用模型的自然语言理解能力来解码复杂指令,并将其呈现为连贯、生动和高质量的视频叙事。
如图 15 所示,「一个时髦的女人走在霓虹灯闪烁的东京街头...... 」就是这样一个精心制作的文本提示,它确保 Sora 生成的视频与预期的视觉效果非常吻合。提示工程的质量取决于对词语的精心选择、所提供细节的具体性以及对其对模型输出影响的理解。例如,图 15 中的提示详细说明了动作、设置、角色出场,甚至是所期望的场景情绪和氛围。
- 图像提示
图像提示为即将生成的视频内容和其他元素(如人物、场景和情绪)提供了视觉锚点。此外,文字提示还可以指示模型将这些元素动画化,例如,添加动作、互动和叙事进展等层次,使静态图像栩栩如生。通过使用图像提示,Sora 可以利用视觉和文本信息将静态图像转换成动态的、由叙事驱动的视频。
图 16 展示了人工智能生成的视频:「一只头戴贝雷帽、身穿高领毛衣的柴犬」、「一个独特的怪物家族」、「一朵云组成了 SORA 一词」以及「冲浪者在一座历史悠久的大厅内驾驭潮汐」。这些例子展示了通过 DALL・E 生成的图像提示 Sora 可以实现哪些功能。
- 视频提示
视频提示也可用于视频生成。最近的研究(如 Moonshot 和 Fast-Vid2Vid)表明,好的视频提示需要「具体」而「灵活」。这样既能确保模型在特定目标(如特定物体和视觉主题的描绘)上获得明确的指导,又能在最终输出中允许富有想象力的变化。
例如,在视频扩展任务中,提示可以指定扩展的方向(时间向前或向后)和背景或主题。在图 17 (a) 中,视频提示指示 Sora 向后延伸一段视频,以探索导致原始起点的事件。如图 17(b)所示,在通过视频提示执行视频到视频的编辑时,模型需要清楚地了解所需的转换,例如改变视频的风格、场景或氛围,或改变灯光或情绪等微妙的方面。在图 17 (c) 中,提示指示 Sora 连接视频,同时确保视频中不同场景中的物体之间平滑过渡。
虽然以前关于提示工程的研究主要集中在 LLM 和 LVM 的文本和图像提示上,但预计研究者们对视频生成模型的视频提示的兴趣会越来越大。
应用
随着以 Sora 为代表的视频扩散模型技术取得突破,其在不同研究领域和行业的应用正在迅速加速。
本文作者指出,这项技术的影响远远超出了单纯的视频创作,为从自动内容生成到复杂决策过程的各种任务提供了变革潜力。
在论文的第四章中,全面探讨了视频扩散模型的当前应用,希望为实际部署方案提供一个广阔的视角(图 18):
- 提高模拟能力:对 Sora 进行大规模训练,是因为它能够出色地模拟物理世界的各个方面。尽管没有明确的三维建模,但 Sora 通过动态摄像机运动和远距离连贯性表现出三维一致性,包括物体持久性和模拟与世界的简单交互。此外,Sora 还能模拟类似 Minecraft 的数字环境,在保持视觉保真度的同时由基本策略控制,这一点非常有趣。这些新出现的能力表明,可扩展视频模型可以有效地创建人工智能模型,以模拟物理和数字世界的复杂性。
- 提高创造力:想象一下,通过文字勾勒出一个概念,无论是一个简单的物体还是一个完整的场景,都能在几秒钟内呈现出逼真或高度风格化的视频。Sora 可以加速设计过程,更快地探索和完善创意,从而大大提高艺术家、电影制作人和设计师的创造力。
- 推动教育创新:长期以来,视觉辅助工具一直是教育领域理解重要概念不可或缺的工具。有了 Sora,教育工作者可以轻松地将课堂计划从文字变成视频,吸引学生的注意力,提高学习效率。从科学模拟到历史剧,可能性是无限的。
- 增强可访问性:提高视觉领域的可访问性至关重要。Sora 通过将文字描述转换为可视内容,提供了一种创新的解决方案。这种功能使包括视觉障碍者在内的所有人都能积极参与内容创建,并以更有效的方式与他人互动。因此,它可以创造一个更具包容性的环境,让每个人都有机会通过视频表达自己的想法。
- 促进新兴应用:Sora 的应用领域非常广泛。例如,营销人员可以用它来制作针对特定受众描述的动态广告。游戏开发商可以利用它根据玩家的叙述生成定制的视觉效果甚至角色动作。
具体而言,以下几个行业将面临变革:
影视
传统上,创作电影是一个艰巨而昂贵的过程,往往需要数十年的努力、尖端的设备和大量的资金投入。先进视频生成技术的出现预示着电影制作进入了一个新时代,从简单的文本输入中自主生成电影的梦想正在成为现实。事实上,研究人员已经涉足电影生成领域,将视频生成模型扩展到电影创作中。
MovieFactory 应用扩散模型从 ChatGPT 制作的精心脚本中生成电影风格的视频,这是一个重大飞跃。在后续研究中,MobileVidFactory 只需用户提供简单的文本,就能自动生成垂直移动视频。Vlogger 则让用户可以制作长达一分钟的 Vlog。
Sora 能够毫不费力地生成引人入胜的电影内容,这是这些发展的缩影,标志着电影制作民主化的关键时刻。它们让人们看到了一个人人都能成为电影制作人的未来,大大降低了电影行业的准入门槛,并为电影制作引入了一个新的维度,将传统的故事讲述方式与人工智能驱动的创造力融为一体。这些技术的影响不仅仅是简单化。它们有望重塑电影制作的格局,使其在面对不断变化的观众喜好和发行渠道时,变得更加容易获得,用途更加广泛。
游戏
游戏产业一直在寻求突破逼真度和沉浸感界限的方法,但传统游戏开发往往受到预先渲染的环境和脚本事件的限制。通过扩散模型效果实时生成动态、高保真视频内容和逼真音效,有望克服现有的限制,为开发人员提供工具来创建不断变化的游戏环境,对玩家的行为和游戏事件做出有机的反应。这可能包括生成不断变化的天气条件、改变地貌,甚至即时创建全新的设置,从而使游戏世界更加身临其境、反应更加灵敏。一些方法还能从视频输入中合成逼真的冲击声,增强游戏音频体验。
将 Sora 集成到游戏领域后,就能创造出无与伦比的身临其境的体验,吸引并吸引玩家。游戏的开发、玩耍和体验方式都将得到创新,并为讲故事、互动和沉浸式体验带来新的可能性。
医疗
尽管具有生成能力,但视频扩散模型在理解和生成复杂视频序列方面表现出色,因此特别适用于识别人体内的动态异常,如早期细胞凋亡、皮肤病变进展和不规则人体运动,这对早期疾病检测和干预策略至关重要。此外,MedSegDiffV2 等模型利用 Transformer 的强大功能,以前所未有的精度分割医学影像,使临床医生能够在各种成像模式中精确定位感兴趣的区域,提高准确性。
将 Sora 集成到临床实践中,不仅有望完善诊断流程,还能根据精确的医学影像分析提供量身定制的治疗方案,实现患者护理的个性化。然而,这种技术整合也带来了一系列挑战,包括需要采取强有力的数据隐私措施和解决医疗保健中的伦理问题。
机器人
视频扩散模型目前在机器人技术中发挥着重要作用,它展示了一个新时代:机器人可以生成和解释复杂的视频序列,以增强感知和决策。这些模型释放了机器人的新能力,使它们能够与环境互动,以前所未有的复杂度和精确度执行任务。将网络规模扩散模型引入机器人学,展示了利用大规模模型增强机器人视觉和理解能力的潜力。潜在扩散模型被用于语言指导的视频预测,使机器人能够通过预测视频格式的行动结果来理解和执行任务。此外,视频扩散模型能够创建高度逼真的视频序列,创新性地解决了机器人研究依赖模拟环境的问题。这样就能为机器人生成多样化的训练场景,缓解真实世界数据匮乏所带来的限制。
将 Sora 等技术整合到机器人领域有望取得突破性发展。通过利用 Sora 的强大功能,未来的机器人技术将取得前所未有的进步,机器人可以无缝导航并与周围环境互动。
局限性
最后,研究者指出了 Sora 这项新技术存在的风险问题和局限性。
随着 ChatGPT 、GPT4-V 和 Sora 等复杂模型的快速发展,这些模型的能力得到了显著提高。这些发展为提高工作效率和推动技术进步做出了重大贡献。然而,这些进步也引发了人们对这些技术可能被滥用的担忧,包括假新闻的产生、隐私泄露和道德困境。因此,大模型的可信度问题引起了学术界和工业界的广泛关注,成为当下研究讨论的焦点。
虽然 Sora 的成就凸显了人工智能的重大进步,但挑战依然存在。在描绘复杂动作或捕捉微妙面部表情方面,该模型还有待改进。此外,减少生成内容中的偏见和防止有害的视觉输出等道德方面的考虑也强调了开发人员、研究人员和更广泛的社区负责任使用的重要性。确保 Sora 的输出始终安全、无偏见是一项主要挑战。
但伴随着视频生成领域的发展,学术界和工业界的研究团队都取得了长足的进步。文本到视频竞争模式的出现表明,Sora 可能很快就会成为动态生态系统的一部分。这种合作与竞争的环境促进了创新,从而提高了视频质量并开发了新的应用,有助于提高工人的工作效率,使人们的生活更具娱乐性。
#Copy-Paste
在2D视觉目标检测领域,由相似目标之间的重叠引起的拥挤是普遍存在的挑战。
文章地址:https://arxiv.org/pdf/2211.12110.pdf
研究者首先强调了拥挤问题的两个主要影响:1)IoU置信度相关干扰(ICD)和2)混淆重复数据消除(CDD)。然后,研究者从数据扩充的角度探索破解这些。
首先,针对拥挤的场景提出了一种特殊的复制粘贴方案。基于此操作,研究者首先设计了一种“共识学习”策略,以进一步抵抗ICD问题,然后发现粘贴过程自然地揭示了场景中目标的伪“深度”,这可能用于缓解CDD困境。这两种方法都源自对复制粘贴的神奇使用,无需额外的处理。
实验表明,在典型的拥挤检测任务中,新提出方法可以轻松地将最先进的检测器提高2%以上。此外,这项工作可以在拥挤场景中胜过现有的数据增强策略。
目标检测的任务已经被仔细研究了相当长的时间。在深度学习时代,近年来,已经提出了许多精心设计的方法,并将检测性能提高到了令人惊讶的高水平。尽管如此,仍然存在许多根本性问题没有得到根本解决。其中之一是“拥挤问题”,这通常表示属于同一类别的目标高度重叠在一起的现象。在几何方式中,基本困难源于2D空间的语义歧义。如下图所示,在我们的3D世界中,每个体素都有其“独特的语义”,并位于“特定目标”上。然而,投影到2D平面后,一个像素可能落在几个碰撞的对象上。在将概念从“像素”演变为“框”之后,拥挤场景中的语义模糊导致了重叠的概念。
为了探究这个问题的影响,研究者现在深入到检测范式的本质。通常,目标检测器读取图像并输出一组边界框,每个边界框与置信度分数相关。对于理想执行的检测器,得分值应反映预测框与GT的重叠程度。换句话说,这两个框之间的交集(IoU)应与置信度得分呈正相关。在下图中可视化了与IoU相关的得分的平均值和标准差后,结果表明,即使是像(Mask r-cnn)这样的现成检测器,这种正相关也会逐渐受到拥挤度增加的干扰。
这项实验研究清楚地表明了当前检测算法在面对超重重叠时的困难。我们将这种效应体现为IoU置信度相关干扰(ICD)。另一方面,典型的检测管道通常以重复数据消除模块结束,例如,广泛采用的非极大抑制(NMS)。由于前面提到的2D语义模糊,这些模块经常被严重重叠的预测所混淆,这导致在人群中严重缺失。我们将这种效果称为混乱的重复数据消除(CDD)。
Copy-Paste Augmentation:
Copy-Paste增强技术于2017年首次提出。通过从源图像中剪切目标块并粘贴到目标图像,可以轻松获取组合数量的合成训练数据,并显著提高检测/分割性能。这一惊人的魔力随后被后续作品所验证,并通过上下文改编进一步完善了该方法。Ghiasi等人声称只要训练足够,简单的Copy-Paste可以带来相当大的改进。他们的实验进一步表明了这种增强策略在实例级图像理解上的潜力。需要注意的是Copy-Paste的最初动机是使样本空间多样化,特别是对于稀有类别或缓解复杂的掩模标签。然而,研究者利用这种操作来精确地解决拥挤问题。尽管在以前的工作中有过简单的实践,但从未系统地设计和研究过这种策略在处理拥挤场景方面的实际效果。
Consensus Learning:
通过Copy-Paste工具包,使用专门的策略来抵抗ICD问题,从而增强检测器训练。考虑到上图所示的观察结果,预测分数的不稳定性来源于拥挤,一种新的解决方案是将拥挤环境中的一个目标的分数(被其他目标覆盖)与未覆盖时的分数对齐。由于Copy-Paste方法可以很容易地生成这种类型的目标对,其中两个相同的目标位于不同的环境中。下图说明了研究者的想法。
在前面的数据扩充之后,研究者选择了一组由其他目标覆盖的目标。然后,将与中的目标patch相同的目标patch重新粘贴到图像上,而不进行覆盖,从而构建另一组。在训练期间,强制执行每个目标的预测分数分布与其对应的保持一致。将这一过程称为共识学习,通过对每一对中的“达成共识”进行类比。具体来说,具体来说,让是与匹配的建议集,是匹配的建议集,首先计算每个目标得分的平均值和标准差:
Analyze the IoU-Confidence Disturbances:
现在,分析了方法在减轻上述ICD问题上的有效性。为了重新审视提出的原始动机,在下图中绘制了分数的标准差(STD)。
清楚地表明,用提出的Crowdedness-oriented Copy-Paste(CCP)训练的模型的 STDs明显低于基线模型(BL),并且通过提高拥挤程度(从图(a)到(d))。其次,虽然CCP和CCP+CL的曲线似乎没有明显的区别,但通过计算它们的平均std(图中的4个直方图),研究者发现后者的值实际上低于前者。
Alleviate the Confused De-Duplications:
增强策略有一个自然的副产品:对于粘贴的这些重叠目标,相对的“深度顺序”是先验的。换句话说,我们知道哪个在前面,哪个在后面。
基本上,2D空间中的歧义是由真实(3D)世界中缺少一维造成的。从这个角度来看,深度顺序可以被视为额外第三维度的一些薄弱知识,这有助于减轻模糊性。作为一种可行的实践,在这项工作中利用深度顺序信息来解决混淆的重复数据消除(CDD)问题。
引入一个名为“overlay depth”(OD)的变量,该变量描述了目标在视觉上被其他目标覆盖的程度。上图显示了计算OD的过程。首先假设一个目标的覆盖深度等于1.0,如果没有其他目标覆盖它。设是由目标覆盖的目标的区域,表示区域的大小。
实验及可视化
Results on CrowdHuman val set
OD prediction可视化
#CAMixerSR
本文提出了一种内容感知混合器(CAMixer),通过根据内容复杂度调整不同复杂度的神经操作符(自注意力和卷积),从而整合了模型加速和token混合设计策略。 2K/8K/轻量级/全景图像超分
文章链接:https://arxiv.org/pdf/2402.19289
开源地址:https:///icandle/CAMixerSR
为满足对大尺寸图像(2K-8K)超分辨率(SR)不断增长的需求,主流方法遵循两个独立的路径:
- 通过内容感知路线加速现有网络
- 通过token混合器改进设计更好的超分辨率网络。
尽管这些方法直接,但它们会遇到无法避免的缺陷(例如,不灵活的路线或非判别性处理),从而限制了进一步改善质量-复杂度权衡。为了消除这些缺点,本文将这些方案集成在一起,提出了内容感知混合器(CAMixer),它为简单的上下文分配卷积,为稀疏纹理提供额外的可变形窗口注意力。
具体而言,CAMixer使用可学习的预测器生成多个引导,包括用于窗口warping的偏移量,用于分类窗口的mask,以及用于赋予卷积动态属性的卷积注意力,这可以自适应地调节注意力以包含更多有用的纹理,并提高卷积的表示能力。进一步引入全局分类损失以提高预测器的准确性。通过简单地堆叠CAMixer,获得了CAMixerSR,它在大尺寸图像SR、轻量级SR和全景图像SR方面实现了卓越的性能。
先来看看效果图:
介绍
近年来,神经网络的研究显著提高了图像超分辨率(SR)的质量。然而,现有方法在生成视觉上令人愉悦的高分辨率(HR)图像的同时,在现实世界的应用中遭遇了密集的计算负担,特别是对于2K-8K分辨率的输入。为了减轻这种开销,许多加速框架和轻量级网络被引入用于实际的超分辨率应用。然而,这些方法是完全独立的,缺乏协作。
第一个策略,加速框架,基于这样一个观察:不同的图像区域需要不同的网络复杂性,这从变化的模型内容感知路线的角度解决了问题。如下图1中的中间图所示,它们将大输入图像分解为固定的块,并通过额外的分类网络将块分配给网络。ARM通过引入基于查找表的分类器和参数共享设计进一步发展了这一策略以提高效率。
尽管这些策略对所有神经网络都是通用的,但仍存在两个不可避免的缺陷。一是糟糕的分类和不灵活的分区。如图1所示,具有少量细节的窗口被错误地发送到简单模型。
另一个是有限的感受野。如下表2所示,将图像裁剪成块会限制感受野,从而影响性能。
第二个策略,轻量级模型设计,侧重于改进神经运算器(自注意力或卷积)和主干结构,以在有限的层内具有更强的特征表示能力,即利用更多的内部信息重构图像。例如,NGswin利用N-Gram自注意力来减少计算量并扩大感受野。IMDN引入了信息多重蒸馏以实现高效的块设计。尽管这些轻量级方法在720p/1080p图像上取得了令人印象深刻的效率,但它们很少用于更大的输入(2K-8K)。此外,这些方法忽略了不同内容可以被有区别地处理的内在特性。
本文首先整合了上述策略,其基础是得出的观察结论:不同特征区域需要不同级别的token混合器复杂性。如下表1所示,简单卷积(Conv)可以在简单块中与复杂卷积+自注意力(SA)表现类似。因此,这里提出了一个内容感知混合器(CAMixer),根据内容路线具有不同复杂性的token混合器。
如前面图1所示,CAMixer对于复杂的窗口使用复杂的自注意力(SA),对于简单的窗口使用简单的卷积。此外,为了解决ClassSR的局限性,引入了一个更复杂的预测器。这个预测器利用多种条件生成额外的有价值信息,从而增强CAMixer的分区准确性和表示效果。
基于CAMixer,构建了用于超分辨率任务的CAMixerSR。为了充分评估CAMixer的性能,进行了轻量级SR、大输入(2K-8K)SR和全方位图像SR的实验。如下图2所示,CAMixerSR在轻量级SR和加速框架上都取得了巨大的进步。
本文的贡献总结如下:
- 提出了一种内容感知混合器(CAMixer),整合了卷积和自注意力,可以通过将简单区域分配给卷积和复杂区域分配给自注意力,自适应地控制推理计算。
- 提出了一个强大的预测器,用于生成偏移、mask和简单的空间/通道注意力,调节CAMixer以更少的计算量捕获更长距离的相关性。
- 基于CAMixer,构建了CAMixerSR,展示了在三个具有挑战性的超分辨率任务上的最新质量-计算权衡:轻量级SR、大输入SR和全方位图像SR。
相关工作
超分辨率加速框架。随着为了获得更好的恢复质量而不断增加的复杂性,超分辨率模型的实际应用变得更加困难,特别是对于2K-8K超分辨率。近期的研究从不同的角度解决了这个问题。他们不是设计轻量级模型,而是使用内容感知路线动态地将裁剪后的块发送到具有不同复杂性的模型。ClassSR 利用了一个3类分类器来确定由复杂/中等/简单网络计算的子图像,这使得在8K数据集上为RCAN节省了50%的计算量。PathRestore学习选择特征路径以根据上下文调整FLOPs。
轻量级超分辨率。自从第一个使用卷积神经网络(ConvNet)进行超分辨率任务的作品SRCNN以来,为了更轻量级的推理,已经提出了许多减少复杂性的策略。早期的DRCN和DRRN尝试通过使用循环块来减少参数,但是遭受了密集的计算。为了减轻这个缺点,IDN和IMDN采用了高效的信息融合结构来减少参数和计算量。后来的ConvNet,如EFDN和RLFN进一步简化了信息蒸馏过程,并引入了重新参数化来在移动设备上实现实时推理。随着Transformer的快速发展,各种强大的token混合器,例如自注意力和大核卷积被引入到了轻量级超分辨率中。例如,SwinIR利用基于窗口的自注意力,MAN采用了大核卷积,这两种方法都取得了SOTA性能。尽管这些神经运算器能够捕获长距离的相关性,但它们耗费了大量计算。因此,本文将内容感知路线整合到token混合器设计中,该设计对于信息丰富的区域采用复杂的运算器,对于简单的区域采用简单的运算器。
方法
内容感知混合
CAMixer的概述如下图3所示。
复杂度分析。在下表3中理论比较了卷积、基于窗口的自注意力和CAMixer的复杂度。
网络架构
通过修改SwinIR-light来构建CAMixerSR。通常,CAMixerSR包括四个组件,其中三个来自SwinIR:浅层特征提取器、深层特征提取器、重构模块,以及额外的全局预测器模块。此外,用CAMixer替换了基于窗口的自注意力,并减少了block数。
再回顾下CAMixerSR的整体框架:
实验
实现细节
模型。遵循SwinIR和ELAN,构建了总体主干结构,其中包含20个CAMixer和FFN块。通道数量为60。自注意力的窗口大小为16,卷积分支由两个3×3深度可分离卷积实现。具体来说,手动设置γ = 1.0作为原始模型(基线),γ = 0.51作为CAMixer模型(目标)。在补充材料中提供了其他设置的更多结果。
测试。首先使用γ = 1.0的CAMixerSR-Original作为基准进行测试,这表示所有token都由自注意力和卷积处理。然后,验证了提出的CAMixerSR,使用γ = 0.5将部分token用于自注意力。对于轻量级SR,使用了五个常用的验证数据集:Set5、Set14、BSD100、Urban100和Manga109。对于大图像SR,利用Flickr2K(F2K)和DIV8K(Test2K、Test4K和Test8K)生成了测试数据集,与ClassSR相似。对于全景SR,在ODI-SR测试集和SUN360数据集上评估我们的模型。对于评估,使用PSNR和SSIM,并额外使用失真加权版本WS-PSNR和WS-SSIM用于ODI-SR。
消融研究
自注意力的影响。 首先,在下表4中比较了SA分支的窗口大小M。
窗口大小为32的模型约为窗口16的2倍,而在Urban100上提升了0.17dB。窗口大小为16的模型比窗口8的模型提升了0.23dB,但只增加了16G MAdds。此外,当将γ设置为0.5时,32×32窗口的性能下降比其他两个模型更大,因为较大的窗口难以分类。因此,我们使用16×16窗口来更好地权衡性能和计算。此外,在下图5中比较了不同的自注意力比率γ。对于轻量级SR和2K SR,计算量呈线性增长,而当γ < 0.5时,PSNR增长更快,但当γ > 0.5时增长较慢。因此,手动选择γ = 0.5,其中PSNR几乎与γ = 1.0相同,但SA的计算量减少了一半。
预测器组件的影响。与仅输出决策分数的简单分类器相比,提出的预测器生成了更多有用的指标(偏移和空间/通道注意力),以实现更好的划分和表示。在下表5中检查了这些额外的组件。删除其中任何一个都会导致巨大的性能下降。具体来说,偏移量带来了约0.05dB的增益,而卷积注意力则共同获得了约0.1dB的改进。
混合器mask m的影响。为了研究混合器mask将困难和简单token划分的偏好,在下图4中可视化了学习到的mask。
提出的预测器可以学习适当的mask,将复杂token(例如建筑物、船只和蜜蜂)分配给注意力分支,而将简单token(例如天空和花瓣)分配给卷积分支。在下图6中,进一步比较了不同比率γ下不同块的分区mask。
根据γ减少了SA的token数K,实际比率接近目标值。这明显满足了我们控制推理复杂性的目标。大多数块学习使用SA来处理复杂内容。有趣的是,它们关注语义上不同的上下文,例如,块7保留了植被,块14保留了边缘,块20保留了建筑物。此外,在下图4中,Cl说明了卷积的输出与注意力是不同的。因此,对于块1和17,它们使用SA来处理简单的窗口,以协调特征。
偏移量 ∆p 的影响。 在下表7中,验证了调整偏移标量 r 从0到16时的性能变化,以探索偏移量的有效性。
可以观察到,当 r = 8 时,模型性能最佳。相比之下,当 r 设为4或16时,模型性能略微改善,甚至下降。为了全面了解情况,在下图7中描述了偏移向量。r = 8的偏移量更为合理,因为最有效的偏移位于边缘区域,并提供了细粒度的划分。
输入条件的影响。在下表6中分析了输入条件(局部、全局和窗口)的影响。
由于我们的方法是内容感知的,对所有模型保持局部内容。去除全局/窗口条件会导致Urban100上的0.08dB降低。禁用它们两者会进一步降低PSNR至26.46dB,比初始模型低0.17dB。结果表明,多条件的组合可以提高预测器的准确性。
大图像超分辨率
按照ClassSR和ARM的方法,验证了CAMixerSR在2K-8K大图像超分辨率任务中的效率。与以往忽略轻量级模型的工作不同,我们还添加了IMDN 和SwinIR-light作为参考。所有模型都在相同的FLOPs限制下运行。
定量结果。在下表8中,实现了36/48/60通道的CAMixerSR-Small/Medium/Base。
总的来说,CAMixerSR明显优于其他方法。与经过ClassSR或ARM加速的经典SRResNet和RCAN相比,CAMixerSR-Original提供了类似或更好的恢复质量,但是轻了3.2×~11×。此外,CAMixer模型进一步节省了约25%的计算量。总体而言,CAMixerSR(765K/747M)可以与RCAN(15.6M/32.6G)竞争,用于2K-8K图像恢复。与轻量级模型SwinIR-light相比,CAMixerSR在FLOPs更少或PSNR更高的情况下,提供了0.14dB的PSNR改进,或者FLOPs减少了51%。
为了公平比较加速框架,即ClassSR和提出的内容感知混合,将ClassSR应用于CAMixerSR,使用三个类别。ClassSR有助于减少与内容感知相似的计算量,但在F2K上落后0.12dB。这种PSNR差距可能是由于较小的裁剪尺寸限制了有限的感受野,这是我们将在进一步研究中探索的问题。
我们还说明了ClassSR和CAMixer的两种潜在组合方式。“⊎ClassSR”表示将ClassSR应用于CAMixerSR-B,即使用相同的主干结构,但将γ = 0.25/0.3/0.5调整为ClassSR的三个分支。“⊎CAMixer”使用γ = 0.5的CAMixer作为ClassSR的三个分支,应用于CAMixerSR-S/M/B。正如预期的那样,前一种方法保持了更好的恢复质量,而后者减少了更多的计算量。总的来说,内容感知混合器是大图像任务的更好选择,并且可以与其他策略一起使用,毫无困难。
定性结果。在下图8中,展示了CAMixerSR与其他方法的视觉结果对比。CAMixerSR恢复的晶格内容明显更清晰,优于其他方法。此外,采用内容感知策略的CAMixerSR的性能下降要比ClassSR小。
轻量级SR
为了评估CAMixer的通用性,我们将提出的CAMixerSR与许多最先进的轻量级模型进行了比较,包括IMDN、LatticeNet、FDIWN、SwinIR-light 、ELAN-light、NGswin和DiVANet。下表9显示了量化比较结果。
总的来说,CAMixerSR在所有五个基准数据集上都取得了优越的恢复质量,参数适中且延迟较低。特别是,与最新的SwinIR-NG使用自注意力处理所有token的情况相比,CAMixerSR可以在节省18.4G的计算量的同时实现更好的性能。这些结果强烈表明,CAMixer不仅适用于输入图像较大且存在大量简单区域的情况,还适用于经典的SR任务。
全景图像SR
为了了解CAMixer在实际应用中处理大分辨率输入的效果,在全景图像(ODI)SR任务上测试了我们的CAMixerSR,该任务具有2K输出和复杂的失真。具体来说,我们将失真图作为预测器的额外条件。在下表10中,展示了我们的CAMixerSR与其他方法的定性比较。
CAMixerSR在几乎所有验证指标上都获得了更好的恢复质量。具体来说,与30倍大的EDSR相比,CAMixerSR在SUN 360基准上获得了0.26dB的改进。此外,CAMixerSR在不使用额外训练集的情况下,最多提高了OSRT-light的0.05dB/0.0028(WS-PSNR/WS-SSIM)。
结论
本文提出了一种内容感知混合器(CAMixer),通过根据内容复杂度调整不同复杂度的神经操作符(自注意力和卷积),从而整合了模型加速和token混合设计策略。特别是,简单的token通过卷积捕获,而复杂的token则通过可变形的自注意力进行额外处理。为了提高路线的准确性,我们引入了一个有效的预测器,利用丰富的输入条件生成多种有用的引导信息。基于CAMixer,构建了CAMixerSR,在三个SR任务中取得了显著的性能-计算量平衡。
#Sora不是传统物理模拟器?
从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
最近,OpenAI 的文生视频模型 Sora 爆火。除了能够输出高质量的视频之外,OpenAI 更是将 Sora 定义为一个「世界模拟器」(world simulators)。
当然,这一说法遭到了包括图灵奖得主 Yann LeCun 在内很多学者的反驳。LeCun 的观点是:仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。
近日,澳大利亚麦考瑞大学的哲学助理教授 Raphaël Millière 撰写了一篇长文,深入探讨了 Sora 究竟是不是「世界模拟器」。
作者回顾了 Sora 的功能、工作原理以及它模拟 3D 场景属性的意义,讨论了认知科学中直观物理学文献、机器学习中「世界模型」的多义(多种解释)概念以及图像生成模型的可解释性研究。
结论是:Sora 并没有运行传统意义上的模拟,尽管它可能在更有限的意义上表现出了视觉场景的物理属性。但是,行为证据不足以充分评估 Sora 是世界模拟器这一说法。最后,作者对视频生成模型在未来 AI 和机器人学中的地位,以及它们与认知科学中正在进行的辩论之间的潜在相关性进行了预测。
引言
今年 2 月 15 日,OpenAI 推出了 Sora,输入文本 prompts 来生成视频和图像。Sora 最长生成了 60 秒的短视频,不过该模型至今没有开放使用。在 Sora 技术报告中,OpenAI 将它称为「世界模拟器」,并解释了训练 Sora 的动机:
我们教 AI 理解和模拟运动中的物理世界,希望达成的目标是训练模型并让它们帮助人们解决需要真实世界交互的问题。
此外,OpenAI 对 Sora 理论意义的理解是这样的,「我们的结果表明,扩展视频生成模型对于构建物理世界的通用模拟器而言,是一条很有希望的发展路径。」
这些取自 OpenAI 博客和技术报告中的大胆言论,仅仅可以被看做是 PR 宣传,而不是学术论文,更不用说经过同行评议的研究了。当然,这不是我们第一次看到视频生成公司这样说了。比如视频生成领域顶级初创公司 Runway,它也有这样的声明:
所谓世界模型,即能够构建环境的内在表示并用它来模拟未来环境事件的 AI 系统。你可以将 Gen-2 等视频生成系统看作是非常早期和有限形式的通用世界模型。
除了 PR 之外,OpenAI、Runway 的这些言论提及了关于 SOTA 视频生成模型内在结构的真正有趣的问题。不过,像「世界模拟器」和「通用世界模型」这样的描述对于定义上述问题没有多大帮助。
因此,接下来,我将试图阐明这些神经网络拥有了模拟物理世界的内在模型到底意味着什么,以及我们是否有任何证据证明像 Sora 这类 AI 系统做到了如此。
视频生成领域进展
此前,视频生成技术实现了如下图所示的效果。这些短视频由名为 MoCoGAN-HD 的模型生成,出自 ICLR 2021 论文《A Good Image Generator Is What You Need for High-Resolution Video Synthesis》。作者将视频合成问题描述为在静态图像生成模型的潜在空间中发现轨迹,从而利用生成对抗网络中的解耦表示。
论文地址:https://arxiv.org/abs/2104.15069
然而,不到三年的时间,Sora 问世了,为视频生成领域树立了新的标准。Sora 的效果是这样的:
Sora 生成的视频首先看起来非常逼真,与真实视频几乎没有区别。如果从静帧的视角来看,高分辨率、纹理细节和构图都有助于实现这种前所未有的真实感。
此外,Sora 最令人印象深刻的是它的时间一致性。生成视频比生成静态图像的难点在于前者必须随时间推移保持连贯性,需要从一帧到下一帧地描述非常广泛的细节。这包括随时间推移连贯地匹配或修改场景元素(物体和角色)的属性,其中形状和纹理等静态属性通常保持不变,而运动和交互等动态属性根据物理定律变化。
同时相机运动带来了额外的挑战,场景及元素的 3D 几何和照明必须在旋转、倾斜、平移、缩放等情况下保持一致。这同样适用于场景过渡,如空间跳切。Sora 生成的视频满足了这些需求。
从以上动图,我们可以看到,尽管相机快速移动,但场景中的几何形状和主要元素保持一致。当然 Sora 远未达到完美, 视频背景中会出现怪异的画面。尽管如此,Sora 已经比竞争对手好得多了。自 MoCoGAN-HD 推出以来,我们在短短几年内确实取得了长足的进步。
Sora(可能的)工作原理
Sora 背后的技术原理是怎样的呢?Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。
- 论文地址:https://arxiv.org/pdf/2212.09748v2.pdf
- GitHub 地址:https:///facebookresearch/DiT
这篇论文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。当时,扩散模型在图像生成方面取得了惊人的成果,几乎所有这些模型都使用卷积 U-Net 作为主干。
因此,论文的目的是探究扩散模型中架构选择的意义,并为未来的生成模型研究提供经验基线。该研究表明,U-Net 归纳偏置对扩散模型的性能不是至关重要的,并且可以很容易地用标准设计(如 transformer)取代。
具体来说,研究者提出了一种基于 transformer 架构的新型扩散模型 DiT,并训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。
在 Sora 出现之前,DiT 架构已用于文本条件式图像和视频生成。OpenAI 自己的解决方案是「视频压缩网络」,这可能是一个适用于视频的 VAE。基本思想与原始 DiT 相同:
- 视频压缩网络将原始视频输入压缩为潜在的时空表示;
- 压缩后的视频变为「时空 patch」,并作为输入 token 馈入到扩散 Transformer 中;
- 在最后一个 Transformer 块之后,解码器模型(与视频压缩网络联合训练)将生成的潜在表示映射回像素空间。
据我所知,这就是 Sora 背后的技术要点。因此,很多人认为 Sora 的架构没有什么真正的突破之处,本质上可能是一个视频 DiT 模型。Sora 很大程度上是一项工程壮举,也是缩放能力的另一个证明。随着训练算力的增加,样本质量随之提高。正如大语言模型一样,某些功能会随着规模的扩展而出现。
当然,Sora 受益于其他一些技巧,比如 DALL-E 3 首创的重字幕技术。OpenAI 训练了一个高度描述性的字幕生成器模型,并用它为 Sora 训练集中的所有视频添加字幕。这增加了生成的视频对复杂文本的遵循性。此外,Sora 模型的所有用户提示也通过 GPT 模型进行增强。
与其他 OpenAI 的模型一样,Sora 的一大未知是它的训练数据。事实上,很多人猜测 Sora 部分根据合成数据(尤其是虚拟引擎 5 等视频游戏引擎的输出)进行训练,这将有意义地促使该模型学习不同的配置(不同角度、场景构图、相机运动路径等)。这或许可以部分解释为什么 Sora 的输出如此一致。
我们需要记住的最后一件事是:与标准潜在扩散模型一样,视频压缩网络编码器和解码器之间的扩散过程完全发生在潜在空间中,而不是像素空间。
模拟假设
每个人都同意 Sora 是一个令人印象深刻的模型。但除了生成逼真视频之外,Sora 还有更深层的属性吗?OpenAI 团队似乎这样认为,他们在技术报告中称,Sora 获得了规模化的「模拟能力」,并通过动态相机运动、遮挡、物体存继性和视频游戏模拟来实现场景一致性。
OpenAI 得出结论,这些功能表明了,视频模型的继续扩展是开发物理和数字世界,以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的路径。
我们可以将这一说法称为模拟假设,但该假设的问题在于它太模糊了。对于视频生成模型而言,模拟物理世界实际意味着什么?哪些证据可以支持这一说法?让我们一一来解答。
Sora 发布后,AI 领域的知名学者纷纷发表对模拟假设的看法。其中英伟达高级研究科学家 Jim Fan 将 Sora 描述为「数据驱动的物理引擎」,他的解释为 Sora 通过大量视频的梯度下降在神经参数中隐式地学习物理引擎。Sora 是一个可学习的模拟器或「世界模型」。
Sora 必须学习一些隐式的文本到 3D、3D 转换、光线追踪渲染和物理规则,以便尽可能准确地对视频像素进行建模。Sora 还必须学习游戏引擎的概念才能满足目标。
物理引擎术语有些令人困惑,尤其考虑到 Sora 可能是在虚拟引擎 5 的场景中接受训练的。我们首先需要澄清一点,即没有人(包括 Jim Fan)认真地暗示 Sora 在推理时确实有一个循环的物理引擎。换句话说,Sora 不会利用虚拟引擎的函数调用来生成视频。
这不仅仅因为我们完全不清楚它是如何工作的(资产、动画从哪里来),还因为 Sora 是一个 DiT 模型,而这些根本不是 DiT 的工作方式。
这里需要提一下,让神经网络调用物理引擎是以前尝试过的事情,但不是为了视频生成,而是为了物理推理。
此前,Ruibo Liu 等人(谷歌大脑团队、达特茅斯学院)在 2023 年发表的一篇论文《Mind's Eye: Grounded Language Model Reasoning through Simulation》中增强了一种语言模型,通过使用物理引擎(DeepMind 的 MuJoCo)模拟可能的结果,来提高在物理推理问题上的性能,并使用这些模拟的结果作为 prompt 中的提示。
论文地址:https://openreview.net/forum?id=4rXMRuoJlai
此外,MIT 的 Josh Tenenbaum 实验室对这一工作进行了探索,使用语言模型将自然语言查询转换成概率编程语言中的代码表达式。为了能够对语言中描述的物理现象进行推理,Lionel Wong 及其同事将一个物理模拟引擎集成到了这个框架中。
他们在概率生成程序中添加了一个 Simulate_physicals 函数,该函数采用指定对象属性(如位置和速度)的初始符号场景状态,并返回场景属性,这些属性在物理、建模运动和碰撞情况的基础上随时间更新。此外通过将物理模拟添加为函数调用,语言描述可以转换为查询,并对描述的物理情况如何随时间推移发挥作用进行推理。
论文地址:https://arxiv.org/pdf/2306.12672.pdf
这显然与 Sora 的做法相差甚远,Sora 是一个端到端的神经网络,而不是一个神经符号系统。那么,我们该如何理解 Sora 类似于模拟物理世界的「数据驱动的物理引擎」这一说法,来自谷歌 DeepMind 的高级 AI 总监 Nando de Freitas 表示,有限大小的神经网络在任何情况下可以预测接下来会发生什么的唯一方法是:学习促进此类预测的内部模型,包括直观的物理定律。
看来我们越来越接近模拟假设的明确定义了:在拥有有限参数集的端到端神经网络架构之上的足够好的视频生成模型,在训练中应该能够获得物理世界的内部模型。这是这类神经网络生成任意场景中的一致和逼真视频的最有效方法,也可能是唯一方法。
那么,Sora 是否真的从 2D 视频中归纳出物理定律呢?如前所述,这看起来可能就很荒谬。比如 Sora 会以某种方式获得热力学定律的内部模型,这似乎令人难以置信。游戏引擎通常也不模拟这些法则, 它们可能会模拟热效应(火灾、爆炸)和功(如物体克服摩擦移动),但这些模拟通常是高度抽象的,并不严格遵守热力学方程。并且游戏引擎也根本不需要这样做,它们的重点是渲染场景的视觉和交互可信度,而不是严格的物理准确性。
Sora 会做类似的事情吗?在回答这个问题之前,我们需要谈一谈直观物理学。
直观物理学
什么是直观物理学呢?对于人类而言,不仅仅是受过训练的物理学家,还包括外行甚至是婴儿,这些人都对物理世界有直观的理解。这就是认知科学家称为直观物理学的东西:一种快速、自动的日常推理,让人们知道各种物体相互作用时会发生什么,不需要有意识地思考物理计算。
研究表明,婴儿已经对物理世界的各个方面产生了稳定预期认知,包括物体持久性(即使看不见也知道物体的存在)、坚固性(物体不会相互洞穿)以及内聚力(物体是一起移动的连接整体)。即使在很小的时候,婴儿似乎也期待物体遵守某些物理原则,并将这些期望推广到新的物体,而不是必须单独学习每个特定物体的独特性。这是我们与生俱来的「核心知识」的一部分,而不是发展过程中学到的东西。
总之,人类很小的时候就非常善于理解物理世界及规则,无论与生俱来、还是后天习得,或者二者兼而有之。
如何做到的呢?认知科学中有一个重要假设:人们使用直观物理引擎(intuitive physics engine,IPE)在心理上模拟物理事件。该引擎近似现实中的物理动力学,并类似于计算机游戏中的物理引擎。
当我们观察物理场景时,可以根据嘈杂的感知证据来构建对物体、属性和作用力的心理表征,然后运行内部模拟来预测接下来发生什么。
图源:https://cicl.stanford.edu/papers/smith2023probabilistic.pdf
更准确的说,IPE 是一种生成因果模型,通过对不精确但大致准确的物理原理的随机模拟,将不可观测的物理变量和不确定性映射成可观测的物理现象。IPE 表示物理场景中物体的潜在物理变量(如质量、摩擦力、弹性)。这些变量不能直接观察到,但控制了物体在场景中的行为方式。
这里只关注对 IPE 假说的一个反对意见,它与视频生成模型的争论尤其相关。一些研究人员认为,人们对物理场景的判断有时仅取决于表面的视觉特征,而不是底层的物理特征。比如仅在静态图像上训练的 ResNet-50 等深度神经网络可以判断积木塔的稳定性,其表现可与成年人媲美。此外,人们被发现依赖积木塔的外观,而不是摩擦等物理约束,儿童则完全忽视形状。
IPE 假说支持者的普遍反应是,依赖启发式的证据可以简单地解释为限制 IPE 模拟的边界条件和机制。没有任何模型会声称自己可以无限制地使用物理模拟来处理所有抽象推理,近似是不可避免的。
因此我认为底线是:至少对于人类而言,人们很容易通过假设 IPE 的存在来解释直观的物理推理,而该 IPE 使用近似原理对物理场景进行概率心理模拟。这一假设仍然存在争议,并且有支持和反对的证据。但是,模拟假设至少有一个相对合理且经过深思熟虑的案例,还有丰富的实验文献支持。有了这些背景,接下来我们谈谈世界模型。
世界模型
「世界模型」一词是技术术语之一,其含义已被逐渐淡化,以致在实践中变得难以描述。
2018 年,Ha David、Schmidhuber Jürgen 合作撰写了一篇名为《World Models》的论文,在这篇文章中,世界模型包含一个感知组件,用于处理原始观察并将其压缩为紧凑编码。
Ha 和 Schmidhuber 关于世界模型的研究影响了后来许多作品。
我们以最近的研究来举例,几天前,Google DeepMind 推出了参数为 110 亿的基础世界模型 Genie,可以通过单张图像提示生成可玩的交互式环境。在如下动图中,谷歌先使用 Imagen2 生成图像,再使用 Genie 将它们变为动态方式:
另一位推崇世界模型的是 Yann LeCun,曾经提出了一种名为 JEPA(联合嵌入预测架构)的框架,在这一框架下,世界模型是一个内部预测模型,描述世界如何运作:
除此以外,在 Sora 模型发布的当天,Meta 推出了一个全新的无监督「视频预测模型」——V-JEPA,与 JEPA 一脉相承。
V-JEPA 和 Sora 之间的主要区别之一是它们各自的学习目标,以及这些目标可能对其潜在表示产生的下游影响。Sora 接受了像素空间中帧重建的训练,而 V-JEPA 接受了潜在空间中特征预测的训练。在 LeCun 看来,像素级生成目标不足以引发对世界中的规划和行动有用的抽象表示。
综合来看,人们对世界模型的理解略有不同。在强化学习(RL)中,世界模型主要关注以智能体为中心的预测,以及基于智能体行为对环境状态的模拟。在 Yann LeCun 对自主机器智能的构想中,世界模型同样关注以智能体为中心的预测,不过这里的预测是通过自监督在潜在空间中学习得到的。无论是生成模型、RL 模型还是 JEPA 模型,它们都没有达到因果推理文献中对世界模型强大因果概念的高标准。至于像 Sora 这样的视频生成模型,我们可以通过观察图像生成模型来寻找线索。
再看 Sora
与用于图像生成的潜在扩散模型一样,Sora 是根据视觉输入进行端到端训练的。训练和生成都不是明确地以物理变量为条件的。Sora 从根本上不同于使用物理引擎来运行模拟的复合模型。此外,Sora 在感知、预测和决策模块之间没有内置分离。
除此以外,Sora 与 Ha & Schmidhuber 的世界模型也有很大不同,它不会基于离散行为、观察和奖励信号的历史来运行模拟。在这方面,OpenAI 的技术报告在讨论通过提示生成视频示例时提到了《我的世界》(Minecraft),这有点误导。
Sora 可能模拟了离线强化学习中的智能体策略,但与 Genie 不同,Sora 没有接受过从视频中诱发潜在动作的训练,并且输出也不以此类动作为条件。
通过提示 Sora 生成的视频
然而,我们不能排除这样一个假设,Sora 是一个世界模拟器 —— 或者,稍微不那么夸张,在较弱意义上,它是一个世界模型。
然而这种观点受到了包括 LeCun、Gary Marcus 等在内的多位 AI 大佬的反对,这些批评者指出,Sora 生成的视频中公然违反了物理原理。不过 OpenAI 承认了这些局限,并提供了一些失败示例。例如,在下面示例中,人们可以看到明显的时空不一致,包括生成的视频违反重力、碰撞动力学、坚固性和物体持久性。
Sora 成的视频违反重力和碰撞物理学
Sora 生成的视频中椅子自己飘起来了
这种视频的不一致性让我们感到不可思议,确实,示例中发生了一些奇怪的事情,如液体流过玻璃,椅子变成奇怪的形状,人在被遮挡时突然消失。
事实上,Sora 输出的结果很明显会在直观物理上出错。如果非要说 Sora 是一个较弱意义上的世界模型,那么它肯定不是一个完美的模型,甚至在各个方面都不完整。
与用于生成图像的潜在扩散模型一样,Sora 生成视频的过程并不发生在像素空间中,而是发生在潜在空间中 —— 时空 patch 潜在表示被编码的空间。
这一信息很重要,因为很多研究者认为 Sora 只是学习在逐帧像素变化中插入常见模式。Sora 架构中编码器和解码器之间发生的所有事情都发生在潜在空间中。对于 Sora 来说,直观物理相关的属性的潜在表示对于早期的生成过程(甚至在早期的扩散时间步长)具有因果效力,这并非难以置信。
结论
视频生成模型如 Sora 到底是不是世界模拟器,也许在某种意义上答案是肯定的。其视频生成过程不以直观物理的前向模拟为条件,而直观物理引擎可以做到这一点,但 Sora 有可能是由 3D 几何和动力学潜在表征塑造出来的。在后一种意义上,认为 Sora 是有限的世界模型是相当合理的。但这些都不能确定,我们需要用更多的方式探索 Sora。
在猜测的同时,我对视频生成模型的未来进行了一些预测。
我认为 Sora 不是一个特定意义上的模拟器,也许是一个功能更强大的视频生成模型。可以想象未来机器人系统会使用三个主要组件:(1)大规模视觉 - 语言模型,用于解析语言指令、翻译成规划并对视觉输入进行推理;(2)大规模视频生成模型,用于模拟未来可能的观察结果,以进行低级规划;(3) 通用可逆动力学模型,用于从这些模拟中提取合适的动作并相应地执行规划。也许(2)和(3)可以合并成一个通用的 Genie 风格的生成模型,或者三个模型都可以合并成一个巨大的 Gato 式多模态模型。
不管怎样,无论人们如何看待 Sora 和 OpenAI,思考视频生成背后的魔法都是令人兴奋 。
参考链接:https://artificialcognition.net/posts/video-generation-world-simulators/
#Open-Sora 1.0
全球首个开源的类Sora架构视频生成模型,来了!
整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。
这就是刚刚发布的Open-Sora 1.0。
它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。
还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。
自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。
短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。
那么问题来了,复现Sora如何实现?
Open-Sora 开源地址:https:///hpcaitech/Open-Sora
全面解读Sora复现方案
Sora复现方案包括四个方面:
- 模型架构设计
- 训练复现方案
- 数据预处理
- 高效训练优化策略
模型架构设计
模型采用了Sora同源架构Diffusion Transformer (DiT) 。
它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。
具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。
其中,STDiT 每层的结构如下图所示。
它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。
与全注意力机制相比,这样的结构大大降低了训练和推理开销。
与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。
整个模型的训练和推理流程如下。
据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。
在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。
训练复现方案
在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。
一共分为3个阶段:
- 大规模图像预训练;
- 大规模视频预训练;
- 高质量视频数据微调。
每个阶段都会基于前一个阶段的权重继续训练。
相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。
训练方案三阶段
第一阶段是大规模图像预训练。
团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。
同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。
这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。
第二阶段是大规模视频预训练。
这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。
它需要使用大量视频数据训练,并且保障视频素材的多样性。
同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。
Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。
第三阶段是高质量视频数据微调。
据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。
通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。
值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。
在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。
数据预处理
为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。
包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。
他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。
最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。
高效训练加持
除此之外,Colossal-AI团队还提供了训练加速方案。
通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。
同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。
而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。
和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。
最后,团队还放出了更多Open-Sora的生成效果。
团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。
实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。
感兴趣的开发者们,可访问GitHub项目了解更多~
Open-Sora 开源地址:https:///hpcaitech/Open-Sora
#再谈复现 Sora
2月16日,OpenAI 发布了视频生成领域的重磅模型 —— Sora。
Sora 对 Scaling Law 的信仰及其突破性的技术创新,使它持续保持领先地位。同时,也再次证明了“大力出奇迹”依然适用于文生视频领域。
Sora 披露的技术细节,远远不足以窥其全貌。同时 Sora 目前也未正式对外开放。源于此,针对 Sora 的思考和讨论从未停止过。
OpenAI 发布的技术报告
Sora 给整个 AI 领域带来的最大冲击,莫过于如何优化和校正现有的视频生成思路和框架。而由此也引发了持续至今的复现 Sora 的热潮。
复现 Sora 的动力,一方面来自技术人员的技术执着与技术理想,另一方面也来自于未来可预期的商业价值。
另外,不容忽视的是,这家持续被戏称为 CloseAI 的人工智能技术研究机构,已然成为了行业内的标杆,几乎每次发布的产品都能带来颠覆式的创新。但是 OpenAI 似乎在坚持闭源的道路上越走越远,这更加点燃了大众对复现 Sora 的激情。我们可以相信未来的几个月内,多个类 Sora 模型将会陆续发布,并将开源出来。
Sora 发布后的这一个多月来,其相关技术创新的讨论和复现的进度如何呢?下面我们一起来看看。
关于复现 Sora,本文从以下三方面展开:
- 距离 Sora 发布一个多月了,目前复现的进度如何?
- 复现的可能性有多大?国内有什么技术基础?
- Sora 到底是不是世界模型?能否帮助我们抵达 AGI?有没有必要复现?
类 Sora 模型
目前已经推出且讨论较多的三个模型分别是 Snap Video、Open-Sora 1.0,以及 Mora。
- Snap Video
Snap Video 是2月29日发布的类 Sora 模型,它使用到了可扩展的时空 Transformer,来自开发出 SnapChat 图片分享软件的 Snap 公司,以及特伦托大学等机构。
- Open-Sora 1.0
Open-Sora 1.0 是3月18日全面开源的首个类 Sora 模型,来自 Colossal-AI 团队,该开源模型涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重。
- Mora
Mora 是几天前由理海大学、微软研究院的研究者提出的多智能体框架,该框架整合了几种先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成能力。
尽管目前的模型复现效果依然无法企及 Sora,但是短短一月有余,已经有明显的技术突破出现,不失为一个乐观的信号。据不完全统计,国内已有近 10 支团队在复现 Sora,让我们拭目以待。
先于 DiT 的技术架构创新
Sora 使用的 DiT(Diffusion Transformer) 架构目前来看是其最大的技术创新,但追溯来看,也许国内相关的进度更早一些。
- U-ViT 架构
U-ViT 架构
2022年9月,清华团队提交的名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文,比 DiT 还要早 2 个月。该论文提出用基于 Transformer 的网络架构 U-ViT 替代基于 CNN 的 U-Net,这与 Sora 将 Transfomer 和扩散模型融合的思路不谋而合。
- VDT
2023年5月在 arXiv 网站上公开的 Video Diffusion Transformer (VDT),是由中国人民大学研究团队主导,并与加州大学伯克利分校、香港大学等进行合作的,基于 Transformer 的 Video 统一生成框架。对采用 Transformer 架构的原因也给出了详细的解释。
也许在核心技术的创新上,国内的探索并不落后,而是走在了前面。不过,囿于资源限制以及技术路线规划等其他原因,没能在之前实现类似 Sora 的效果。
Sora 无疑验证出了一条技术可行性的道路,而我们本身在技术架构上的领先探索,将更有利于我们复现出 Sora,甚至可以更加乐观地相信,在某些领域内超越 Sora 的效果。
Sora 是世界模型吗?
由 Sora 引发的另一个热点讨论,是关于世界模型的。
Sora 生成的视频无疑对物理世界有了一定了解,比如经典的“海盗船在咖啡杯里纠缠”,肉眼可见能涉及到专业的流体动力学、光线等物理世界的特征。
但是以 Yann LeCun 为代表的一部分科学家力证 Sora 的训练方式和世界模型没有关系。
那 Sora 是不是世界模型,到底懂不懂物理世界?关于这个讨论已经蔓延至各个论坛和直播中。可见对于究竟什么是世界模型这个话题,大家也是见仁见智的。
而我们能明确的是,如果 Sora 是世界模型,那通往通用人工智能(AGI)的理想,可能比我们预计的还要早到达。那复现 Sora 就有了一定的必要性。
关于 Sora,我们保持着好奇,并持续探求以下问题的可能答案。
- Sora 之前的视频生成架构/技术还能不能用?如何用?
- Sora 之后,谁是被遗忘的?谁又是被仰望的?
- Sora 之外,其他创业公司/团队要如何做?做什么?
- Sora 会改变主流的技术架构吗?以 DiT 为代表的架构是以后主流的架构选择吗?
- 国内技术力量应不应该复现 Sora?为什么?
- 已知有近 10 支团队在复现 Sora,我们可能看到的未来格局是什么?
- 为什么是 OpenAI? OpenAI 的模式能否复刻?
- Sora 之后,全球的视频生成格局是怎样的?又将如何发展和变化?
- 如何看待一些明星创业公司公开表示不做 Sora?
- 多模态大模型的未来在哪里?
- 不同视角下,如何看待 Sora 的冲击?(投资人、非技术人、央国企、AI 创业者、从业者等视角)
- OpenAI 扮演着什么样的社会角色?你如何看待这家公司?
- ……
#StoryDiffusion
LeCun上月球?南开、字节开源StoryDiffusion让多图漫画和长视频更连贯,有了 StoryDiffusion,更加一致性的图像和视频生成得到了保障。两天前,图灵奖得主 Yann LeCun 转载了「自己登上月球去探索」的长篇漫画,引起了网友的热议。
其实,产出这些漫画的研究出自南开大学、字节跳动等机构。在《StoryDiffusion:Consistent Self-Attention for long-range image and video generation》这篇论文中,该研究团队提出了一种名为 StoryDiffusion 的新方法,用于生成一致的图像和视频以讲述复杂故事。
- 论文地址:https://arxiv.org/pdf/2405.01434v1
- 项目主页:https://storydiffusion.github.io/
相关项目已经在 GitHub 上获得了 1k 的 Star 量。
GitHub 地址:https:///HVision-NKU/StoryDiffusion
根据项目演示,StoryDiffusion 可以生成各种风格的漫画,在讲述连贯故事的同时,保持了角色风格和服装的一致性。
StoryDiffusion 可以同时保持多个角色的身份,并在一系列图像中生成一致的角色。
此外,StoryDiffusion 还能够以生成的一致图像或用户输入的图像为条件,生成高质量的视频。
我们知道,对于基于扩散的生成模型来说,如何在一系列生成的图像中保持内容一致性,尤其是那些包含复杂主题和细节的图像,是一个重大挑战。
因此,该研究团队提出了一种新的自注意力计算方法,称为一致性自注意力(Consistent Self-Attention),通过在生成图像时建立批内图像之间的联系,以保持人物的一致性,无需训练即可生成主题一致的图像。
为了将这种方法扩展到长视频生成,该研究团队引入了语义运动预测器 (Semantic Motion Predictor),将图像编码到语义空间,预测语义空间中的运动,以生成视频。这比仅基于潜在空间的运动预测更加稳定。
然后进行框架整合,将一致性自注意力和语义运动预测器结合,可以生成一致的视频,讲述复杂的故事。相比现有方法,StoryDiffusion 可以生成更流畅、连贯的视频。
图 1: 通过该团队 StroyDiffusion 生成的图像和视频
方法概览
该研究团队的方法可以分为两个阶段,如图 2 和图 3 所示。
在第一阶段,StoryDiffusion 使用一致性自注意力(Consistent Self-Attention)以无训练的方式生成主题一致的图像。这些一致的图像可以直接用于讲故事,也可以作为第二阶段的输入。在第二阶段,StoryDiffusion 基于这些一致的图像创建一致的过渡视频。
图 2:StoryDiffusion 生成主题一致图像的流程概述
图3:生成转场视频以获得主题一致图像的方法。
无训练的一致图像生成
研究团队介绍了「如何以无训练的方式生成主题一致的图像」的方法。解决上述问题的关键在于如何保持一批图像中角色的一致性。这意味着在生成过程中,他们需要建立一批图像之间的联系。
在重新审视了扩散模型中不同注意力机制的作用之后,他们受到启发,探索利用自注意力来保持一批图像内图像的一致性,并提出了一致性自注意力(Consistent Self-Attention)。
研究团队将一致性自注意力插入到现有图像生成模型的 U-Net 架构中原有自注意力的位置,并重用原有的自注意力权重,以保持无需训练和即插即用的特性。
鉴于配对 tokens,研究团队的方法在一批图像上执行自注意力,促进不同图像特征之间的交互。这种类型的交互促使模型在生成过程中对角色、面部和服装的收敛。尽管一致性自注意力方法简单且无需训练,但它可以有效地生成主题一致的图像。
为了更清楚地说明,研究团队在算法 1 中展示了伪代码。
用于视频生成的语义运动预测器
研究团队提出了语义运动预测器(Semantic Motion Predictor),它将图像编码到图像语义空间中以捕获空间信息,从而实现从一个给定的起始帧和结束帧中进行更准确的运动预测。
更具体地说,在该团队所提出的语义运动预测器中,他们首先使用一个函数 E 来建立从 RGB 图像到图像语义空间向量的映射,对空间信息进行编码。
该团队并没有直接使用线性层作为函数 E,与之代替的是利用一个预训练的 CLIP 图像编码器作为函数 E,以利用其零样本(zero-shot)能力来提升性能。
使用函数 E,给定的起始帧 F_s 和结束帧 F_e 被压缩成图像语义空间向量 K_s 和 K_e。
实验结果
在生成主题一致图像方面,由于该团队的方法是无需训练且可即插即用的,所以他们在 Stable Diffusion XL 和 Stable Diffusion 1.5 两个版本上都实现了这一方法。为了与对比模型保持一致,他们在 Stable-XL 模型上使用相同的预训练权重进行比较。
针对生成一致性视频,研究者基于 Stable Diffusion 1.5 特化模型实现了他们的研究方法,并整合了一个预训练的时间模块以支持视频生成。所有的对比模型都采用了 7.5 classifier-free 指导得分和 50-step DDIM 采样。
一致性图像生成比较
该团队通过与两种最新的 ID 保存方法 ——IP-Adapter 和 Photo Maker—— 进行比较,评估了他们生成主题一致图像的方法。
为了测试性能,他们使用 GPT-4 生成了二十个角色指令和一百个活动指令,以描述特定的活动。
定性结果如图 4 所示:「StoryDiffusion 能够生成高度一致的图像。而其他方法,如 IP-Adapter 和 PhotoMaker,可能会产生服饰不一致或文本可控性降低的图像。」
图4: 与目前方法在一致性图像生成上的对比结果图
研究者们在表 1 中展示了定量比较的结果。该结果显示:「该团队的 StoryDiffusion 在两个定量指标上都取得了最佳性能,这表明该方法在保持角色特性的同时,还能够很好地符合提示描述,并显示出其稳健性。」
表 1: 一致性图像生成的定量对比结果
转场视频生成的对比
在转场视频生成方面,研究团队与两种最先进的方法 ——SparseCtrl 和 SEINE—— 进行了比较,以评估性能。
他们进行了转场视频生成的定性对比,并将结果展示在图 5 中。结果显示:「该团队的 StoryDiffusion 显著优于 SEINE 和 SparseCtrl,并且生成的转场视频既平滑又符合物理原理。」
图 5: 目前使用各种最先进方法的转场视频生成对比
他们还将该方法与 SEINE 和 SparseCtrl 进行了比较,并使用了包括 LPIPSfirst、LPIPS-frames、CLIPSIM-first 和 CLIPSIM-frames 在内的四个定量指标,如表 2 所示。
表 2: 与目前最先进转场视频生成模型的定量对比
#sam_road
SAM用于遥感影像中提取向量化的道路网络
题目:Segment Anything Model for Road Network Graph Extraction
会议:CVPR 2024 2nd Workshop on Scene Graphs and Graph Representation Learning
论文:http://arxiv.org/abs/2403.16051
代码:https:///htcr/sam_road
年份:2024
创新点
- SAM-Road 模型:发挥了SAM模型的能力,结合了语义分割和图神经网络。模型可以直接预测图的顶点和边,无需复杂的后处理启发式方法。
- 图形几何和拓扑预测:使用密集语义分割来预测图形的几何结构,并使用轻量级的基于Transformer的图神经网络来预测拓扑结构,从而实现准确和快速的预测。
- 效率和速度:在城市数据集上的处理速度比现有最先进的方法快 40 倍,同时不牺牲准确性,能够在几秒钟内构建跨越数平方公里的完整道路网络图。
数据
City-scale 数据集
- 数据集包含来自美国20个城市的180张卫星图像,其中29张图像用于测试。每张图像2048×2048像素,分辨率为1m,覆盖较大的城市区域。
- https://arxiv.org/abs/2007.09547
SpaceNet 数据集
- 数据集包含2549张卫星图像,其中382张图像用于测试,这些图像来自全球多个城市,如上海、拉斯维加斯等。每张图像400×400像素,分辨率为1m。
- https://arxiv.org/abs/1807.01232
方法
总体结构
SAM-Road 模型采用了一种新的方法来提取和构建大规模的矢量化道路网络图。SAM-Road 模型核心结构包括:基于预训练的 Segment Anything Model (SAM) 的图像编码器,几何解码器,以及基于Transformer的拓扑解码器。
图像编码器(Image Encoder)
图像编码器基于预训练的 Segment Anything Model(SAM),具体采用了 ViT-B 架构。这一架构适用于高分辨率图像,能够将输入的 RGB 卫星图像转换为特征映射,这些特征映射后续将用于道路和交叉点的几何及拓扑预测。在训练阶段,整个图像编码器会以较低的学习率进行微调。
几何解码器(Geometry Decoder)
几何解码器的任务是预测每个像素点的存在概率,即该点是否属于道路或交叉点。这一步骤是通过密集的语义分割来实现的,利用 SAM 的强大语义分割能力,几何解码器能够生成高质量的概率掩膜图。掩膜图中的每个像素值表示该位置存在道路的概率。然后,使用简单的非最大抑制(NMS)方法从这些概率掩膜中提取出图的顶点。
拓扑解码器(Topology Decoder)
拓扑解码器采用了基于Transformer的图神经网络架构,其主要功能是基于几何解码器提供的顶点,预测这些顶点之间是否存在连接(即图的边)。对于每个顶点,拓扑解码器考虑其周围一定半径内的邻近顶点,并基于顶点的相对位置和图像上下文预测它们之间的连接概率。这一预测是作为一个二分类问题处理的,每个顶点对的连接概率由一个 sigmoid 层输出。
标签生成和滑动窗口预测
标签生成:在训练阶段,使用地面真实的道路网络图来生成训练用的掩膜和拓扑标签。这包括将真实的道路网络渲染为掩膜图,并根据网络的连接情况生成拓扑标签。
滑动窗口预测:为了处理大区域的图像,SAM-Road 采用了滑动窗口的预测方式。模型在重叠的窗口上独立预测局部图结构,然后将这些局部预测融合成全局图。这种方法允许模型以并行方式快速处理大范围的图像,并在准确性和速度之间做出灵活的权衡。
精度
评价指标
- TOPO
TOPO 是一种专为道路网络图设计的评估指标。它通过在地面真实图中随机抽样候选顶点,然后在预测图中找到对应的顶点,比较从同一顶点出发在两个图中可达的子图的相似性。这种比较关注于几何精度,并对不正确的断开(即断开本应连接的顶点)给予重罚。TOPO 主要评估的是局部图结构的相似度,通过精度(Precision)、召回率(Recall)和 F1 分数来评估。 - APLS (Average Path Length Similarity)
APLS 是另一个评估道路网络图拓扑正确性的指标。它计算地面真实图中随机顶点对之间的最短路径长度与预测图中对应顶点对之间的最短路径长度的相似度。如果两个图中顶点对之间的路径长度接近,则表明拓扑正确性高。APLS 主要衡量的是图的长程拓扑和几何结构的相似性,较小的路径长度差异表示高的拓扑相似度。
与现有方法的对比
精度对比
速度对比
滑动窗口参数设置对精度和速度的影响
对比示意图
消融实验
消融实验讨论了预训练SAM的使用、Transformer的使用、顶点偏移、预测交叉点等部分的影响。
一些提取错误