AGI是Artificial General Intelligence的缩写,中文应该是“通用人工智能”,是指一种能够像人类一样思考、学习和执行多种任务的人工智能系统。我觉得这个词就是为了有别于“特定领域人工智能”而创造出来的。

Sora_计算机视觉

Sora_数据_02

Sora

是一个视觉数据的通用模型——它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像,最长可达一分钟的高清视频。

具体点说就是:这帮大牛训练了一个网络,用于降低视觉数据的维度。许多专家认为其视频来源是Youtube。这个网络以原始视频为输入,输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间内接受训练,随后也在此空间内生成视频。他们还训练了一个相应的解码器模型,将生成的潜码映射回像素空间。

应该掌握四个关键词:潜码(latent code),时空块(spacetime patches),扩展 (scaling),通用模拟器 (general purpose simulators)。

OpenAI用一句话概括:“我们利用了一种在视频和图像潜码的时空块上操作的transformer架构”。

Sora能够适应宽屏1920x1080p视频、竖屏1080x1920视频以及它们之间的所有格式。这使得Sora能够直接以不同设备的原生宽高比创建内容。它还允许我们在使用相同模型以全分辨率生成之前,快速原型化较小尺寸的内容。

简单地说,OpenAI集大成了先前的技术,而其中的每一项技术,都有过论文介绍,OpenAI在前人及同行研究的基础之上,构建出Sora,一个非常重要的原因,是他们坚信数据-Transformer-扩展-涌现这一法则。下面是所有的参考论文及其为Sora所用之处:(最后)


Sota

Sota实际上就是State of the arts 的缩写,指的是在某一个领域做的Performance最好的model,一般就是指在一些benchmark的数据集上跑分非常高的那些模型。

SOTA model:并不是特指某个具体的模型,而是指在该项研究任务中,目前最好/最先进的模型。

SOTA result:指的是在该项研究任务中,目前最好的模型的结果/性能/表现。

非端到端模型

传统机器学习的流程往往由多个独立的模块组成,比如在一个典型的自然语言处理(Natural Language Processing)问题中,包括分词、词性标注、句法分析、语义分析等多个独立步骤,每个步骤是一个独立的任务,其结果的好坏会影响到下一步骤,从而影响整个训练的结果,这是非端到端的。

端到端模型

从输入端到输出端会得到一个预测结果,将预测结果和真实结果进行比较得到误差,将误差反向传播到网络的各个层之中,调整网络的权重和参数直到模型收敛或者达到预期的效果为止,中间所有的操作都包含在神经网络内部,不再分成多个模块处理。由原始数据输入,到结果输出,从输入端到输出端,中间的神经网络自成一体(也可以当做黑盒子看待),这是端到端的。

Benchmark、Baseline

Benchmark和baseline都是指最基础的比较对象。你论文的motivation来自于想超越现有的baseline/benchmark,你的实验数据都需要以baseline/benckmark为基准来判断是否有提高。唯一的区别就是baseline讲究一套方法,而benchmark更偏向于一个目前最高的指标,比如precision,recall等等可量化的指标。举个例子,NLP任务中BERT是目前的SOTA,你有idea可以超过BERT。那在论文中的实验部分你的方法需要比较的baseline就是BERT,而需要比较的benchmark就是BERT具体的各项指标。

迁移学习

迁移学习通俗来讲,就是运用已有的知识来学习新的知识,核心是找到已有知识和新知识之间的相似性,用成语来说就是举一反三。由于直接对目标域从头开始学习成本太高,我们故而转向运用已有的相关知识来辅助尽快地学习新知识。比如,已经会下中国象棋,就可以类比着来学习国际象棋;已经会编写Java程序,就可以类比着来学习C#;已经学会英语,就可以类比着来学习法语;等等。世间万事万物皆有共性,如何合理地找寻它们之间的相似性,进而利用这个桥梁来帮助学习新知识,是迁移学习的核心问题。

微调

微调其实讲的是利用原有模型参数(“知识”)初始化现有模型,在此基础上继续train自己的model(“再加工”)。说人话就是把现成的模型略加修改然后再作少量training,主要用于样本数量不足的情形。

进程、线程

一个进程包括多个线程。 不同进程之间数据很难共享。 同一个进程下的不同线程数据很容易共享。 进程比线程消耗更多计算机资源。 进程之间互不影响,但是一个进程挂掉,他所在的整个进程都会挂掉。 进程可以拓展到多机,适合多核与分布式。 进程使用的内存地址可以限定使用量。

监督学习

是使用足够多的带有label的数据集来训练模型,数据集中的每个样本都带有人工标注的label。通俗理解就是,模型在学习的过程中,“老师”指导模型应该向哪个方向学习或调整。

非监督学习

是指训练模型用的数据没有人工标注的标签信息,通俗理解就是在“没有老师指导”的情况下,靠“学生”自己通过不断地探索,对知识进行归纳和总结,尝试发现数据中的内在规律或特征,来对训练数据打标签。

半监督学习

是在只能获取少量的带label的数据,但是可以获取大量的的数据的情况下训练模型,让学习器不依赖于外界交互,自动地利用未标记样本来提升学习性能,半监督学习是监督学习和非监督学习的相结合的一种学习方法。

泛化(Generalization)

模型的泛化能力通俗易懂的说就是模型在测试集(其中的数据模型以前没有见过)中的表现,也就是模型举一反三的能力,但是这些数据必须满足与iid(独立同分布)并在同一个分布中。 举个例子:一张图片模型之前没有见过,但是这张图片与TrainDataSet在同一分布,并满足iid,模型可以很好的预测这张图,这就是模型的泛化,在测试集中,模型预测新数据的准确率越高,就可以说是模型的泛化能力越好。

正则化(Regularization)

正则化即为对学习算法的修改,旨在减少泛化误差而不是训练误差。正则化的策略包括:

约束和惩罚被设计为编码特定类型的先验知识。 偏好简单模型。 其他形式的正则化,如:集成的方法,即结合多个假说解释训练数据。

吞吐量

首先在书面解释时,速率是额定或标称的,但是实际传输时,其实不稳定的,吞吐量就是取平均值。假设你从学校骑电动车回家,这条公路限速80km/h,这就可以理解成“带宽”,也就是“最高传输速率”。所骑电动车厂家宣称最高时速30km/h,这可以理解成“速率”,也就是“额定速率或标称速率”。但是你不可能全程以30km/h速度行驶,可能会碰到红灯或者堵车,这时你的速度就会放慢了,这条路的长度除以你行驶时间所得平均行驶速度,就可以理解成“吞吐量”。

大模型

一般指1亿以上参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型也有了。大语言模型(Large Language Model,LLM)是针对语言的大模型。

指令微调 (Instruction FineTuning),

针对已经存在的预训练模型,给出额外的指令或者标注数据集来提升模型的性能,如P-tuning, prompt-tuning,prefix-tuning。

增量微调

是指在神经网络中增加额外的层,如lora,adapter。

175B、60B、540B 这些一般指参数的个数,B是Billion/十亿的意思,175B是1750亿参数,这是GPT3的参数规模。

强化学习 (Reinforcement Learning)

一种机器学习的方法,通过从外部获得激励来校正学习方向从而获得一种自适应的学习能力。

基于人工反馈的强化学习(RLHF)

(Reinforcement Learning from Human Feedback)构建人类反馈数据集,训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。

涌现

研究发现,模型规模达到一定阈值以上后,会在多步算术、大学考试、单词释义等场景的准确性显著提升,称为涌现

思维链

(Chain-of-Thought,CoT)。通过让大语言模型(LLM)将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。需指出,针对复杂问题,LLM直接给出错误答案的概率比较高。思维链可以看成是一种指令微调。


最后

Srivastava, Nitish, Elman Mansimov, 和 Ruslan Salakhudinov. "使用LSTMs进行视频表示的无监督学习." 国际机器学习会议. PMLR, 2015.

Chiappa, Silvia, 等. "循环环境模拟器." arXiv预印本 arXiv:1704.02254 (2017).

Ha, David, 和 Jürgen Schmidhuber. "世界模型." arXiv预印本 arXiv:1803.10122 (2018).

(注:1-3,许多之前的研究已经通过各种方法研究了视频数据的生成模型,包括循环网络 )

Vondrick, Carl, Hamed Pirsiavash, 和 Antonio Torralba. "生成具有场景动态的视频." 神经信息处理系统进展 29 (2016).

Tulyakov, Sergey, 等. "MoCoGAN: 分解运动和内容以生成视频." IEEE计算机视觉和模式识别会议论文集. 2018.

Clark, Aidan, Jeff Donahue, 和 Karen Simonyan. "在复杂数据集上生成对抗视频." arXiv预印本 arXiv:1907.06571 (2019).

Brooks, Tim, 等. "生成动态场景的长视频." 神经信息处理系统会议进展 35 (2022): 31769-31781.

(注:4-7,生成对抗网络的方法与技术)

Yan, Wilson, 等. "VideoGPT: 使用VQ-VAE和transformers生成视频." arXiv预印本 arXiv:2104.10157 (2021).

Wu, Chenfei, 等. "Nüwa: 为创造神经视觉世界进行视觉合成预训练." 欧洲计算机视觉会议. 瑞士: 施普林格自然, 2022.

(注:8-9,自回归Transformer )

Ho, Jonathan, 等. "Imagen视频: 使用扩散模型生成高清视频." arXiv预印本 arXiv:2210.02303 (2022).

Blattmann, Andreas, 等. "对齐你的潜码: 使用潜在扩散模型合成高分辨率视频." IEEE/CVF计算机视觉和模式识别会议论文集. 2023.

Gupta, Agrim, 等. "使用扩散模型生成逼真视频." arXiv预印本 arXiv:2312.06662 (2023).

(注:10-12,扩散模型,如何逼真)

Vaswani, Ashish, 等. "注意力就是你所需要的一切." 神经信息处理系统进展 30 (2017).

Brown, Tom, 等. "语言模型是小样本学习者." 神经信息处理系统会议进展 33 (2020): 1877-1901.

(注:13-14 ,作者从大型语言模型中受到的启发是,通过对互联网级数据进行训练,可以获得通用能力。)

Dosovitskiy, Alexey, 等. "一幅图像值16x16个词: 大规模图像识别的transformers." arXiv预印本 arXiv:2010.11929 (2020).

Arnab, Anurag, 等. "Vivit: 视频视觉transformer." IEEE/CVF国际计算机视觉会议论文集. 2021.

He, Kaiming, 等. "掩码自动编码器是可扩展的视觉学习者." IEEE/CVF计算机视觉和模式识别会议论文集. 2022.

Dehghani, Mostafa, 等. "Patch n'Pack: NaViT, 适用于任何宽高比和分辨率的视觉transformer." arXiv预印本 arXiv:2307.06304 (2023).

(注:15-18,Transformer已经被证明在在计算机视觉中显示出非凡的扩展特征,能训练出适用于任何宽高比和分辨率的视频)

Rombach, Robin, 等. "使用潜在扩散模型合成高分辨率图像." IEEE/CVF计算机视觉和模式识别会议论文集. 2022.

(注:通过把视频压缩成为低维度的潜码空间,把视频转换为时空块 )

Kingma, Diederik P., 和 Max Welling. "自编码变分贝叶斯." arXiv预印本 arXiv:1312.6114 (2013).

(注:训练出一个能减少视觉维度数据的网络)

Sohl-Dickstein, Jascha, 等. "使用非平衡热力学的深度无监督学习." 国际机器学习会议. PMLR, 2015.

Ho, Jonathan, Ajay Jain, 和 Pieter Abbeel. "去噪扩散概率模型." 神经信息处理系统进展 33 (2020): 6840-6851.

Nichol, Alexander Quinn, 和 Prafulla Dhariwal. "改进的去噪扩散概率模型." 国际机器学习会议. PMLR, 2021.

Dhariwal, Prafulla, 和 Alexander Quinn Nichol. "扩散模型在图像合成上胜过GANs." 神经信息处理系统会议进展. 2021.

Karras, Tero, 等. "阐明基于扩散的生成模型的设计空间." 神经信息处理系统进展 35 (2022): 26565-26577.

(注:21-25, Sora是一个扩散模型,给定输入的噪声块(和条件信息,如文本提示),它被训练用于预测初始的“干净”块 )

Peebles, William, 和 Saining Xie. "用transformers扩展扩散模型." IEEE/CVF国际计算机视觉会议论文集. 2023.

(注:Sora是一个扩散Transformer)

Chen, Mark, 等. "像素的生成预训练." 国际机器学习会议. PMLR, 2020.

Ramesh, Aditya, 等. "零样本文本到图像生成." 国际机器学习会议. PMLR, 2021.

(注:27-28,Transformer在图像生成方面具有非凡的扩展特征)

Yu, Jiahui, 等. "扩展自回归模型以生成内容丰富的文生图." arXiv预印本 arXiv:2206.10789 2.3 (2022): 5.

Betker, James, 等. "用更好的图说改善图像生成." 计算机科学. https://cdn.openai.com/papers/dall-e-3.pdf 2.3 (2023): 8

(注:29-30,使用了Dall.E3的字幕和标题技术,用于视频)

Ramesh, Aditya, 等. "使用CLIP潜码的分层文本条件图像生成." arXiv预印本 arXiv:2204.06125 1.2 (2022): 3.

(注:30-31,用Dall.E2和Dall.E3图像生成视频)

Meng, Chenlin, 等. "Sdedit: 使用随机微分方程的引导图像合成和编辑." arXiv预印本 arXiv:2108.01073 (2021).