文章目录
- GAN简介
- GAN的公式
- GAN的演进图谱
- DCGAN
- ImprovedGAN
- PACGAN
- WGAN
- CycleGAN
- Vid2Vid
- PGGAN
- StackGAN
- BigGAN
- StyleGAN
- 参考
GAN简介
- GAN最直接的应用在于数据的生成,也就是通过GAN的建模能力生成图像、语音、文字、视频等等。
- 目前,GAN最成功的应用领域主要是计算机视觉,包括图像、视频的生成,如图像翻译、图像上色、图像修复、视频生成等。
- 此外GAN在自然语言处理,人机交互领域也略有拓展和应用。
- 近期,GAN在娱乐方向的应用一直在不断增长,比如人脸表情迁移、肢体动作迁移、动漫化等等,皆为娱乐界提供了人工智能的助力。
GAN的公式
- G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。
- D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。
上图中的标记符号:
- Pdata(x) → 真实数据的分布
- X → pdata(x)的样本(真实图片)
- P(z) →生成器的分布
- Z → p(z)的样本(噪声)
- 在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。
而D的目标就是尽量把G生成的图片和真实的图片分别开来。
这样,G和D构成了一个动态的“博弈过程”。 - 最后博弈的结果是什么?
在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。
对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。
用公式表示如下:
整个式子由两项构成。
X表示真实图片,Z表示输入G网络的噪声,而G(z)表示G网络生成的图片。
D(x)表示D网络判断真实图片是否真实的概率(因为x就是真实的,所以对于D来说,这个值越接近1越好)。
而D(G(z))是D网络判断G生成的图片的是否真实的概率。
G的目的:上面提到过,D(G(z))是D网络判断G生成的图片是否真实的概率,G应该希望自己生成的图片“越接近真实越好”。也就是说,G希望D(G(z))尽可能得大,这时V(D, G)会变小。因此我们看到式子的最前面的记号是(min_G)。
D的目的:D的能力越强,D(x)应该越大,D(G(z))应该越小。这时V(D,G)会变大。因此式子对于D来说是求最大(max_D)。
GAN的演进图谱
DCGAN
- DCGAN主要讨论
CNN 与 GAN 如何结合使用
并给出了一系列建议。 - 由于卷积神经网络(Convolutional neural network, CNN)比MLP有更强的拟合与表达能力,并在判别式模型中取得了很大的成果。
- 因此,Alec等人将CNN引入生成器和判别器,称作深度卷积对抗神经网络(Deep Convolutional GAN, DCGAN)。
- 另外还讨论了 GAN 特征的可视化、潜在空间插值等问题。
ImprovedGAN
- Ian Goodfellow 等人提供了诸多
训练稳定 GAN
的建议。 - 包括特征匹配、mini-batch 识别、历史平均、单边标签平滑以及虚拟批标准化等技巧。
- 讨论了
GAN 不稳定性的最佳假设
。
PACGAN
- PACGAN讨论的是
如何分析 model collapse
,以及提出了 PAC 判别器的方法用于解决 model collapse。 - 思想其实就是
将判别器的输入改成多个样本
,这样判别器可以同时看到多个样本可以从一定程度上防止 model collapse。
WGAN
- WGAN从理论上分析了原始 GAN 模型存在的训练不稳定、生成器和判别器的 loss 无法只是训练进程、生成样本缺乏多样性等问题。
- 并通过改进算法流程针对性的给出了改进要点。
CycleGAN
- CycleGAN讨论
image2image 的转换
问题,提出了 Cycle consistency loss 来处理缺乏成对训练样本来做 image2image 的转换问题。 - Cycle Consistency Loss 背后的主要想法,图片 A 转化得到图片 B,再从图片 B 转换得到图片 A’,那么图片 A 和图片 A’应该是图一张图片。
Vid2Vid
- Vid2Vid通过在
生成器中加入光流约束
,判别器中加入光流信息
。 - 对前景和背景分别建模重点解决了视频转换过程中
前后帧图像的不一致性
问题。
PGGAN
- PGGAN创造性地提出了以一种
渐进增大(Progressive growing)
的方式训练 GAN,利用逐渐增大的 PGGAN 网络实现了效果令人惊叹的生成图像。 - “Progressive Growing” 指的是先训练 4x4 的网络,然后训练 8x8,不断增大,最终达到 1024x1024。这既加快了训练速度,又大大稳定了训练速度,并且生成的
图像质量非常高
。
StackGAN
- StackGAN是由
文本生成图像
,StackGAN 模型与 PGGAN 工作的原理很像。 - StackGAN 首先输出分辨率为 64×64 的图像,然后将其作为先验信息生成一个 256×256 分辨率的图像。
BigGAN
- BigGAN模型是基于 ImageNet
生成图像质量最高的模型之一
。 - 该模型很难在本地机器上实现,而且有许多组件,如 Self-Attention、 Spectral Normalization 和带有投影鉴别器的 cGAN 等。
StyleGAN
- StyleGAN应该是截至目前最
复杂的 GAN 模型
,该模型借鉴了一种称为自适应实例标准化 (AdaIN) 的机制来控制潜在空间向量 z。 - 虽然很难自己实现一个 StyleGAN,但是它提供了很多有趣的想法。