我们先把GAN(Generative Adversarial Networks)的paper放在这(arxiv:https://arxiv.org/abs/1406.2661),这篇paper是Ian Goodfellow大牛在2014年发表的,算是这个领域的开山鼻祖之篇了。

GAN的目的

 要使得生成的概率分布和真实数据的分布尽量接近,从而能够解释真实的数据。但是在实际应用中,我们完全没有办法知道真实数据的分布。我们所能够得到的只是从这个真实的数据分布中所采样得到的一些真实数据。

认识GAN

在 GAN 网络中,实际包含两个网络生成网络(generator ) 与判别器网络(discriminator)。生成网络主要用来学习真实图像分布从而让自身生成的图像更加真实,以骗过判别网络。判别网络则需要对接收的图片进行真假判别。在整个过程中,生成网络努力地让生成的图像更加真实,而判别网络则需努力地去识别出图像的真假,这个过程相当于一个二人博弈,随着时间的推移,生成器和判别器在不断地进行对抗,最终两个网络达到了一个动态均衡:生成器生成的图像接近于真实图像分布,而判别器识别不出真假图像,对于给定图像的预测为真的概率基本接近 0.5(相当于随机猜测类别)。如果我们把生成模型比作是一个伪装者的话,那么判别模型就是一个警察的角色。伪装者的目的,就是通过不断的学习来提高自己的伪装能力,从而使得自己提供的数据能够更好地欺骗这个判别模型。而判别模型则是通过不断的训练来提高自己判别的能力,能够更准确地判断数据来源究竟是哪里。

AN所建立的一个学习框架,实际上就是生成模型和判别模型之间的一个模仿游戏。生成模型的目的,就是要尽量去模仿、建模和学习真实数据的分布规律;而判别模型则是要判别自己所得到的一个输入数据,究竟是来自于真实的数据分布还是来自于一个生成模型。通过这两个内部模型之间不断的竞争,从而提高两个模型的生成能力和判别能力。

我们用论文中的数学公式去描述:

gan 生成对抗网络变体 gan实战生成对抗网络_生成模型

对以上的公式简单的分析:


从我们之前的分析就可以看出来,x表示真实图片,z表示输入G网络的噪声,而G(z)表示G网络生成的图片。

D(x)表示D网络判断真实图片是否真实的概率(因为x就是真实的,所以对于D来说,这个值越接近1越好)。而D(G(z))是D网络判断G生成的图片的是否真实的概率。

G的目的让D(G(z))是D网络判断G生成的图片是否真实的概率,G应该希望自己生成的图片“越接近真实越好”。也就是说,G希望D(G(z))尽可能得大,这时V(D, G)会变小。因此我们看到式子的最前面的记号是min_G。


D的目的对于D的能力越强,D(x)应该越大,D(G(x))应该越小。这时V(D,G)会变大。因此式子对于D来说是求最大(max_D)

GAN在训练的过程中采用的是一种交替优化的方式,第一阶段训练判别模型D尽量的最大化自己的判别准确率,第二阶段训练生成模型G尽量最小化判别准确率,两个阶段交替优化最终达到一种相对平衡的结果。

下图是摘自论文中训练过程图(从左到右依次是训练过程最终达到平衡结果):

gan 生成对抗网络变体 gan实战生成对抗网络_gan 生成对抗网络变体_02

GAN的应用

作为一个生成模型,GAN最直接的应用,就是用于真实数据分布的建模和生成,包括可以生成一些图像和视频,以及生成一些自然语句和音乐等。其次,因为内部对抗训练的机制,GAN可以解决一些传统的机器学习中所面临的数据不足的问题,因此可以应用在半监督学习、无监督学习、多视角、多任务学习的任务中。还有,就是最近有一些工作已经将进行成功应用在强化学习中,来提高强化学习的学习效率。因此GAN有着非常广泛的应用。

图像的超分辨率问题就是对于一个模糊的低分辨率的图像通过GAN某种程度的学习,可以得到一个比较好的高分辨的图像

待续。。。


https://www.leiphone.com/news/201701/Kq6FvnjgbKK8Lh8N.html