文献整理



 

题目

主要内容

 

 

 

 

 

 

 

 

 

 

 

 

 

 

GAN综述

【1】 「无中生有」计算机视觉探奇

(下)  

1. 1)超分辨率重建;2)图像着色;3)看图说话;4)人像复原;5)图像自动生成

2. 生成对抗网络博弈论中的零和博弈

3. 将GAN用深度卷积神经网络进行实现(称作,DCGAN, Deep Convolutional GAN)

基于生成式卷积网络的最新工作STGConvNet

自动合成动态纹理,声音

【2】LeCun:深度学习突破,对抗式网络最值得期待

1.     学习系统和因子图(基于能量的模型)相结合:“结构化预测”(structured prediction)

2.     深度学习局限:依赖于监督学习,人类标注。需要找到方法,训练大型神经网络从没有经过标注的“原始”数据中,找出现实世界的规律对抗训练

3.     生成对抗式网络,以及现在被提出的一些变体,是深度学习领域过去10年我认为最有意思的idea。

4.     它让我们可以训练一个鉴别器,作为一种非监督的“密度估计”(density estimator);这个鉴别器必须要发展出一个好的数据内部表征,鉴别器还可以被当成分类器中的一个特征提取器

5.     通过对抗性训练建立的生成/预测模型;

    无监督式的学习预测模型(例如视频预测):使超大规模神经网络不需要通过明确的人工注释数据,而只通过观看视频,阅读教材等,就能“学习世界如何运行”。

Ian Goodfellow】生成对抗式网络创始人Quora答疑

1.      对抗网络和对抗训练的联系和区别

ü  Christian Szegedy 发明了对抗训练(adversarial training )这种算法包括训练神经网络正确分类正常实例与「对抗实例(adversarial examples )」;《神经网络的有趣属性》( Intriguing properties of neural networks)描述了对抗训练。

ü  我发明了生成式对抗网络。生成式对抗网络是成对的网络,另一个是鉴别器网络,这篇论文没有使用术语「对抗训练」。

ü  我找到了一种更快生成对抗实例的方法,这就在对抗训练的每一步上让制造一小批新的对抗实例变得实际可行,而不是在每个阶段只能制造几个实例。《对抗实例的解释和巩固》 (Explaining and Harnessing Adversarial Examples),我们首次给它命名为「对抗训练」

ü  对抗训练的最初指代:以对抗实例训练的术语;

后来其他人开始使用对抗训练指代生成式对抗网络

我们可以将生成式对抗网络视作执行对抗训练,对抗训练中的生成器网络为鉴别器网络制造对抗实例

图像生成框架——GAN/VAE/PixelCNN/NICE

GAN优势:

ü  比其它模型产生了更好的样本。

ü  能训练任何一种生成器网络;生成对抗式网络能学习可以仅在与数据接近的细流形(thin manifold)上生成点。

ü  不需要设计遵循任何种类的因式分解的模型, 任何生成器网络和任何鉴别器都会有用。

3.      与其他生成式模型比较

ü  与 PixelRNN相比,生成一个样本的运行时间更小。

ü  与VAE相比,它没有变化的下限。如果鉴别器网络能完美适合,那么这个生成器网络会完美地恢复训练分布。换句话说,各种对抗式生成网络会渐进一致(asymptotically consistent),而 VAE 有一定偏置。

ü  与深度玻尔兹曼机相比,既没有一个变化的下限,也没有棘手的分区函数。它的样本可以一次性生成,而不是通过反复应用马尔可夫链运算器(Markov chain operator)。

ü  与GSN 相比,它的样本可以一次生成,而不是通过反复应用马尔可夫链运算器。

ü  与NICE 和 Real NVE 相比,在 latent code 的大小上没有限制。

完善GAN: 解决GAN不收敛(non-convergence)的问题:我们面临的基本问题是,所有的理论都认为 GAN 应该在纳什均衡(Nash equilibrium)上有卓越的表现,但梯度下降只有在凸函数的情况下才能保证实现纳什均衡。当博弈双方都由神经网络表示时,在没有实际达到均衡的情况下,让它们永远保持对自己策略的调整是可能的。???

我的兴趣在于,设计可以在高维、非凸连续博弈中实现纳什均衡( Nash equilibria)的算法

4.      深度无监督学习的未来

ü  怀疑:因为它会很难知道你要执行什么样的任务。

ü  深度无监督学习的未来将成为半监督的学习

Takeru Miyato 等人的虚拟对抗训练:

Distributional Smoothing with Virtual Adversarial Training

Virtual Adversarial Training for Semi-Supervised Text Classification

另外还有 Tim Salimans 的带有特征匹配的GAN的半监督学习:

Improved Techniques for Training GANs

5.     概率图模型的未来:不是相互排斥的

神经网络的大多数应用可以看作是使用神经网络提供一些条件概率分布的图模型。

很多新近的神经网络拥有简单的图结构( GANs, VAEs 和 NICE都是二分图( bipartite graph ),让每个潜变量与每个观察变量联系起来;PixelRNNs/MADE/NADE 都是完整的图,没有潜变量)。还不是非常结构化

6.      使用批量规范化(Batch Normalization)会不会削弱深度神经网络的性能

ü  表征能力并不会被影响,因为深度神经网络的规模和偏移量参数可以学习抵消规范化的影响,所以每一层都具有精确学会和以前一样的功能集的能力。

ü  有效容量(effective capacity)更为复杂。由批量规范化(Batch Normalization)引入的噪声具有一种正则化影响,但这可以通过优化工作得到极大的改善。

7.      我喜欢 dropout,因为从单一模型构建指数级大规模集合这种观点太美妙了。

ü  Dropout基本上是用于正则化(regularization)

它为神经网络引入噪声以迫使神经网络学会更好的归纳方法以便应付噪声(这种说法过于简化了,Dropout 远不止是在噪声下的稳健性)。

ü  批规范化基本上是用于改善优化(optimization)

    其有一个副作用:批规范化碰巧会向网络中引入一些噪声,所以它也可以在模型的正则化上做点贡献。

  当你有一个大型数据集时,较好的优化就很重要了,较好的正则化就没有那么重要;所以在大型数据集上,批规范化更重要。你当然也可以同时使用 Dropout 和批规范化——我在我的 GAN 中这么做过:Improved Techniques for Training GANs

我也认为二分权重的技巧在近似预测集合方面表现得如此好。

8.      解释为什么批规范化具有正则化效应(regularzing effect)

    Batch 形式(batch norm)在某种意义上类似于 dropout ,它在训练的每一步为每个隐藏单元乘上一个随机值。在这种情况下,该随机值是所有 minibatch 内隐藏单元的标准差。因为不同实例在每一步骤是针对minibatch 所包含的东西随机选择出来的,标准差也是随机浮动。

    Batch norm 也在每一步从隐藏单元减去了一个随机值( minibatch 的均值)。 这两种噪音的来源意味着每一层必须学会稳健处理输入的许多变量,就像 dropout 一样。

9.      基于模型的优化

将来(从现在到一个有限的时间范围),我们将能够使用优化算法搜索模型的输入,这种模型产生最优化的输

。因为你不能获得在真实世界中实际最优的输入。相反,你得到的是对抗实例,在模型世界里表现优异而在现实世界中却表现糟糕。

9. 生成式对抗网络( GAN)未来

常常用于构建世界模型的 GAN 现在用于强化学习/动作规划,关于生成机器人运动视频的论文「通过视频预测的针对物理交互的无监督式学习( Unsupervised Learning for Physical Interaction through Video Prediction )」

 

【4】Yoshua Bengio最新两场讲演:表征的深度监督学习与深度生成模型

http://www.idiap.ch/workshop/dltm/

 

1.     潜在收益:

ü   利用无数的无标记数据

ü   回答有关观察变量的新问题

ü   正则化矩阵-迁移学习-领域适应性

ü   更简单的优化(分而治之)

ü   联合(结构化的)输出

潜在因素和无监督表征学习——因果关系。隐藏变量帮助避免维度诅咒。

3.    自编码的 manifold 与概率解释

ü   依照归纳原则的降噪评分匹配

ü   能量函数梯度的评估

ü   通过马尔科夫链取样

ü   变分自编码

²  参数的近似推断

²  Helmholtz 机的继任者

²  在对数似然上最大化变分下界

GAN:生成式对抗网络

LAPGAN:生成式对抗网络的拉普拉斯金字塔

卷积 GANs

ALI:Adversarially Learned Inference(VAE & GAN)

神经自回归模型

    依据条件,对观察指导的模型联合进行分解

    逻辑自回归

 神经版本

6.    循环神经网络RNN:一个 RNN 网络能代表一个完全连接的直接生成式模型:每一个变量都能从之前全部的变量进行预测

7.    Pixel RNNs

ü   近似于 NADE 和 RNNs,但却是 2-D图像的

ü   惊人的锐利以及现实的生成

ü   准确得到纹理特征,但却不需要全局结构

【5】谷歌大脑团队在线答疑,Hinton 压缩神经网络进展

1.    深度学习最新领域

新技术(特别是生成模型)在增强人类创造性方面的潜力

所有关于无监督学习生成模型的近期工作【Bengio】

深度强化学习和针对学习策略的低样本复杂度算法

2. 重要但尚未被充分研究

对训练数据进行智能自动收集

元数据中的系统性问题

将神经网络视为对程序的参数化表示,而非视为参数化的函数逼近器

3.    ML算法所需学习的例子远远大于人类学习è数据利用率低;ML算法所需的数据量高度取决于它要完成的任务

【6】2016 ScaledML会议演讲合辑:谷歌Jeff Dean讲解TensorFlow &

IIya Sutskever :生成模型的近期进展

 

 

 

 

 

 

 

 

【7】IIya Sutskever :生成模型的近期进展

 

 

 

1.  什么是生成模型?

l  能学习你的数据分布

ü  分配高概率给它

ü  学习生成合理的结构

l  探索数据的「真实」结构

2.       传统的应用:好的生成模型一定会有以下功能:

结构化预测(例如,输出文本);更强大的预测; 检测异常;基于模型强化学习

3.       推测可以加以应用的领域

非常好的特征学习; 在强化学习中探索; 逆向强化学习; 真正实用的对话;「理解这个世界」; 迁移学习

4.       生成模型的三大类:

ü  变化的自动编码器(VAE)

ü  生成对抗式网络(GAN)

    一个生成器 G(z)和一个鉴别器 D(x)

鉴别器的目标是将真实的数据从生成器样本分离出来

生成器尝试混淆鉴别器

生成对抗式网络常常会会产生最好的样本

自动回归模型

5.       早期有前景的结果

目前为止任一模型的最好的高分辨率图像样本:

ü  深度生成图像模型使用一个对抗性网络的拉普拉斯金字塔(Laplacian pyramid)。— Denton 等人

ü  DCGAN — Radford 等人

6.      难以训练

这个模型被定义在最小的极小化极大算法问题

没有损失函数

很难区分是否正在取得进展(没有损失函数,我在训练时不知道模型训练的进展如何?)

7.      改进 GAN 训练的简单想法

ü  GAN 无法学习是因为崩溃问题:(collapse problem)

生成器开始退化并且这个学习也卡主了

ü  解决方法:鉴别器应该看到整个 mini batch

???如果所有的案例都是相同的,区别起来就很简单

8.      带有生成对抗式网络的半监督学习

ü  鉴别器分辨训练样本的类别,也能将真实的样本从假样本中辨别出来。

ü  具体方法的完成过程很重要,但是也需要技术,我不做解释。

ü  这个生成对抗式训练算法也不同

ü  使用GANs来改进判别模型的新方法

9.      InfoGAN,Xi Chen,Rein Houthooft

解开的表征Disentangled representations

表征学习的圣杯

ü  训练一个GAN

ü  像这样:它的变量的一个小子集是可从生成的样本中来精确预测的

ü  直接添加这个约束

10.  Exploration with generative models Rein Houthfootf,Xi Chen

问题:

ü  在强化学习中,我采取随机的行动

ü  有时这些行动做的不错

ü  然后我会在未来做更多这些行动

【8】Hinton预言十年内将研发出具有常识的计算机 08-09 新智元

1.      常识是关于人类世界如何运作的基本知识。它不是建立在规则上的,也不完全合乎逻辑。它是一套启发式教学法,几乎所有的人类都能迅速掌握。

  研发出具有常识的计算机,具备了人类世界如何运作的知识,知道我们的惯例。

【9】LeCun Quora 问答读后:深度学习走向何方

1.  从统计意义上讲,是要估计人体运动所在空间的一个概率分布。这个空间太大,我们用贝叶斯方法和人的先验知识,控制模型复杂程度。加上BIC这样的准则,保证在有限数据集上训练出结果来。

2.       DBN的观测模型上,观测模型本质上是要学习从系统内部状态外部数据表示的一个映射关系。在Jordan的统计框架下用的最多的是混合高斯,混合高斯其实过分抽象了,表现不了数据样本的细微分布。

3.  Lecun提到用深度学习图模型做结合,DL对状态到数据的映射关系表现能力更强,用图模型做reasoning

4.       对状态到数据的映射关系表现能力更强, 但是模型参数太多,数据有限,学起来太难。模型参数太多è数据有限,学起来太难;搞条件分布,压缩下供学习的概率空间;对我的生成数据来说,受计算能力限制,信息量总是有限的,全random肯定不行,建模时丢了太多信息。怎么把丢的东西找回来,还是得靠知识。

5.     合成怎么做,真的靠噪声驱动模型就可以?否。模型表示能力毕竟有限,此外一个非线性动态系统,趋向于混沌,你就算模型全对,时间一长也没法预期,加约束

【10】对抗样本和对抗网络

1.  对抗 样本是指将实际样本略加扰动而构造出的合成样本,对该样本,分类器非常容易将其类别判错,这意味着光滑性假设(相似的样本应该以很高的概率被判为同一类别)某种程度上被推翻了。Intriguing properties of neural networks, by Christian Szegedy at Google, et al,2014. 这篇论文应该是最早提出对抗样本概念的。

2.  Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images, by Nguyen A, et al, CVPR 15

3.  kdnuggets上的一篇文章(Deep Learning’s Deep Flaws)’s Deep Flaws, by Zachary Chase Lipton指出,深度学习对于对抗样本的脆弱性并不是深度学习所独有的,事实上,这在很多机器学习模型中都普遍存在。

4.  Ian Goodfellow:Deep learning Adversarial Examples – Clarifying Misconceptions

【11】OpenAI 首批研究成果聚焦无监督学习,生成模型如何高

效的理解世界

1.       OpenAI 的首批研究结果:在机器学习中提升或使用生成模型

2.       如何开发出能分析和理解现实世界大量数据的模型和算法?

用作生成模型的神经网络的参数数量明显少于我们用于训练的数据量,所以模型会被迫去发现和有效地内化数据的精华以便生成它。

3.       短期应用:图像降噪、图像修复,超分辨率、结构化预测、强化学习中的探索。。。

长期来看:它们有自动化学习数据集自然特征的潜力,完全不管分类或维度或其它什么东西。

4.       生成式模型目标:目找到网络参数θ,使之能够生成与真实数据分布高度匹配的分布。

5.       打造生成模型的三个方法

ü  生成对抗网络(GAN:Generative Adversarial Networks)

ü  变化自编码器(VAE: Variational Autoencoders)让我们可以在概率图形模型(probabilistic graphical models )的框架中对这一问题进行形式化——我们在数据的对数似然上最大化下限(lower bound)。

ü  而 PixelRNN 这样的自回归模型(Autoregressive models)则通过给定的之前的像素(左侧或上部)对每个单个像素的条件分布建模来训练网络。

6.      OpenAI近期工作

ü  改进 GAN。缺陷:方案之间振荡,或生成器有崩溃的倾向。Tim Salimans、Ian Goodfellow、Wojciech Zaremba 及同事们引入了一些让 GAN 训练更稳定的新技术。

ü  为使用 GAN 的半监督学习引入了一种方法,该方法涉及到能产生指示输入的标签的额外输出的判别器

ü  Improving VAE。Durk Kingma 和 Tim Salimans 为变分推理(variational inference)的准确度的提升引入了一种灵活的、在计算上可扩展的方法。「逆自回归流(IAF: inverse autoregressive flow)」

ü  InfoGAN。Peter Chen 和同事们引入了 InfoGAN——一种可以学习图像的解开的和可解释表征的 GAN 的扩展。无监督的学习到好的、解开的表征(disentangled representations)

ü  强化学习上的研究,也涉及到了一个生成模型组件:Rein Houthooft 及同事提出了 VIME,一种在生成模型上使用不确定性的实用探索方法。

ü  生成对抗模仿学习(Generative AdversarialImitation Learning)。Jonathan Ho 及同事呈现了一种用于模仿学习(imitation learning)的新方法。

【11】Generative Adversarial Networks(GAN)的现有工作

程序媛的日常02-29

1.  梳理GAN一系列论文和论文之间的关系发展轨迹:GANèCGANèLAPGANèDCGANèGRANèVAEGAN

2.  Generative Models【VAE & GAN】:

l  VAE将学习的目标变成去尽可能满足某个预设的先验分布的性质。(在对数似然上最大化变分下界这种需要“假设先验分布”的方式仍然有局限。

l  GAN启发自博弈论中的纳什均衡, 学习过程就变成了一种生成模型(G)和判别模型(D)之间的竞争过程

3.  原始GAN. Ian Goodfelow 最小的极小化极大算法问题

GAN 这种竞争的方式不再要求一个假设的数据分布,不

用 formulate p(x),而是直接进行 sampling,从而真正达到了理论上可以完全逼近真实数据。

【问题】不需要预先建模的方式的缺点就是在于它太过自由了,对于较大的图片较多的 pixel的情形,基于简单 GAN 的方式就不太可控了。在 GAN中,每次学习参数的更新过程,被设为 D 更新 k 回,G 才更新 1 回,也是出于类似的考虑。

4.  Conditional Generative Adversarial Nets(CGAN

为了解决 GAN 太过自由,给GAN加约束è条件GAN:

在 D 和 G 的建模中分别加入 conditional 变量 y

5.  另一方面,为了改进 GAN 太自由的问题,还有一个想法就是不要让 GAN 一次完成全部任务,而是一次生成一部分,分多次生成一张完整的图片。(类似于DeepMind的工作DRAW思路:sequential VAE 的模型)。Facebook 等人提出的 LAPGAN[3] 则是采用了这样的思想,在 GAN 基础上做出了改进。

在实现 sequential version 的方式上,LAPGAN采用了Laplacian Pyramid 的方式。这个方式主要的操作便是 downsample 和 upsample,而优势是每次只考虑样本和生成图像之间的残差的学习效果,某种程度上和 Residual Network 的思想是一样的。

都是 conditional

6.  DCGAN:指出了许多对于 GAN 这种不稳定学习方式重要的架构设计和针对 CNN 这种网络的特定经验

开源代码现在被使用和借鉴的频率最高,比 LAPGAN 更robust的工程经验分享:

ü  Strided convolutional networks作为一个可以 fully differentiable 的 generator G,更加可控稳定。

ü  DCGAN 中则成功将 BN 用在了 G 和 D 上,避免collapse

ü  interpolate space,看出图像逐渐演变过程

GRAN

改进GAN,可以采用sequential version,好处便是可以让下一步的 model 利用上一步得到的结果,在之前的结果上做出修改,类似于一种conditional 的方式:通过变成 sequential versions 来减弱 GAN 的自由性。

ü  因为完美利用了 gradient of convolution 还是 convolution 的性质,这个改造后的GRAN 可以将每次的求导看做一次 decoding 过程,而每次的 convolution 等操作变成encoding 过程,也就可以因此对应到 DRAW 中的 decoder 和 encoder 部分。

ü  GAN 和DRAW 最大的不同之处: GAN 中在计算 loss 时是在 hidden space 中,而 DRAW 是在原始 input space 中。

generative models 的 evaluation:

可以让两组 GAN 互相“竞争”评价。互为评委,互为选手。

VAEGAN

将GAN 中学出来的 feature 重新运用在 VAE 的 reconstruction objective 中,从而结合了 GAN 和 VAE 的优点。

ü  以前的reconstruction objective:element-wise distance Metrics,这种metrics其实对于很多hidden feature/space 的学习并不好

ü  idea 就是利用 GAN 中 Discriminator D,使其当做 learned similarity measure,来替代/弥补reconstruction objective 中的这种 similarity measure component。

 

 

主干文章

Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. 2014: 2672-2680.

GAN

Mirza M, Osindero S. Conditional Generative Adversarial Nets[J]. Computer Science, 2014:2672-2680.

CGAN

Denton E L, Chintala S, Fergus R. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[C]//Advances in neural information processing systems. 2015: 1486-1494.

LAPGAN

Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. arXiv preprint arXiv:1511.06434, 2015.

DCGAN

Im D J, Kim C D, Jiang H, et al. Generating images with recurrent adversarial networks[J]. arXiv preprint arXiv:1602.05110, 2016.

GRAN

Larsen A B L, Sønderby S K, Winther O. Autoencoding beyond pixels using a learned similarity metric[J]. arXiv preprint arXiv:1512.09300, 2015.

ü  GAN + VAE

ü  An autoencoder : leverages learned representations to bettermeasure similarities in data space.

ü  Use learned feature representations in the GAN discriminator as basis for the VAE reconstruction objective.

Wang X, Gupta A. Generative Image Modeling using Style and Structure Adversarial Networks[J]. arXiv preprint arXiv:1603.05631, 2016.

ü  Structure-GAN + Style-GAN

ü  Current generative frameworks: end-to-end learning andgenerate images by sampling from uniform noise distribution

ü  Basic principle of image formation(a) Structure: the underlying 3D model; (b) Style: the texture mapped onto structure.

2-GAN)

ü  We now explore whether the representationlearned by thediscriminator network in our Style-GAN can be transferredto tasks such as scene classi
cation and object detection
.

Chen X, Duan Y, Houthooft R, et al. InfoGAN: Interpretable Representation arXiv preprint arXiv:1606.03657, 2016.

InfoGAN, an information-theoretic extension to the Generative Adversarial Network that is able to learn disentangled representations in a completely unsupervised manner.

Maximizes the mutual information between a small subset of the latent variables and the observation.

Kurakin A, Goodfellow I, Bengio S. Adversarial examples in the physical world[J]. arXiv preprint arXiv:1607.02533, 2016.

ü  Adversarial example

ü  Even in such physical world scenarios, machine learning systemsare vulnerable to adversarial examples.

ü  A large fraction of adversarial examples are classified incorrectly even when perceived through the camera

Salimans T, Goodfellow I, Zaremba W, et al.

Improved Techniques for Training GANs[J]. arXiv preprint arXiv:1606.03498, 2016.

ü  A variety of new architectural features and training procedures to GANs framework.

ü  Focus: GANs: semi-supervised learning, and the generation of images that humans find visually realistic.

ü  we achieve state-of-the-art results in semi-supervised classification on MNIST, CIFAR-10 and SVHN

ü  The generated images are of high quality as confirmed by a visual Turing test.

ü  Learn recognizable features of ImageNet classes.

Odena A. Semi-Supervised Learning with Generative Adversarial Networks[J]. arXiv preprint arXiv:1606.01583, 2016.

We extend Generative Adversarial Networks(GANs) to the semi-supervised context by forcing the discriminator network to output class labels.

    We train a generative model G and a discriminator D on a dataset with inputs belongingto one of N classes. At training time, D is made to predict which of N+1 classes the input belongs to, where an extra class is added to correspond to the outputs of G.

Springenberg J T. Unsupervised and Semi-supervised Learning withCategorical Generative Adversarial Networks[J]. arXiv preprint arXiv:1511.06390, 2015.

ü  A method for learning a discriminative classifier from unlabeled or partially labeled data.

ü  Our approach is based on an Objective function that trades-off mutual information between observed examples and theirpredicted categorical class distribution, against robustness of the classifier to an adversarial generative model.

ü  Categorical generative adversarial networks (or CatGAN) – on synthetic data as well as on challenging image classification tasks

UNSUPERVISED AND SEMI-SUPERVISED LEARNING OF IMAGE FEATURES

 

 

 

 

衍生论文

 

n   

代表理论性文章

Probst M. Generative Adversarial Networks in Estimation of Distribution Algorithms for Combinatorial Optimization[J]. arXiv preprint arXiv:1509.09235, 2015.

We integrate a GAN into an EDA and evaluate the

performance of this system when solving combinatorial optimization problems

with a single objective.

GAN-EDA doe not yield competitive results – the GAN lacks the ability to quickly learn a good

approximation of the probability distribution.

Edwards H, Storkey A. Censoring Representations with an Adversary[J]. arXiv preprint arXiv:1511.05897, 2015.

predict the relevant sensitive variablefrom the representation, and so minimizing the performance of the adversary ensures there is little or no information in the representation about the sensitive variable.

ü  We formulate the adversarial model as a minimax problem, and optimize that minimax objective using a stochastic gradient alternate min-max optimizer.

provide discriminant free representations, showing statistically significant improvement across most cases.

ü  The flexibility of this method:

Removing annotations from images, from separate training examples of annotated and unannotated images, and with no a priori knowledge

Goodfellow I J. On distinguishability criteria for estimating generative models[J]. arXiv preprint arXiv:1412.6515, 2014.

ESTIMATING GENERATIVE MODELS

Generative adversarial networks(GANs) are pairs of generator and discriminator networks, with the generator network learning to generate samples by attempting to fool the discriminator network into believing its samples are real data.

We show a variant of NCE, with a dynamic generator network, is equivalent to maximum likelihood estimation.

However,we show that recovering MLE for a learned generator requires departing

from the distinguishability game. Specifically:

Mallat S. Understanding deep convolutional networks[J]. Phil. Trans. R. Soc. A, 2016, 374(2065): 20150203.

Deep convolutional networks provide state-of-the-art classifications and regressions results overmany highdimensional problems. We review their architecture, which scatters data with a cascade of linear filter weights and nonlinearities. A mathematical framework is introduced to analyse their properties.Computations of invariants involve multiscale contractions with wavelets, the linearization of hierarchical symmetries and sparse separations.Applications are discussed.

Li Y, Swersky K, Zemel R.

Generative moment matching networks[C]

//International Conference on Machine Learning. 2015: 1718-1727.

GANs, whose training involves a difficult minimax optimization problem

Gauthier J. Conditional generative adversarial nets for convolutional face generation[J]. Class Project for Stanford CS231N: Convolutional Neural Networks for Visual Recognition, Winter semester, 2014, 2014.

CGAN

Yeh R, Chen C, Lim T Y, et al. Semantic Image Inpainting with Perceptual and Contextual Losses[J]. arXiv preprint arXiv:1607.07539, 2016.

Raymond Yeh 和 Chen Chen 等人的论文「Semantic Image Inpaintingwith Perceptual and Contextual Losses」中的方法,此论文于 2016年 7月 26日 在 arXiv 上发表。这篇论文演示了如何通过一个 DCGAN用深度学习进行图像修复。

Koo S. Automatic Colorization with Deep Convolutional Generative Adversarial Networks[J].

DCGAN,自动着色

Kwak H, Zhang B T. Generating Images Part by Part with Composite Generative Adversarial Networks[J]. arXiv preprint arXiv:1607.05387, 2016.

RNN/LSTM + GAN + DRAW

Shu R. Stochastic Video Prediction with Deep Conditional Generative Models[J].

Frame-to-frame stochasticity remains a big challenge for video prediction. The use of feed-forward and recurrent

networks for video prediction often leads to averaging of future states. This effect can be attributed to the networks’ limited ability to model stochasticity. We propose the use of conditional variational autoencoders (CVAE) to model

frame-to-frame transitions. 【使用DCGAN来做viedo prediction?】

Grosse K, Papernot N, Manoharan P, et al. Adversarial Perturbations Against Deep Neural Networks for Malware Classification[J]. arXiv preprint arXiv:1606.04435, 2016.

In this paper, we show how to construct highly-effective adversarial sample crafting attacks for neural networks used

as malware classifiers. The application domain of malware classification introduces additional constraints in the adversarial

sample crafting problem when compared to the computer vision domain:

Odena A. Semi-Supervised Learning with Generative Adversarial Networks[J]. arXiv preprint arXiv:1606.01583, 2016.

We extend Generative Adversarial Networks(GANs) to the semi-supervised context by forcing the discriminator network to output class labels.

    We train a generative model G and a discriminator D on a dataset with inputs belongingto one of N classes. At training time, D is made to predict which of N+1 classes the input belongs to, where an extra class is added to correspond to the outputs of G.

Springenberg J T. Unsupervised and Semi-supervised Learning withCategorical Generative Adversarial Networks[J]. arXiv preprint arXiv:1511.06390, 2015.

ü  A method for learning a discriminative classifier from unlabeled or partially labeled data.

ü  Our approach is based on an Objective function that trades-off mutual information between observed examples and theirpredicted categorical class distribution, against robustness of the classifier to an adversarial generative model.

ü  Categorical generative adversarial networks (or CatGAN) – on synthetic data as well as on challenging image classification tasks

UNSUPERVISED AND SEMI-SUPERVISED LEARNING OF IMAGE FEATURES

Theis L, Oord A, Bethge M. A note on the evaluation of generative models[J]. arXiv preprint arXiv:1511.01844, 2015.

compression, denoising, inpainting, texture synthesis, semi-supervised learning, unsupervised feature learning, and other tasks.

ü  A lot of heterogeneity exists reviews mostly known but often underappreciated properties relating to the evaluation and interpretation of generative models with a focus on image models.

ü  3 Criteria—average log-likelihoodParzen window estimates, and visual fidelity of samples

 not warranted , need to be evaluated directly with respect to the application(s) they were intended for.

ü  Avoid Parzen window estimates should

Kurakin A, Goodfellow I, Bengio S. Adversarial examples in the physical world[J]. arXiv preprint arXiv:1607.02533, 2016.

ü  Adversarial example

ü  Even in such physical world scenarios, machine learning systemsare vulnerable to adversarial examples.

ü  A large fraction of adversarial examples are classified incorrectly even when perceived through the camera

Harrigan C. Deep Reinforcement Learning with Regularized Convolutional Neural Fitted Q Iteration[J]. differences, 14: 1.

ü  We review the deep reinforcement learning setting, in which an agent receiving high-dimensional input from an environment learns a control policy without supervision using multilayer neural networks.

ü  Regularized Convolutional Neural Fitted Q Iteration (RCNFQ)

ü  Deep Q Network algorithm (Mnih et al) and dropout regularization to improve generalization performance.

l  Miyato T, Maeda S, Koyama M, et al. Distributional smoothing withvirtual adversarial training[J]. stat, 2015, 1050: 25.

 

semi-supervised learning

ü  Propose local distributional smoothness (LDS), a new notion ofsmoothnessfor statistical model that can be used as a regularization term to promote the smoothness of the model distribution.

ü  VAT resembles adversarial training, but it determines theadversarial direction from the model distribution alone without using the label information, making it applicable to semi-supervised learning.

Arild Nøkland.

Improving Back-propagation by Adding an Adversarial Gradient

ü  A common flaw in several machine learning;

Small perturbations

regularizing effect

ü  A simple extension to the back-propagation: adds an adversarial gradient to the training.

ü  The ”adversarial back-propagation” method increases the resistance to adversarial examples and boosts the classification performance.

 

 

应用

如何在 TensorFlow 中用深度学习修复图像?

 

1.  通过一个 DCGAN 用深度学习图像修复。

相关:论文「Semantic Image Inpainting

with Perceptual and Contextual Losses」中的方法。

3.  TensorFlow实现

Yeh R, Chen C, Lim T Y, et al.Semantic Image Inpainting with Perceptual and Contextual Losses[J]. arXiv preprint arXiv:1607.07539, 2016.

Raymond Yeh 和 Chen Chen 等人的论文「Semantic Image Inpaintingwith Perceptual and Contextual Losses」中的方法,此论文于 2016年 7月 26日 在 arXiv 上发表。这篇论文演示了如何通过一个 DCGAN用深度学习进行图像修复。

Koo S. Automatic Colorization with Deep Convolutional Generative Adversarial Networks[J].

DCGAN,自动着色

Cate H, Dalvi F, Hussain Z. DeepFace: Face Generation using Deep Learning[J].

人脸生成

Sauer C, Kaplan R, Lin A. Neural Fill: Content Aware Image Fill with Generative Adversarial Neural Networks[J].

图像补全

Creswell A, Bharath A A. Adversarial Training For Sketch Retrieval[J]. arXiv preprint arXiv:1607.02748, 2016.

representations for unlabelled data which have been applied toimage generation and scene classification.

ü  Apply to visual search: show that representations learned by GANs can be applied to visual search.

GAN architecture with design features that makes it suitable for sketch understanding.

Mansimov E, Parisotto E, Ba J L, et al. Generating images from captions with attention[J]. arXiv preprint arXiv:1511.02793, 2015.

Motivated by generative models, we introduce a model thatgenerates images from natural language descriptions.

LANGUAGE MODEL: THE BIDIRECTIONAL ATTENTION RNN

IMAGE MODEL: THE CONDITIONAL DRAW NETWORK

LAPGAN Conv-Deconv VAE Fully-Conn VAE alignDRAW

l  Reed S, Akata Z, Yan X, et al.Generative adversarial text to image synthesis[J]. arXiv preprint arXiv:1605.05396, 2016.

 

DCGAN

ü  Automatic synthesis of realistic images from text

ü  Meanwhile, deep convolutional generative

adversarial networks (GANs) have begun to generate highly compelling images of specific categories

ü  we develop a novel deep architecture and GAN formulation to effectively bridge these advances in text and image modeling,translating visual concepts from characters to pixels.

Jianwen Xie, Song-Chun Zhu,Synthesizing

Dynamic Textures and Sounds by Spatial-Temporal Generative ConvNet

Dynamic textures are spatial-temporal processes that.

ü  Modeling and synthesizing dynamic textures using a generative version of the convolution neural network (ConvNet or CNN) that consists of multiple layers of spatial-temporal filters to capture the spatial-temporal patterns in the dynamic textures.

 

 

相关文章

Gu J, Wang Z, Kuen J, et al. Recent Advances in Convolutional Neural Networks[J]. arXiv preprint arXiv:1512.07108, 2015.

we provide a broad survey of the recent advances in convolutional neural networks.

Besides, we also introduce some applications of convolutional neural networks in computer vision.

Zhenwen Dai, Andreas Damianou

VARIATIONAL AUTO-ENCODED DEEP GAUSSIAN PROCESSES

ü  We develop a scalable deep non-parametric generative model by augmenting deep Gaussian processes with a recognition model. Inference is performed in a novel scalable variational framework where the variational posterior distributions are reparametrized through a multilayer perceptron.

ü  We derive a new formulation of the variational lower bound that allows us to distribute most of the computation in a way that enables to handle datasets of the size of mainstream deep learning tasks.

Collapsed Variational Inference for Sum-Product Networks

Han

ü  Sum-Product Networks (SPNs) are probabilistic inference machines that admit exact inference in linear time in the size of the network.

ü  We propose a novel deterministic collapsed variational inference algorithm for SPNs that is computationally efficient, easy to implement and at the same time allows us to incorporate prior information into the optimization formulation.

 

 

 

Facebook 实验室FAIR上一系列论文:

n  Denton et al. “Deep Generative Image Models using aLaplacian Pyramid of Adversarial Networks” (NIPS 2015)

n  Radford et al. “Unsupervised Representation Learning withDeep Convolutional Generative Adversarial Networks” (ICLR 2015)

n  Mathieu et al. “Deep multi-scale video prediction beyondmean square error”

最后一篇就是用对抗式训练进行视频预测的。



Generative Adversarial Networks(GAN)的现有工作

1.《GenerativeAdversarial Nets》(OpenAI)

2.《ConditionalGenerative Adversarial Nets》

3.《Deep GenerativeImage Models using a Laplacian Pyramid of Adversarial Networks》(FAIR)

Unsupervised RepresentationLearning with Deep Convolutional Generative

Adversarial Networks》(FAIR)

5.《Autoencoding beyondpixels using a learned similarity metric》

GeneratingImages with Recurrent Adversarial Networks》

 

谷歌研究室:

谷歌大脑(Google Brain)团队介绍

关注长期人工智能研究的研究团队;拥有很多计算机系统和机器学习研究专家;专注纯粹的机器学习研究,以及机器人、语言理解、医疗等新兴机器学习应用领域背景中的研究。

我们通过以下几种方式传播我们的研究成果:

l  发表我们的成果,详情查阅:http://research.google.com/pubs/BrainTeam.html

l  以开源项目的形式发布了我们的核心机器学习研究系统 TensorFlow

l  发布我们在 TensorFlow 里面实现的研究模型

l  与谷歌的产品团队合作,将我们的研究变成真正的产品

目标

       Buildartificial intelligence algorithms and system that learn from experience.

构建能从经验中学习的人工智能算法和系统,并使用这些算法和系统解决困难的问题以造福人类。

DeepMind

 

量子AI

 

OpenAI

人工智能的目标,保证人工智能确实对人类有益

l  深度监督学习

视觉,演讲,翻译,语言,广告,机器人

l  深度监督学习

获得大量输入—输出例子

训练一个非常大的深度神经网络

卷积或者带有注意力模型的序列到序列(seq2seq with attention)

生成模型:对许多即将出现的模型非常关键

什么是生成模型?

l  能学习你的数据分布

分配高概率给它

学习生成合理的结构

探索数据的「真实」结构

创业公司

有很多创业公司已经以一种令人敬仰的方式成功地应用了深度学习:

ü  Indico 和 DCGANs (与 FAIR 合作)

ü  Quest Visual 和 Word Lens

ü  Nervana 和他们的 CUDA 核

ü  Clarifai 在 2013 年赢得 ImageNet 竞赛