NLP(二)文本生成 --VAE与GAN模型和迁移学习

  • VAE与GAN模型和迁移学习
  • 1. Auto Encoder 自编码器
  • 1.1 结构
  • 1.2 核心思想
  • 1.3 损失函数
  • 1.4 Denoising Auto Encoder(降噪自编码器)
  • 2. Variational Auto Encoder (VAE)
  • 2.1 核心思想
  • 2.2 损失函数
  • 2.3 KL divergence(KL散度)
  • 3. GAN(generative adversarial networks)
  • 3.1 GAN结构与核心思想
  • 3.2 训练 GAN 的难点
  • 3.3 如何优化
  • 4. 文本生成应用
  • 4.1 GAN与VAE结合
  • 4.2 Toward Controlled Generation of Text
  • 4.3 迁移学习
  • 4.4 Data-to-Text Generation with Content Selection and Planning


VAE与GAN模型和迁移学习

1. Auto Encoder 自编码器

1.1 结构

text–encoder NN–latent vector–decoder NN–text

1.2 核心思想

将输入通过encoder NN编码,得到latent vector,再通过decoder NN,将vector对应text还原

1.3 损失函数

标准自编码器主要关注重建损失(reconstruction loss)

文本生成与问答模型融合_nlp

1.4 Denoising Auto Encoder(降噪自编码器)

基本思想: 把输入句子的一部分给“污染” (corrupt) 了,但是我们希望在经过编码和解码的过程之后,我们能够得到原来的正确的句子,加强 Auto Encoder 的 robustness。类似BERT 的 masking 就是一种“污染”的手段。
Example: 我爱[MASK]然语[MASK]处理 --> vector --> 我爱自然语言处理

2. Variational Auto Encoder (VAE)

2.1 核心思想

VAE变分自编码器可用于对先验数据分布进行建模。它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector),再通过解码器输出。通俗的说,VAE就是在Anto Encoder的基础上给latent vector添加限制条件,让其服从高斯分布。下图中z为latent vector,根据学到的分布参数进行sample

文本生成与问答模型融合_nlp_02

2.2 损失函数

在变分自编码器的情况中,我们希望本征向量遵循特定的分布,通常是单位高斯分布,使下列损失得到优化:

文本生成与问答模型融合_自然语言处理_03


p(z′)~N(0,I) 中 I 指单位矩阵,q(z∣X) 是本征向量的分布

2.3 KL divergence(KL散度)

计算两个概率分布的差值

文本生成与问答模型融合_nlp_04

3. GAN(generative adversarial networks)

3.1 GAN结构与核心思想

GAN 是根据给定的先验分布生成数据的另一种方式,包括同时进行的两部分:判别器(Discriminator)和生成器(Generator)。判别器用于对「真」图像和「伪」图像进行分类,生成器从随机噪声中生成图像(随机噪声通常叫作本征向量或代码,该噪声通常从均匀分布(uniform distribution)或高斯分布中获取)

Example应用: 人脸识别,一个是通过人脸生成特征向量来鉴定身份,一个是通过特征向量来还原人脸,让这两个网络互相对抗,看最后是捏造人脸的网络可以成功蒙蔽鉴别网络,还是鉴别网络能够成功识破伪造的人脸。最终使得生成的内容具有多样性的同时,分类器也无法识别真假

3.2 训练 GAN 的难点

①从先验分布中对本征变量进行随机噪声采样。

缓解方法: 使用 VAE 对本征变量进行编码,学习数据的先验分布,通过学习的分布进行采样,而不是生成随机噪声

②文本是离散tokens的序列。
因为生成器(Generator,简称G)需要利用从判别器(Discriminator,简称D)得到的梯度进行训练,而G和D都需要完全可微,碰到有离散变量的时候就会有问题,当我们把argmax或者sampling得到的文字传给Discriminator打分的时候,我们无法用这个分数做back propagation对生成器做优化操作;另外,在GAN中我们通过对G的参数进行微小的改变,令其生成的数据更加“逼真”。若生成的数据是基于离散的tokens,D给出的信息很多时候都没有意义,当对tokens做微小的改变,在对应的dictionary space里面可能根本就没有相应的tokens

3.3 如何优化

(1)将普通的argmax转变成可导的Gumbel-softmax,此时可以同时优化Generator和Discriminator
(2) 使用Reinforcement Learning中的Policy Gradient来估算模型的gradient,并做优化,
根据当前的policy来sample steps;翻译任务中policy gradient直接优化BLEU

Policy: 当前执行的策略,在文本生成模型中,这个Policy一般就是指我们的decoder(LSTM)

  • Policy Gradient: 根据当前的policy执行任务,然后得到reward,并估算每个参数的gradient, SGD

(3)还有一些方法是,不做最终的文本采样,直接使用模型输出的在单词表上的输出分布,或者是使用LSTM中的一些hidden vector来传给Discriminator,并直接优化语言模型

(4) Teacher-Forcing(MLE)

在对抗性训练的时候,G不会直接接触到真实的目标序列,当G生成了质量很差的序列的时候(生成质量很好的序列其实相当困难),而D又训练得很好,G就会通过得到的Reward知道自己生成的序列很糟糕,但却又不知道怎么令自己生成更好的序列, 这样就会导致训练崩溃。所以通过对抗性训练更新G的参数之后,还通过传统的MLE就是用真实的序列来更新G的参数。类似于有一个“老师”来纠正G训练过程中出现的偏差,类似于一个regularizer。

4. 文本生成应用

4.1 GAN与VAE结合

论文:Autoencoding beyond pixels using a learned similarity metric

将VAE的decoder当做GAN的geneator接到GAN上,充分利用两者优势,学习数据先验分布,再采样,使得对抗学习更有效

文本生成与问答模型融合_nlp_05

4.2 Toward Controlled Generation of Text

模型包含几个部分,一个Generator可以基于若干个向量(z和c)生成句子,几个Encoder可以从句子生成z和c的分布,几个Discriminator用来判断模型编码出的向量©是否符合example的正确分类。这个模型的好处是,我们在某种程度上分离了句子的信息。例如如果向量c用来表示的是句子的情感正负,那么模型就具备了生成正面情感的句子和负面情感句子的能力

文本生成与问答模型融合_nlp_06


情感分类任务中,图中的z代表latent vec(不掺杂情感),c代表情感特征,z和c独立,并为全集

4.3 迁移学习

style transfer 其实也是controlled text generation的一种,只是它control的是文本的风格。文本风格有很多种,例如情感的正负面,文章是随意的还是严肃的,各个作家的文风等等

4.4 Data-to-Text Generation with Content Selection and Planning

  • Content selection: 选择什么数据需要进入到我们的文本之中
  • Sentence planning: 决定句子的结构
  • Surface realization: 把句子结构转化成具体的字符串