Improving Language Understanding by Generative Pre-Training(GPT)

  前记: 【预训练语言模型】系列文章是对近几年经典的预训练语言模型论文进行整理概述,帮助大家对预训练模型进行全局的理解。本系列文章将不断更新,敬请关注博主。本文将讲解现如今预训练模型——GPT,该模式是较早的使用Transformer模型进行预训练的方法,其特点是单向的。

  简称GPTG enerative P re-T raining


一、动机:

(1)在NLP领域内,从原始文本中有效的学习对于避免过度依赖于监督学习至关重要,大多数深度学习模型需要大量人工标注数据,而有限的标注资源则限制了在多个领域内的应用,因此模型需要能够从无标注的数据中利用词法信息。

(2)学习word级别的信息有两大挑战:

  • It is unclear what type of optimization objectives are most effective at learning text reresentations that are useful for transfer. 在学习文本表征时什么类型的优化目标能够更加有效;
  • there is no consensus on the most effective way to transfer these learned representations to the target task. 对于将已经学习得到的表征迁移到具体的目标任务的有效方法还没有形成一个共识

(3)我们使用半监督方法,首先在无监督的语料上进行预训练,其次在监督语料上进行微调。使用Transformer模型。最后在自然语言推理、问答系统、语义相似度以及文本分类四个任务上进行验证;

(4)先前有的预训练模型使用LSTM作为语言模型的,但是其限制了长距离的信息传递,我们使用Transformer模型则可以很好地捕捉更长范围内的语言结构。

二、方法:

无监督预训练

  使用标准的语言模型,给定长度为 n 的句子,通过词袋模型获得一个长度为k的窗口,似然函数则是给定前k-1个token来预测第k的token(相当于单向的从左向右)

  使用多层Transformer作为神经网络,将词袋输入模型中,来预测最后一个token,使用SGD做训练

有监督微调

【预训练语言模型】GPT: Improving Language Understanding by Generative Pre-Training_文本分类

  如图,左侧为神经网络架构,右侧为四种微调任务,包括文本分类,推理,相似度以及多项选择问答;


  对于本文如若有疑难,错误或建议可至评论区或窗口私聊,【预训练语言模型】 系列文章将不断更新中,帮助大家梳理现阶段预训练模型及其重点。