1. 摘要
本文提出了一个多任务深度神经网络(MT-DNN),用于跨多个自然语言理解(NLU)任务学习表示。MT-DNN不仅利用了大量的跨任务数据,而且还受益于正则化效应,从而产生更通用的表示,以帮助适应新的任务和领域。MT-DNN扩展了Liu等人提出的模型,加入了一个预训练的双向transformer语言模型,称为BERT。MT-DNN在10个NLU任务上获得了最先进的结果,包括SNLI、SciTail和9个GLUE任务中的8个,将GLUE基准提升到82.7%(2.2%的绝对改进)。还使用SNLI和SciTail数据集证明,MT-DNN学习的表示法比预先训练的BERT表示法使用更少的域内标签来实现域自适应。代码和预先训练的模型可以通过https://github.com/namisan/mt-dnn公开获得。
2. 介绍
学习文本的向量空间表示,例如单词和句子,是许多自然语言理解(NLU)任务的基础。多任务学习和语言模型预训练是两种流行的方法。本文结合这两种方法的优点,提出了一种新的多任务深度神经网络(MT-DNN)。
本文认为MTL和语言模型预训练是互补的技术,可以结合起来改进文本表示的学习,以提高各种NLU任务的性能。因此,本文扩展了Liu等人最初提出的MT-DNN模型,将BERT作为其共享文本编码层。如图1所示,较低的层(如文本编码层)在所有任务中共享,而顶层是特定于任务的,结合了不同类型的NLU任务,如单句分类、成对文本分类、文本相似度和相关性排序。与BERT模型类似,MT-DNN可以通过微调适应特定的任务。与BERT不同的是,MT-DNN使用MTL,除了语言模型的预先训练外,还用于学习文本表示。
3. 提出的MT-DNN模型
MT-DNN模型的结构如图1所示。较低层在所有任务之间共享,而顶层表示特定于任务的输出。输入X是一个单词序列(一个句子或组合在一起的一对句子),它首先在l1中被表示为一个嵌入向量序列,每个单词作为一个token。然后,transformer编码器通过自我注意机制获取每个单词的上下文信息,并生成l2中的上下文嵌入序列。这是提出的多任务目标训练的共享语义表示。接下来,对模型进行详细的说明。