导读:机器翻译,能够实现多种语言之间的自动翻译,方便人类的沟通和交流,具有重要的研究和应用价值。Transformer是机器翻译领域的一个经典模型,一经问世,便取得了SOTA效果。本文将带领大家一同探秘Transformer,并送上基于飞桨实现 Transformer的实战教程。

1.  机器翻译概述

 

1.1.机器翻译是什么

 

机器翻译(Machine Translation, MT)是指用计算机来实现不同语言之间翻译的技术。被翻译的语言称为源语言(Source),翻译成的结果语言称为目标语言(Target)。机器翻译实现了从源语言到目标语言的转换,是自然语言处理领域的重要研究方向之一。

 

一个中英翻译的示例:

Source:我在周日读了一本书。

Target:I read abook on Sunday.

 

机器翻译的应用场景非常广泛:

 

(1)境外旅游:我国是世界上第一大出境旅游客源国,在语言不通的境外,无论是餐馆点餐、商场购物,还是问路打车、酒店咨询,都需要机器翻译的帮助。

 

(2)外语教育:学习外语对中国人来说是一件难事,借助机器翻译技术,可以做到“哪里不会点哪里”,让外语学习变得简单高效。

 

(3)文学作品翻译:阅读外国名著等文学作品时,可以借助机器翻译技术,消除语言障碍,带来更流畅的阅读体验。

 

(4)影视作品翻译:观看外国电影时,如果没有中文字幕,往往不知道剧中的人物都说了些什么,借助机器翻译技术,可以实现人物对话实时翻译,优化观影体验。

 

1.2.机器翻译的发展历程

 

机器翻译技术的发展大致经历了三个阶段:

 

(1)基于规则的机器翻译

早期的机器翻译系统多为基于规则的翻译系统,翻译知识来自人类专家。找人类语言学家来写规则,这一个词翻译成另外一个词。这个成分翻译成另外一个成分,在句子中的出现在什么位置,都用规则表示出来。这种方法的优点是直接用语言学专家知识,准确率非常高。缺点是什么呢?它的成本很高,比如说要开发中文和英文的翻译系统,需要找同时会中文和英文的语言学家。要开发另外一种语言的翻译系统,就要再找懂另外一种语言的语言学家。因此,基于规则的系统开发周期很长,成本很高。

 

(2)基于统计的机器翻译

大约到了上世纪九十年代出现了基于统计的方法,称之为统计机器翻译。在统计机器翻译技术中,转化规则是由机器自动从大规模的语料中学习得到的,而非人类主动提供规则。因此,它克服了基于规则的翻译系统所面临的知识获取瓶颈的问题,但仍然存在许多挑战:1)人为设计许多特征(feature),但永远无法覆盖所有的语言现象;2)难以利用全局的特征;3)依赖于许多预处理环节,如词语对齐、分词或符号化(tokenization)、规则抽取、句法分析等,而每个环节的错误会逐步累积,对翻译的影响也越来越大。

 

(3)基于神经网络的机器翻译

近年来,深度学习技术的发展为解决上述挑战提供了新的思路。将深度学习应用于机器翻译任务的方法大致分为两类:

a)   仍以统计机器翻译系统为框架,只是利用神经网络来改进其中的关键模块,如语言模型、调序模型等(见下图的左半部分);

b)   不再以统计机器翻译系统为框架,而是直接用神经网络将源语言映射到目标语言,即端到端的神经网络机器翻译(End-to-End Neural MachineTranslation, End-to-End NMT)(见下图的右半部分),简称为NMT模型。

机器翻译的运行结果的截图_机器翻译的运行结果的截图

2.  Transformer模型介绍

 

Transformer是目前神经网络翻译中效果最好的模型,是在论文AttentionIs All You Need[1]中提出的针对序列到序列(sequence to sequence, Seq2Seq)学习任务的一种全新网络结构。

 

Transformer沿用了 Seq2Seq 任务中典型的编码器-解码器(Encoder-Decoder)的框架结构,但相较于此前广泛使用的循环神经网络(Recurrent Neural Network,RNN),Transformer完全使用注意力(Attention)机制来实现序列到序列的建模。

 

Transformer整体的网络结构如下:

机器翻译的运行结果的截图_机器学习_02

Encoder部分由若干相同的 layer 堆叠组成,每个layer 主要由多头注意力(Multi-Head Attention)和全连接的前馈(Feed-Forward)网络这两个 sub-layer 构成。

  • Multi-HeadAttention 在这里用于实现 Self-Attention,相比于简单的 Attention 机制,其将输入进行多路线性变换后分别计算 Attention 的结果,并将所有结果拼接后再次进行线性变换作为输出。参见图2,其中 Attention 使用的是点积(Dot-Product),并在点积后进行了 scale 的处理以避免因点积结果过大进入 softmax 的饱和区域。
  • Feed-Forward 网络会对序列中的每个位置进行相同的计算(Position-wise),其采用的是两次线性变换中间加以 ReLU 激活的结构。

 

此外,每个 sub-layer 后还施以 Residual Connection[2] 和 LayerNormalization[3] 来促进梯度传播和模型收敛。

机器翻译的运行结果的截图_大数据_03

 

Decoder 具有和 Encoder 类似的结构,只是相比于组成 Encoder 的 layer ,在组成 Decoder 的 layer 中还多了一个 Multi-Head Attention 的 sub-layer 来实现对 Encoder 输出的 Attention,这个 Encoder-Decoder Attention 在其他 Seq2Seq 模型中也是存在的。

 

3.  飞桨Transformer快速上手

 

飞桨开源的Transformer 模型是基于WMT'16 EN-DE 数据集训练的,提供了Base和Big两种版本,在测试集上的评测结果如下:

测试集

newstest2014

newstest2015

newstest2016

Base model

26.35

29.07

33.30

Big model

27.07

30.09

34.38

 

下面为大家介绍飞桨Transformer的上手教程。

项目地址:

https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP/neural_machine_translation/transformer

 

3.1.环境安装

(1)PaddlePaddle安装

本项目依赖于 PaddlePaddle Fluid 1.3.1 及以上版本。

 

(2)克隆代码

克隆开源代码库到本地。

git clone https://github.com/PaddlePaddle/models.git
cd models/PaddleNLP/neural_machine_translation/transformer

3.2.数据准备

运行gen_data.sh脚本进行WMT'16 EN-DE 数据集的下载和预处理(时间较长,建议后台运行)。

 

数据处理过程主要包括Tokenize 和BPE 编码(byte-pair encoding)。运行成功后,将会生成文件夹gen_data,其目录结构如下:

.

├──wmt16_ende_data              # WMT16 英德翻译数据

├──wmt16_ende_data_bpe          # BPE 编码的 WMT16 英德翻译数据

├──mosesdecoder                 # Moses 机器翻译工具集,包含了 Tokenize、BLEU评估等脚本

└──subword-nmt                  # BPE 编码的代码

 

另外我们也整理提供了一份处理好的 WMT'16 EN-DE 数据以供使用(包含训练所需 BPE 数据和词典以及预测和评估所需的 BPE 数据和 tokenize 的数据)。

 

3.3.模型下载

我们开源了基于 WMT'16 EN-DE 数据训练好的Base、Big两种配置的Tranformer模型,您可以直接下载使用。

 

3.4.模型预测

使用以上提供的数据和模型,可以按照以下代码进行预测,翻译结果将打印到标准输出。

# base model
python -u infer.py \
--src_vocab_fpathgen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \
--trg_vocab_fpathgen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \
--special_token'<s>''<e>''<unk>' \
--test_file_patterngen_data/wmt16_ende_data_bpe/newstest2014.tok.bpe.32000.en-de \
--token_delimiter' ' \
--batch_size32 \
model_pathtrained_models/iter_100000.infer.model \
beam_size 5 \
max_out_len255
 
# big model
python -u infer.py \
--src_vocab_fpathgen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \
--trg_vocab_fpathgen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \
--special_token'<s>''<e>''<unk>' \
--test_file_patterngen_data/wmt16_ende_data_bpe/newstest2014.tok.bpe.32000.en-de \
--token_delimiter' ' \
--batch_size32 \
model_pathtrained_models/iter_100000.infer.model \
n_head 16 \
d_model 1024 \
d_inner_hid4096 \
prepostprocess_dropout0.3 \
beam_size 5 \
max_out_len255

 

3.5.模型评估

预测结果中每行输出是对应行输入的得分最高的翻译,对于使用BPE 的数据,预测出的翻译结果也将是 BPE 表示的数据,要还原成原始的数据(这里指 tokenize 后的数据)才能进行正确的评估。评估过程具体如下(BLEU 是翻译任务常用的自动评估方法指标):

# 还原 predict.txt 中的预测结果为tokenize 后的数据
sed -r 's/(@@ )|(@@ ?$)//g' predict.txt > predict.tok.txt
# 若无 BLEU 评估工具,需先进行下载
# git clone https://github.com/moses-smt/mosesdecoder.git
# 以英德翻译 newstest2014 测试数据为例
perl gen_data/mosesdecoder/scripts/generic/multi-bleu.perlgen_data/wmt16_ende_data/newstest2014.tok.

完成后可以看到类似如下的结果:

BLEU = 26.35,57.7/32.1/20.0/13.0 (BP=1.000, ratio=1.013, hyp_len=63903, ref_len=63078)

4.  飞桨Transformer进阶使用

如果您不满足于直接使用训练好的开源模型,而是想尝试训练自己的模型,那么请继续往下阅读。

 

4.1.目录结构说明

飞桨开源Transformer项目的目录结构和说明如下:

.

├── images               # README 文档中的图片

├── config.py            # 训练、预测以及模型参数配置

├── infer.py             # 预测脚本

├── reader.py            # 数据读取接口

├── README.md            # 文档

├── train.py             # 训练脚本

└── gen_data.sh          # 数据生成脚本

4.2.数据格式说明

本示例程序中支持的数据格式为制表符\t分隔的源语言和目标语言句子对,句子中的token之间使用空格分隔。如需使用BPE编码,亦可以使用类似WMT'16 EN-DE 原始数据的格式,参照gen_data.sh进行处理。

4.3.训练自己的模型

数据准备完成后,可以使用train,py脚本进行训练。以提供的 WMT'16 EN-DE 数据为例,具体如下:

python -u train.py \
  --src_vocab_fpathgen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \
  --trg_vocab_fpathgen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \
  --special_token '<s>''<e>''<unk>' \
  --train_file_patterngen_data/wmt16_ende_data_bpe/train.tok.clean.bpe.32000.en-de \
  --token_delimiter ' ' \
  --use_token_batch True \
  --batch_size 4096 \
  --sort_type pool \
  --pool_size 200000

上述命令中设置了源语言词典文件路径(src_vocab_fpath)、目标语言词典文件路径(trg_vocab_fpath)、训练数据文件(train_file_pattern,支持通配符)等数据相关的参数和构造 batch 方式(use_token_batch 指定了数据按照 token 数目或者sequence 数目组成 batch)等 reader 相关的参数。有关这些参数更详细的信息可以通过执行以下命令查看:

pythontrain.py --help

 

更多模型训练相关的参数则在config.py中的ModelHyperParams和TrainTaskConfig内定义:

  • ModelHyperParams定义了embedding 维度等模型超参数;
  • TrainTaskConfig定义了 warmup 步数等训练需要的参数。

 

这些参数默认使用了 Transformer 论文中 base model 的配置,如需调整可以在该脚本中进行修改。另外这些参数同样可在执行训练脚本的命令行中设置,传入的配置会合并并覆盖config.py中的配置,如可以通过以下命令来训练Transformer论文中的big model :

python -u train.py \
  --src_vocab_fpath gen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000\
  --trg_vocab_fpathgen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \
  --special_token '<s>''<e>''<unk>' \
  --train_file_patterngen_data/wmt16_ende_data_bpe/train.tok.clean.bpe.32000.en-de \
  --token_delimiter ' ' \
  --use_token_batch True \
  --batch_size 3200 \
  --sort_type pool \
  --pool_size 200000 \
  n_head 16 \
  d_model 1024 \
  d_inner_hid 4096 \
  prepostprocess_dropout 0.3

注:如果训练时更改了模型配置,使用infer.py预测时需要使用对应相同的模型配置;另外,训练时默认使用所有GPU,可以通过CUDA_VISIBLE_DEVICES环境变量来设置使用指定的GPU。

 


项目地址:

https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP/neural_machine_translation/transformer

【Reference】

[1]https://arxiv.org/abs/1706.03762

[2]http://openaccess.thecvf.com/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf

[3]https://arxiv.org/pdf/1607.06450.pdf