基于transformer的文本生成python

转载

漫步云端的猪 2025-01-06 10:53:03

文章标签 Transformer的编码器方差编码器编译过程 文章分类 Python 后端开发

1. Seq2seq model

1.1 Seq2seq model 的应用场景

语音辨识，中文音频到中文文字，音频到文字
语言翻译，中文文字到英文，文字到文字；
语音翻译，中文音频到英文文字，结合上述两个；
世界上7000 多种语言，还有很多语言，还没有文字，
文本到语音：输入文本，输出音频；

基于transformer的文本生成python_编译过程

用于文法解析（用于编译过程中，编译），seqseq for syntactic Parsing， “ Grammar as Foreign Language ” 14 年；
for Muli label calssifiction: 即同一个目标对象它同时属于多个标签；
区别于Mutil class, 多个类别中分类出一个类别；
for Object Detectiono;

2. Seq2seq model 组成模块

主成分两块：

Encoder
Decoder 部分；

2. Encoder 编码器

多个输入向量编码后得到多个输出向量

基于transformer的文本生成python_编译过程_02

3. Transformer 中的 Encoder

Transformer 中的Encodr 编码器可以看做是多个Block 组成。
每个Block 在 self attention 的基础上增加了残差连接 + Layer Norm + FC；
注意，这里每一个Block 是模型中多个 Layer 所做的事情；

基于transformer的文本生成python_编码器_03

3.1 单个Block 中的内容

每个Block中包含了：
自注意力机制 + 残差链接 + LayerNorm + FC + 残差链接 + layer Norm, 此时的输出 = 一个 Block 的输出；

基于transformer的文本生成python_编译过程_04

3.2 单个Block 中的具体实现步骤

原始的输入向量 $基于transformer的文本生成python_编码器_05$ 与输出向量 $基于transformer的文本生成python_编译过程_06$ 残差相加得到向量 $基于transformer的文本生成python_编译过程_07$ ；
注意， $基于transformer的文本生成python_编码器_05$ 是原始的输入向量，下图中输出向量 $基于transformer的文本生成python_编译过程_06$

基于transformer的文本生成python_Transformer的编码器_10

Layer Normation:   不需要考虑batch;
  同一个样本， 同一个 feature ,  不同的 dimeation 中 去计算 mean 和 方差；
  Batch Normalization: 
 不同的样本， 不同的特征，但是 同一个 dimeation 去计算  mean ，和方差；

将向量 $基于transformer的文本生成python_编译过程_07$ 通过 Layer Normation 得到向量 $基于transformer的文本生成python_方差_12$ ;

图中左侧部分：

基于transformer的文本生成python_方差_13

图中右侧部分：

将向量 $基于transformer的文本生成python_方差_14$ 通过 FC layer 得到向量 $基于transformer的文本生成python_编译过程_15$
向量 $基于transformer的文本生成python_方差_14$ 与向量 $基于transformer的文本生成python_编译过程_15$ 残差相加，得到向量 $基于transformer的文本生成python_编码器_18$
向量 $基于transformer的文本生成python_编码器_18$ 通过 Layer Norm 输出向量 $基于transformer的文本生成python_方差_20$ ，
此时得到的输出向量 $基于transformer的文本生成python_方差_20$

3.3 上述步骤的等价

上述步骤，便是原始论文Transformer 中,Encoder 的设计;

注意到，这里的Multi Head Attention 多头注意力，是 self attention 的基础上增加了 $基于transformer的文本生成python_编码器_22$ , $基于transformer的文本生成python_编码器_23$ , $基于transformer的文本生成python_方差_24$ 的数量，从而称作是多头；

基于transformer的文本生成python_方差_25

3.4 网络的优化

更改LayerNorm 的位置顺序；
更换层， layerNorm --> PowerNorm;

基于transformer的文本生成python_编译过程_26

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Android使用nativa ndk开发

下一篇：android签名 V2

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯