1:transformer结构

transformer模型_并行处理

 

 transformer模型_并行处理_02

 

 transformer模型_it技术_03

 

transformer模型_并行处理_04

 

 2:单个的encoder

transformer模型_并行处理_05

 

 2.1输入部分

transformer模型_it技术_06

 

 2.1.1embedding

2.1.2位置编码

transformer模型_it技术_07

 

 【注】RNN是按照时间线展开,单词的先后顺序没有被忽略。而transformer是并行处理的,故增快了速度,忽略了单词之间的先后顺序。

transformer模型_并行处理_08

 

 transformer模型_并行处理_09

 

 transformer模型_it技术_10

 

 2.2注意力机制

2.2.1注意力机制

 transformer模型_并行处理_11

 

基本的注意力机制:

 transformer模型_it技术_12

 

 transformer模型_it技术_13

 

 transformer模型_it技术_14

 

 TRM中的中的注意力机制操作:

transformer模型_it技术_15

 

 transformer模型_it技术_16

 

 transformer模型_it技术_17

 

 transformer模型_it技术_18

 

 transformer模型_it技术_19

 

 2.2.2残差和LayNorm

transformer模型_并行处理_20

 

 transformer模型_it技术_21