1:transformer结构
2:单个的encoder
2.1输入部分
2.1.1embedding
2.1.2位置编码
【注】RNN是按照时间线展开,单词的先后顺序没有被忽略。而transformer是并行处理的,故增快了速度,忽略了单词之间的先后顺序。
2.2注意力机制
2.2.1注意力机制
基本的注意力机制:
TRM中的中的注意力机制操作:
2.2.2残差和LayNorm