一、seq2seq模型
seq2seq是一个Encoder-Decoder结构的网络,它的输入是一个序列,输出也是一个序列。
Encoder中将一个可变长度的信号序列变成固定长度的向量表达
Decoder将这个固定长度的向量变成可变长度的目标的信号序列
这个结构最重要的地方在于输入序列和输出序列的长度是可变的
可以用于翻译、聊天机器人、句法分析、文本摘要等。
二、seq2seq模型(注意力机制)
注意力机制:
注意力机制是在seq2seq模型中用于注意力编码器状态的最常用方法,它同时还可用于回顾序列模型的过去状态。
注意力机制不仅能用来处理编码器或前面的隐藏层,它同样还能用来获得其他特征的分布,例如阅读理解任务中作为文本的词向量。
为什么需要注意力机制:
1、减小处理高维输入数据的计算负担,通过结构化的选取输入的子集,降低数据维度。
2、让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息,从而提高输出的质量。
3、注意力模型的最终目的是帮助类似编解码器这样的框架,更好的学到多种内容模态之间的相互关系,从而更好的表示这些信息,克服其无法解释从而很难设计的缺陷。
注意力机制使得最后的结果准确度更高
三、聊天机器人模型
聊天机器人根据对话的产生方式
1、基于检索的模型
2、基于生成式模型
不依赖预先设定的问答库;
通常基于机器翻译技术;
需要大量的语料进行训练;
3、混合模式
聊天机器人模型