卷积神经网络—不同层能够输出图像中不同层面上的细节特征;
循环神经网络RNN
传统RNN
全连接网络运用到NLP任务上,面临的问题:
1、对于不同的输入样本,输入和输出可能有不同的长度,因此输入层和输出层的神经元数量无法固定;
2、从输入文本的不同位置学到的同一特征无法共享;
模型中的参数太多,计算量太大;
1)解决办法—RNN网络结构----通过扫描数据输入的方式,使得每一个时间步的所有网络参数是共享的,且每个时间步不仅会接收当前时刻的输入,同时会接收上一个时刻的输出,从而使得其能够成功利用过去输入的信息来辅助当前时刻的判断;
2)原始RNN存在的问题—采取的是线性序列结构—不断从前往后收集输入信息、这种线性结构不擅长捕获文本中的长期依赖关系—反向传播路径太长,容易造成严重的梯度消失或梯度爆炸问题;
长短期记忆网络(LSTM)
1)传统RNN—将所有的知识全部提取出来,不做任何处理的输入到下一个时间步进行迭代;
2)LSTM局限性:时序性的结构一方面使其很难具备高效的并行计算能力(当前状态的计算不仅要依赖当前的输入,还要依赖上一个状态的输出),另一方面使得整个LSTM模型(包括其他的RNN模型,如GRU)总体上更类似于一个马尔可夫决策过程,较难以提取全局信息;
3)GRU—可以看作一个LSTM的简化版本,其将a^t 与
c^t两个变量整合在一起,且讲遗忘门和输入门整合为更新门,输出门变更为重制门,大体思路没有太大变化;
4)GRU—参数量更少、收敛速度更快—适用于较少的数据集;
卷积神经网络CNN
1)解决长远距离的信息提取—把网络做的更深一些,越深的卷积核将会有更大的感受野,从而捕获更远距离的特征;
2)为了防止文本中的位置信息丢失,NLP领域里的CNN的发展趋势是抛弃Pooling层,靠全卷积层来叠加网络深度,并且在输入部分加入位置编码,人工将单词的位置特征加入到对应的词向量中;
3)网络做深—残差网络—解决梯度消失问题—本质是加速信息流动,使简单的信息传输可以有更简单的路径—网络做深的同时确保有良好的性能;
Transformer
1)详解推荐—参考链接:https://zhuanlan.zhihu.com/p/54356280
2)论文《Attention is All You Need》中提出的的模型—Transformer结构;
Transformer Block作为特征提取器代替了之前提到的LSTM和CNN结构;
3)通常使用的特征提取结构(包括了Bert)主要是Encoder中的Transformer;理解Transformer在Encoder中是怎么工作的;
Transformer Block==Multi-Head Attention(多头注意力机制)+Feed Forward(前馈神经网络)
4)Multi-Head Attention模块结构如下图;
5)Self-Attention模块结构如下图;
其余扩展提醒知识点
1)DGCNN(膨胀门卷积神经网络)—是基于CNN和简单Attention的模型;参考链接:https://kexue.fm/archives/5409
2)Transformer、RNN、CNN的性能比较;
1、从语义特征提取能力:Transformer显著超过RNN和CNN,RNN和CNN两者能力差不太多;
2、长距离特征捕获能力:CNN极为显著地弱于RNN和Transformer,Transformer微弱优于RNN模型,但在比较远的距离上(主语谓语距离大于13),RNN微弱优于Transformer,所以综合看,可以认为Transformer和RNN在这方面能力差不太多,而CNN则显著弱于前两者;
3、任务综合特征抽取能力:机器翻译任务是对NLP各项处理能力综合要求最高的任务之一,要想获得高质量的翻译结果,对于两种语言的词法、句法、语义、上下文处理能力、长距离特征捕获等方面的性能要求都是很高的。从综合特征抽取能力角度衡量,Transformer显著强于RNN和CNN,而RNN和CNN的表现差不太多;
4、并行计算能力:并行计算能力,并行计算是RNN的严重缺陷,而Transformer和CNN差不多;