语音识别框架即声学模型加语言模型。
2018-icassp-ACCELERATING RECURRENT NEURAL NETWORK LANGUAGE MODEL BASED ONLINE SPEECH RECOGNITION SYSTEM
提出一个用于在线语音识别的加速神经网络语言模型。首先介绍了一种具有过去历史信息的缓存语言模型,然后介绍了神经网络语言模型在CPU-GPU上的混合部署。提出了一种对历史信息进行有损压缩的处理策略,在LibriSpeech语料中测试发现,减小历史信息可以在保证识别精度的情况下提高识别速度大约1.23倍,另一方面CPU和GPU混合并行计算可以提高4倍的识别速度。
ASR包含,声学模型,上下文模型,发音模型,语言模型
语言模型为插值
创新点:通过压缩历史向量,加速在线语音识别的速度。
2018-icassp-LIMITED-MEMORY BFGS OPTIMIZATION OF RECURRENT NEURAL NETWORK
LANGUAGE MODELS FOR SPEECH RECOGNITION
一般RNNLM使用SGD训练,最小化交叉熵损失。但是SGD只用了一阶导数信息,不能完全刻画的损失函数的曲率关系,这会导致训练时收敛变慢。本文提出使用包含二阶导数信息的L-BFGS的优化函数用于训练RNNLM.在Switchboard English 和Babel Cantonese两个语料库测试发现LBFGS可以减小词错误率,减小困惑度,加快收敛速度。语言模型为插值模型
创新点:根据作者调研,本文是第一篇将L-BFGS应用于RNNLM的。即改变SGD的优化函数。
2018_Interspeech_Dual Language Models for Code Switched Speech Recognition.
作者展示了一种用于双语对话语音识别(如:我们的total 是五十七)的dual语言模型,dual语言模型可以改善单语言模型的架构。我们建立了两个互补的单语言模型,通过概率模型在两个单语言模型直接切换。作者在SEAME中文和英文语料库实验,发现相对于标准的bilingual语言模型,dual语言模型可以有效的改善困惑度。
创新点:提出了一种应用于双语语音识别的基于概率模型选择单语言模型的双语言模型。
思考:中文和方言是不是也可以看成两种不同的语言呢。现在的语音识别需要手动切换语种,能不能识别语种再应用对应语音识别系统。即语种识别
2018_Interspeech_mproving Language Modeling with an Adversarial Critic for Automatic Speech Recognition
使用最大似然估计训练RNNLM在预测时会欠拟合,所以会限制对N个识别结果的打分。受GAN网络启发,作者提出了一个方法改善这个问题,在训练阶段将RNNLM看成产生式模型,使用neural ctitic促使RNNLM学习句子的长期依赖,产生正确的结果。虽然GAN网络在产生离散序列方面有缺陷,但是作者提出了一个梯度算法可以改善。(看的不是很明白)
2018_Interspeech_Neural Error Corrective Language Models for Automatic Speech Recognition
作者提出了一个用于校正语音识别错误的NNLM。作者命名为神经错误校正语言模型简称NECLM,包含encoder和decoder两个部分。encoder根据语音识别器产生的最好的几个识别结果和自信分数构建上下文向量,decoders使用上下文向量计算词出现的概率对识别结果进行校正。在日语识别任务中发现识别结果比基于CNN声学模型+RNN语言模型的语音识别效果好。词错误率降低了1.83%.
创新点:提出基于encoder-decoder的语言模型用于对语音识别结果校正。改善很小
2018_Interspeech_Recurrent Neural Network Language Model Adaptation for Conversational Speech Recognition
作者提出了两个自适应RNNLM用于刻画对话语音识别中话题以及长距离触发。一个为对话缓存模型,一个为DNN自适应模型。结果表明WER和困惑度都有所改善。WER相对改善了3.9%,困惑度改善了10%。作者又在非对话语音识别语料进行的实验,发现也有所改善。说明该不行不局限于对话式语音识别。
创新点:提出基于FMA(FAST marginal adapation)的两个自适应语言模型,用于改善语音识别。