论文提出了一种基于注意力的端到端语音识别模型的多任务训练方法,以更好地整合语言级别的信息。通过对语音识别任务和下一令牌预测语言建模任务进行多任务训练,我们将解码器规范化为序列到序列的体系结构。在LibriSpeech的100小时子集或完整的960小时数据集上进行训练,所提出的方法导致相对于基线的相对性能提高了11%,可与语言模型浅层融合相提并论,而在解码过程中不需要额外的神经网络。通过对样本输出句和稀有词的误码率的分析表明,该方法可以有效地融合语言水平信息。
引言
基于注意力机制的端到端语音识别系统可以将音频直接映射到文本表示。训练数据由音频以及文本组成,与孤立的音频或者文本相比,这些数据更加昂贵且困难。最近通过纯音频数据进行语音识别已经取得了实质性的提升[1][2],研究利用纯文本数据的最常见方法是训练语言模型(LM),并使用浅层,冷层或深层融合将其集成到识别过程中。这些方法直接利用第二个神经网络模型,因此需要用于LM的额外空间和计算资源,这使得它们更难以在资源受限的环境(例如设备上的ASR系统)中部署。
也可以使用文本语音合成(TTS)将纯文本数据转换为音频文本对。 Li等人,在神经机器翻译中受到反向翻译方法的启发。提出使用从纯文本数据生成的音频-文本对来训练ASR模型[3]。提出了多篇论文,以一种周期一致的方式联合训练ASR和TTS模型。 Wang等。使用损失项来鼓励ASR模型在相同话语的真实和合成表示上生成一致的输出[4]。这些方法面临合成音频可能使ASR模型偏向不真实语音的问题。
作为LM融合和TTS的替代方案,提出了知识提取方法,以将LM中的知识转移到ASR模型[5]。 LM首先使用大量纯文本数据进行训练。为了训练ASR模型,将来自LM的音频文本数据转录本上的输出概率用作软标签。
最近,Sainath等。提出了联合声音和文本解码器(JA TD)[6],它结合了纯文本数据以在多任务配置中的训练过程中对ASR解码器进行正则化。在[6]中,使用由传统ASR模型转录的文本来训练JATD。在评估过程中,它还会使用两次通过,一次用于音频文本模式,另一次用于纯文本模式。在这项研究中,我们提出了仅文本数据(MUTE)的多任务训练,该训练通过在训练过程中直接使用参考文本以及在推理过程中仅使用单个解码器遍历来扩展JATD。 MUTE使用纯文本数据来规范解码器的训练。从这个角度来看,MUTE还与最近为端到端ASR模型减去内部LM的工作有关。在LibriSpeech(100h)或完整960小时(960h)数据集的100小时子集中的实验结果表明,MUTE可以有效地将纯文本数据整合到E2E模型中,从而提高了仅使用音频-文本对训练的基线的性能,并且改善了或在包含LM浅融合的基线上达到匹配性能。
模型
结论
本文提出了MUTE,一种用于基于注意力的端到端语音识别模型的多任务训练方法,以合并语言级别的信息。纯文本数据用于以多任务方式规范化解码器的训练。使用LibriSpeech 100h或960h作为音频文本数据进行训练,在测试清洁评估组上,MUTE相对基准线的性能高出11%。 MUTE在直接在ASR解码器上进行训练的过程中结合了语言级别的信息,在性能上与浅层融合相当,并且不需要附加的LM。对样本输出句子和稀有词的分析表明,MUTE可以有效地整合语言水平信息。未来的工作包括将MUTE用于设备上的ASR模型,将MUTE与仅音频技术相结合,将MUTE扩展到RNN-Transducers,以及将MUTE应用于审议模型。