本周一,微软人工智能科研小组在arXiv上发表了一篇名为Achieving Human Parity in Conversational Speech Recognition的论文(详见http://dwz.cn/4p4IBi),宣布其语音识别系统的误字率首次低于人类专业打字员(听音速记)。据该团队的统计表明,专业速记员在Switchboard数据集上(两个初次见面的人围绕某一特定主题谈话的语音样本集)的误字率为5.9%,在CallHome上(朋友及家庭成员间随意谈话的音频样本集)的误字率为11.3%。在这两个数据集上,该团队的语音识别系统(ASR)均战胜人类速记员。其实验成功的关键在于,合理的利用卷积神经网络及LSTM神经网络,配以自由格人机界面听觉训练以及一种新的空间平滑法。

本次试验对于语音识别方向的研究具有如下几方面的重要意义:

训练样本来自闲谈录音

长久以来,只有在被测样本为文章、报纸内容朗读、新闻播报等准确编写的内容的情况下,语音识别系统的准确率才能逼近人类。而本次试验所用的两个样本集均为人类闲谈的电话录音,电话闲谈中用词语法方面的不正式、不准确导致了系统理解对话难度的加大。且电话闲谈中夹杂着大量的自我更正以及表示迟疑等情感因素的语气词,这对系统造成了不小的挑战。

论文中也有提到,目前,系统还不能很好地区分表示示意对方说话(当前讲者自己的话已经告一段落)的“嗯…”和表示迟疑(当前讲者还要继续讲话)的“嗯…”。二者虽然是同样的语气词,但包含的含义可是截然相反。论文中的表格9对此详细地进行了说明。

transformer语音识别准确率数据 语音识别技术准确度_语音识别

注:

  • CH:CallHome数据集
  • SWB:Switchboard数据集
  • 数字表示发生错误的次数
  • 数字后为发生混淆的词语A/B

从表格中不难看出,在这两个数据集上的测试结果均显示,该系统在上述两种情况下发生的错误远高于其他情况。

20年来重新测量人类误字率

人类对于音频识别的误字率曾长期被认为是4%,但该数据较为久远,于1997年提出。(详见http://dwz.cn/4p7QWz)该数据为糅合了从单个单词识别到闲聊对话共10个不同特性的数据集的测量结果,且数据源并不非常权威。因此,微软小组对于人类的误字率进行了重新测量,结果为上文所示的Switchboard(5.9%)及CallHome(11.3%)。更细节一些,针对CallHome数据集,人类速记员会记错4.1%的单词,落记6.5%。ASR系统会错记6.5%,但只落记3.3%。ASR系统以微弱的比率超过了人类。

首超人类如何实现

本次试验的首创性在于其卷积神经网络层数更多更深,且层与层之间采用了线性回路的连接方式。体系结构方面,该系统应用LACE模型提升了整体性能。LACE模型通过迭代的方式逐层扩张有效的滑动窗口大小,且为权重不同的文本附加了额外的掩码。(LACE模型详见 http://dwz.cn/4p3ywq) 其空间正则化技术也在传统的深度神经网络基础上有所推进,不需要额外的监督信号来刺激网络。且首创性地使用了自由格人机训练方式,通过三音素与单音素混合的语料模式提升了实验效果。在语料建模方面,采用正反双向的LSTM-LMs加之域内域外两阶段训练模式。以上因素的结合使该团队的卷积神经网络系统比同行业误字率下降了23%。