作为语音交互的出口,语音合成是语音助手、车载导航、智能音箱、智能玩具、机器人等应用的必备功能,其效果直接影响人机交互的体验。此外,语音合成在AI音频内容创作与生成上也具有巨大的应用潜力:AI听书、AI电台、虚拟主播等均需要自然流畅、多样化、表现力、个性化的语音合成技术。

Attention,Tacotron,WaveNet和LPCNet声码器等前沿方法详解_迭代

(语音合成应用) 

尽管语音合成的技术应用越来越广泛,市场越来越大,但是鲜有能够掌握语音合成原理,并能很好地应用在实际开发中的人才,这是什么原因呢?!

1. 传统的语音合成技术落地困难,中小型企业玩不起!

传统语音合成是基于拼接和参数合成技术,在实现上对复杂流水线具有很强的依赖。比如以文本分析为前端的语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器(vocoder),这些组件都是基于大量领域专业知识,设计上很艰难,需要投入大量工程努力,对于手头资源有限的中小型玩家来说,这种“高大上”的技术似乎有些玩不起。更何况效果上同真人语音的自然度尚有一定差距!

不过,随着技术的发展迭代,端到端的语音合成技术逐渐出现了。

DeepMind团队提出了WaveNet合成系统,使用dilated causal convolution技术来增加CNN的receptive field,从而提升了模型建模long dependency的能力;Google提出了Tacotron系统,目前已成为最流行的基于深度学习的端到端语音合成模型,合成语音效果能够接近真人发音的水平。

Attention,Tacotron,WaveNet和LPCNet声码器等前沿方法详解_语音合成_02

Tacotron模型结构

技术的更迭越来越快,Attention,Self-Attention,Transformer,Fastspeech及基于Flow/GAN的Neural Vocoder等等新的算法的融合、新技术的应用,层出不穷!

伴随而来的学习问题,也成了缺少语音合成技术人才的重要原因之一。

2. 学习资料不系统,很难掌握扎实

虽然端到端技术能让中小型玩家入局语音合成,但有志向想在语音合成领域深耕的伙伴在入门学习的时候可能就已经被绊倒了!

很多伙伴在学习语音合成技术时,更多的是通过查阅资料了解前沿技术,而通过论文及博客文章的点式学习,无法构成完整的知识面;同时目前系统性学习语音合成的教程又极为匮乏,系统性讲解动手实践内容的资料更为少见,系统学懂原理极为困难;即使懂了理论原理,由于缺乏系统理解,在实践过程中也不知道从哪里入手,真正落地更是难上加难!

Attention,Tacotron,WaveNet和LPCNet声码器等前沿方法详解_语音合成_03