巧妇难为无米之炊,今天的推荐是两套开源数据。关注本博客或者公众号的朋友,可能一部分是已经在做自己的课题或者项目,可以直接使用本站这些脚本或者程序的;也有的刚在学习进行中,那么手头可能未必会有合适的数据来进行实验或者提取,分析。这篇文章的目的,为大家推荐两套开源数据库,这些数据有wav和标注好的结果,可以直接用来提取参数,了解实验过程。开源数量是公开免费使用的,但是不能用做商业用途,拿来用做学术研究,写论文都是没问题的,原则上要注明出处。

第一个中文数据是普通话音库,来自标贝公司(https://www.data-baker.com/index.html),这是一套专门用于语音合成的标准普通话女声音库,共10小时,所有音频wav都有人工精标注。从录音质量上来说,标贝的这套几乎可以称为完美。音质非常清楚,而且有人工精标注的音素信息,这可以说是业界良心了。下载地址是:https://www.data-baker.com/open_source.html,在此页的最下方有“数据下载”,并且有数据和版权说明等;

第二套是英语的CMU(http://www.speech.cs.cmu.edu/databases/)数据库。我的下载方式是在下载HTS合成工具包的时候,它的Demo里自带的数据http://hts.sp.nitech.ac.jp/?Download,这里面带了CMU的英语数据1000句,是raw格式的;

  • 为什么要二次处理这两个数据库

首先这个中文数据下载了之后是三个文件:

Wave.rar, ProsodyLabeling.rar, PhoneLabeling.rar

分别解压之后:

  • 第一个压缩包,Wave.rar,这里面是wav格式的音频,都是在专业录音棚录制的,共10000句,采样率是48K;
  • 第二个压缩包,ProsodyLabeling.rar, 解压之后,是一个文本文件,打开之后如下,这里面的#2等信息在网站有说明,是韵律停顿信息;
000001 卡尔普#2陪外孙#1玩滑梯#4。 

ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1

000002 假语村言#2别再#1拥抱我#4。 

jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3 

000003 宝马#1配挂#1跛骡鞍#3,貂蝉#1怨枕#2董翁榻#4。 

bao2 ma3 pei4 gua4 bo3 luo2 an1 diao1 chan2 yuan4 zhen3 dong3 weng1 ta4

https://www.data-baker.com/open_source.html

  • 第三个压缩包,PhoneLabeling.rar,解压之后,是上述10000句音频的人工精标信息,包括音素,以及音素的时间点信息,可以直接用Praat打开:

滴滴开源kafka 滴滴开源数据 语音_开源中英文示例数据

所以现在这里二次处理的方式就是通过程序,将汉字和音素(拼音)结合起来放在一个TextGrid里,即:

滴滴开源kafka 滴滴开源数据 语音_开源中英文示例数据_02


这样更适合于想通过脚本练习提取数据分析的朋友,除了第一层的人工标注音素信息,在第二层将第二个压缩包的韵律信息融合;

第二个英语数据库,这个下载了之后,是只有raw格式的音频,我这里通过cooledit将它转化成16K的wav,网站还有这些音频对应的英语句子内容:

cmu_us_arctic_slt_a0001: Author of the danger trail, Philip Steels, etc.

如果能将发音也做成TextGrid的形式,对于直接使用数据提取参数也是很有帮助的。这个数据库由于没有直接的人工标注数据,这里采用的是montreal alignment这个对齐工具(http://montreal-forced-aligner.readthedocs.io)自动对齐的结果,这里使用的音素符号要去montreal alignment的网站去查看。

滴滴开源kafka 滴滴开源数据 语音_压缩包_03

下载地址

https://github.com/feelins/Praat_Scripts/tree/master/data

点击每个rar文件可以找到download,直接下载即可。