一、语音信号处理的过程

在信号处理领域,信息加工和处理的一般流程下图所示。

语音信号预处理python 语音信号预处理的步骤_人工智能

 在语音信号的具体情况下,信息源就是说话的人,通过观察和测量得到的就是语音的波形。信号处理包括以下几个内容,首先根据一个给定的模型得到这一信号的表示;然后再用某种高级的变换把这一信号变成一种更加方便的形式;最后一步是信息的提取和使用,这一步可由听者来完成,也可由机器自动完成。
所以,语音信号处理一般有两个任务:第一,它是一种工具,利用它可以得到语音信号的一般表示,这种表示可以用波形表示也可用参数形式表示;第二,把信号从一种形式变换到另一种形式,变换后的表示形式虽然从性质上讲它的普遍性可能小一些,但对某一特殊应用却是更加合适。由此从总体上来看,语音信号处理过程可以用统一的框架来表示,其基本的结构框图下图所示。

语音信号预处理python 语音信号预处理的步骤_语音信号_02

从上图可以看出:无论是语音识别还是语音编码与合成,对于输入的语音信号首先要进行预处理,对信号进行适当的放大和增益控制,并进行反混叠滤波来消除工频信号的干扰;然后进行数字化,将模拟信号转换为便于计算机处理的数字信号;随后对数字语音信号进行分析,提取一定的反映语音信息的参数;最后根据语音信号处理任务的不同,采用不同的处理方法。

语音识别技术分为两个阶段:语音识别和训练阶段。在训练阶段,对用特定的参数形式表示的语音信号进行相应的处理,获得表示识别基本单元共性特点的标准数据,以此构成参考模板,并将所有能识别的基本单元的参考模板结合在一起,形成参考模式库;在识别阶段,将待识别的语音信号经特征提取后逐一与参考模式库中的各个模板按某种原则进行比较,找出最相似的参考模板所对应的发音,即为识别结果。

对于语音编码技术来说,为了对语音信号进行有效的传输,需要对语音信号以某种算法进行编码,并在接收端进行解压缩。对于语音信号的合成,则是对编码后的信号进行存储。

二、语音信号处理的应用

语音信号处理在现实生活中有很多的应用,语音信号处理技术是计算机智能接口与人机交互的重要手段之一。从目前和整个信息社会发展趋势看,语音技术有很多的应用。语音技术包括语音识别、说话人的鉴别和确认、语种的鉴别和确认、关键词检测和确认、语音合成、语音编码等,但其中最具有挑战性和最富有应用前景的为语音识别技术。
语音识别技术有非常广阔的应用前景,比如:具有语音接口的计算机可以改变人们目前对计算机的操作方式,引起操作系统的革命,具有听写功能的计算机将给办公自动化带来重大的变革,同时也使某些非拼音文字(如汉语)的计算机输入不再是一种需要专门训练的技能;在通信方面则是实现两种语言间的直接通信,即通过“语音识别一机器翻译一语音合成”将一种语言直接转换成另一种语言;语音识别可以使用户通过语音直接检索数据库,既经济又迅速;在一些特殊行业,如飞机、汽车或者战车驾驶员在高速行驶中进行电话拨号或发布命令。

基于语音识别技术的发音错误识别系统,可对受训者外语学习过程中的发音进行培训,为学生的硬件(如嘴)和软件(大脑)提供重新锻炼机会,使他们从汉语发音习惯到英语发音,并且纠正他们的发音,增强其说外语的能力和水准。21世纪将是“数字化生存”的时代,语音识别技术将是数字化生存的重要标志之一,它将改变人们学习、工作和生活娱乐的方式。

参考文献:

数字语音处理及MATLAB仿真(第二版);张雪英(编著)