目录

  • 前言
  • 第5章 谱减算法
  • 5.1 谱减的基本原理
  • 5.2 谱减的几何分析
  • 5.2.1 带噪信号与纯净信号相位差的上限
  • 5.2.2 不同的谱减形式及理论局限
  • 5.3 谱减法的缺点
  • 5.4 谱减法中使用过减技术
  • 5.5 非线性谱减
  • 5.6 多带谱减法
  • 5.7 MMSE(Minimum Mean Square Error)谱减算法
  • 5.8 扩展谱减法
  • 5.9 使用自适应增益平均的谱减
  • 5.10 选择性谱减
  • 5.11 基于感知特性的谱减
  • 5.12 谱减算法的性能


前言

本文主要记录本人选读单麦降噪经典书籍《Speech enhancement: theory and practice》的读书笔记,内容会持续更新
第1章~第4章:
第5章:
第6章:

此处附上该书的网盘链接,里面有全套代码,供大家学习参考
链接:https://pan.baidu.com/s/1BFyPPiAigoLJSe995SyPlw 提取码:7ycl

第5章 谱减算法

假设噪声为加性噪声,通过从带噪语音谱中减去对噪声谱的估计,就可以得到纯净的信号谱。在不存在目标信号的期间,可以对噪声谱进行估计和更新。做出这一假设是基于噪声的平稳性,这样噪声的频谱在每次更新之间不会有很大的改变。

5.1 谱减的基本原理

假设speech enhancement_傅里叶变换为受噪声污染的输入信号,其由纯净语音信号speech enhancement_语音信号_02和加性噪声speech enhancement_持续更新_03组成,即
speech enhancement_speech enhancement_04

两边同时做傅里叶变换
speech enhancement_speech enhancement_05

噪声的幅度谱speech enhancement_持续更新_06是未知的,但是可以通过无语音活动时的平均幅度谱的估计来代替;噪声的相位speech enhancement_语音信号_07可以由带噪语音的相位speech enhancement_语音信号_08来代替,这是因为相位不会对语音可懂度造成影响,只是可能在一定程度上影响语音质量。在speech enhancement_人工智能_09式中做以上替换,可以得到纯净信号谱的一种估计:
speech enhancement_持续更新_10

增强信号的幅度谱speech enhancement_speech enhancement_11可能是负值,这是因为错误地估计了噪声谱。然而,幅度谱不应该是负值,当两个谱相减时,必须确保speech enhancement_语音信号_12总是非负值。解决办法之一就是对差分谱做半波整流
speech enhancement_傅里叶变换_13

这种半波整流的处理只是保证speech enhancement_语音信号_14为非负的众多方法之一,也可以使用其他方法。


有些情况下,使用功率谱会好于使用幅度谱。为了得到带噪语音的功率谱,将speech enhancement_人工智能_09式中的speech enhancement_持续更新_16与它的共轭speech enhancement_语音信号_17相乘
speech enhancement_语音信号_18

其中speech enhancement_持续更新_19speech enhancement_语音信号_20speech enhancement_语音信号_21并不能直接得到,而是通过speech enhancement_speech enhancement_22speech enhancement_语音信号_23speech enhancement_持续更新_24来近似。speech enhancement_speech enhancement_22通过无语音段估计得到,表示为speech enhancement_人工智能_26;如果我们假定speech enhancement_持续更新_03具有零均值,并且与纯净信号speech enhancement_语音信号_02不相关,则speech enhancement_语音信号_23speech enhancement_持续更新_24这两项简化为零,即
speech enhancement_speech enhancement_31

speech enhancement_持续更新_32

互相关的定义
speech enhancement_speech enhancement_33
speech enhancement_speech enhancement_34
speech enhancement_傅里叶变换_35


如果对speech enhancement_人工智能_36式的两边同时进行傅里叶变换,我们可以在自相关域得到一个类似的方程
speech enhancement_傅里叶变换_37

其中speech enhancement_傅里叶变换_38speech enhancement_speech enhancement_39speech enhancement_傅里叶变换_40分别是估计的纯净信号、带噪语音信号和估计的噪声信号的自相关序列。因此,原则上也可以在自相关域进行减法操作。


speech enhancement_人工智能_36式也可以写成
speech enhancement_人工智能_42

其中
speech enhancement_人工智能_43

我们称speech enhancement_语音信号_44为增益函数或抑制函数。speech enhancement_语音信号_44是实偶函数意味着speech enhancement_傅里叶变换_46是以零点成偶对称的,因此是非因果的,在时域,相当于一个非因果的滤波运算


谱减算法流程图



speech enhancement_speech enhancement_47



该方法存在问题
speech enhancement_speech enhancement_48式中的交叉项仅在统计意义上为零,即假设拥有足够的数据以得到期望值,同时假定信号是平稳的。然而,语音是非平稳的。在大多数应用中,语音是基于逐帧的形式被处理,并且这些交叉期望值不一定为零。



speech enhancement_语音信号_49


从上图可以看出,与带噪语音信号功率谱比较,至少在低频部分,交叉项并非小到可以忽略的地步。尽管交叉项或许不应该在整个频谱上都被忽略,但是大多数谱减法为了简单起见,都假设这些项为零。

5.2 谱减的几何分析



speech enhancement_人工智能_50


speech enhancement_持续更新_51可以在复平面以几何形式表示为两个复数speech enhancement_语音信号_52speech enhancement_speech enhancement_53的和。

5.2.1 带噪信号与纯净信号相位差的上限



speech enhancement_人工智能_54


speech enhancement_傅里叶变换_55

当噪声和纯净信号向量相互正交,即speech enhancement_傅里叶变换_56的时候,相位差达到最大值
speech enhancement_语音信号_57

定义speech enhancement_speech enhancement_58为频谱瞬时信噪比
信噪比越大,则带噪相位与纯净相位之差越小。这表明,当某频率处具有较大的信噪比时,用带噪信号谱的相位来代替纯净信号谱相位是比较可靠的
听觉实验表明,当所有频段的信噪比大于约speech enhancement_speech enhancement_59时,我们感觉不到噪声对信号相位的影响。否则,相位失配将可能使人感觉到音质“粗糙”。

5.2.2 不同的谱减形式及理论局限

speech enhancement_人工智能_09式两侧的实部和虚部分别相等

speech enhancement_语音信号_61

speech enhancement_speech enhancement_62

通过将式speech enhancement_语音信号_63和式speech enhancement_持续更新_64求平方以后相加,得到

speech enhancement_语音信号_65

speech enhancement_speech enhancement_66

speech enhancement_语音信号_67

若式speech enhancement_speech enhancement_68speech enhancement_人工智能_69,则纯净信号谱和噪声谱是正交的(不相关的)。因此,在信号向量与噪声向量相互正交这一条件下,标准的谱减形式(式speech enhancement_speech enhancement_70)是非常精确的。同理,基于式speech enhancement_speech enhancement_71,我们可以推断功率谱减形式(式speech enhancement_傅里叶变换_72)在同样条件下也是精确的


通过三角关系图,可以推导该方程的另外一种形式

speech enhancement_持续更新_73

speech enhancement_人工智能_74

speech enhancement_人工智能_75



speech enhancement_人工智能_76


若式speech enhancement_语音信号_77speech enhancement_傅里叶变换_78,并取负号,则有speech enhancement_speech enhancement_79在高信噪比和低信噪比的时候,带噪信号和纯净信号近似共线,在该条件下,标准的谱减形式(式speech enhancement_speech enhancement_70)是非常精确的


speech enhancement_speech enhancement_68和式speech enhancement_语音信号_77给出的减法形式易于使用,并且由于它们没有引入信号和噪声之间的统计假设,因而考虑了交叉项的影响,这样就比式speech enhancement_人工智能_83和式speech enhancement_人工智能_36更为精确。但是它们也有含糊的地方,那就是没有一个简单的办法来确定使用其中的正号还是负号。
另一个障碍就是其依赖于纯净信号的幅度,一个可能的解决方案是使用预先估计的speech enhancement_傅里叶变换_85的值,这样的话需要隐含地假设帧与帧之间的幅度谱不会大幅改变。


瞬时信噪比与信号/噪声相位之间的关系
speech enhancement_傅里叶变换_86

抑制函数与带噪/纯净信号和噪声信号相位差之间的关系
speech enhancement_傅里叶变换_87

speech enhancement_人工智能_69即当信号和噪声统计不相关时,该抑制函数简化为功率谱减法的抑制函数形式(式speech enhancement_语音信号_89)。

5.3 谱减法的缺点

早先提到过,噪声谱的错误估计会导致谱减后的频谱存在负值,最简单的解决方法是对这些值进行半波整流,以保证非负的幅度谱。但是这种对负值的非线性处理,会导致信号帧频谱的随机频率位置上出现小的、独立的峰值,转换到时域以后,这些峰值听起来就像帧与帧之间频率随机变化的多频音。这种由半波整流过程引入的“噪声”被描述为具有多频音音质的颤音,一般被称为“音乐噪声”,音乐噪声在语音的清音段更为明显,此时噪声的功率与语音的功率很接近。

5.4 谱减法中使用过减技术

Boll所使用的的减小音乐噪声的办法是对谱减的负值设定一个下限,而不是将它们设为0(式speech enhancement_人工智能_83
speech enhancement_持续更新_91

该方法的主要缺点在于它需要使用后续帧的增强语音谱,因此可能不能满足实时应用。


Berouti提出了一种不需要使用未来信息的方法,该方法包括减去噪声谱的过估计,同时防止计算结果小于一个预设值(谱下限)
speech enhancement_持续更新_92

其中speech enhancement_语音信号_93为过减因子speech enhancement_傅里叶变换_94speech enhancement_傅里叶变换_95是谱下限参数。
使用过减因子和谱下限的主要动机在于:当从带噪语音谱中减去噪声谱估计的时候,频谱中会残留一些隆起的部分或谱峰。通过对噪声谱的过减处理,例如通过令speech enhancement_持续更新_96我们可以减小宽带谱峰的幅度,有时还可以将其完全消除。但是仅仅这样还不够,因为谱峰周围可能仍然存在较深的谱谷,因此需要使用谱下限来填充这些谱谷,并可能掩盖那些具有相近幅度的谱峰。

参数speech enhancement_持续更新_97可以控制残留噪声的多少以及音乐噪声的大小。如果谱下限参数太大,则可能听到残留噪声信号但是感觉不到音乐噪声;相反,如果speech enhancement_人工智能_98太小,则可能带来讨厌的音乐噪声,但是原噪声信号可以被极大地抑制。

speech enhancement_傅里叶变换_99

参数speech enhancement_语音信号_100影响语音谱在谱减过程中的失真程度。如果speech enhancement_人工智能_101过大,处理后的信号会严重失真以致语音可懂度受到影响。

speech enhancement_speech enhancement_102


实验结果表明:要尽可能好地抑制噪声同时又能达到最小的音乐噪声,在高信噪比数据帧时,

speech enhancement_人工智能_101

应该取小值,对低信噪比帧,

speech enhancement_人工智能_101

应该取大值。


speech enhancement_人工智能_105

其中

speech enhancement_傅里叶变换_106

是在

speech enhancement_speech enhancement_107

信噪比时期望的

speech enhancement_人工智能_101

值,SNR为每一帧的短时信噪比估计,是信噪比的一种后验估计。

Berouti等人做了大量的实验来确定speech enhancement_人工智能_101speech enhancement_人工智能_98的最优值。speech enhancement_傅里叶变换_106处于3到6时,被证明具有良好的性能。谱下限参数speech enhancement_人工智能_98的取值则被证实与后验SNR的值相关。对于高噪声级(SNR=-5dB),建议speech enhancement_人工智能_98的取值范围为0.02到0.06.对低噪声级(SNR speech enhancement_持续更新_114 0dB,speech enhancement_人工智能_98取0.005到0.02。推荐25~35ms长度的分析窗,若使用短语20ms的分析帧可能导致粗糙的语音质量。

5.5 非线性谱减

Berouti等人提出的谱减算法,假设了噪声对所有的频谱分量具有同等的影响,继而只用了一个过减因子speech enhancement_语音信号_93来减去整个频谱上对噪声的过估计。然而现实世界中的噪声对低频的影响可能要大于对高频部分的影响,这意味着可以用一个频率相关的减法因子来处理不同类型的噪声。
非线性谱减(Nonlinear Spectral Subtraction,NSS)令过减因子与频率相关且减法过程非线性,信噪比低则减去一个较大的值,信噪比高则减去较小的值
speech enhancement_傅里叶变换_117

speech enhancement_人工智能_118

speech enhancement_语音信号_119

其中speech enhancement_语音信号_120为谱下限,speech enhancement_持续更新_121speech enhancement_持续更新_122分别为带噪语音和噪声的平滑估计,speech enhancement_语音信号_123为频率相关的减法因子,speech enhancement_语音信号_124为噪声谱的非线性函数,常数speech enhancement_持续更新_125speech enhancement_speech enhancement_126的取值范围为speech enhancement_语音信号_127speech enhancement_人工智能_128。过减因子speech enhancement_语音信号_123通过计算过去40帧的噪声幅度谱speech enhancement_人工智能_130的最大值求得:
speech enhancement_持续更新_131

本书关于speech enhancement_持续更新_132的讲解我也没太看懂,如有需要,建议参考文献1

5.6 多带谱减法

多带谱减法基于这样一个事实,即通常情况下,噪声不会对语音的整个频谱都具有同等的影响,有些频率上的影响会比别的频率更严重,这取决于噪声的频谱特性。

多带与非线性谱减的主要区别在于对过减因子的估计,多带算法针对频带估计减法因子,而非线性谱减法则针对每一个频点。针对每个频点来估计减法因子有个缺点,即每个频点上的信噪比可能帧与帧之间有很大的变化,这种剧烈变化是谱减法中所遇到的语音失真(音乐噪声)的原因,而子带信噪比的变化则不会特别剧烈,因此,利用多带谱减法有望显著减小语音失真

在多带算法中,语音频谱被划分为speech enhancement_持续更新_133互不重叠的子带,谱减法在每个子带中独立运行,第speech enhancement_傅里叶变换_134个子带的纯净语音信号谱的估计通过下式得到:

speech enhancement_人工智能_135

speech enhancement_语音信号_136speech enhancement_持续更新_137是第speech enhancement_傅里叶变换_134个频带上频点的起始和结束点,speech enhancement_speech enhancement_139为第speech enhancement_傅里叶变换_134个子带的过减因子$, speech enhancement_speech enhancement_141为子带减法因子,它可以按子带独立设置以满足不同的噪声抑制需求,speech enhancement_傅里叶变换_142为预处理过程中经过平滑的第speech enhancement_傅里叶变换_134个频带的噪声语音谱。对式speech enhancement_人工智能_144的减法过程产生的负值取下限:

speech enhancement_speech enhancement_145

其中的谱下限参数speech enhancement_语音信号_120设为0.002。为了进一步掩盖剩下的音乐噪声,少量的带噪信号谱会被重新引入增强后的信号谱

speech enhancement_语音信号_147

子带过减因子speech enhancement_傅里叶变换_148是第speech enhancement_speech enhancement_149个频率子带的信噪比的函数
speech enhancement_语音信号_150

其中子带信噪比为
speech enhancement_人工智能_151

speech enhancement_持续更新_152权重为子带间的控制提供了更大的灵活性,speech enhancement_持续更新_152通过经验确定:
speech enhancement_傅里叶变换_154

在低频带使用较小的speech enhancement_人工智能_155地目的是为了最小化语音失真,因为绝大部分语音能量都处于低频部分,在高频带也会使用这种较缓和的减法。


预处理的目的是为了减少谱估计的波动,进而减少残留噪声。预处理通过对数据进行预设置,使用了平滑后的功率谱,而不是直接使用原信号的功率谱。对幅度谱进行平滑可以减小语音谱的波动并提高语音质量,对噪声谱的估计进行平滑操作并未发现有益于减少残留噪声

一种加权谱平均会利用到前续以及后续的语音帧:
speech enhancement_持续更新_156

平滑操作的跨度从当前语音帧的前续M帧直到后续M帧,帧数M限制为2,以防止破坏频谱信息。权重speech enhancement_傅里叶变换_157通过经验确定,设为speech enhancement_人工智能_158

一些文献考考察了不同频带数量以及频率划分对性能的影响,性能评估使用IS谱距离测度。
该IS距离显示,当频带数量从1增加到4的时候,算法性能明显改善,但是频带数量超过4个之后,性能改善明显越来越小。音质的提高也是明显的。
文献也对三种不同的频率划分方式做了考察:线性、对数以及梅尔划分。这三种划分方式在谱距离以及语音质量上都具有比较近似的性能,只是对数划分方式会在低频带引起一些失真。

5.7 MMSE(Minimum Mean Square Error)谱减算法

在上面的方法中,谱减参数speech enhancement_语音信号_93speech enhancement_语音信号_120通过实验确定,无论如何都不会是最优的选择。Sim等人提出了一种方法,能够在均方误差意义下最优地选择减法参数。他们考虑谱减法的这样一种一般形式:
speech enhancement_人工智能_161

参数speech enhancement_speech enhancement_162speech enhancement_傅里叶变换_163可以通过最小化频谱的均方误差得到:
speech enhancement_人工智能_164

这里假定带噪语音谱是两个独立频谱,即
speech enhancement_人工智能_165

通过对speech enhancement_speech enhancement_162speech enhancement_傅里叶变换_163计算谱误差speech enhancement_傅里叶变换_168的最小化均方值speech enhancement_speech enhancement_169,可以得到如下的最优减法参数:

speech enhancement_傅里叶变换_170

speech enhancement_语音信号_171

其中
speech enhancement_傅里叶变换_172

以上方程的推导基于这样的假设,即语音和噪声各自的频谱分量是统计独立的,且均为零均值复高斯随机变量。将式speech enhancement_人工智能_173speech enhancement_持续更新_174代入式speech enhancement_傅里叶变换_175可得到最优参数估计器:
speech enhancement_语音信号_176

该估计器的推导过程并未对两个参数的关系做任何假设,因此被认为是无约束估计器


Sim等人也曾考虑过对这两个参数添加约束,使它们相等,推导出的约束最优估计器具有如下形式:
speech enhancement_语音信号_177

其中speech enhancement_人工智能_178对于给定的幂指数speech enhancement_人工智能_179为常数(当speech enhancement_人工智能_179等于1、2和3时,speech enhancement_人工智能_178分别等于0.2146、0.5和0.7055)。为了限制对低能量语音段的过度抑制,会采用一个谱下限:
speech enhancement_人工智能_182

其中speech enhancement_人工智能_183表示经平滑以后的谱下限,speech enhancement_持续更新_184取0.05到0.2。最终的约束估计器具有如下形式:
speech enhancement_持续更新_185


speech enhancement_语音信号_186中的speech enhancement_傅里叶变换_187项对应于信号能量与噪声能量的比,通常称为先验信噪比。由于我们并不能直接得到纯净信号,Sim等人将先验信噪比近似为:
speech enhancement_傅里叶变换_188

其中speech enhancement_speech enhancement_189为平滑常数(设为0.96),式speech enhancement_语音信号_190就是对当前的瞬时信噪比(第一项)和过去的信噪比(第二项)的加权平均。


对以上两种估计器进行了评估,与标准的谱减算法进行比较。仅在低信噪比speech enhancement_持续更新_191时,相对于标准谱减法,新算法性能有明显提高。对于带约束的估计器,speech enhancement_人工智能_192,当speech enhancement_傅里叶变换_193speech enhancement_语音信号_194时,性能几乎相同。
约束估计器相对于无约束估计器而言,可以提供更大的噪声衰减,特别是对于低能量语音段的情况。主观听音测试证实了约束估计器会带来更低的残留噪声。

5.8 扩展谱减法

扩展谱减法(Extended Spectral Subtraction,ESS),它是基于自适应维纳滤波与谱减原理的结合。维纳滤波用于估计噪声谱,然后从带噪信号中减去该噪声谱。该算法不需要VAD,即使处于语音段,也会连续更新背景噪声谱,因此它可以在非平稳噪声环境中进行语音增强。
对于第speech enhancement_speech enhancement_195帧的维纳滤波的近似表示是基于前一帧的谱估计,其表达式为:
speech enhancement_傅里叶变换_196

该式的计算基于前一帧增强信号的估计,因此它基于这样一种假设,即噪声的谱特性在前后两帧之间不会急剧变换。平滑的噪声估计由下式得到:
speech enhancement_语音信号_197

其中speech enhancement_speech enhancement_198是平滑常数speech enhancement_持续更新_199speech enhancement_speech enhancement_200为将输入的带噪语音谱通过(由前一帧确定的)维纳滤波器之后得到当前噪声谱估计,即:
speech enhancement_人工智能_201

最后,通过从带噪语音谱中减去上面的噪声谱而得到增强的信号谱:
speech enhancement_持续更新_202

实验结果显示,平滑常数speech enhancement_speech enhancement_198会影响算法性能。当speech enhancement_speech enhancement_198取小值的时候,可感觉到语音失真,但是当c值过大的时候会听到更多的残留噪声。speech enhancement_speech enhancement_198的最佳取值范围是speech enhancement_人工智能_206,当speech enhancement_傅里叶变换_207时算法具有良好性能。

5.9 使用自适应增益平均的谱减

如前所述,谱减法中导致音乐噪声的两个因素在于谱估计的大范围变化以及增益函数的不同。为了解决第一个问题,Gustafsson等人建议将目前的分析帧划分为更小的子帧以得到更低分辨率的频谱,子帧频谱通过连续平均以减小频谱的波动。为解决第二个问题,Gustafsson等人提出可以通过使用自适应指数平均,在时间上对增益函数做平滑。此外,为了避免使用零相位增益函数导致的非因果滤波问题,在增益函数中引入线性相位。
输入信号被划分为具有speech enhancement_speech enhancement_208个样本长度的帧,然后进一步划分为speech enhancement_speech enhancement_209个样本长度的子帧。可以得到具有较低分辨率的增益函数形式如下:
speech enhancement_语音信号_210

其中speech enhancement_傅里叶变换_211为减法因子speech enhancement_speech enhancement_212。为了减小增益函数的波动,speech enhancement_傅里叶变换_213按照下式做时间平均:
speech enhancement_人工智能_214

speech enhancement_傅里叶变换_215是自适应平滑参数,推导自谱差异测度speech enhancement_语音信号_216
speech enhancement_speech enhancement_217

以上差异测度可以粗略评估信号谱相对于背景噪声的变化。较小的差异值表示相对平稳的背景噪声环境,大的差异值则表示有语音存在或者背景噪声正迅速变化。自适应平均参数speech enhancement_speech enhancement_139通过speech enhancement_语音信号_216计算得到:
speech enhancement_speech enhancement_220

其中speech enhancement_语音信号_221是平滑参数speech enhancement_speech enhancement_222,自适应参数speech enhancement_speech enhancement_139可以快速减小,这样就可以使增益函数快速适应于新的输入信号,但是speech enhancement_speech enhancement_139只能较缓慢地增加。

5.10 选择性谱减

前面提到的方法对所有语音段都做同样处理,并不区分浊音段还是清音段。区别对待浊音段和清音段可以明显改善算法效果,然而,该方法面临的主要挑战就在于能否精确且可靠地进行清浊音检测。

5.11 基于感知特性的谱减

Virag提出的算法,在谱减过程中加入了基于心理声学的约束,算法的主要目的是要使残余噪声在听觉上难以被察觉,最终利用人类听觉系统的特性改进增强语音的可懂度。
Virag建议根据掩蔽阈值来调整谱减参数speech enhancement_语音信号_93speech enhancement_语音信号_120。该方法基于以下思想:如果某一特定频率所处估计的掩蔽阈值较低,则残留噪声的强度可能会高于该阈值,进而可以被感知到,因此,谱减参数在该频率上应该达到它们的最大值。类似的,如果掩蔽阈值在某一频率上的值较大,则残留噪声很可能被其掩蔽,进而不会被听到,这是,该频率的减法参数应该取其最小值。这样,减法参数的选择将会根据听觉掩蔽阈值的一个非线性函数来决定:
speech enhancement_speech enhancement_227

speech enhancement_speech enhancement_228

其中speech enhancement_人工智能_229是掩蔽阈值,speech enhancement_语音信号_230speech enhancement_持续更新_231分别设为1和6,speech enhancement_语音信号_232speech enhancement_人工智能_233分别设为0和0.02。函数speech enhancement_speech enhancement_234具有以下的边界条件:
speech enhancement_人工智能_235

其中speech enhancement_傅里叶变换_236speech enhancement_人工智能_237是每一帧所估计的掩蔽阈值的最小值和最大值,处于两个极值之间的speech enhancement_speech enhancement_234的函数值有speech enhancement_人工智能_229确定。
该方法的主要优点在于使用噪声掩蔽阈值speech enhancement_人工智能_229而不是SNR来调整参数speech enhancement_语音信号_93speech enhancement_语音信号_120,相对于SNR,掩蔽阈值使帧与帧之间的过渡更平滑,同时与听觉的感知特性也更相关,可以得到比非线性谱减以及标准谱减算法更好的语音质量。
上面的算法要求能够精确计算掩蔽阈值,掩蔽阈值通常需要从纯净语音信号中求得,由于我们仅仅能得到带噪信号,所以阈值的计算只能先通过一种简单的功率谱减法得到纯净信号的一个粗略估计。

5.12 谱减算法的性能

大多数研究证实了谱减算法能改进语音质量,但是不能提高语音可懂度,事实上,有些情况下不同的减法参数选择还可能导致语音可懂度下降。 谱减算法在去噪方面表现优异,但是以可能消去间歇出现的低能量语音信息为代价的。在谱减过程中,语音的低能量段会首先被损失掉,特别是在使用了过减法的时候。