1.信号处理基础

模拟信号->数字信号转化     步骤:采样和量化


深度学习特征提取信号 信号特征提取算法_语音识别


深度学习特征提取信号 信号特征提取算法_深度学习特征提取信号_02


深度学习特征提取信号 信号特征提取算法_时域_03


 奈奎斯特定律 :采样频率大于信号中最大频率的二倍

 即在原始信号的一个周期中,至少要采样两个点,才能有效杜绝频率混叠问题。


信号进行离散傅里叶变换的条件: 时域离散且周期的信号


 DFT的性质:


1.对称性   

深度学习特征提取信号 信号特征提取算法_深度学习特征提取信号_04


2. x(m)表示的是谱密度

   如果对一个幅度为A实正弦波进行N点DFT,则DFT之后,对应频率上的幅度M和A之间的关系为:

               M=A/(2/N)=(AN)/2


3.DFT的线性


4.时移性,对x(n)左移k个采样点,得到x1(n)=x(n-k)


深度学习特征提取信号 信号特征提取算法_语音识别_05


为了提高频率轴的分辨率,可以通过延长时域的信号长度,通常对信号进行补0。在语音特征提取阶段,对于16k的采样频率的信号,一帧语音信号长度为400个采样点,为了进行512点的FFT,通过将400个点补0,得到512个采样点,由于对称性,最后只需前275个点。

2.Fbank和MFCC特征提取

Fbank和MFCC提取流程:

深度学习特征提取信号 信号特征提取算法_频域_06


2.1预加重

     作用:提高信号高频部分的能量,因为高频信号衰减较快,高频信号包含很多对语音识别有利的特征。

     预加重滤波器(一阶高通滤波器),对于时域输入信号x(n),预加重之后的信号:

                                  y(n)=x(n)-a*x(n-1)     其实  0.9<=a<=1 

2.2分帧加窗

         分帧的过程,在时域上,即用一个窗函数和原始信号进行相乘

                              y[n]=w[n]x[n]                    w[n]为窗函数

         

  常见的窗函数:     

深度学习特征提取信号 信号特征提取算法_语音识别_07

            


2.3傅里叶变换

       将分帧后的语音帧由时域变换到频域,取DFT系数的模得到谱特征。


2.4梅尔滤波器组和对数操作

将线性频率转化为梅尔频率,梅尔频率和线性频率的关系:

深度学习特征提取信号 信号特征提取算法_频域_08

 梅尔三角滤波器组:根据其实频率、中间频率和截止频率确定各滤波器组

深度学习特征提取信号 信号特征提取算法_时域_09

 

梅尔滤波器组设计:

1.首先确定梅尔滤波器组个数P

2. 根据采样率fs,DFT点数N,滤波器个数P,在梅尔域上等间隔的产生每个滤波器的起始频率、中间频率和截止频率。 上一个滤波器的中间频率为下一个滤波器的起始频率

3.将梅尔域上每个三角滤波器的起始频率、中间频率和截止频率转换为线性频率域,并对DFT之后的谱特征进行滤波,得到P个滤波器组能量,进行log操作得到Fbank特征


MFCC特征在Fbank特征基础上继续进行IDFT变换等操作


频域信号可以分解成谱包络和谱细节

           X[m]=H[m]E[m]

log|X[m]|  梅尔普(Fbank)

log|H[m]|  谱包络

log|E[m]|  谱细节


4.

深度学习特征提取信号 信号特征提取算法_频域_10

深度学习特征提取信号 信号特征提取算法_频域_11

 

MFCC特征总结

      一般常用MFCC特征维是39维,包括

深度学习特征提取信号 信号特征提取算法_频域_12

 MFCC特征一般用于GMM训练,Fbank特征一般用于DNN训练