1.信号处理基础
模拟信号->数字信号转化 步骤:采样和量化
奈奎斯特定律 :采样频率大于信号中最大频率的二倍
即在原始信号的一个周期中,至少要采样两个点,才能有效杜绝频率混叠问题。
信号进行离散傅里叶变换的条件: 时域离散且周期的信号
DFT的性质:
1.对称性
2. x(m)表示的是谱密度
如果对一个幅度为A实正弦波进行N点DFT,则DFT之后,对应频率上的幅度M和A之间的关系为:
M=A/(2/N)=(AN)/2
3.DFT的线性
4.时移性,对x(n)左移k个采样点,得到x1(n)=x(n-k)
为了提高频率轴的分辨率,可以通过延长时域的信号长度,通常对信号进行补0。在语音特征提取阶段,对于16k的采样频率的信号,一帧语音信号长度为400个采样点,为了进行512点的FFT,通过将400个点补0,得到512个采样点,由于对称性,最后只需前275个点。
2.Fbank和MFCC特征提取
Fbank和MFCC提取流程:
2.1预加重
作用:提高信号高频部分的能量,因为高频信号衰减较快,高频信号包含很多对语音识别有利的特征。
预加重滤波器(一阶高通滤波器),对于时域输入信号x(n),预加重之后的信号:
y(n)=x(n)-a*x(n-1) 其实 0.9<=a<=1
2.2分帧加窗
分帧的过程,在时域上,即用一个窗函数和原始信号进行相乘
y[n]=w[n]x[n] w[n]为窗函数
常见的窗函数:
2.3傅里叶变换
将分帧后的语音帧由时域变换到频域,取DFT系数的模得到谱特征。
2.4梅尔滤波器组和对数操作
将线性频率转化为梅尔频率,梅尔频率和线性频率的关系:
梅尔三角滤波器组:根据其实频率、中间频率和截止频率确定各滤波器组
梅尔滤波器组设计:
1.首先确定梅尔滤波器组个数P
2. 根据采样率fs,DFT点数N,滤波器个数P,在梅尔域上等间隔的产生每个滤波器的起始频率、中间频率和截止频率。 上一个滤波器的中间频率为下一个滤波器的起始频率
3.将梅尔域上每个三角滤波器的起始频率、中间频率和截止频率转换为线性频率域,并对DFT之后的谱特征进行滤波,得到P个滤波器组能量,进行log操作得到Fbank特征
MFCC特征在Fbank特征基础上继续进行IDFT变换等操作
频域信号可以分解成谱包络和谱细节
X[m]=H[m]E[m]
log|X[m]| 梅尔普(Fbank)
log|H[m]| 谱包络
log|E[m]| 谱细节
4.
MFCC特征总结
一般常用MFCC特征维是39维,包括
MFCC特征一般用于GMM训练,Fbank特征一般用于DNN训练