- 信号:
- 是一定量随时间的变化。 对于音频,变化的量是气压。
- 可以随时间采集气压样本。 采样数据的速率可以变化,但是最常见的是44.1kHz,即每秒44,100个采样。 捕获的是信号的波形。
- 傅立叶变换:
- 音频信号由几个单频声波组成。 在一段时间内对信号进行采样时,仅捕获得到的幅度(amplitude)。
- 傅里叶可以将信号分解为单个频率和频率幅度。 换句话说,它将信号从时域转换到频域。 结果称为频谱。
- 每个信号都可以分解为一组正弦波和余弦波,它们加起来等于原始信号。 这是一个著名的定理,称为傅立叶定理。
- 快速傅立叶变换是一种功能强大的工具,可让分析信号的频率成分,但是如果信号的频率成分随时间变化,大多数音频信号(例如音乐和语音)就是这种情况。 这些信号称为非周期性信号。 需要一种表示这些信号随时间变化的频谱的方法
- 短时傅立叶变换。
- FFT是在信号的重叠窗口部分上计算的,得到所谓的频谱图。
- 可以将频谱图视为一堆相互堆叠的FFT。 当信号在不同频率下随时间变化时,这是一种直观地表示信号响度或幅度的方法。 计算频谱图时,还有一些其他细节。 y轴转换为对数刻度,颜色尺寸转换为分贝(您可以将其视为振幅的对数刻度)。 这是因为人类只能感知到非常小的集中频率和幅度范围。
- mel scale:
- 研究表明,人类不会感知线性范围的频率,在检测低频差异方面要胜于高频。 例如,可以轻松分辨出500 Hz和1000 Hz之间的差异,但是即使之间的距离相同,人也很难分辨出10,000 Hz和10,500 Hz之间的差异。
- 使相等的音高距离听起来与听众相等。 这称为梅尔音阶。 对频率执行数学运算,以将其转换为mel标度。
- mel谱图是频率转换为mel标度的谱图。
- 由于音频存在噪音,且有效数据没有很好地凸显出来,因此音频数据如果直接拿来做自动语音识别效果会非常差。使用mel特征提取可以将音频数据里有效信息进行提取、无用信息进行过滤。其原理是模拟人耳构造,对音频进行滤波,处理过后的数据再用来做自动语音识别效果会有显著提升。
- Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。
- 用录音设备录制一段模拟语音信号后,经由自定的取样频率(如8000 Hz、16000 Hz等)采样后转换(A/D)为数字语音信号。由于在时域(time domain)上语音信号的波形变化相当快速、不易观察,因此一般都会在频域(frequency domain)上来观察,其频谱是随着时间而缓慢变化的,因此通常可以假设在一较短时间中,其语音信号的特性是稳定的,通常我们定义这个较短时间为一帧(frame),根据人的语音的音调周期值的变化,一般取10~20ms
- 音频信号(audio signal)是在时间,幅度和频率上的三维信号。声波有三个重要的参数:频率ω0,幅度An和相位ψ n。
- 从频域角度来看,音频信号就是不同频率、相位和波幅的信号叠加。
- 人类对声音的敏感区间在4000Hz左右,如果采样频率达到2*4000=8000Hz左右,原始信号的中的信息对于普通人而言是完美保留。
- 总结:随时间采集了气压样本,以数字方式表示音频信号:
- 使用快速傅里叶变换将音频信号从时域映射到频域,并在音频信号的重叠窗口部分执行此操作。
- 将y轴(频率)转换为对数刻度,将颜色尺寸(幅度)转换为分贝,以形成频谱图。
- 将y轴(频率)映射到mel刻度上以形成mel频谱图。