《A Comprehensive Review of Speech Emotion Recognition Systems》
摘要
在过去的十年中,语音情感识别(SER)已经成为人机交互(HCI)和其他高端语音处理系统中不可或缺的组成部分。一般来说,SER系统通过从预处理的语音信号中提取和分类突出的特征,以说话人的各种情绪为目标。然而,人类和机器识别和关联语音信号情感方面的方式在数量和质量上存在很大的差异,这给跨学科领域的知识融合带来了巨大的困难,尤其是语音情感识别、应用心理学和人机界面。本文仔细地识别和综合了与SER系统的各种设计组件/方法有关的最新相关文献,从而为读者提供了对热门研究主题的最新理解。此外,在审视对SER系统的理解现状的同时,研究差距的突出之处已被勾勒出来,供其他相关研究人员、机构和监管机构考虑和分析。
一、语音情感识别系统
语音情感识别系统大致分为5个模块
情绪模块:
根据各种情绪假设,现有的情绪模型可以分为两类:属性和范畴。属性情感模型用个体变量描述某些维度,根据给定维度确定情感,而分类情感模型则描述了彼此分离的情感类别的详细情况 。
数据集
用于创建情感语音框架的语音语料库大致可分为三类:
- 自发性演讲
- 演说
- 引发的演讲
语音处理
语音处理主要包含以下6个步骤:
1. 预处理-PREPROCESSING
收集数据后的第一步是预处理。收集的数据将用于在SER系统中准备分类器。虽然这些预处理过程中很少有用于特征提取的,但其他过程则负责特征的标准化,以便说话者录音中的变化不会影响识别过程。
2. 框架(信号成帧)-FRAMING
下一步被称为信号帧。它也被暗指为语音分割,是将恒定的语音信号分配到固定长度的部分以克服一些SER困难的方法。由于信号的非平稳性,在演讲过程中,情绪往往会发生变化。尽管如此,语音在很短的时间内保持不变,比如20到30毫秒。语音信号在加帧时有助于估计半固定和局部特征。我们还可以通过有意覆盖这些片段的30%到40%来保留帧之间的连接和数据。
3. 开窗-WINDOWING
一旦语音信号中的帧被执行,帧就受制于窗口功能。在信息的快速傅里叶变换(FFT)过程中,由于信号边缘的不连续性而发生泄漏,此后通过加窗函数减少。
4. 语音活动检测-VOICE ACTIVITY DETECTION
话语包括三个部分:清音、浊音和沉默。如果声带在发声中发挥积极作用,就会产生有声语音。相反,如果声带不活动,讲话是清音的。语音的周期性行为使语音得以识别和提取。语音活动检测器可用于检测语音信号中的浊音/清音语音和静音。
首尾端的静音切除,降低对后续步骤造成的干扰,静音切除的操作一般称为VAD
5. 正则化-NORMALIZATION
这是一种将音量调整到标准水平的方法。对于标准化,获得信号的最大值,然后将整个信号序列除以计算出的最大值,以估计每个句子具有相似的音量水平。
6. 减少噪音-NOISE REDUCTION
环境中充满了噪声,这些噪声也被封装在每个语音信号中。关键的是,语音信号中的噪声会影响准确度。因此,为了减少这种噪声,可以使用几种降噪算法,如最小均方误差(MMSE)和对数谱振幅MMSE(LogMMSE)。
语音特征
根据我们的需要,我们可以同时提取全局和局部特征,或者同时提取两者。最大值和最小值、标准差和平均值等综合统计数据由全局特征表示,也称为超分段或长期特征。相反,时间动态由局部特征(也称为分段或短期特征)表示,以不精确地表示固定状态。这些固定特征的重要性源于这样一种确定性,即情感特征并非始终适用于语音信号的所有点。SER框架的全局和局部特征分为四类:韵律特征、光谱特征、音质特征和基于Teager能量算子(TEO)的特征。
1. 韵律特征
人类可以识别的节奏和语调等几个特征被称为韵律特征或副语音特征。能量,持续时间和基本频率是广泛使用的韵律特征所基于的一些特征。
2. 频谱特征
当一个人发出声音的时候,声道会过滤声音。声道的形状控制着产生的声音。
- 自动语音识别中使用最广泛的光谱特征是Mel倒谱系数(MFCC)。MFCC代表短时功率谱的包络,它代表声道的形状。在使用短时离散傅里叶变换转换到频域以获得MFCC之前,话语被分割成不同的片段。Mel滤波器组用于计算多个子带能量。然后,计算各子带的对数。最后,通过应用傅里叶逆变换[39]确定MFCC。
- 线性预测倒谱系数(LPCC)捕捉通过声道特征表达的情感特定信息。性格和情绪之间存在差异。线性预测系数(LPC)主要等效于语音对数谱的偶数包络,所有极点滤波器的系数都用于通过递归方法获得LPCC。由于LPCC比MFCC更容易受到噪声的影响,语音信号在处理前会被压平,以避免加性噪声错误[40]。
- Gammatone频率倒谱系数(GFCC)的计算方法与MFCC类似,只是Gammatone滤波器组代替Mel滤波器组应用于功率谱[3]。
3. 语音质量
4. TEO
在压力条件下,用于谐波的分布,基频和临界频带会发生变化。
分类器
1. GMM
2. HMM
3. SVM
4. ANN
5. KNN
6. DECISION TREE 决策树
7. NAVIE BAYES CLASSIFIER 朴素贝叶斯
8. DEEP NEUTRAL NETWORKS 深度神经网络
9. DEEP BELIEF NETWORK 深信网络
10. 神波尔兹曼机
11. 受限波尔兹曼机
12. RNN
13. LSTM
14. CNN
二. 挑战
1. 难精确地定义情绪的含义。情绪通常是混合的,不易理解。数据库的收集清楚地反映了人们对情绪定义的不一致。然而,如果我们考虑人类和计算机之间的日常互动,我们可能会发现情绪是自愿的。这些变化非常强烈,因为它们可能被隐藏、混合或微弱,几乎无法识别,而不是更典型的特征。通过对以上事实的讨论,我们可以得出结论,为了简化情绪识别,需要仔细检查其他声学特征。
2. 处理经常同时发生的加性噪声,包括卷积失真(来自价格更合理的接收器或其他信息获取设备)和干扰扬声器(来自背景)。用于记录诱发情绪性言语、实施情绪性言语和真实、自发情绪性言语的各种方法必须是独一无二的。记录经过认证的情绪会引发道德问题,就像挑战会控制记录环境和情绪标签一样。一个被广泛认可的记录惯例是记录诱发情绪的缺陷。
3. 应用降维和特征选择。
三. 结论
使用可编程设备驱动语音通信的能力目前正在研究中,即使人类可以系统地完成这项任务。SER研究的重点是设计出熟练而稳健的方法来识别情绪。在本文中,我们对SER系统进行了精确的分析。它利用语音数据库为训练过程提供数据。特征提取是在语音信号经过预处理后进行的。SER系统通常利用韵律和频谱声学特征,如共振峰频率、语音频谱能量、语音速率和基频,以及一些特征提取技术,如MFCC、LPCC和TEO特征。在提取特征后,使用两种分类算法来识别情绪:传统分类器和深度学习分类器。即使使用传统技术做了很多工作,但SER的转折点是深度学习技术。尽管SER已经远远领先于十年前,但仍有一些挑战需要解决。本文重点介绍了其中一些问题。该系统需要更稳健的算法来提高性能,从而提高准确率,并依靠找到一组合适的特征和有效的分类技术来在更大程度上增强HCI。