论文及源码见个人主页:

        两种注意力机制为通道注意力机制(channel-wise attention)和扩展自我注意力机制(self-attention mechanisms)

这篇论文的思路特别好:

        将CNN,RNN和通道注意力机制(channel-wise attention)和扩展自我注意力机制(self-attention mechanisms)混合起来,同时通过通过注意力机制计算出各个通道权重,筛选出更有价值的通道。同时采用DE作为频域特征,结合时域特征和空间特征三大特征相融合考虑。模型方面:CNN+RNN(CNN-RNN)、通道性注意机制+CNN+RNN(A-CNN-RNN)和CNN+RNN+扩展自我注意机制(CNN-RNN-A)、连续卷积神经网络(Conti-CNN)、图卷积神经网络(GCNN)和卷积复发注意力模型(CRAM)。介绍了六种深度学习方法和两种传统方法进行比较,六大模型相互对比,在DEAP数据库的效价和觉醒分类任务中,平均情绪识别准确率分别为92.74%和93.14%!希望大家能好好理解阅读。


摘要

        本文提出了一种基于注意力机制的卷积循环神经网络(ACRNN),用于从脑电信号中提取更多的特征,提高情感识别的准确性。首先,提出的ACRNN采用了一种基于通道的注意力机制来自适应地分配不同通道的权重,并利用CNN来提取编码脑电信号的空间特征。然后,为了探索脑电信号的时域特征,将扩展的自我注意力机制集成到RNN中,根据脑电信号的内在相似性重新编码重要性。我们在DEAP和DREAMER数据库上进行了大量实验。实验结果表明,所提出的ACRNN优于现有的ACRNN。


通道的权重:

        为了从空间信息中提取更多的判别特征,一些方法采用通道选择方法来选择更多相关通道。与传统方法不同,传统方法需要首先人工选择相关通道,在本研究中,我们首先采用了一种自适应通道机制,即以概率分布作为权重,并根据变换后的权重对EEG信号进行重新编码。然后利用CNN提取编码信号的空间特征。此外,RNN用于探索EEG信号的时间特征,但这也忽略了不同EEG样本的重要性。请注意,扩展的自我注意力机制可以应用于LSTM,以利用其长期依赖性。我们将扩展-自我注意机制集成到RNN中,以探索不同EEG样本的重要性,因为该机制可以根据EEG信号的相似性来更新权重。因此,将这两种注意力机制整合到我们的框架中,可以获得更具辨别力的EEG信号的时间和空间特征。


主要贡献:

        在本文中,我们提出了基于注意力机制的卷积循环神经网络(ACRNN)来处理基于EEG的情绪识别。原始脑电信号可以通过不同通道之间的内在关系和时间切片之间的时间依赖性来获取空间信息,因此,所提出的ACRNN可以在卷积层学习多通道脑电的空间特征,并通过LSTM网络探索不同时间切片的时间特征。此外,通道注意力机制(channel-wise attention)和扩展自我注意力机制(self-attention mechanisms)可以分别提取更具辨别力的空间和时间特征。在两个可公开使用的数据库(即DEAP和DREAMER)上对所提出的模型进行了评估,并且所提出的方法在两个数据库中证明了与识别精度相关的优越性能。我们的主要贡献总结如下:

1) 我们开发了一个数据驱动的ACRNN框架,用于基于EEG的情绪识别。该框架将通道注意力机制集成到CNN中,以探索空间信息,可以考虑通道注意力机制对不同通道的重要性,以及CNN对多通道EEG信号的空间信息。此外,ACRNN将扩展的自我注意机制集成到RNN中,用于探索脑电信号的时间信息,它可以通过LSTM来考虑不同的时间信息,并通过扩展的自我注意来考虑每个脑电样本的内在相似性。

2) 我们在DEAP和DREAMER数据库上进行了实验,实验结果表明,在DEAP数据库的效价和觉醒分类任务中,平均情绪识别准确率分别为92.74%和93.14%。此外,该方法在DREAMER数据库的配价、唤醒和优势分类任务中的平均准确率分别为97.79%、97.98%和97.67%。


相关技术:

脑电图情绪识别的一般流程:

(i) 测试方案:首先,记录使用的刺激类型、试验持续时间、受试者人数、性别和待识别情绪。然后,受试者接触刺激物,例如音乐或电影[2],[3]。

(ii)EEG记录:记录电极数量和测试持续时间,然后通过电极记录EEG信号。然后,受试者在每次试验后通过标记脑电图记录来评估他们的情绪状态[2],[3]。

(iii)预处理:为了避免EEG信号中的伪影,例如眨眼,EEG信号应使用伪影消除方法进行预处理,例如盲源分离和独立分量分析[33]。

(iv)特征提取:为了从EEG信号中提取相关的情绪特征,需要探索EEG信号的信息,例如,EEG在时间、频率和空间域的特征[9]。

(v) 可以使用各种分类器对提取的特征进行分类,例如贝叶斯、支持向量机、决策树和深度学习分类器[34]。根据分类器是否基于用户相关数据进行训练,EEG情绪识别也可分为用户相关任务和用户无关任务。

GAT 注意力权重 注意力机制cnn_基线

Channel-wise Attention(通道注意力机制) :

        注意力在人类感知中起着重要作用。例如,人类可以利用一系列的部分瞥见,有选择地聚焦于突出部分,以更好地捕捉视觉结构。受人类注意机制的启发,空间注意机制(spatial attention mechanisms )被提出用于各种视觉任务,例如语义注意(semantic attention)、多层注意(multi-layer attention)和通道注意( channel-wise attention)。通道注意力机制表现出优越的性能,因为它可以改变不同通道的权重来探索特征图的信息;因此,它可以提取有关通道的更重要的信息。因此,基于通道的注意机制被用来利用特征通道之间的相互依赖性。

        一般来说,通道注意力机制可以压缩全局空间信息并生成通道性统计信息。此外,它可以通过CNN进行培训,因此,它可以集成到CNN架构中。考虑到多通道脑电信号通过通道包含空间信息,可将通道注意集成到CNN中,以探索脑电信号通道之间的重要性,并通过CNN提取更具辨别力的空间信息。

Self Attention(自我注意力机制):

        自我注意是一种内部注意机制,它将单个序列的不同位置关联起来,以基于重要性得分对序列数据进行编码。此外,自我注意机制很受欢迎,因为它可以改进长期依赖性建模。注意函数可以描述为将查询和一组键值对映射到输出,其中查询、键、值和输出都是向量。输出作为值的加权和计算,其中分配给每个值的权重由查询与相应键的兼容函数计算。自我注意力在简单的语言问答和语言建模任务中表现良好。在EEG识别任务中,为了增加训练样本的数量,一个EEG试验通常被分割成几个输入样本。然而,许多方法忽略了不同脑电样本的重要性。受自我注意力机制的启发,我们采用这种技术来进一步探索脑电样本之间的时间依赖性。


实验方法:

        在这一部分中,我们首先介绍了提出的EEG情绪识别框架,然后介绍了我们的原始EEG信号预处理技术。最后,我们详细描述了所提出的ACRN的构造。

整体思路:

        通常,大多数基于EEG的情绪识别研究都集中在首先提取相关特征,然后使用提取的特征对受试者的情绪状态进行分类。实际上,原始脑电信号包含丰富的空间和时间信息,可以提取这些信息来识别受试者的情绪状态。所提出的ACRNN是一种数据驱动方法,它将通道和扩展的自我注意机制同时集成到CNN-RNN中。此外,ACRNN可以提取空间和时间信息作为特征,并使用softmax函数对提取的特征进行分类。因此,这种端到端技术提高了基于EEG的情绪识别的准确性。首先,我们将脑电样本分为训练样本和测试样本。然后,分别通过去除基线信号对训练样本和测试样本进行预处理。此外,使用切片窗口技术对标签进行预处理。接下来,我们使用训练样本来训练所提出的ACRNN模型,计算交叉熵损失,并使用Adam优化器更新网络参数。最后,利用训练后的模型识别测试样本的情绪状态,并以分类精度作为最终识别结果。

GAT 注意力权重 注意力机制cnn_数据库_02

ACRNN框架:

GAT 注意力权重 注意力机制cnn_权重_03

 (具体思路见论文)

实验步骤:

介绍了六种深度学习方法和两种传统方法进行比较

数据集介绍:

DEAP:不再介绍,之前的文章介绍过。

DREAMER:

        这是一个多模态数据库,记录了通过视听刺激激发情感期间记录的EEG和ECG信号。记录了23名参与者(14名男性和9名女性)的信号,并要求参与者记录每次刺激后的觉醒、效价和优势度水平。使用情绪化EPOC系统以128 Hz的采样率记录EEG信号。每部电影的剪辑长度为65到393秒,足以引发单一情绪。此外,记录的EEG信号包含基线信号,通常在每个电影剪辑前持续4秒。此外,大多数眼部伪影(眨眼、眼球运动、心脏干扰等)已通过线性相位FIR滤波器去除。此外,为了避免用多种情绪污染数据,在每个剪辑的最后180秒期间捕获的记录被用于进一步分析。额定值的阈值被放置在中间,其中小于或等于3的值表示低价、唤醒和占优,大于3的值表示高价、唤醒和支配。

GAT 注意力权重 注意力机制cnn_深度学习_04

        我们对每个受试者的不同试验中的所有样本进行了打乱。然后,我们使用10倍交叉验证来评估所提出的方法和基线方法的性能。以10倍验证过程的平均性能作为最终实验结果。

实验平台:

        该模型使用TensorFlow框架实现,并经过onan NVIDIA TITAN Xp pascal GPU的训练。此外,使用Adam优化器最小化交叉熵损失函数,并以0.0001的学习率优化网络参数,dropout正则化设置为0.5。为了在训练中获得更好的表现,采用了批量标准化。卷积核的大小为a×b,高度为a=32(DEAP)和a=14(DREAMER),宽度为b=40。kernels为k=40,pooling大小为1×75,step为10。此外,我们将LSTM中隐藏状态的维度设置为64。

结果和分析

        为了验证该方法的有效性,我们在两个数据库上进行了大量实验。为了验证注意力机制的性能,我们设计了三个模型来展示通道性注意力和扩展自我注意力机制的影响,包括CNN+RNN(CNN-RNN)、通道性注意机制+CNN+RNN(A-CNN-RNN)和CNN+RNN+扩展自我注意机制(CNN-RNN-A)。这些模型的详细信息如表所示。

GAT 注意力权重 注意力机制cnn_基线_05

        CNN-RNN模型由CNN和LSTM网络组成,旨在验证基线框架的有效性,该框架可以使用级联框架从原始EEG信号中提取情感特征。A-CNN-RNN模型由通道注意机制、CNN和LSTM网络组成,旨在验证通道注意机制对基线框架的有效性。CNN-RNN-A模型由CNN、LSTM网络和扩展自我注意组成,旨在验证基线框架下扩展自我注意机制的有效性。此外,我们将提出的方法与三种最新的深度学习方法进行了比较:连续卷积神经网络(Conti-CNN)、图卷积神经网络(GCNN)和卷积复发注意力模型(CRAM)。Conti-CNN可以结合多个波段的特征来提高识别精度,GCNN可以采用不同的熵(DE)特征作为输入,并使用频谱图滤波来提取特征和识别情绪,CRAM可以利用CNN来编码EEG信号的高级表示,并利用反复注意机制来探索时间动力学。此外,我们使用了两种传统的基于特征的分类器进行比较,包括支持向量机(SVM)和决策树(DT)。所有方法均采用与ACRNN相同的预处理,即基线信号去除和滑动窗口。

        对于传统分类器,我们使用(微分熵)DE特征作为输入。DE特征具有在低频和高频能量之间区分EEG模式的平衡能力,通常用作EEG情绪识别的频域特征。将带通滤波器应用于EEG信号,以获得近似服从高斯分布的子带信号。因此,定义了五个子频带:1)δ(1-3Hz);2) θ(4-7赫兹);3) α(8-13赫兹);4) β(14-30赫兹);5)伽马(31-50赫兹)。注意,我们从后面的四个子带信号中提取了DE特征,因为更高的频带(约30-100 Hz)更适合于EEG情绪识别。最后的特征向量是来自所有通道的特征的串联。对于DEAP,最终特征向量为4×32=128维,每个主题产生800个样本。对于DREAMER,最终的特征向量是4×14=56维,每个受试者产生1250个样本。

        在我们的工作中,我们使用提出的ACRNN在同一个受试者上进行了实验,并比较了受试者依赖的EEG情绪识别方法。我们将样本数据分为训练集和测试集,然后使用10倍交叉验证。通常,10倍交叉验证将数据分成10个相等的数据子集,其中一个子集用作测试集,其他九个子集构成训练集。这个过程重复了10次。对于DEAP数据库,训练样本数为720,每个受试者的剩余80个样本用作测试样本。对于DREAMER数据库,训练样本和测试样本的数量分别为1125和125。

        为了进一步分析通道注意力机制的贡献,我们进行了通过通道注意力机制计算脑电信号通道权重的实验。图6和7分别显示了DEAP和DREAMER中的平均通道权重。DEAP数据集中有32个通道,DREAMER数据集中有14个通道。如图所示,DEAP和DREAMER脑电信号的通道权重在通道注意机制上都是不同的。图6显示了在DEAP数据库中,FC5、P3、C4、P8在二维上的信道权重明显大于其他信道。图7显示了在DREMAER数据库中,T8和F8的通道权重在三维上明显大于其他通道。电极按照国际10-20系统放置在两个数据库中,更大重量通道和大脑区域之间的关系如表4所示。这些结果也与一些研究一致,这些研究表明,与情绪相关的脑电图信号主要分布在额叶、颞叶和顶叶。更大的通道权重也表明给定的通道与情绪更相关,在EEG信号中更重要。

GAT 注意力权重 注意力机制cnn_基线_06

GAT 注意力权重 注意力机制cnn_GAT 注意力权重_07

GAT 注意力权重 注意力机制cnn_深度学习_08

GAT 注意力权重 注意力机制cnn_基线_09

        表5显示了在DEAP数据库中提出和比较的方法对价态和唤醒的平均识别准确率。可以看出,与基线框架CNN-RNN相比,A-CNN-RNN的平均识别准确率在两个维度上分别提高了约30%和25%,因为通道方向的注意力集中在不同通道之间的空间特征上。此外,与A-CNN-RNN相比,所提出的ACRNN将平均识别准确率提高了0.6%和0.5%,因为ACRNN结合了通道和扩展的自我注意机制来提取EEG信号的时空注意信息。此外,我们发现CNN-RNN-A在两个维度上的识别准确率比CNN-RNN提高了约27%,因为CNN-RNN-A的扩展自我注意机制根据每个样本的重要性提取注意信息。此外,与CNN-RNN-A相比,所提出的ACRNN在两个维度上的识别准确率提高了约3%,因为所提出的模型同时利用了这两种注意机制。实验结果表明,与Conti-CNN、CRAM和GCNN三种深度学习方法相比,ACRNN的平均识别率分别提高了10%、8%和5%。与传统方法相比,ACRNN的识别性能优于传统方法,如DT和SVM。

GAT 注意力权重 注意力机制cnn_GAT 注意力权重_10

        表6显示了DREAMER数据库中获得的比较方法的平均识别精度。如图所示,DREAMER数据库中的情绪识别准确率显著提高。例如,与Conti CNN、GCNN和CRAM相比,所提出的ACRNN将平均识别准确率分别提高了15%、9%和5%。因此,在所有比较的方法中,所提出的ACRNN可以达到最佳的识别精度,实验结果证明了将这两种注意机制整合到CNN-RNN中的有效性。

GAT 注意力权重 注意力机制cnn_深度学习_11

        为了证明所提出的方法的性能,并对每个方法进行比较,我们对每个方法进行了实验。图8、9、10、11和12显示了每个受试者在每个维度上的平均准确度和标准偏差。可以看出,传统的SVM和DT方法在某些对象上取得了良好的平均识别精度,但标准差非常大。此外,在一些受试者中,比较的方法表现更差。然而,我们发现这三种基于注意的方法在每个受试者上都取得了更好的平均识别准确率,并且标准偏差小于比较方法。因此,实验结果表明,对于每个受试者,基于注意力的方法比比较的方法效果更好。此外,实验结果表明,该神经网络结合了通道注意力和扩展的自我注意力,为脑电情感识别提供了更多的鉴别信息,在两个公共数据库上都能获得更高的识别准确率。

结论:

        传统的脑电识别方法首先从原始脑电信号中手动提取特征,然后利用分类器对这些特征进行分类。近年来,深度学习方法采用端到端技术从原始脑电信号中识别情绪。然而,从原始信号中提取更具鉴别能力的特征用于脑电情感识别仍然具有挑战性。因此,需要一个区分框架来从原始EEG信号中识别情绪状态。

        考虑到原始脑电信号通过不同通道之间的内在关系和时间切片之间的时间依赖性包含空间信息,我们提出了ACRNN来提取空间和时间注意力信息,并对受试者的情绪状态进行分类。在该框架中,基于通道的注意力机制通过给不同通道分配权重,从脑电信号中提取通道间的差异,而CNN则通过对所有通道的脑电信号进行卷积运算,将特征映射提取为空间信息。与一些基于大脑认知功能的方法不同,它们需要关注EEG通道并设计相关特征。

        我们提出的方法采用了基于信道的注意来在不同的信道中分配权重。为了进一步分析不同通道的重要性,我们计算了平均通道权重。我们可以发现DEAP和DREAMER脑电信号的通道权重根据通道注意机制的不同而不同。在DEAP数据库中,FC5、P3、C4、P8在二维上的通道权重明显大于其他通道,T8和F8在三维上的通道权重明显大于DREMAER数据库中的其他通道。结果表明,与情绪相关的EEG信号主要分布在额叶、颞叶和顶叶,这与现有研究一致。还可以看出,计算出的权重越大的通道与情绪的关系越密切,因此在基于EEG的情绪识别中更为重要。为了证明通道注意力机制的有效性,我们将通道性注意整合到基线CNN-RNN框架中,实验结果表明,与DEAP和DREAMER数据库上的CNN-RNN模型相比,A-CNN-RNN的通道注意机制可以将通道转换为概率分布作为权重,并根据转换后的权重重新编码EEG信号,因此,与CNN-RNN模型相比,A-CNN-RNN的通道注意可以将平均准确度提高约30%。此外,扩展自我注意机制旨在探索不同脑电样本的重要性。为了证明扩展自我注意机制的有效性,我们将其整合到基线CNN-RNN框架中,实验结果表明,在这些数据库上,扩展自我注意比CNN-RNN模型的平均准确率分别提高了27%和29%。实验结果还表明,扩展的自我注意机制通过基于样本间相似性的概率评分来关注更重要的脑电样本。

        总之,在两个数据库中,通道式注意和扩展自我注意机制的平均准确率提高了25%以上。这表明,这些注意机制可以提高EEG情绪识别,并获得类似的识别结果。然而,与扩展自我注意相比,在DEAP和DREAMER数据库中,通道式注意的平均识别准确率分别提高了约2%和1%。这表明通道性注意的表现略好于扩展自我注意。总之,提出的ACRNN是一个级联框架,集成了通道注意和扩展的自我注意机制。它能同时有效地提取时空注意特征。此外,我们的所有实验结果都是通过10倍交叉验证获得的,高精度和低标准差也证明了所提出的ACRN可以实现更高的识别精度。

总结:

        在本文中,我们提出了一种用于脑电情感识别的端到端深度学习方法。该神经网络综合考虑了脑电信号的空间信息、时间信息和注意力信息。此外,我们将通道性注意整合到CNN中,CNN可以提取空间注意特征,通道性注意可以提取通道间的注意信息。我们还将扩展的自我注意整合到RNN中,RNN可以根据每个样本的重要性提取注意信息。最后,大量实验结果表明,在DEAP数据库中,所提出的ACRNN对价分类和觉醒分类任务的平均准确率分别为93.72%和93.38%。此外,所提出的ACRNN在DREAMER数据库中的配价、觉醒和优势分类任务的平均准确率分别为97.93%、97.78%和98.23%。与现有方法相比,所提出的ACRNN方法明显提高了DEAP和DREAMER数据库中的EEG情绪识别准确率。在未来的工作中,我们将研究基于注意机制的试验性脑电情感识别和主体间脑电情感识别。