aoi学院

Aisaka's Blog, School of Aoi, Aisaka University

学习报告:基于脑电信号时频分析和机器学习的情感识别

原题目为Emotion Recognition Using Time-frequency Analysis of EEG Signals and Machine Learning。此论文研究了一个四分类的情感分类问题,本文将会对此论文进行讲解并且最后会对此论文进行总结并提出一些相关思考。

图1:论文截图

研究背景和意义

情感识别是情感计算的重要组成部分。它是一个综合了计算机科学、心理学、神经科学和认知科学的交叉学科领域。人类的情感可以通过面部表情、言语、行为或生理信号来识别。然而,情感识别的这三种方法在某种程度上是主观的。例如,研究对象可能故意隐瞒自己的真实感受,这可能与他们的实际表现不一致。相比之下,通过生理信号进行情绪识别更可靠、更客观。脑电信号是由中枢神经系统(CNS)产生的,与其他外周神经信号相比,它对情绪变化的反应更快。此外,脑电信号为情绪识别提供了重要特征。

论文研究了多通道脑电信号的情感识别问题。首先,对主观评价数据进行聚类,确定目标情感类别。然后对脑电信号进行基于小波分解的特征提取,比较了核谱回归(KSR)、局部保持投影(LPP)、主成分分析(PCA)、最小冗余最大相关(MRMR)和Relieff五种主要特征降维算法以及k-近邻(KNN)、朴素贝叶斯(NB)、支持向量机(SVM)和随机森林(RF)四种不同的ML分类器的情感分类精度。


方法

情绪数据集和脑电图数据预处理

论文采用DEAP的数据集进行处理。基于二维情感模型,DEAP是采用40个音乐录像对32名受试者进行情绪诱发,记录他们的生理信号和面部表情。其中其采用了40个通道的生理信号包括32个通道的EEG和8个通道的外周生理信号(如皮肤电反应、呼吸、皮温、心电图、血容量、肌电图和EOG)。实验过程如图2所示。每个受试者有40次情绪刺激实验(每次实验对应于观看40个音乐视频片段中的一个片段)。

图2:情绪诱导实验范式

在数据采集实验中,以512 Hz的采样率采集原始脑电信号,然后下采样至128 Hz。通过使用4-45 Hz带通滤波器从EEG记录中去除EOG伪影。预处理后的脑电数据包括60s情绪相关脑电数据(音乐视频观看期间)和3s基线数据(音乐视频播放前)。

预处理后的EEG数据包括情绪相关EEG数据和基线(无情绪)EEG数据。为了最大限度地减少先前刺激材料对当前情绪状态的影响和生理信号的跨被试的变异性影响,从刺激后EEG特征中减去刺激前基线EEG特征(在情感刺激之前),并在单位间隔[0,1]内对所产生的差异进行归一化。60s EEG信号被分割成15个相等的、不重叠的片段。这里,4s作为时间窗口的长度。经过这样的处理后,每个受试者的样本数量为40×15=600。对于32名受试者,有32×600=19200个样本可用。

为了可靠地确定目标情感分类,作者使用了以下方法。通过对唤醒和价值评级尺度进行主观评级的主观评级聚类来确定2D(唤醒和价)情感平面上的每个数据点的目标情感分类。聚类结果如图3所示。图3表现出了2D情绪平面,其中LV代表低价值(消极情绪),HV代表高价值(积极情绪),LA代表低唤醒,HA代表高唤醒。

图3:均值聚类结果
图4:情感的二维模型

EEG特征提取

脑电信号具有高度的复杂性和非线性,因此提取情绪状态的显著脑电信号特征是一个关键而又具有挑战性的问题。近年来,非线性动力学方法被用来分析脑电信号。在这项工作中,作者对32个通道的脑电信号进行小波分析,以提取与情绪相关的特征。

小波分解是一种典型的、实用的时频分析方法。它是一种基于时间窗和频率窗的局部化分析方法。脑电信号是非平稳的,具有低频成分变化缓慢、高频成分变化快的特点,因此小波变换非常适合于其信号分析。通过对脑电信号进行小波分解,可以得到不同尺度上的一系列小波系数。这些系数可以完整地描述信号的特征,因此可以作为信号的特征集。

与短时傅里叶变换相比,小波变换中的小波基函数种类繁多,具有不同的性质和适用范围。常用的小波基有Daubechies小波、Meyer小波、Morlet mother小波和Haar mother小波。考虑到Daubechies小波的正交性和紧支撑性,以及Db4小波基的近似最优局部化,将该函数作为小波基函数,将脑电信号分解为五个层次,从而提取脑电信号在五个频段的频率分量。


EEG特征降维和选择

脑电特征降维和选择是情绪识别的重要内容。特征降维和选择通常用于:1)数据可视化和理解;2)加快模型训练;3)克服维数过多的缺点,从而提高预测性能。

论文作者利用五级小波分解方法对脑电信号的每个通道进行分解,得到五个频带对应的小波系数,然后根据得到的小波系数在每个频带构造三类特征,包括小波能量、小波能量比和小波熵。如果同时考虑所有频带的特征,则小波特征维数为32个通道5个频带3个特征=480,每个频带的特征维数为32*3=96。

在论文中,作者比较了三种特征降维算法(KSR、LPP和主成分分析)和两种特征选择算法(mRMR和Relieff)。


机器学习分类器

构建基于ML的情感分类器模型的过程包括数据准备、情感相关特征提取、特征降维和基于一定性能准则的分类器模型构建。为了获得准确的识别效果,论文作者重点研究随机森林(RF)。RF是基于bagging思想,结合决策树形成的集成学习分类器。它的输出由所有决策树的投票决定。


结果和讨论

特征提取和降维算法的比较

在小波分解EEG信号之后,可以获得对应于五个频带的小波特征。为了找到与情绪最相关的频段,每个频带的EEG特征用于减少维度和分类。最后,所有五个频带的特征组合使用。

图5:四级分类结果的比较

为了获得更可靠的识别精度,通过5倍交叉验证将每个受试者的样本分为训练集和测试集。因此,对于每个受试者,训练集的大小是480,测试集的大小是120。

每个频带的小波特征维数为323=96,因此所有5频带组合的特征维数为965=480。

这里,作者使用了RF分类器。通过对不同分类器的比较,发现RF分类器的识别率高于KNN和NB,并且RF的训练速度高于SVM。同时,作者还比较了五种脑电特征降维算法:KSR、LPP、mRMR、REIEF和PCA。

图6显示了32名受试者4个分类的测试平均准确率。情感识别准确率如表I所示,其中最后一行对应于特征集中所有五个频带的脑电特征联合使用。

从图6可以看出,无论采用哪种降维算法,γ频带的特征都比其他频带的特征或全部五个频带的完整特征具有更高的识别精度。此外,β频带的特征使得情感识别的准确率更高。

表I:5种不同特征降维/选择算法下的4类情感分类正确率(%)。

从表Ⅰ可以看出,当使用γ频带特征时,每种降维方法对应的具体识别精度。结果表明,与情绪关系最密切的脑电节律是高频γ脑波。通过比较不同降维方法的识别效果可以发现,不同降维方法在不同的脑电频带上所获得的识别精度是不同的。从图6看出,LPP算法的分类正确率最高,为82.0%±7.1%,KSR算法次之,识别正确率为76.0%±10.6%。


ML分类器的对比

这项工作的主要目标之一是找到基于脑电信号的情感识别的最佳分类器。从前面的结果中,作者发现γ频带小波特征对于所讨论问题的分类效果最好。然后,使用五种降维算法进行特征降维或选择。最后,将降维或选择的特征输入到四个不同的机器学习分类器,用于情感分类性能比较。

图7:五种特征降维/选择算法和四种最大似然分类器的分类精度比较

图7显示了比较结果,从中可以观察到RF和SVM的受试者平均最高分类精度分别为82.0±3.78(LPP)和78.1±4.7(使用所有特征),远高于KNN和NB。

结果发现,当使用小波特征时,γ频带的EEG特征导致最高的情绪识别准确率,其次是β频带。有效特征降维算法不仅可以加快分类器模型培训,还可以提高分类准确性。结果表明,在五种降维算法中,LPP和KSR的效果最好。但是,根据具体的特征集,可能还需要选择不同的降维算法。只有当特征本身能够从本质上区分不同类别的情感时,使用一定的降维算法才能有效提高分类精度。


总结与思考

在论文中,作者使用DEAP数据集来研究基于EEG的情感识别问题,并且对比了各种特征提取,特征降维/选择和ML分类方法。主要结论如下:

  1. 讨论了基于小波的特征提取方法的有效性。通过小波分解提取五个EEG频带的特征,然后每个频带的特征单独输入分类器。相比之下,发现γ频带导致最高的分类精度,表明γ频带与情绪状态的变化最相关。
  2. KSR和LPP两种算法比较适合作为EEG特征降维/选择算法。
  3. 在基于EEG的情感识别任务中,SVM和RF的性能优于KNN和NB的性能。

基于论文得出的研究结论,在这一研究方向上,本人认为以下方面还可以进一步进行研究:

  1. 论文是基于2D的情绪模型来进行情感类别分类,今后的研究可以考虑采用三维甚至更高维的情感模型来确定更多的情感类别;
  2. 论文是采用DEAP的公开数据集来对不同的特征提取,特征降维/选择和分类方法进行对比研究,在今后的研究中可以尝试用自采的数据去验证本文的结论,实验结果是否与论文结论相似。
  3. 论文主要研究是基于EEG的情绪识别,今后的研究可以结合其他的异构生理信号去实现不同生理信号的多模态情绪识别。

参考链接

https://www.scholat.com/teamwork/showPostMessage.html?id=9731
[1] V. A. Petrushin, “Emotion in speech: Recognition and application to call centers,” in Proc, of the 1999 Conf, on Artificial Neural Networks in Engineering, pp. 7-10, 1999.
[2] K. Anderson and P.W. McOwan, “A real-time automated system for the recognition of human facial Expressions,” IEEE Trans, on Systems, Man, and Cybernetics, Pt B (Cybernetics), vol. 36, no. 1, pp. 96-105, 2006.
[3] M. Pantic and L. J. M. Rothkrantz, “Automatic analysis of facial Expressions: The state of the art,” IEEE Trans, on Pattern Analysis and Machine Intelligence, vol. 22, no. 12, pp. 1424-1445, 2000.
[4] Y. Zhong, M. Zhao, Y. Wang and et al., “Recognition of emotions using multimodal physiological signals and an ensemble deep learning model,” Computer Methods & Programs in Biomedicine, vol. 140, no. C, pp. 93- 110, 2017.
[5] X. W. Wang, D. Nie and B. L. Lu, “Emotional state classification from EEG data using machine learning approach,” Neurocomputing, vol. 129, no. 4, pp. 94-106, 2014.
[6] P. C. Petrantonakis and L. J. Hadjileontiadis, “A novel emotion elicitation index using frontal brain asymmetry for enhanced EEG-based emotion recognition,” IEEE Trans, on Information Technology in Biomedicine, vol. 15, no. 5, pp. 737-746, 2011.
[7] X. Li, B. Hu, T. Zhu and et al., “Towards affective learning with an EEG feedback approach,” in Proc, of the 1st ACM Int. Workshop on Multimedia Technologies for Distance Learning, 2009, pp. 33-38.
[8] R. W. Picard, E. Vyzas and J. Healey, “Toward machine emotional intelligence: analysis of affective physiological state,” IEEE Trans, on Pattern Analysis & Machine Intelligence, vol. 23, no. 10, pp. 1175-1191, 2001.

文献下载地址:https://sci-hub.se/10.1109/ssci44817.2019.9003057