学习报告：基于简单循环单元网络和集成学习的脑电情感识别

本篇学习报告基于论文《EEG-based emotion recognition using simple recurrent units network and ensemble learning》，本论文的主要创新点有三点：（1）为了掌握脑电的时间信息，采用了简单循环单元（SRU）网络；（2）模型训练前，采用双树复小波变换（DT-CWT）将原始脑电信号分解为5个子带，利用时间、频率和非线性分析提取特征。然后利用5个频段的4种不同特征建立深度SRU模型。（3）采用三种集成策略对基本SRU模型进行集成，以获得更理想的分类性能。

概述

研究旨在开发一种基于脑电图的情绪识别系统，用于识别积极、中性和消极三种情绪。到目前为止，各种自动情感识别的建模方法已经被报道。然而，情感过程中的时间依赖性并未得到充分考虑。为了掌握脑电的时间信息，本文采用了深度简单循环单元(SRU)网络，该网络既能处理序列数据，又能解决常规循环神经网络(RNN)中出现的长期依赖问题。利用5个频带的4种不同特征建立深度SRU模型，发现较高频段的SRU模型效果较好。最后，采用三种集成策略对基本SRU模型进行集成，以获得更理想的分类性能。文章对浅层模型、深层模型和集成模型的性能进行了评价和比较。实验结果表明，本文提出的基于SRU网络和集成学习的情感识别系统能够以相对经济的计算代价获得满意的识别性能。

方法解析

该系统的总体框图如图1所示。首先对信号进行滤波预处理，然后采用DT-CWT对信号进行子带分解。其次，从时间分析、频率分析和非线性分析的角度，分别进行了四种特征提取方法。第三，在不同特征集上建立SRU模型。最后，采用三种不同的集成策略，并进行比较，选出最优的集成模型。

图1：基于SRU的情感识别总体框架图

DT-CWT由Kingsbury提出，利用小波滤波器的对偶树来获得复系数的实部和虚部。与离散小波变换(Discrete Wavelet Transform, DWT)相比，DT-CWT具有突出的近似位移不变性和优越的抗混叠性能。图2给出了3级DT-CWT的分解。树A和树B分别表示变换的实部和虚部。h0和h1是树A的低通和高通滤波器对，g0和g1是树b的低通和高通滤波器对，(↓2)是降采样算子。树B的采样位置始终保持在树A的中间位置，因此，树B可以准确地收集到树A的缺失信息。因此，树A和树B可以相互补充和满足。这样可以减弱交替采样的效果，抑制频率混叠的问题，使重构分量更接近真实结果。

图2：3级DT-CWT分解示意图

在使用人工神经网络处理数据时，多层网络通常比单层网络获得更令人满意的效果。深度RNN是一种通过隐层循环连接来增加深度的深度网络。通常单层网络提取抽象特征的能力有限。而多层网络可以产生更容易学习的输入序列表示，导致更好的分类精度。但要选择合理的网络的深度。网络的层数越多，需要的训练时间就越多。在综合考虑效能和效率的基础上，设计了一个二级SRU模型。如图3所示，深层SRU模型由一个输入层，序列到序列SRU层、多对一SRU层、完全连接(FC)层和最后的用于情感识别的soft-max层组成。

图3：2级SRU模型的结构

考虑到5个不同频段有4种不同的特征，得到20组基本模型。为了进一步提高识别效果，采用集成学习方法充分利用这些基本模型。集成学习可以防止单一基分类器的过拟合问题。基本分类器的设计应该有很大的不同。一般来说，基分类器可以通过使用不同的输入特征、训练集和学习算法来构建。本文利用不同的输入特性和不同的频段来设计基本的主控单元模型。然后对多个SRU进行集成，以获得比单个模型更好的分类结果。文章提出了3种集成策略:(1)选取5个频带中每个频带的最佳特征进行集成(即从20个候选模型中选取5个模型);(2)选取四个特征中每个特征最优的两个频带进行集成(即从20个候选模型中选取8个模型);(3)集成所有20个候选SRU模型。在这些策略中，单个模型的输出通过多数投票和加权平均方法组合。集成框架如图4所示。

图4：集成模型的详细框架

实验结果

本文将SRU与传统的分类算法如K-最近邻(KNN)、朴素贝叶斯(NB)和支持向量机(SVM)进行了比较。对于这些方法，输入样本结构(62∗19)首先被转换为列向量(1178∗1)。然后采用主成分分析对特征进行降维(50∗1)。在KNN中，最近邻的个数K在空间中搜索[1:20]，一步搜索到最优值。在NB中，我们假设每个特征服从高斯分布，默认先验概率为每个类的出现频率。在SVM中，我们选择线性核函数。所有受试着的平均分类结果如表1所示。

Table 1：分类准确率(%)不同分类器的比较

三种集成策略的最终结果如表2所示。从中我们可以看出，Strategy2的投票或加权方法，Strategy3的加权方法优于所有的单个基模型。策略1由于受到几个较低频段的干扰，分类性能不佳;策略2比策略1取得了更理想的结果。其中，策略2加权法的分类准确率最高，为83.13%，比个体SRU模型(80.02%)高3.11%;策略3采用加权方法也取得了较好的分类效果，但训练时间远比另外两个策略长。因此，选择strategy 2的加权方法作为最终的集成策略。

Table 2：不同集成策略的分类比较

总结分析

本文研究对与情绪变化相关的脑电图多域多频特征进行了分析。利用简单循环单元网络和集成学习方法构建了三种不同情绪状态的自动识别系统。可以得出几个基本结论:1. 较高的频带，如Gamma和Beta，比其他较低的频带更有利于情绪识别。2. 实验中在场景和音频材料的刺激下，积极情绪相对于其他两种情绪状态更易被脑电识别。3. SRU网络是一种改进的RNN，它能够利用序列数据更好地把握不同情绪下的时间变化特性。4. 高效的SRU网络和集成学习方法在情感自动识别中表现出较高的识别性能和可接受的处理效率。在本文提出的框架中，通过采用了深度学习的方法，该方法不需要特征选择或降维，从而简化了情感识别的过程。采用SRU模型代替LSTM网络，实现并行计算，计算效率可以得到明显提高。

参考链接

https://www.scholat.com/teamwork/showPostMessage.html?id=9978

文献下载地址：https://sci-hub.se/10.1016/j.bspc.2019.101756