基于SDAE与RELM的EEG情感识别方法

引用本文

连卫芳, 晁浩, 刘永利. 基于SDAE与RELM的EEG情感识别方法[J]. 计算机工程, 2021, 47(9), 75-83. DOI: 10.19678/j.issn.1000-3428.0059056.

LIAN Weifang, CHAO Hao, LIU Yongli. EEG Emotion Recognition Method Based on SDAE and RELM[J]. Computer Engineering, 2021, 47(9), 75-83. DOI: 10.19678/j.issn.1000-3428.0059056.

基金项目

国家自然科学基金（61502150）；河南省高等学校重点科研计划项目（NSFRF1616）；河南省高校基本科研业务费专项基金（19A520004）

作者简介

连卫芳(1995-), 女, 硕士研究生, 主研方向为数字信号处理、情感计算;
晁浩, 讲师、博士;
刘永利, 副教授、博士

文章历史

收稿日期：2020-07-27
修回日期：2020-09-11

Contents Abstract Full text Figures/Tables PDF

基于SDAE与RELM的EEG情感识别方法

连卫芳 , 晁浩 , 刘永利

河南理工大学计算机科学与技术学院, 河南焦作 454000

收稿日期：2020-07-27；修回日期：2020-09-11

基金项目：国家自然科学基金（61502150）；河南省高等学校重点科研计划项目（NSFRF1616）；河南省高校基本科研业务费专项基金（19A520004）

作者简介：连卫芳(1995-), 女, 硕士研究生, 主研方向为数字信号处理、情感计算; 晁浩, 讲师、博士; 刘永利, 副教授、博士.

E-mail: 1137844972@qq.com

摘要：针对情感识别中堆叠式自动编码器存在反向传播方法收敛速度慢和容易陷入局部最优的问题，提出一种基于堆叠式降噪自动编码器（SDAE）和正则化极限学习机（RELM）的情感状态识别方法。从脑电信号的时域、频域和时频域中提取表征情感状态的初始特征，使用SDAE进行无监督特征学习，提取初始特征的高层抽象表示。在网络的回归层，使用RELM进行情感分类。在DEAP数据集上的实验结果表明，与SDAE以及DT、KNN等传统基于机器学习的方法相比，该方法在实时性、准确性和泛化性能等方面均有明显提升。

EEG Emotion Recognition Method Based on SDAE and RELM

LIAN Weifang , CHAO Hao , LIU Yongli

College of Computer Science and Technology, Henan Polytechnic University, Jiaozuo, Henan 454000, China

Abstract: The Stacked Auto-Encoders(SAE) used by the existing emotion recognition methods are limited by the low convergence speed at the back propagation stage, and tend to fall into local optimality.To address the problem, an emotion recognition method is proposed based on Stacked Denoising Auto-Encoder(SDAE) and Regularized Extreme Learning Machine(RELM).The method first requires the extraction of the initial features that characterize the emotional state from the time domain, frequency domain, and time-frequency domain of the Electroencephalogram(EEG) signals.Then SDAE is used for unsupervised feature learning to extract high-level abstract representations of the initial features.In the regression layer of the network, RELM is used for emotion classification.The experimental results on the DEAP data set show that the proposed method displays significant improvements in real-time performance, accuracy and generalization performance compared with SDAE, DT, KNN and other machine learning-based methods.

开放科学（资源服务）标志码（OSID）：

0 概述

情感是机体内部的主观体验，是综合感觉、思想和行为而产生的心理和生理状态。情感有生理唤醒、主观体验以及外部表现3种成分，人类情感的早期研究通常利用外部表现，包括对人的面部表情和声音信号进行情感状态识别。近年来的研究结果表明，脑电（Electroencephalographic，EEG）信号所包含的情感相较于语音^[1]、表情^[2]等更为客观可靠，更能反映一个人最真实的情感状态^[3]。因此，有很多研究人员开始利用EEG信号进行情感识别。

利用EEG信号进行情感识别时常用的特征有时域特征^[4]、频域特征^[5]和时频域特征^[6]。时域特征主要集中在事件相关电位（Event-Related Potentials，ERPs）的研究中，统计学特征也被用于描述EEG信号时间序列，主要包括能量特征、幅值特征等。频域特征主要包括功率谱密度（Power Spectral Density，PSD）、自回归（Autoregressive，AR）模型功率谱估计、能量及其不对称性（Asymmetry，ASM）以及快速傅里叶变换等。时频域特征包含基于小波变换、小波包变换、Wigner-Ville分布、短时傅里叶变换（Short-Time Fourier Transform，STFT）、希尔伯特-黄谱（Hilbert-Huang Spectrum，HHS）^[7]的特征等。由于EEG信号具有随时间瞬变的特点，因此只使用时域、频域或时频域特征中的一种将难以取得良好的识别效果。具体而言，使用单一的EEG特征进行识别时存在2点不足：一是传统的EEG特征在低频信号段时表现能力较弱；二是EEG特征容易受到噪声的干扰。

深度学习能将底层特征提取为抽象的高层特征，可以发现数据的分布式特征表示^[8]，同时对高维特征进行自动提取和分类，因此，深度学习适用于EEG信号分析。文献[9]提出一种基于多融合层堆叠式自动编码器的集成分类器，将其用于情绪识别。文献[10]运用监督限制玻尔兹曼机（Restricted Boltzmann Machine，RBM）修改了标准深度信念网络（Deep Belief Networks，DBN），并提出基于监督DBN的情感状态识别模型。文献[11]提出基于DBN的半监督深度学习模型（Semi-Supervised Deep Learning Model，Semi-DLM），用于二元情感分类。文献[12]提出一种基于EEG信号的主题独立情感识别方法，该方法以变分模态分解（Variational Modal Decomposition，VMD）为特征提取技术，以深度神经网络（Deep Neural Networks，DNN）为分类器。文献[13]使用改进的基于SincNet的深度学习模型进行EEG情感分类。

作为深度学习模型的关键组成部分，堆叠式降噪自动编码器（Stacked Denoising Auto-Encoder，SDAE）不仅可以通过数据学习特征，而且能够获得不同数据级别的特征表达。但是，由于结构较深，SDAE难以以较快的学习速度获得良好的泛化性能。基于梯度下降的反向传播（Backpropagation，BP）算法很容易陷入局部最优，导致其分类精度不佳。极限学习机（Extreme Learning Machine，ELM）以较快的学习速度和良好的泛化性能引起了研究人员的广泛关注，但是，由于输入权重和隐藏偏差的随机选择，ELM倾向于使用更多的隐藏节点以实现更好的泛化性能，这使得其网络结构较复杂。

本文提出一种SDAE和正则化极限学习机（Regularized Extreme Learning Machine，RELM）相结合的EEG特征提取与识别方法。利用SDAE对EEG多分析域特征进行降维去噪处理，以过滤生理特征中的有害噪声并导出稳定的特征表示。通过RELM实现情感分类，使用SDAE和RELM相结合的深度学习方法捕捉高维数据中的有效特征并提高表达能力。将SDAE用于优化RELM的输入权重和隐藏层偏差，从而以更少的隐藏层节点来简化模型。同时，将时域、频域和时频域特征相结合并应用于EEG信号分析，利用三者自身的优点提取EEG信号的多角度特征，以实现更好的识别效果。

1 DEAP数据集和特征提取

DEAP数据集^[14]是伦敦女王大学玛丽分校某研究小组开发的一个基于生理信号的开放数据集，该数据集中包括32位健康参与者（19岁~37岁，平均26.9岁，男性和女性参与者均为16人），对于每位参与者，在40次实验中使用40个时长1 min的音乐视频作为视觉刺激，以激发不同的情感，同时记录EEG信号和部分外周生理信号。在每次实验结束后，参与者对他们的唤醒度（Arousal）、效价（Valence）、优势度（Dominance）和喜好程度（Liking）进行自我评估。本文关注唤醒度、效价和优势度3个指标，每次实验针对3个指标将结果均分为两类，如果被试者对某一音乐视频的评级分低于4.5，则标签被设置为“low”；如果大于等于4.5，则标签被设置为“high”。3个指标均有2个标签，分别为HA（高唤醒度）、LA（低唤醒度）、HV（高效价）、LV（低效价）、HD（高优势度）和LD（低优势度）。因此，情感识别任务转化为3个二分类问题，图 1所示为三维情感模型。

	Download: JPG larger image
图 1 三维情感模型 Fig. 1 Three-dimensional emotion model

在预处理阶段，512 Hz采样频率的EEG信号被下采样成128 Hz。采用一个4.0 Hz~45.0 Hz的带通滤波器进行滤波，从而消除EEG信号中眼电（Electrooculogram，EOG）信号的影响。为了充分利用EEG信号中蕴含的多分析域特征，提取每个样本的EEG信号特征，特征具体描述如表 1所示。

下载CSV 表 1 4种初始EEG信号特征描述 Table 1 Description of the four initial EEG signal features

假设每一个通道的EEG信号为$ s\left(t\right) $，$ t=1, $ $ 2, \cdots ，T $，其中，$ t $为信号时长。时域和频域提取的均值、方差、过零率、近似熵和功率谱密度5种特征表示公式分别为：

$ {\mu }_{s}=\frac{1}{T}\sum\limits_{t = 1}^T s \left( t \right) $

(1)

$ {\sigma }_{s}=\frac{1}{T}\sum\limits_{t=1}^{T}{\left(s\left(t\right)-{\mu }_{s}\right)}^{2} $

(2)

$ r=\frac{\sum\limits_{t=1}^{T}{n}_{\mathrm{n}\mathrm{u}\mathrm{m}}\left(s\right(t-1\left)s\right(t)<0)}{T} $

(3)

$ {A}_{\mathrm{A}\mathrm{p}\mathrm{E}\mathrm{n}}={\phi }_{m}\left(r\right)-{\phi }_{m+1}\left(r\right) $

(4)

$ {P}_{s}\left(\omega \right)=\underset{T\to \mathrm{\infty }}{\mathrm{l}\mathrm{i}\mathrm{m}}\frac{{\left|{F}_{T}\left(\omega \right)\right|}^{2}}{T} $

(5)

其中：$ {\phi }_{m}\left(r\right) $表示平均相似率，可以表示为$ {\phi }_{m}\left(r\right)=\frac{\sum\limits_{i=1}^{T-m+1}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left({C}_{i}^{m}\right(r\left)\right)}{T-m+1} $；$ {C}_{i}^{m} $为时间序列属性统计数值；$ m $表示子序列数量；$ {F}_{T}\left(\omega \right) $为$ s\left(t\right) $的傅里叶变换。

由于短时傅里叶变换在所有频率下均具有恒定的分辨率，因此不适合分析EEG这种非平稳信号。而离散小波变换（Discrete Wavelet Transform，DWT）在非平稳信号分析中具有多分辨率的特性，可以捕获信号的局部行为，并且同时获得瞬态非平稳信号的频率和时间信息。因此，本文使用DWT进行EEG信号分析。在第一级分解中，低通和高通滤波器用于获得原始信号表示，以近似系数（A1）和细节系数（D1）表示数字信号，DWT分解定义如下：

$ f\left(t\right)=\sum\limits_{k=-\mathrm{\infty }}^{+\mathrm{\infty }}{C}_{n, k}\mathrm{\varnothing }({2}^{-n}t-k)+\sum\limits_{k=-\mathrm{\infty }}^{+\mathrm{\infty }}\sum\limits_{k=-\mathrm{\infty }}^{+\mathrm{\infty }}{2}^{-\frac{j}{2}}{d}_{j, k}\psi ({2}^{-j}t-k) $

(6)

其中：$ {d}_{j, k} $和$ {C}_{n, k} $分别代表近似系数和细节系数；n是分解级别；$ \mathrm{\varnothing } $表示规模函数。随后分解近似系数并多次重复上述过程。

本文将DWT应用于32个脑电通道的EEG信号分析，由于4级分解提供了最好的信号特征，因此本文使用Daubechies4（db4）小波对EEG信号进行4级DWT处理。图 2所示为DWT树结构，其中包含采样频率为128 Hz的EEG信号分解，将每一通道的EEG信号分解为5个不同的波段，包括δ（0~4 Hz）、θ（4 Hz~8 Hz）、α（8 Hz~16 Hz）、β（16 Hz~32 Hz）和γ（32 Hz~64 Hz）。如表 2所示，本文分别提取γ、β、α和θ 4个波段的能量和熵值作为时频域特征。

	Download: JPG larger image
图 2 DWT树结构 Fig. 2 DWT tree structure

下载CSV 表 2 离散小波分解 Table 2 Discrete wavelet decomposition

熵是信号中信息量的度量值，计算特定频带内时间窗上的信号熵如下：

$ {E}_{j}^{\mathrm{E}\mathrm{N}\mathrm{T}}=-\sum\limits_{k=1}^{N}\left({D}_{j}{\left(k\right)}^{2}\right)\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left({D}_{j}{\left(k\right)}^{2}\right) $

(7)

通过将时间窗上的小波系数进行平方求和，可以得出每个频带的能量如下：

$ {E}_{j}^{\mathrm{E}\mathrm{N}\mathrm{G}}=\sum\limits_{k=1}^{N}\left({D}_{j}{\left(k\right)}^{2}\right) $

(8)

其中：$ j $是小波分解级别（频带）；$ k $是$ j $频带中的小波系数。

2 基于SDAE-RELM的深度学习框架 2.1 堆叠式自动编码器

自动编码器（Auto-Encoder，AE）是一种尽可能复现输入信号的前向型神经网络，其包含输入层、隐含层（特征层）和输出层，输出向量与输入向量同维，常用于无监督学习中的特征提取任务。图 3（a）所示为简单的AE模型结构。堆叠式自动编码器（Stacked Auto-Encoder，SAE）将多个AE堆叠在一起，如图 3（b）所示。SAE采用逐层贪婪训练方法以无监督的方式对每个AE进行单独训练，通过堆叠多个AE形成SAE网络，以层次结构计算生理特征抽象。逐层确定SAE参数的过程称为预训练，要进行情感识别需要在SAE的顶级编码层添加一个与二元情绪相对应的含2个神经元的输出层。最后，用BP算法对训练好的SAE参数进行微调。

	Download: JPG larger image
图 3 AE和SAE的结构 Fig. 3 Structure of AE and SAE

2.2 正则化极限学习机

ELM是一种具有单隐藏层前馈神经网络（Single-hidden Layer Feed Forward Neural Networks，SLFNs）结构的算法，其网络拓扑与反向传播（BP）神经网络相同，由输入层、隐藏层和输出层组成。虽然网络结构相同，但是ELM和BP的训练方法大不相同。BP网络需要使用梯度下降算法，通过多次迭代来求解网络权重，而ELM通过随机生成输入权重和隐藏偏差来求解输出权重。ELM的具体架构参考文献[15]，RELM在标准ELM的二次型指标中增加了正则化项。

RELM的目标是获得最低的训练误差和最小的输出权重，其极限学习机的目标函数为：

$ {\rm{min}}\;{L_{{P_{{\rm{ELM}}}}}} = \frac{1}{2}{\left\| \boldsymbol{\beta} \right\|^2} + \frac{C}{2}\sum\limits_{i = 1}^N {{{\left\| {{\xi _i}} \right\|}^2}} $

(9)

$ \mathrm{s}.\mathrm{t}.h\left({x}_{i}\right)\boldsymbol{\beta }={\boldsymbol{t}}^{\mathrm{T}}-{\boldsymbol{\xi }}^{\mathrm{T}}, i=\mathrm{1, 2}, \cdots , N $

(10)

加入正则化项可控制模型的复杂程度，将约束条件引入其目标函数中，即得到下面的等价优化问题：

$ {\rm{min}}\;{L_{{P_{{\rm{ELM}}}}}} = \frac{1}{2}{\left\| \boldsymbol{\beta} \right\|^2} + \frac{C}{2}\sum\limits_{i = 1}^N {{{\left\| {T - \boldsymbol{H\beta} } \right\|}^2}} $

(11)

上述问题称为岭回归或正则化最小二乘法，通过$ {L}_{{P}_{\mathrm{E}\mathrm{L}\mathrm{M}}} $对$ \boldsymbol{\beta } $求导并令其等于0可得：

$ {L}_{{P}_{\mathrm{E}\mathrm{L}\mathrm{M}}}=\boldsymbol{\beta }-C{\boldsymbol{H}}^{\mathrm{T}}(T-\boldsymbol{H}\boldsymbol{\beta })=0 $

(12)

利用训练集样本数量N和RELM隐藏层神经元数量$ L $，根据KKT（Karush-Kuhn-Tucker）定理^[16]可以得到$ \boldsymbol{\beta } $的2种不同的近似解，如下：

$ {\boldsymbol{\beta}} = \left\{ {\begin{array}{*{20}{l}} {{{\left( {\frac{\boldsymbol{I}}{C} + {\boldsymbol{H}^T}\boldsymbol{H}} \right)}^{ - 1}}{\boldsymbol{H}^T}Y, N \ge L}\\ {{\boldsymbol{H}^T}{{\left( {\frac{\boldsymbol{I}}{C} + \boldsymbol{H}{\boldsymbol{H}^T}} \right)}^{ - 1}}Y, N < L} \end{array}} \right. $

(13)

其中：$ \boldsymbol{I} $是单位矩阵；$ C $是正则化系数。

2.3 SDAE-RELM模型

为了防止过拟合问题，同时学习到较鲁棒的特征并提高模型的训练稳定性，本文在AE的输入层数据中引入50%的随机噪声，将其变为DAE。在该过程中，本文还尝试引入30%、40%和60%的随机噪声，但引入50%随机噪声时效果最好。为了实现情感分类，本文在SDAE的顶端编码层添加一个分类器，使用RELM代替softmax作为分类器可以有效提高网络训练速度，且通过训练SDAE可以获得RELM的网络参数。如图 4所示，SDAE-RELM情感识别模型结构由3个部分组成，包括数据预处理、特征融合和情感识别，系统架构如图 5所示。

	Download: JPG larger image
图 4 SDAE-RELM情感识别模型结构 Fig. 4 SDAE-RELM emotion recognition model structure

	Download: JPG larger image
图 5 SDAE-RELM系统架构 Fig. 5 SDAE-RELM system architecture

实验将32路脑电通道中每一通道的60 s脑电信号无重叠等分为30段，每段2 s作为独立样本继承原始样本的标签。首先，分别计算如表 1所示的初始600维情感特征，包括统计特征、能量特征、能量差异特征和小波变换特征；然后，通过多层SDAE模型进行特征融合并提取高层抽象EEG特征；最后，将获得的高层抽象特征输入RELM，实现情感分类。模型的训练过程分为2个部分：

1）特征提取。SDAE模型通过重构误差的反向传播训练无监督模型，先对每个单隐藏层的DAE单元进行无监督预训练，然后再堆叠得到一个包含多个隐藏层结构的SDAE。为了进行线模型的训练，本文将小批量梯度下降用作优化器算法，并将均方误差（Mean Square Error，MSE）作为损失函数。

2）特征分类。本文将特征提取部分最后一层的输出作为RELM的输入，RELM的隐藏层激活函数选择非线性函数hardlim，如式（14）所示：

$ \mathrm{s}\mathrm{g}\mathrm{n}\left(x\right)=\left\{\begin{array}{l}1, x>0\\ 0，x\le 0\end{array}\right. $

(14)

使用RELM分类器进行分类，计算其隐藏层的权值，至此网络模型的权值都被确定下来，即训练完毕。本文选取整个实验过程中所有分类结果的最优值作为模型分类结果。算法详细描述如下：

算法1 SDAE-RELM算法

输入特征$ {\boldsymbol{H}}_{0}={\left\{{x}_{i}\right\}}_{i=1}^{N} $，标签$ T={\left\{{y}_{i}\right\}}_{i=1}^{N} $，隐藏节点数$ {L}_{i} $，随机噪声的百分比，正则化系数$ C $

输出所有隐藏层的权值$ {\beta }_{i} $

步骤1 训练SDAE的第一个隐藏层DAE。建立DAE网络的第一层，并使用梯度下降法训练，获得该隐藏层的输出$ {\boldsymbol{H}}_{1} $和相应的网络参数$ {\theta }_{1} $，$ {\boldsymbol{H}}_{1} $为输入特征的抽象表示，且$ {\theta }_{1}=({W}_{1}, {b}_{1}) $。

步骤2 训练SDAE的第$ i $个隐藏层DAE。将第$ i-1 $层的输出作为第$ i $层的输入，建立DAE网络的第i层，并使用梯度下降法训练，以确定RELM的输入权重和隐藏偏差，获得该隐藏层的输出H_i和相应的网络参数θ_i，H_i为H_i-1的抽象表示，且θ_i=（W_i，b_i）。

步骤3 训练RELM。建立RELM分类器，输入为最后一层DAE的输出，权重和隐藏层偏置为θ_i+1=（W_i+1，b_i+1），RELM网络的隐藏层输出矩阵为H_i+1，输出权重向量β可以根据式（13）计算而得。

3 实验结果及分析

本文使用DEAP数据集中全部32个通道的EEG数据。数据预处理是处理原始EEG数据的第一步，去除前3 s静默状态数据，为了避免脑电信号连续样本之间存在的依赖性，采用无重叠固定宽度滑动窗口技术将后60 s数据无重叠等分为30段，每段为2 s并作为独立的样本数据，提取特征向量并继承原始样本的标签，则每位被试者的实验数据样本数为1 200（40×30），特征向量维数为600。

在实验中采用交叉验证技术。训练时每一位参与者的1 200个样本被划分为不重合的10个子集，9个子集（1 080个样本）分配给训练集，1个子集（120个样本）分配给测试集。以上过程重复10次，直到测试完所有子集。

3.1 超参数选择

一般而言，随着网络深度的增加，可以获得更抽象的特征表示。但是，太多的层数会使网络难以有效训练，同时带来更多的参数需要学习，因此，将花费更长的训练时间。本文对3个情感维度分别进行测试，得出2层或3层隐藏层能取得较好的结果。因此，在超参数的选择中，首先将SDAE模型的隐藏层数设置为2层或3层，对于SDAE-RELM模型，SDAE和RELM模型分别进行训练。如2.3节所述，本文使用SDAE的网络进行特征提取，对SDAE中的降噪自动编码器都进行200个epochs（批量大小为100）的训练，然后微调为500个epochs（批量大小为120）。

SDAE将softmax回归分类器添加到SDAE的顶级编码层，并且在训练的最后一步微调所有层的参数以实现所需的分类性能。SDAE-ELM将ELM添加到SDAE的顶层作为分类器。对于3个维度的分类精度，本文均使用输入的初始600维高维特征进行训练测试，分别寻找ELM和RELM的最佳隐藏节点数。从图 6可以看出，随着隐藏节点数量的增加，ELM和RELM的分类精度提升。当隐藏节点的数量增加到30 000时，SDAE-ELM的精度达到77.5%。此后，由于模型处于过拟合状态，精度几乎保持不变。因此，在对SDAE-ELM进行训练时，需将ELM的隐藏层节点数设置为30 000。由此可见，为了获得更好的分类效果，ELM需要大量的隐藏节点，网络结构将会很复杂。当使用RELM进行分类时，仅需15 000个隐藏节点即可获得77.5%的精度。因此，本文所提方法可以有效减少ELM的隐藏层节点数，从而简化网络结构。

	Download: JPG larger image
图 6 ELM和RELM在不同隐藏层节点数量下的分类准确率 Fig. 6 Classification accuracy of ELM and RELM under different numbers of hidden layer nodes

对于RELM，需要调整正则化系数C和隐藏层节点数量L这2个参数。实验中需要寻找C和L的最佳组合：

C∈{10^-5，10^-4，…，10⁴，10⁵}

L∈{3 000，6 000，…，21 000，24 000}

本文采用网格搜索法确定了C和L的最佳组合值，分别是100和15 000。

3.2 SDAE和SDAE-RELM的结果分析

为了验证SDAE-RELM的学习性能，本文对SDAE和SDAE-RELM模型采用5种参数组合进行测试，同时确定模型参数的最佳组合。对于每一个组合，分别训练一个SDAE和SDAE-RELM，在训练时，1 200样本被划分为1 080个样本（训练集）和120个样本（测试集），采用10折交叉验证法，根据表 3和表 4所示的5种模型参数组合分别对唤醒度、效价和优势度3个维度进行训练测试，对32个被试者测得的最高分类精度值取平均。图 7（a）~图 7（c）所示为情感状态分类结果。

下载CSV 表 3 SDAE模型参数设置 Table 3 Parameter settings of SDAE model

下载CSV 表 4 SDAE-RELM模型参数设置 Table 4 Parameter settings of SDAE-RELM model

	Download: JPG larger image
图 7 不同模型参数组合在3个维度的识别精度对比 Fig. 7 Comparison of recognition accuracy of different model parameter combinations in three dimensions

可以看出，无论使用哪种参数组合来构建模型，每一维度SDAE-RELM的识别准确率都要明显优于SDAE模型。在唤醒维度，SDAE-RELM采用Model 4的参数组合达到了最优的识别效果（77.08%）；在效价维度，SDAE-RELM采用Model 2的参数组合达到了最优的识别效果（77.69%）；在优势维度，SDAE-RELM采用Model 5的参数组合达到了最优的识别效果（78.46%）。

本文还比较了SDAE和SDAE-RELM的训练时间，结果如表 5所示。从表 5可以看出，无论采用哪种参数组合方式，在输入特征相同的情况下，SDAE-RELM的训练时间均少于SDAE，这是因为SDAE将softmax回归分类器添加到顶级编码层，并且在训练的最后一步微调所有层的参数以实现所需的分类性能，会花费较多时间，而本文提出的EEG情感识别方法将具有更快学习速度和更少调整参数的RELM添加到SDAE的顶层作为分类器，其不需要微调所有层的参数，即减少了网络训练所需时间。

下载CSV 表 5 SDAE和SDAE-RELM的训练时间比较 Table 5 Comparison of training time of SDAE and SDAE-RELM

3.3 SDAE-RELM模型与常用分类器比较

为了验证本文所提模型利用时域、频域和时频域特征进行情感识别的有效性，使用10折交叉验证技术，用相同的特征分别训练几种常用的情感分类模型，并对每种模型的最优识别结果进行对比分析，对比模型包括决策树（Decision Tree，DT）、随机决策森林（Random Decision Forest，RDF）、K近邻（K-Nearest Neighbor，KNN）、支持向量机（Support Vector Machines，SVM）以及SDAE-DT、SDAE-RBF、SDAE-KNN和SDAE-SVM，实验结果如表 6所示。其中，最优结果加粗表示，SDAE-RELM的分类结果是从表 4的5种模型中选出的最优值。

下载CSV 表 6 不同模型的识别性能比较 Table 6 Comparison of recognition performance of different models

从表 6可以看出，深度学习算法（如SDAE、SDAE-SVM和本文方法等）比传统机器学习算法（如DT、KNN和RDF等）识别精度更高，这是因为传统机器学习算法需要充分训练样本来确保识别性能，由于网络结构浅，这些算法无法有效地将目标的固有类信息与特征空间中的某些外部因素区分开，深度学习算法在逐层解调各种因素之间的耦合关系时，会尽可能少地损失目标的固有类信息，即深度网络中的底层功能通常是分布式的，并且可以在不同的类之间共享，而高层功能通常更抽象，更可分离，这说明了SDAE能够有效地提取EEG信号中蕴含的情感状态区分性信息。SDAE-RELM方法被试者间的标准差和其他方法相近，与其他方法相比，SDAE-RELM的平均分类精度更高（唤醒度为76.3%，效价为76.8%，优势度为78.5%），这验证了本文所提方法不仅有效，而且对于不同被试者也更鲁棒。

RELM通过使用多个隐藏节点来实现更好的泛化性能，而研究模型的泛化性能需要证明在训练样本较少的情况下也可以获得良好的识别性能。本文比较SAE、ELM、主成分分析（Principal Component Analysis，PCA）、SDAE-SVM和SDAE-RELM 5种模型在优势维使用不同数量训练样本时的情感分类准确率，结果如图 8所示。从图 8可以看出，随着训练样本数量的增加，5种模型的分类精度提高。当训练样本较少时，SDAE-RELM的分类性能优于其他模型，说明该模型具有较好的泛化性能，当只有少量训练样本可用时，SDAE-RELM也可以获得良好的情感识别效果。

	Download: JPG larger image
图 8 5种模型在不同数量训练样本时的分类性能比较 Fig. 8 Comparison of classification performance of five models with different number of training samples

3.4 本文所提方法与其他方法比较

在DEAP数据集上，文献[17]将EEG的原始通道通过Pearson相关系数和重新排列的脑电图输入卷积神经网络（Convolutional Neural Network，CNN）。文献[18]提出一种基于经验模态分解（Empirical Mode Decomposition，EMD）的特征提取与情感识别方法。文献[19]提出一种基于多通道脑电图的SAE和长短时记忆网络（Long Short Term Memory Network，LSTM）相结合的情感识别框架。文献[20]提出提取大脑连通性特征并使用SVM识别情绪的方法。文献[21]使用深度信念网络（DBN）从原始EEG信号中自动提取高级特征进行情感识别的方法。文献[22]结合CNN和递归神经网络（Recursive Neural Network，RNN），用于提取与任务相关的特征，挖掘通道间的相关性并从这些特征中获得上下文信息。文献[23]使用EEG的双树复小波包变换（Double-Tree Complex Wavelet Packet Transform，DT-CWPT）时频域特征，用以检测情绪，并分析不同情绪状态下的大脑活动。将本文所提方法的情感识别结果与上述方法的识别结果进行比较，结果如表 7所示。

下载CSV 表 7 不同方法的分类准确率比较 Table 7 Comparison of classification accuracy of different methods

在唤醒和优势2个维度，本文所提方法均达到了最好的识别效果，在效价维度上其识别准确率也优于多数对比方法，但低于文献[19]方法，原因是文献[19]方法采用的是包含所有被试者信息的数据样本，使得模型训练更加充分，而本文方法对每一位被试者的样本分别进行训练。此外，本文所提方法在唤醒、效价和优势3个维度的识别准确率相近，这表明该方法在综合使用表 1所述的时域、频域和时频域3种分析域特征进行情感识别时具有有效性。

4 结束语

本文提出一种基于SDAE和RELM的EEG情感识别方法SDAE-RELM。利用SDAE对EEG信号的多分析域特征进行降维去噪，过滤生理特征中的有害噪声并导出稳定的特征表示。在网络的回归层，使用RELM实现快速的情感分类。实验结果表明，与SDAE相比，SDAE-RELM方法唤醒度提升6.8%，效价提升7.5%，优势度提升12.6%，平均节省约17.11 s训练时间，其在准确性和实时性方面均有明显提升，与其他传统基于机器学习的方法相比，SDAE-RELM在隐藏节点较少的情况下拥有更高的识别精度，唤醒度为76.3%，效价为76.8%，优势度为78.5%，当仅有少量训练样本可用时，该方法也具有良好的识别性能。下一步将使用多模态生理信号进行情感识别，包括实时记录的中枢神经系统和外周神经系统的生理信号。此外，本文所提方法仅在DEAP数据集上进行了测试，今后将在更多的情感数据集上对其进行测试，以验证该方法的普适性。

参考文献

[1]	ZHANG Y D, YANG Z J, LU H M, et al. Facial emotion recognition based on biorthogonal wavelet entropy, fuzzy support vector machine, and stratified cross validation[J]. IEEE Access, 2017, 4: 8375-8385.
[2]	HUANG Z, DONG M, MAO Q, et al. Speech emotion recognition using CNN[C]//Proceedings of the 22nd ACM International Conference on Multimedia. New York, USA: ACM Press, 2014: 801-804.
[3]	JIANG J F, ZENG Y, LIN Z M, et al. Review of emotion evaluation based on EEG signals[J]. Journal of Information Engineering University, 2016(6): 686-693. (in Chinese) 蒋静芳, 曾颖, 林志敏, 等. 基于脑电信号的情绪评估研究综述[J]. 信息工程大学学报, 2016(6): 686-693. DOI:10.3969/j.issn.1671-0673.2016.06.009
[4]	LIU Y, SOURINA O. Real-time fractal-based valence level recognition from EEG[M]. Berlin, Germany: Springer, 2013.
[5]	GAO N H, WANG H, FENG X H. Classification method of electrocardiogram signals based on dynamic fuzzy decision tree[J]. Computer Engineering, 2020, 46(1): 80-86. (in Chinese) 高宁化, 王姮, 冯兴华. 基于动态模糊决策树的心电信号分类方法[J]. 计算机工程, 2020, 46(1): 80-86.
[6]	CHEN X, XU X, LIU A, et al. The use of multivariate EMD and CCA for denoising muscle artifacts from few-channel EEG recordings[J]. IEEE Transactions on Instrumentation and Measurement, 2018, 67(2): 359-370. DOI:10.1109/TIM.2017.2759398
[7]	CHEN T, CHEN Z G, YUAN X H, et al. Emotion recognition method based on instantaneous energy of Electroencephalography[J]. Computer Engineering, 2019, 45(4): 196-204. (in Chinese) 陈田, 陈占刚, 袁晓辉, 等. 基于脑电信号瞬时能量的情感识别方法[J]. 计算机工程, 2019, 45(4): 196-204.
[8]	STOBER S, STERNIN A, OWEN A M, et al. Deep feature learning for EEG recordings[J]. Computer Science, 2015, 165: 23-31.
[9]	YIN Z, ZHAO M Y, WANG Y X, et al. Recognition of emotions using multimodal physiological signals and an ensemble deep learning model[J]. Computer Methods and Programs in Biomedicine, 2017, 140: 93-110. DOI:10.1016/j.cmpb.2016.12.005
[10]	LI K, LI X Y, ZHANG Y, et al. Affective state recognition from EEG with deep belief networks[C]//Proceedings of 2013 IEEE International Conference on Bioinformatics and Biomedicine. Washington D.C., USA: IEEE Press, 2013: 305-310.
[11]	JIA X W, LI K, LI X Y, et al. A novel semi-supervised deep learning framework for affective state recognition on EEG signals[C]//Proceedings of the 14th International Conference on Bioinformatics and Bioengineering. Washington D.C., USA: IEEE Press, 2014: 30-37.
[12]	PANDEY P, SEEJA K. Subject independent emotion recognition from EEG using VMD and deep learning[EB/OL]. [2020-06-03]. https://doi.org//10.1016/j.jksuci.2019.11.003.
[13]	ZENG H, WU Z H, ZHANG J M, et al. EEG emotion classification using an improved SincNet-based deep learning model[J]. Brain Sciences, 2019, 9(11): 326-340. DOI:10.3390/brainsci9110326
[14]	KOELSTRA S, MUHL C, SOLEYMANI M, et al. DEAP: a database for emotion analysis; using physiological signals[J]. IEEE Transactions on Affective Computing, 2012, 3(1): 18-31. DOI:10.1109/T-AFFC.2011.15
[15]	HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: a new learning scheme of feed forward neural networks[C]//Proceedings of IEEE International Joint Conference on Neural Networks. Washington D.C., USA: IEEE Press, 2004: 985-990.
[16]	FLETCHER R. Practical methods of optimization: constrained optimization[M]. Washington D.C., USA: IEEE Press, 2013.
[17]	WEN Z Y, XU R F, DU J C. A novel convolutional neural networks for emotion recognition based on EEG signal[C]//Proceedings of International Conference on Security. Washington D.C., USA: IEEE Press, 2018: 672-677.
[18]	ZHUANG N, ZENG Y, LI T, et al. Emotion recognition from EEG signals using multidimensional information in EMD domain[EB/OL]. [2020-06-03]. https://downloads.hindawi.com/journals/bmri/2017/8317357.pdf.
[19]	XING X F, LI Z Q, XU T Y, et al. SAE+LSTM: a new framework for emotion recognition from multi-channel EEG[EB/OL]. [2020-06-03]. https://doi.org/10.3389/fnbot.2019.00037.
[20]	CHEN M, HAN J W, GUO L, et al. Identifying valence and arousal levels via connectivity between EEG channels[C]//Proceedings of International Conference on Affective Computing & Intelligent Interaction. Washington D.C., USA: IEEE Press, 2015: 63-69.
[21]	ZHANG P, LI X, HOU Y X, et al. EEG based emotion identification using unsupervised deep feature learning[C]//Proceedings of SIGIR 2015 Workshop on Neuro-Physiological Methods in IR Research. Washington D.C., USA: IEEE Press, 2015: 1-12.
[22]	LI X, SONG D W, ZHANG P, et al. Emotion recognition from multi-channel EEG data through convolutional recurrent neural network[C]//Proceedings of IEEE International Conference on Bioinformatics and Biomedicine. Washington D.C., USA: IEEE Press, 2017: 352-359.
[23]	DAIMI S, SAHA G. Classsification of emotions induced by music videos and correlation with participants'rating[J]. Expert Systems with Applications, 2014, 41(13): 6057-6065. DOI:10.1016/j.eswa.2014.03.050