«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (12): 95-102  DOI: 10.19678/j.issn.1000-3428.0060195
0

引用本文  

柳素红, 孙晓, 李春彬. 基于位置信息重建与时频域信息融合的脑电信号情感识别[J]. 计算机工程, 2021, 47(12), 95-102. DOI: 10.19678/j.issn.1000-3428.0060195.
LIU Suhong, SUN Xiao, LI Chunbin. Emotion Recognition Using EEG Signals Based on Location Information Reconstruction and Time-Frequency Information Fusion[J]. Computer Engineering, 2021, 47(12), 95-102. DOI: 10.19678/j.issn.1000-3428.0060195.

基金项目

国家自然科学基金(61976078)

作者简介

柳素红(1994-), 女, 硕士研究生, 主研方向为情感计算;
孙晓, 教授;
李春彬, 硕士研究生

文章历史

收稿日期:2020-12-01
修回日期:2021-01-05
基于位置信息重建与时频域信息融合的脑电信号情感识别
柳素红 , 孙晓 , 李春彬     
合肥工业大学 计算机与信息学院, 合肥 230601
摘要:脑电信号由中枢神经系统产生,具有很高的真实性,但存在数据量少和数据复杂等问题。为提高脑电信号情感识别准确率,在脑电信号功率谱密度的基础上提出一种脑电位置信息重建的方法,使神经网络模型可以直接获取脑电信号中不易学习的位置信息。运用融合网络从原始的脑电信号中分别抽取时域特征和频域特征,根据频域信息重建脑电信号的位置信息,将时频域信息及位置信息进行融合,以获得更高的脑电信号情感分类准确率。在公开数据集DEAP上的实验结果表明,Valence和Arousal的二分类准确率分别达到86.31%和85.57%,与传统脑电信号情感识别方法相比,该方法分类准确率得到有效提高。
关键词情感识别    脑电信号    功率谱密度    位置信息重建    融合网络    
Emotion Recognition Using EEG Signals Based on Location Information Reconstruction and Time-Frequency Information Fusion
LIU Suhong , SUN Xiao , LI Chunbin     
School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China
Abstract: Electroencephalogram(EEG) is produced by the central nervous system, and can reflect the emotions of human beings.However, the existing EEG data is insufficient and of high complexity.To improve the accuracy of emotion recognition using EEG, a method for reconstructing EEG location information based on the Power Spectral Density(PSD) of EEG is proposed, which enables the neural network model to directly obtain the EEG location information that is hard to learn.In addition, a fusion network is used to extract the time-domain features and frequency-domain features from original EEG signals, so the location information of EEG is reconstructed according to the frequency-domain information.Finally, the time-frequency domain information and location information are fused to improve the classification accuracy of EEG-based emotion recognition.The method achieves a binary classification accuracy of 86.31% for Valence and 85.57% for Arousal on an open data set.Compared with previous studies on EEG-based emotion recognition, the proposed method significantly increases the classification accuracy.
Key words: emotion recognition    Electroencephalogram(EEG) signals    Power Spectral Density(PSD)    location information reconstruction    fusion network    

开放科学(资源服务)标志码(OSID):

0 概述

情感是人们进行认知、决策处理和人际互动的重要组成部分,在人们的日常交流和社会活动中起着重要的作用,医学、神经学、心理学和情感计算等领域的研究人员希望通过计算机系统识别和理解人类情感。随着科技的发展和社会的进步,人机交互(Human-Computer Interaction,HCI)技术引起了人们越来越多的关注。HCI有着广阔的应用前景,比如在人机对话领域中[1],情感识别可以使机器感知人的情感心理状态,从而使机器更加了解对话对象,提供更加人性化的回答,提高人机对话体验;在医疗领域,情感识别可以辅助医生进行自闭症、焦虑症和一些脑功能障碍疾病的治疗;在航空航天领域,通过监控航天员的情感状态可以实时掌握航天员的生理状态,帮助航天员顺利完成航天任务。因此,对情感识别进行研究有着重大的意义。

当前对于情感识别的研究内容主要分为两类: 第一类是基于非生理信号的情感识别,这些非生理信号包括语音[2]、身体姿态[3]和面部表情[4]等;第二类是基于生理信号的情感识别,如肌电[5]、心电[6]和脑电[7]等。由于语音、身体姿态和面部表情等非生理信号容易受到人的主观控制,一些真实情感容易被掩盖,因此对这些非生理信号进行情感分类不易获得准确的结果。脑电信号是从大脑皮层直接获得的,不易被掩盖,并且它是由人的中枢神经系统产生,而中枢神经系统控制着人的情感表达,脑电信号可以实时并真实地反映出人的情感状态,因此越来越多的研究人员使用脑电信号进行情感识别研究。

特征提取和分类算法是脑电信号情感识别研究的主要内容,由于脑电信号存在数据量少、数据复杂的特点,因此有效地提取脑电信号中有利于情感识别的特征对结果起着至关重要的作用。研究者从不同角度出发,得到了许多对脑电信号情感识别有效的特征,如时域和频域上的统计特性(STA)和分形维数(Fractial Dimension,FD)[8],它们被证明能有效地对脑电信号进行情感分类。此外,还有频域特征中的功率谱密度(Power Spectral Density,PSD),GANESH等[9]在DEAP数据集上,通过提取每位受试者的对称通道的互相关系数、离散小波变换(DWT)系数、Hjorth参数、PSD、波段能量等特征,使用支持向量机(SVM)和K最近邻(KNN)在特征融合的基础上进行情感分类,得到了较好的结果。根据DALTROZZO等[10]对熟悉度作用的研究结果,THAMMASAN等[11]将DEAP数据集分为低熟悉度和高熟悉度的数据,通过提取PSD和FD,使用多层感知器(MLP)、SVM和C4.5算法对高、低熟悉度的脑电信号分别进行分类实验,其中使用SVM对低熟悉度的PSD特征进行分类达到了最好的效果。ZHANG等[12]提取了theta、alpha、beta和gamma 4个频段的PSD特征,首先使用Relief算法进行通道选择,然后运用SVM和概率神经网络(PNN)进行分类,均得到了较好的结果。

随着深度学习技术的发展,许多新的特征提取方法和分类方法被引入脑电信号研究领域,如TRIPATHI等[13]将DEAP数据集中的脑电数据按时序划分为10小段,分别提取均值、中位数、最大值、最小值、标准差、方差、偏度、峰度等统计特征,使用深度神经网络(Deep Neural Network,DNN)作为分类器进行分类,在二分类和三分类的结果上都优于传统的SVM和KNN。此外,LI等[14]对脑电信号进行连续小波变换(CWT) 后将其转换为图像并使用结合了卷积神经网络(CNN)和递归神经网络(Recursive Neural Network,RNN)的混合神经网络结构进行脑电信号情感识别,KAWDE等[15]直接使用深度信念网络(DBN)在经过带通滤波器的脑电信号上进行情感分类,ZHAN等[16]设计一个浅的深度平行的卷积神经网络方法进行脑电的情感分类,均取得了很好的效果。

尽管深度神经网络的性能超过了传统特征提取加分类器的方法,但现有的预测结果仍然有提升空间。由于脑电信号数据的复杂性,很少有研究将原始信号直接作为模型输入,特征提取会损失部分数据,包括信号之间的空间信息以及连续信号间的细微变化。但脑电信号的数据量限制又导致端到端的深度神经网络模型很难直接从深度学习模型中学习到与脑电信号情感识别相关的特征。因此,本文从近年来流行的特征抽取和深度学习的研究中得到启发,构建一个新的脑电信号情感识别模型框架,以在情感二分类和三分类问题上获得较好的分类效果。

1 数据集及标签处理 1.1 数据集

为验证及充分比较本文方法的有效性,本文选择DEAP作为实验数据集,DEAP是由KOELSTAR等[17]建立的多模态数据集,该数据集是专用于生理信号情感识别分析的开源数据集。DEAP包括来自中枢神经系统(Central Nervous System,CNS)和周围神经系统(Peripheral Nervous System,PNS)的信号,探索了通过向不同用户播放各类音乐视频并采集相应生理信号,分析采集的生理信号对听音乐时情感进行分类的可能性。

KOELSTAR等[17]招募32名健康的受试者(50%为女性),年龄在19~37岁之间,每位受试者在实验预设条件下,观看40段时长均为1 min的音乐视频,每段视频结束后,受试者需要根据自身感受对唤醒度(Arousal)、效价度(Valence)、喜欢度(Liking)和优势度(Dominance)进行评分,评分范围为1~9。本文根据RUSSELL等[18]提出的二维情感模型选择Valence和Arousal表示情感,不同情感均可映射到模型中的一点,Valence表示人的情感状态从负性情感(消极、悲伤等)到正性情感(积极、高兴等),Arousal表示人感受到的情感强度从弱(冷静)到强(激动)。该情感模型将Valence和Arousal映射到一个二维平面,并将二维平面分为4个象限,第一象限为高效价度高唤醒度(HVHA),第二象限为低效价度高唤醒度(LVHA),第三象限为低效价度低唤醒度(LVLA),第四象限为高效价度低唤醒度(HVLA),如图 1所示。

Download:
图 1 Valence-Arousal二维情感模型 Fig. 1 Valence-Arousal two dimensional emotional model

每段音乐视频会让受试者产生不同的情感,DEAP记录了实验过程中每位受试者的脑电信号(EEG)和外周生理信号。脑电信号由32通道的脑电采集设备采集,采样频率为512 Hz,电极位置参照国际10-20电极法[19]。在脑电信号采集实验中,10-20电极法是一种国际公认的在头皮放置电极位置的方法,该系统是基于电极的位置和大脑皮层的潜在区域之间的关系设计的,如图 2所示,DEAP数据集采集实验所用的32个电极放置在头皮上的位置为白色电极所在位置,黑色电极是未使用的电极。

Download:
图 2 10-20系统中电极的位置分布 Fig. 2 Positions distribution of electrode in the 10-20 system

DEAP数据集提供了两种数据格式: 第一种为原始数据采样率为512 Hz,包括32通道EEG数据,由于采集设备的不同,1-22通道数据以Twente格式记录,23-32通道数据以Geneva格式记录,两者的数据存储形式也不相同;第二种为降采样并统一数据格式后的数据,同样有32通道数据,但采样率降至128 Hz。由于多数研究在后者上进行实验,为了增加对比结果的有效性,本文选择降采样后的数据作为实验数据。

1.2 标签处理

DEAP数据集在采集过程中,需要每位受试者观看40个时长1 min的音乐视频片段,因此数据集包含32位受试者的各40段脑电信号数据。考虑到情感的产生本身是一个复杂的过程,并且在情感诱发实验中,一般存在从平静到情感激发再到平静的过程,本文实验并不对数据进行分片来扩大数据集,而直接使用整段数据来预测脑电信号的情感。因此,本文使用的数据包含$ 32\times 40=1\mathrm{ }280 $段脑电信号,每一段信号有32通道数据,每一通道代表一个电极采集的信号。每一通道数据持续63 s,其中前3 s没有意义,脑电信号采样率为128 Hz,共8 064次采样,由于去除了前3 s无效数据,因此本文所使用的原始数据大小为$ 1\mathrm{ }280\times 32\times 7\mathrm{ }680 $。按照8∶2的比例,将数据随机划分成训练集和验证集,其中训练集包含1 024个数据,验证集包含256个数据,进行模型训练时,采用10折-交叉验证对模型进行验证。

由于标签是对于唤醒度(Arousal)和效价度(Valence)的连续值,因此在在二分类实验中,以5为分界点将Arousal和Valence分为低等级和高等级,数值小于5的为低等级,数值大于等于5的为高等级;在三分类实验中,根据数据分布,以4和6为分界点将Arousal和Valence分为低、中、高三等级,每一等级的数据量相对均衡,即数值小于4的为低等级,数值大于等于4、小于等于6的为中等级,大于6的为高等级。在将标签由连续值转换成二分类标签和三分类标签的基础上,本文在DEAP数据上使用脑电信号分别进行情感二分类和三分类。

本文的主要贡献包括:

1) 通过插值算法重建脑电信号间的位置关系,并作为深度学习模型的输入,有效地提高了脑电信号情感分类的准确率。

2) 将时序卷积模型引入脑电信号情感识别。

3) 时频域信息融合模型结合时域信息、频域信息和电极位置信息,在DEAP数据集上得到了更好的分类准确率。对于Valence和Arousal,二分类准确率分别为86.31%和85.57%,三分类准确率分别为79.45%和78.96%。

2 模型与数据处理 2.1 时频域融合模型

图 3所示为本文脑电情感识别的流程框架。本文模型主要由3个部分组成,分别利用从采集的原始脑电数据中抽取的时域特征、频域特征中的功率谱密度序列以及从功率谱密度和电极相对位置还原的位置信息,在经过特征融合后对Arousal和Valence进行分类。在不使用信息融合模型时,3个部分数据均可分别进行情感分类。在此融合模型框架下,分别使用功率谱密度序列和功率谱密度分布图进行情感分类,将训练好的模型参数作为预训练模型参数,用于抽取对应特征向量,最后将3个部分的特征向量进行特征层拼接后,使用全连接层预测最后的情感分类结果。

Download:
图 3 本文脑电信号情感识别融合模型框架 Fig. 3 The fusion model framework of EEG emotion recognition in this paper
2.2 功率谱密度序列模型 2.2.1 特征提取

频域分析在脑电信号情感分类问题上已被证明具有很好的效果,因此充分利用脑电信号在频域上的特性有利于提高模型分类准确率。脑电信号根据其频率范围主要分为5个频段,分别为delta波(1~3 Hz)、theta波(4~7 Hz)、alpha波(8~13 Hz)、beta波(14~30 Hz)和gamma波(31~45 Hz)。由于delta波多在婴儿智力发育不成熟和成人熟睡状态时出现,因此本文使用4~45 Hz的带通滤波器对脑电信号进行滤波,获得去除delta频段的脑电数据。

对于单个电极而言,采集的脑电数据为一维离散变化数值,因此可以从时域和频域两方面对数据进行分析。本文使用滤波器去除delta频段后,在时域上,抽取包括均值、中位数、最大值、最小值、标准差、方差、偏度和峰度在内的8个统计特征。在频域上,使用快速傅里叶变换后计算出theta、alpha、beta和gamma频段的功率谱密度,设长度为N的脑电信号x(t),t的取值为0~N-1,经过傅里叶变换的结果如下:

$ X\left({\omega }_{k}\right)=\sum\limits_{t=0}^{N-1}x\left(t\right){\mathrm{e}}^{-\mathrm{i}{\omega }_{k}t} $ (1)

其中: $ k=\mathrm{0, 1}, \cdots , N-1 $$ {\omega }_{k}=2\mathrm{\pi }k/N $。脑电信号的功率谱密度是其自相关函数γ(i)的傅里叶变换,自相关函数如下:

$ \widehat{\gamma }\left(i\right)=\frac{1}{N}\sum\limits_{t=0}^{N-1-i}x\left(t\right)x(t+i) $ (2)

其中: $ i=\mathrm{0, 1}, \cdots , N-1 $。自相关函数为偶函数,因此有:

$ \widehat{\gamma }(-i)=\widehat{\gamma }\left(i\right) $ (3)

功率谱密度函数如下:

$ P\left({\omega }_{k}\right)=\sum\limits_{t=-\left(N-1\right)}^{N-1}\gamma \left(t\right){\mathrm{e}}^{-\mathrm{i}{\omega }_{k}t} $ (4)

其中: $ k=-(N-1), -(N-2), \cdots , \mathrm{0, 1}, \cdots , N-1 $

最终对于单个数据,可以得到了一个维度为$ 4\times 32\times M $的序列,其中,4代表4个频段,32代表32个通道,M表示有效窗口数。

2.2.2 序列模型

特征序列的长度M与窗口大小N的选取有关,在本文实验环境下,当M=12时,在功率谱密度序列模型上获得最佳分类结果。此时对于任意频段功率谱密度,得到的是一个32×12的二维矩阵,由于CNN模型通过多个卷积层的叠加能获得更大的感受野,可以捕获通道间的位置关系以及单个通道间时序上的关系,在脑电信号情感识别任务上取得很好的效果,该模型使用2个卷积层加2个全连接层的结构,其中卷积层的参数见表 1,使用same padding,卷积层后的激活函数分别使用ELU和ReLU,并使用BN,2个全连接层前均加上系数为0.5的Dropout层,最后得到预测结果。

下载CSV 表 1 卷积核参数 Table 1 Convolution kernel parameters
2.3 功率谱密度分布图模型 2.3.1 位置信息重建

尽管2.2.1节通过时频域分析在脑电信号上抽取了一些有用的特征,但由图 2所示的DEAP数据集采集时所参照的10-20系统电极的位置分布可知,在数据采集过程中电极之间存在相对位置关系。而在2.2.1节中,所有脑电信号处理都是以单个电极为单位进行的,因此在以SVM或KNN等作为分类器,并使用从脑电信号上抽取的时域、频域特征进行情感识别时,无法引入电极间的相对间的相对位置关系。在使用深度学习模型时,直接使用原始脑电信号序列或统计特征,尽管通过DBN或CNN进行学习时,模型有能力学习位置关系,但由于数据量较小,很难学习到准确的位置关系。因此,本文通过对数据进行位置信息重建,引入位置信息使得模型可以直接使用脑电信号中的位置关系,提高脑电信号情感识别的准确率。

本节将从位置计算和插值计算2个方面详细介绍位置信息重建的具体过程。为了能准确地计算电极位置,需要详细介绍10-20电极法中电极位置分布规则,10和20均代表圆周上电极间的距离,其中,10代表间隔距离为半圆周的10%,20代表间隔距离为半圆周的20%。20%间隔的电极包括Fp1、Fp2、F8、T8、P8、O2、O1、P7、T7、F7,将上述10个电极顺时针相连相邻两点间的距离均为半圆周的20%,同时Fp1、Fp2、O2、O1与鼻子为轴的中轴线间的距离均为半圆周的10%。同样地,在上述10个电极中间等间隔放置10个电极Fpz、AF8、FT8、TP8、PO8、OZ、PO7、TP7、FT7、AF7后,20个电极间的间隔距离均为半圆周的10%。在得到圆周上20个电极的位置后,分别作过AF7和AF8、F7和F8、FT7和FT8、TP7和TP8、PO7和PO8,并垂直于中轴线的连接线,对连线上的电极作等距离划分,得到剩下全部电极的位置。

在确定了电极的位置后,以Cz电极的位置为中心,建立实际数据采集过程中的电极所处的大脑平面至二维平面的映射规则。由于不同电极间的距离相差较大,而当目标二维平面较小时,不同的距离被压缩成同样的大小,为了保留位置间的细微区别,二维平面的大小被设置成64$ \times $64,此时20个电极所处圆的半径为24。根据上述建立的平面映射规则,每一个电极对应二维平面上的一个坐标点,将某一时刻电极采集的信号强度作为该点的数值,就获得了一个二维稀疏矩阵,稀疏数据不利于深度学习的模型,因此本文使用插值算法对稀疏矩阵进行填充。

插值算法被广泛应用于图像处理领域,如对图像进行缩放时会使用双线性内插值法 [20]、线性插值三角网法 [21]等插值算法,使得放大后的图像尽可能平滑,在进行地理图像重构时会使用反距离加权插值法 [22]、规则样条插值算法等还原地理表面。不同于为了让图像看起来自然的图像插值算法,脑电信号有本身的特点。脑电信号由不同脑部区域产生,同区域内不同电极数值相关性大而不同区域内数值相关性小,同时脑电信号存在非平稳和非线性的特点,本文使用非线性加权插值的方法对稀疏矩阵进行填充。由于电极间位置越近,电极采集数据之间的影响越大,考虑到脑电信号非线性的特点,使用反比例函数对脑电信号进行加权。式(5)中包含的反比例函数权重随着距离的增加迅速衰减,既反映了脑电信号的非线性变化,同时也使得距离远的位于不同区域的脑电信号间的影响很小,有效反映了不同电极间的信号的相互作用。位于位置$ (x, y) $的脑电信号强度$ \mathrm{v}\mathrm{a}{\mathrm{l}}_{x, y} $等于不同电极采集数据的加权的和,单个电极对位置$ (x, y) $的影响$ \mathrm{v}\mathrm{a}{\mathrm{l}}_{i, (x, y)} $可表示为:

$ \mathrm{v}\mathrm{a}{\mathrm{l}}_{i, (x, y)}=\frac{\lambda }{{d}_{x, y}+\lambda } × \mathrm{v}\mathrm{a}{\mathrm{l}}_{i} $ (5)

其中: $ \lambda $是反比例函数的参数,其控制了信号衰减的速率,$ \lambda $越小信号衰减速率越快,本文选择的$ \lambda =0.1 $$ \mathrm{v}\mathrm{a}{\mathrm{l}}_{i} $表示电极i的采集值;$ {d}_{x, y} $表示位置$ (x, y) $距离电极i的距离,由欧拉距离表示:

$ {d}_{x, y}=\sqrt[]{{\left(x-{x}_{i}\right)}^{2}+{\left(y-{y}_{i}\right)}^{2}} $ (6)

$ \mathrm{其}\mathrm{中}:{x}_{i} $$ {y}_{i} $表示电极i的位置。因此,位置$ (x, y) $的脑电信号强度$ \mathrm{v}\mathrm{a}{\mathrm{l}}_{x, y} $可表示如下:

$ \mathrm{v}\mathrm{a}{\mathrm{l}}_{x, y}=\sum\limits_{i=1}^{n=32}\mathrm{v}\mathrm{a}{\mathrm{l}}_{i, \left(x, y\right)} $ (7)

本文在对位置信息进行重建时,并没有直接使用原始脑电信号,而是使用功率谱密度。因为当直接使用脑电信号进行位置信息重建时,每次采集的信号会转换得到一个信号强度矩阵,而每一个数据样本包含7 680次采样数据。由图 4(a)可知,在使用原始信号进行位置信息重建时,相邻帧的变化很大,无法通过如处理视频文件时,等间隔抽取数据而不影响数据的相对完整性,同时可以看到,图 4(b)所代表功率谱密度随时间变化并不明显。而时间长度为7 680的序列,现阶段很难使用时序CNN和RNN进行学习。因此,本文使用2.2.1节中通过计算原始脑电信号的自相关函数γ(i),并进行傅里叶变换后获得的功率谱密度进行位置信息重建,该数值反映了脑电信号在频域上的分布。信息重建的时间单位为时间窗口大小N,在该窗口时间内的脑电信号分别计算theta、alpha、beta和gamma频段的功率谱密度。同一个时间窗口内的数据,在每一个频段上的32个电极的功率谱密度会被重建为一个包含位置信息的二维矩阵。因此,对于一个数据样本,最后可以获得大小为4$ \times M\times 64\times 64 $的时序数据,其中,4代表4个频段,$ M $为有效窗口数,重建数据大小为$ 64\times 64 $的二维矩阵,如图 4(b)所示。

Download:
图 4 位置信息重建 Fig. 4 Reconstruct of position information
2.3.2 分布图模型

在本文实验环境下,当有效窗口数M=23时,在功率谱密度分布图模型上获得最佳分类结果。此时对于任意频段功率谱密度,有23个有效窗口,每一个时间窗口内的32通道的频段功率谱密度被转换成一个二维矩阵,因此输入为4通道,每一通道为64×64×32的三维矩阵,该模型使用same padding和4个3D卷积核以及一个全连接层和1个softmax层去预测Arousal和Valence类别,每个3D卷积核间均存在一个3D最大池化层和批标准化(Batch Normalization,BN)层,3D卷积核的参数如表 2所示,最后全连接(Fully Connected,FC)层输入维度为1 024,当进行二分类时输出维度为2,当进行三分类时输出维度为3。

下载CSV 表 2 3D卷积核参数 Table 2 3D convolution kernel parameter
2.4 多模数据融合及情感分类

由2.2节和2.3节可知,单一的功率谱密度序列模型和功率谱密度分布图模型均可直接被用来进行情感分类,除了对结果直接进行加权求和获得最后结果外,本文也采取了特征融合,由于数据量较少,直接使用端到端模型难度很大,因此本文采取分步预训练的方法,即将2.2节和2.3节中训练好的模型作为特征抽取器,将功率谱密度分布图转换为1 024维序列,将功率谱密度序列图转换为386维序列,再使用直接拼接的方法将两者以及时域特征拼接成1 418维向量,最后使用一个全连接层和softmax层进行情感分类。

3 实验结果与分析

由于本文所使用的模型由三部分组成,均可直接用于情感分类,本节对不同部分的分类效果进行说明,同时与已存在研究所使用方法的结果进行对比,以证明本文模型的有效性。

3.1 二分类结果 3.1.1 窗口大小对模型结果的影响

通过改变窗口大小和步长可以得到不同的有效窗口数,窗口数会影响功率谱密度分布图模型和功率谱密度序列模型的预测结果,进而影响整个融合模型的结果,表 3表 4均给出不同窗口大小对应的有效窗口数,以及分别使用功率谱分布图模型和功率谱密度序列模型在二分类上的准确率。由表 3表 4的结果可知,窗口大小设置为640时可以取得最好的分类准确率,窗口设置的过大或者过小时分类准确率都会降低(粗体表示最优值)。结果表明,当时间窗口设置的较小时,不能有效地提取到脑波信号中与情感有关的信息,或造成一定的信息丢失;当窗口设置的较大时,又可能会造成一些与情感相关的特征与其他无关特征混淆,混入冗余信息。在不同频段的二分类结果如图 5所示。

下载CSV 表 3 窗口大小对PSD分布模型的影响 Table 3 Influences of window size for PSD distribution model
下载CSV 表 4 窗口大小对PSD序列模型的影响 Table 4 Influences of window size for PSD sequence model
Download:
图 5 不同频段的二分类结果 Fig. 5 Binary classification results of different bands
3.1.2 模型各部分效果分析

本文中模型的不同部分对于模型最后预测结果的作用是不相同的,本文分别运用分布图、序列、时域、分布图模型+序列模型进行特征融合,运用分布图模型+时域模型进行加权求和,运用分布图模型+序列模型+时域加权求和、分布图+序列+时域进行特征融合。通过7种方法对Valence和Arousal分别进行二分类,其中加权求和均为求均值,表 5所示为消融分析下各方法的分类结果。由表 5数据可以看出,分布图+序列+时域特征融合的方法对Valence和Arousal分类能得到最好的结果,准确率分别为86.31%和85.57%(粗体表示最优值)。

下载CSV 表 5 不同模型各部分对最后结果的影响 Table 5 Influence of each part of the different model on the final result
3.1.3 不同模型对比

除本文所使用到的模型外,研究人员还提出了一系列的方法。文献[11]通过提取功率谱密度特征,使用SVM对其分类,在Valence和Arousal上的准确率分别为72.5%和73.30%。文献[12]同样是提取功率谱密度特征,使用概率神经网络得到的分类准确率分别为81.21%和81.26%。文献[13]通过提取不同的统计特征,使用卷积神经网络对其分类得到的准确率为81.41%和73.36%。文献[14]对脑电进行连续小波变换后将其转换为图像,使用CNN+RNN得到的准确率为72.06%和74.12%。文献[15]使用深度信念网络对脑电信号分类的准确率为78.28%和70.23%。将文献[11-15]中的方法作为对比方法,与本文中的分布图+序列+时域特征融合分类方法进行结果对比,如表 6所示。由表 6数据可知,本文所提出的分布图+序列+时域特征融合模型,由于融合了多模态数据,并引入了位置信息,可以得到很好的分类准确率,效果优于其他方法。

下载CSV 表 6 不同脑电信号情感分类方法比较 Table 6 Comparison of different EEG emotion classification methods 
3.2 三分类结果

本文同样使用了二分类结果中的7种方法对Valence和Arousal分别进行了三分类,不同方法的三分类结果如表 7所示。由表 7可以看出,三分类与二分类的结果类似,同样是使用分布图+序列+时域特征融合方法能得到最好的分类结果,准确率达到79.45%和78.96%。

下载CSV 表 7 不同模型的三分类结果 Table 7 Three classification results of different models
3.3 二分类和三分类结果对比

由于脑电本身就是一种非线性和非平稳的随机信号,分类算法在训练和测试的过程中随着识别情感类别的增加,损失也会增加,所以每种方法下的三分类准确率会低于二分类准确率。图 6展示了本文中的7种分类方法对Valence的二分类和三分类结果对比,从图中可以明显看出,7种方法对Valence的三分类准确率均低于二分类准确率。此外,不同方法对Arousal的三分类准确率同样低于二分类准确率,此处仅以Valence为例进行直观表示。

Download:
图 6 二分类和三分类结果对比 Fig. 6 Comparison of results in binary classification and three classification
4 结束语

深度学习方法在众多研究领域中效果较好,尤其在数据量较大的情况下,端到端的模型可避免不正确的手工特征影响分类结果,但在脑电信号情感识别领域,由于数据量不大,很难直接训练得到有效的端到端模型。本文在现有研究的基础上,提出一种基于功率谱密度的脑电信号位置信息重建方法。该方法构建的深度学习模型能直接利用电极间的位置信息,并与传统特征结合分类器的模型进行有效融合。实验结果表明,在对Valence和Arousal进行二分类和三分类的任务上,该方法分别取得了86.31%和85.57%、79.45%和78.96%的准确率。本文方法直接在时域上使用原始脑电信号效果并不显著,下一步将结合神经科学相关知识在短时片段上进行位置信息重建,通过特定模式识别在整体上实现脑电信号情感分类。

参考文献
[1]
COWIE R, DOUGLAS-COWIE E, TSAPATSOULIS N, et al. Emotion recognition in human-computer interaction[J]. IEEE Signal Processing Magazine, 2001, 18(1): 32-80. DOI:10.1109/79.911197
[2]
SONG P, JIN Y, ZHAO L, et al. Speech emotion recognition using transfer learning[J]. ICE Transactions on Information and Systems, 2014, 97(9): 2530-2532.
[3]
YAN J, ZHENG W, XIN M, et al. Integrating facial expression and body gesture in videos for emotion recognition[J]. IEICE Transactions on Information & Systems, 2014, 97(3): 610-613.
[4]
陈田, 陈占刚, 袁晓辉, 等. 基于脑电信号瞬时能量的情感识别方法[J]. 计算机工程, 2019, 45(4): 196-204.
CHEN T, CHEN Z G, YUAN X H, et al. Emotion recognition method based on instantaneous Energy of electroencephalography[J]. Computer Engineering, 2019, 45(4): 196-204. (in Chinese)
[5]
CHENG B, LIU G. Emotion recognition from surface EMG signal using wavelet transform and neural network[J]. Journal of Computer Applications, 2008, 28(2): 1363-1366.
[6]
AGRAFIOTI F, HATZINAKOS D, ANDERSON A K. ECG pattern analysis for emotion detection[J]. IEEE Transactions on Affective Computing, 2012, 3(1): 102-115. DOI:10.1109/T-AFFC.2011.28
[7]
ZHENG W. Multichannel EEG-based emotion recognition via group sparse canonical correlation analysis[J]. IEEE Transactions on Cognitive and Developmental Systems, 2017, 9(3): 281-290. DOI:10.1109/TCDS.2016.2587290
[8]
LIU J, MENG H, NANDI A, et al. Emotion detection from EEG recordings[C]//Proceedings of International Conference on Natural Computation & Fuzzy Systems & Knowledge Discovery. Washington D.C., USA: IEEE Press, 2016: 178-189.
[9]
GANESH S, CHINCHANI A M, BHUSHAN A, et al. Participant-dependent and participant-independent classification of emotions using EEG signals[C]//Proceedings of 2017 IEEE International Conference on Wireless Communications, Signal Processing and Networking. Washington D.C., USA: IEEE Press, 2017: 357-364.
[10]
DALTROZZO J, TILLMANN B, PLATEL H, et al. Temporal aspects of the feeling of familiarity for music and the emergence of conceptual processing[J]. Journal of Cognitive Neuroscience, 2010, 22(8): 1754-1769. DOI:10.1162/jocn.2009.21311
[11]
THAMMASAN N, MORIYAMA K, FUKUI K I, et al. Familiarity effects in EEG-based emotion recognition[J]. Brain Informatics, 2017, 4(1): 39-50. DOI:10.1007/s40708-016-0051-5
[12]
ZHANG J, CHEN M, HU S, et al. PNN for EEG-based emotion recognition[C]//Proceedings of 2016 IEEE International Conference on Systems, Man, and Cybernetics. Washington D.C., USA: IEEE Press, 2016: 578-587.
[13]
TRIPATHI S, ACHARYA S, SHARMA R D, et al. Using deep and convolutional neural networks for accurate emotion classification on DEAP dataset[C]//Proceedings of the 29th AAAI Conference on Innovative Applications. Palo Alto, USA: AAAI Press, 2017: 4746-4752.
[14]
LI X, SONG D, ZHANG P, et al. Emotion recognition from multi-channel EEG data through convolutional recurrent neural network[C]//Proceedings of IEEE International Conference on Bioinformatics & Biomedicine. Washington D.C., USA: IEEE Press, 2016: 346-358.
[15]
KAWDE P, VERMA G K. Deep belief network based affect recognition from physiological signals[C]//Proceedings of the 4th IEEE Uttar Pradesh Section International Conference on Electrical, Computer and Electronics. Washington D.C., USA: IEEE Press, 2018: 587-592.
[16]
ZHAN Y, VAI M I, BARMA S, et al. A computation resource friendly convolutional neural network engine for EEG-based emotion recognition[C]//Proceedings of 2019 IEEE International Conference on Computational Intelligence and Virtual Environments for Measurement Systems and Applications. Washington D.C., USA: IEEE Press, 2020: 653-669.
[17]
KOELSTRA S. DEAP: a database for emotion analysis using physiological signals[J]. IEEE Transactions on Affective Computing, 2011, 3(1): 18-31.
[18]
JAMES A R. A circumplex model of affect[J]. Journal of Personality & Social Psychology, 1980, 39(6): 1161-1178.
[19]
OOSTENVELD R, PRAAMSTRA P. The five percent electrode system for high-resolution EEG and ERP measurements[J]. Clinical Neurophysiology, 2001, 112(4): 713-719. DOI:10.1016/S1388-2457(00)00527-7
[20]
杨丽娟, 李利. 基于双线性插值的内容感知图像缩放算法仿真[J]. 计算机仿真, 2019, 36(12): 244-248.
YANG L J, LI L. Simulation of content-aware image scaling algorithm based on bilinear interpolation[J]. Computer Simulation, 2019, 36(12): 244-248. (in Chinese)
[21]
LIU Y, WEI H F, ZHANG H, et al. Multi-criteria coverage map construction based on adaptive triangulation-induced interpolation for cellular networks[J]. IEEE Access, 2019, 7: 80767-80777. DOI:10.1109/ACCESS.2019.2923047
[22]
SOEKA I, GRZELKA A, PAENUK M, et al. The use of ordinary kriging and inverse distance weighted interpolation to assess the odour impact of a poultry farming[J]. Scientific Review Engineering and Environmental Sciences, 2020, 29(1): 17-26.