基于改进轻量级秩扩展网络的人脸表情识别方法

引用本文

郑伟鹏, 罗晓曙, 蒙志明. 基于改进轻量级秩扩展网络的人脸表情识别方法[J]. 计算机工程, 2022, 48(9), 189-196. DOI: 10.19678/j.issn.1000-3428.0062811.

ZHENG Weipeng, LUO Xiaoshu, MENG Zhiming. Facial Expression Recognition Method Based on Improved Lightweight Rank Expansion Network[J]. Computer Engineering, 2022, 48(9), 189-196. DOI: 10.19678/j.issn.1000-3428.0062811.

基金项目

广西人文社会科学发展研究中心“科学研究工程·创新创业专项重大委托项目”（ZDCXCY01）

通信作者

罗晓曙（通信作者），教授、博士

作者简介

郑伟鹏（1996—），男，硕士研究生，主研方向为深度学习、图像处理;
蒙志明，副教授、硕士

文章历史

收稿日期：2021-09-26
修回日期：2021-11-09

Contents Abstract Full text Figures/Tables PDF

基于改进轻量级秩扩展网络的人脸表情识别方法

郑伟鹏¹ , 罗晓曙¹ , 蒙志明²

1. 广西师范大学电子工程学院，广西桂林 541000;
2. 广西师范大学创新创业学院，广西桂林 541000

收稿日期：2021-09-26；修回日期：2021-11-09

基金项目：广西人文社会科学发展研究中心“科学研究工程·创新创业专项重大委托项目”（ZDCXCY01）

作者简介：郑伟鹏（1996—），男，硕士研究生，主研方向为深度学习、图像处理; 蒙志明，副教授、硕士.

通信作者：罗晓曙（通信作者），教授、博士.

E-mail: lxs@mailbox.gxnu.edu.cn

摘要：人脸表情识别作为人机交互的一种重要方法，广泛应用于智能医疗、公安测谎系统、车载安全系统等领域。现有人脸表情识别方法多数存在参数量冗余、计算成本高、特征表达瓶颈等问题。提出一种基于改进轻量级秩扩展网络ReXNet的人脸表情识别方法。通过构建改进的ReXNet以提取人脸表情特征，在参数量较少的条件下解决特征表达瓶颈的问题，增强对表情局部特征的关注，获得高层次的表情特征，同时融合坐标注意力模块，将位置信息嵌入到通道注意力中，精准地定位和识别感兴趣的特征，建立位置信息与局部特征之间的长依赖关系，减少计算开销。在此基础上，将细化模块引入到改进的网络架构中，利用类别上下文信息细化分类结果，增强类间的分化效果，从而提高人脸表情识别的准确率。实验结果表明，该方法在RAF-DB和FERPlus数据集上的人脸表情识别准确率分别达到88.43%和88.8%，相比VGG16-PLD、SHCNN、ResNet+VGG等方法，具有较高的准确率和较优的鲁棒性。

Facial Expression Recognition Method Based on Improved Lightweight Rank Expansion Network

ZHENG Weipeng¹ , LUO Xiaoshu¹ , MENG Zhiming²

1. College of Electronic Engineering, Guangxi Normal University, Guilin, Guangxi 541000, China;
2. College of Innovation and Entrepreneurship, Guangxi Normal University, Guilin, Guangxi 541000, China

Abstract: Facial Expression Recognition(FER), an important method in the field of human-computer interaction, is widely used for intelligent medical treatment and in public security lie detection systems, vehicle safety systems, and other applications.However, existing FER methods are problematic in that they are plagued by parameter redundancy, high computational cost, feature expression bottlenecks, and so on.This study proposes an FER method based on an improved lightweight Rank Expansion Network(ReXNet).By constructing improved ReXNet to exact facial expression features, solves the feature expression bottleneck by decreasing the number of parameters and enhancing attention to local features of expression to produce high-level features of expression.At the same time, a Coordinate Attention(CA)module is integrated, and the location information is embedded into the channel attention.These improvements enable the model to accurately locate and identify the features of interest, and to establish a long-term relationship between location information and local features, thereby reducing the computational overhead.On this basis, a refinement module is introduced to the improved model.The module refines the classification results by using the category context information to enhance the differentiation between classes to ultimately improve the accuracy of FER.The experimental results show that the accuracy of FER on the RAF-DB and FERPlus datasets reaches 88.43% and 88.8%, respectively.Compared with VGG16-PLD, SHCNN, ResNet+VGG, and other methods, the proposed method has higher accuracy and superior robustness.

开放科学（资源服务）标志码（OSID）：

0 概述

面部表情是人类情绪的一种最直接的外部表现，而赋予机器感知人类情绪的能力是实现人机交互的重要目标之一。随着人工智能的迅速发展，人脸表情的自动识别成为研究热点。人脸表情识别（Facial Expression Recognition，FER）的研究在心理学、疲劳驾驶检测、课堂教学效果评价、智能医疗、公安测谎系统、车载安全系统等领域得到广泛关注^[1-2]。

近年来，随着深度学习在计算机视觉和模式识别领域的广泛应用，FER取得了显著的进展^[3-4]。但是FER不同于其他模式识别任务，FER数据中的有用信息相对较少。FER在背景简单和人脸端正等实验室环境下的准确率相对较高。在自然环境下，受头部姿态变化、遮挡、光照等因素以及不同个体对情感表达的影响，网络在人脸表情的识别过程中会产生大量的冗余信息，导致FER准确率降低。为解决该问题，网络架构（如VGG^[5]、AlexNet^[6]、ResNet^[7]等被作为基础网络）广泛应用于FER，并对其进行优化，以提高FER的准确率。例如，文献[8]在VGG19的基础上，通过优化网络结构和参数，并利用迁移学习技术克服训练样本的不足，提高FER的准确率。文献[9]将丢弃层引入到ResNet网络中，并移除softmax层，通过对全连接层进行修改，减少网络参数量，同时将SE模块添加到网络中，以提高识别准确率。文献[10]提出一种结合残差网络与目标掩膜的特征提取方法，通过3D ResNet网络对连续的微表情序列进行训练和识别。文献[11]构建基于域适应的卷积神经网络结构，以较少的参数量获得较高的识别准确率。文献[12]引入深度可分离卷积以减少网络参数，嵌入压缩网络来学习网络特征权重，并通过加入空间金字塔池化增强网络的鲁棒性。文献[13]采用多层小尺度核卷积块代替大卷积核，减少参数量，在相同感受野的条件下加深网络并精简网络结构，利用softmax分类器获得表情分类结果，并对数据进行增强处理，提升网络泛化能力并且减小识别误差。同时，仅通过对基础网络的浅层设计修改难以充分地增强表情识别性能。因为在自然环境下的图像质量不一致，容易产生大量噪声，而且表情间存在复杂的抑制共生问题，即不同表情间可能都会对嘴、眼睛、眉毛、鼻子有类似的动作，所以当人脸存在部分遮挡的情况时，不同表情的类似动作会造成表情识别错误。文献[14]通过重新标记标签加权训练，增强对准确率较低的噪声、模糊、相似表情间的加权再学习，并且增加额外噪声数据集对网络进行训练，增强网络对噪声数据的抗干扰能力。文献[15]通过对输入的Gabor特征进行重新描述，并微调权重来细化训练过程中构建的模型，通过对覆盖部分的特征进行压缩，在眼睛、嘴巴和下脸遮挡的情况下，获得较高的表情分类准确性。文献[16]基于重建部分遮挡的面部表情数据库，提出一个20层的“VGG+残差”卷积神经网络，该网络对部分遮挡的表情具有较高的准确度。文献[17]通过关键点区域随机将输入表情图像切分为若干个区域，通过卷积神经网络进行区域的特征提取，在自注意力模块中采用全连接层和Sigmoid函数将注意力权重分配到各个区域。通过上述分析，基础网络设计的方式存在特征表达瓶颈问题，同时，通过建立人脸表情局部和全局特征之间的有效联系成为表情解析的关键。

本文提出一种基于改进轻量级秩扩展网络（Rank Expansion Network，ReXNet）^[18]的人脸表情识别方法。以ReXNet网络融合坐标注意力机制^[19]作为改进的基础架构，将位置信息嵌入到通道注意力中。在第一次粗分类后引入细化模块，从分类的角度提取全局上下文信息，从而获得更精确的分类结果。

1 本文方法

本文从基础网络的特征提取性能、计算量和复杂度角度，将坐标注意力机制融合到网络架构中，以改进的轻量级秩扩展网络（ReXNet）作为基础网络架构，引入细化模块以优化FER模型。本文网络架构如图 1所示。首先，将训练集中的人脸表情样本作为模型的输入，通过改进的主干网络ReXNet提取特征，从而获得高层次的情感特征，在主干网络之后增加一个坐标注意力模块，增强对表情特征的提取，以建立局部表情特征之间的长距离依赖关系；其次，将获得的特征图送入分类器中得到粗分类结果，为进一步改进ReXNet，引入细化模块来修正粗分类结果中一些错误的样本，细化模块根据每种表情的粗分类结果计算不同类别的类中心和每种表情的注意力类别特征；最后，将注意力类别特征和原始特征图相连接，以获得最终人脸表情的精细分类。

	Download: JPG larger image
图 1 本文网络架构 Fig. 1 Architecture of the proposed network

1.1 秩扩展网络改进

现有网络通常采用按阶段设计通道数的方式，同时在跨阶段时进行分辨率下采样、通道数倍增操作，在最终分类层之前将其通道数逐渐扩展到1 000以上。这种网络架构设计方案存在表达瓶颈的问题，因此，本文在表情识别过程中引入ReXNet，在网络设计过程中采用通道数渐进递增方式，同时引入Swish-1激活函数。本文对大小为112×112×16的浅层特征进行4倍的卷积下采样，随后与高级语义特征相加并融合，增强对局部特征的关注。本文对网络进行裁剪，将冗余的瓶颈层删除，同时输出的特征图大小由原来的1 280转为185，参数量由6.8×10⁴减少至5.8×10⁴，达到更轻量化的效果。对于任意数据集，本文将人脸表情图像统一设为224×224像素，并将其输入到网络中。改进的ReXNet网络由卷积核为3×3、步长为2的卷积层、两层瓶颈卷积模块（卷积层+正则化层+Swish-1激活函数^[13]）、通道注意力模块组成的瓶颈层、全局池化层、用于表情分类的全连接层组成。改进的ReXNet网络结构如图 2所示。网络依据下采样以及渐进式的通道递增规则逐步进行特征提取，最终输出1×1×185的特征图，用于最后的表情分类。

	Download: JPG larger image
图 2 改进的ReXNet结构 Fig. 2 Structure of improved ReXNet

1.2 坐标注意力模块

坐标注意力（Coordinate Attention，CA）^[19]是利用精确的位置信息对通道关系和长期相关性进行编码，形成一对方向感知和位置敏感的特征图。特征图能够增强感兴趣的目标表示。一个CA模块可以看作一个用于增强特征表示能力的计算单元，它可以将中间张量$ \boldsymbol{X}=[{x}_{1}，{x}_{2}，\cdots , $ $ {x}_{c}]\in {\mathbb{R}}^{C\times H\times W} $作为输入，并输出一个具有同样尺寸的增强表示能力$ \boldsymbol{Y}=[{y}_{1}，{y}_{2}, \cdots , {y}_{c}] $。CA模块主要分为坐标信息嵌入、坐标注意力生成和输入-输出残差连接3个步骤。坐标注意力模块结构如图 3所示。

	Download: JPG larger image
图 3 坐标注意力模块结构 Fig. 3 Structure of coordinate attention module

1.2.1 坐标信息嵌入

坐标信息嵌入将全局池化分解为两个一维特征编码，使得注意力模块能够捕获具有精确位置信息的空间长期相关性。针对输入X，坐标信息嵌入使用尺寸（H，1）和（1，W）的池化核沿着水平坐标方向和竖直坐标方向对每个通道进行编码，因此，高度为h的第c个通道的输出表述如式（1）所示：

$ {Z}_{c}^{h}=\frac{1}{W}\sum\limits_{0\le i < W}{x}_{c}(h, i) $

(1)

同理，宽度为w的第c个通道输出如式（2）所示：

$ {Z}_{c}^{w}\left(w\right)=\frac{1}{H}\sum\limits_{0\le j < H}{x}_{c}(j, w) $

(2)

式（1）和式（2）的变换是沿着2个空间方向进行特征聚合，返回一对方向感知特征图。这2种变换使得注意力模块捕捉到沿着1个空间方向的长期相关性，并保存沿着另一个空间方向的精确位置信息，有助于网络更准确地定位感兴趣的目标。坐标信息嵌入操作对应图 3中X轴平均池化层和Y轴平均池化层。

1.2.2 坐标注意力生成与输入-输出残差连接

为充分利用坐标信息嵌入模块的全局感受野和精确位置信息的表示，坐标注意力模块首先级联坐标信息嵌入模块生成的两个特征图，然后使用一个共享的1×1卷积进行变换F₁，如式（3）所示：

$ \boldsymbol{f}=\delta \left({F}_{1}\right([{\boldsymbol{z}}^{h}, {\boldsymbol{z}}^{w}]\left)\right) $

(3)

其中：[，]为特征向量沿空间维度的拼接运算；δ为非线性激活函数；生成的$ \boldsymbol{f}\in {\mathbb{R}}^{C/r\times (H+W)} $为空间信息在水平方向和竖直方向的中间特征图，r为下采样比例，用于控制模块的大小。坐标注意力模块沿着空间维度将f分为两个单独的张量$ {\boldsymbol{f}}_{1}\in {\mathbb{R}}^{C/r\times H} $和$ {\boldsymbol{f}}_{2}\in {\mathbb{R}}^{C/r\times W} $，再利用两个1×1卷积$ {F}_{h} $和$ {F}_{w} $将特征图$ {f}^{h} $和$ {f}^{w} $变换为与输入X相同的通道数，得到结果如式（4）和式（5）所示：

$ {g}^{h}=\sigma \left({F}_{h}\right({f}^{h}\left)\right) $

(4)

$ {g}^{w}=\sigma \left({F}_{w}\right({f}^{w}\left)\right) $

(5)

其中：σ为Sigmoid函数。注意力坐标机制对$ {f}^{h} $和$ {f}^{w} $进行拓展，并作为注意力权重，通过输入-输出残差连接操作得到CA模块的最终输出结果，如式（6）所示：

$ {y}_{c}(i, j)={x}_{c}(i, j)\times {\mathrm{g}}_{c}^{h}\left(i\right)\times {\mathrm{g}}_{c}^{w}\left(j\right)+{x}_{c}(i, j) $

(6)

CA模块同时关注了水平方向和竖直方向的注意力，同时将输入与注意力输出相加形成残差学习方式，防止梯度消失，同时增强模块的学习能力。

坐标注意力机制简单灵活且高效，通过2D全局池化计算通道注意力，在较低的计算成本下提高网络性能，将改进的注意力机制加入到轻量级的ReXNet网络中，使网络更加专注于人脸有效特征的提取。

1.3 细化模块

细化模块又称注意力类特征（Attention Class Feature，ACF）模块。由于在实际应用过程中人脸表情特征间具有共享特性，即不同类别的特征差异性不明显，因此本文通过上下文信息与粗分类进行特征细化操作，从而增强人脸表情的精细化分类。细化模块是根据人脸表情特征计算并自适应地感知整个样本的不同类别中心，并通过特征聚合来提高识别准确率。细化模块分为类中心模块和类别细化模块。

类中心模块用于描述每个训练批次样本中每个类别的全局性表征，每个标签类的类中心都聚合该类别表情样本的所有特征。类中心模块利用类别上下文信息计算每个类的类中心。类中心模块结构如图 4所示。

	Download: JPG larger image
图 4 类中心模块结构 Fig. 4 Structure of class center module

本文给定表情粗分类结果$ {P}_{\mathrm{c}\mathrm{o}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{e}}\in {\mathbb{R}}^{N\times E} $和特征图$ \boldsymbol{F}\in {\mathbb{R}}^{B\times C} $，其中，B是表情样本数量，N是类别数，C是通道数。本文通过全连接层对特征图F进行通道缩减操作，将通道数量缩减到$ {C}^{'} $，将$ {P}_{\mathrm{c}\mathrm{o}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{e}} $维度重塑得到$ {P}_{\mathrm{c}\mathrm{o}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{e}}\in {\mathbb{R}}^{N\times E} $，之后进行矩阵乘法和归一化，计算得到类中心$ {F}_{\mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}}\in {\mathbb{R}}^{N\times C} $。每个类别的类中心都表达了该类别的全局信息，在训练时有助于模型学习到每个类别中具有鉴别力的特征，从而纠正之前被错分的人脸表情类别。

类别细化模块将粗分类结果作为类中心特征图的注意力并计算类别细化特征。如果粗分类将表情图片错误分类，粗分类需要更加关注那个错误的类别，以检查特征是否具有一致性。类别细化模块如图 5所示。

	Download: JPG larger image
图 5 类别细化模块结构 Fig. 5 Structure of class refine module

本文给定类中心$ {F}_{\mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}}\in {\mathbb{R}}^{N\times C} $和粗分类结果$ {P}_{\mathrm{c}\mathrm{o}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{e}}\in {\mathbb{R}}^{N\times E} $，对$ {F}_{\mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}} $和$ {P}_{\mathrm{c}\mathrm{o}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{e}} $转置进行矩阵乘法，计算每张图片的类别细化特征$ {F}_{a} $。图片j的类别细化特征计算如式（7）所示：

$ {F}_{a}^{j}=\sum\limits_{i=0}^{N}{P}_{\mathrm{c}\mathrm{o}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{e}}^{i, j}\times {F}_{\mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}}^{i} $

(7)

其中：$ {F}_{a}^{j} $为样本j的类别细化特征，$ {F}_{a}^{j}, {F}_{\mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}}^{i}\in {\mathbb{R}}^{1\times C} $；i表示第i个类别；N为表情类别数。在计算类别细化特征之后，类别细化特征模块用多层感知机来细化计算的特征，得到最终的类别细化特征。

1.4 损失函数

本文实验是一个多分类的问题，常用的损失函数主要有0~1损失函数、均方误差损失函数和交叉熵损失函数。0~1损失函数虽然可以用于度量误分类问题，但是该函数曲线是非凸的，呈现阶跃和间断现象，在求最优解时过于复杂。均方误差损失函数通过求解数据间最小距离的平方获得最优解，常用于最小二乘法中。当应用于深度学习训练时，均方误差损失函数使多个训练点到最佳直线的距离最小化。当均方误差损失函数与Sigmoid激活函数一起使用时，输出层神经元的学习速率减慢。交叉熵损失函数是对数函数，曲线呈单调性趋势，使梯度随损失函数单向变化，有利于梯度下降反向传播，从而更好地更新每一层的参数，以缩短预测值和实际值之间的距离。因此，本文采用的损失函数为交叉熵损失函数。交叉熵损失函数预测分布离真实值越远，交叉熵损失越大，预测分布越接近真实值，交叉熵损失越小，其得到分类结果越准确。具体的表达如式（8）所示：

$ L\left(\theta \right)=-\frac{1}{N}\sum\limits_{n=1}^{N}{y}_{n}\mathrm{lb}{p}_{n}+\left(1\right.-{y}_{n})\mathrm{l}\mathrm{b}(1-{p}_{n}) $

(8)

其中：$ {y}_{n} $为真实值；$ {p}_{n} $为预测值；N为类别个数。

2 实验与结果分析 2.1 实验数据集

本文采用RAF-DB数据集^[20]和FERPlus数据集^[21]。RAF-DB数据集提供了经由40人标注的29 672类表情图片，这些图片包含7类基本表情类别的子集和11类复合表情类别的子集。本文利用其中6种基本表情和中性表情的图片，共有15 339张，将其中12 271张图片作为训练集，另外3 068张图片作为测试集。FERPlus数据库是对FER2013数据库的扩展，并对其重新标签，由28 709张训练图片、3 589张验证图片和3 589张测试图片组成，该数据集有7种标记的表情。

2.2 实验设置

本文实验环境是在Ubuntu16.04系统下使用Intel^® UHD Graphics 630 GPU运行，以Pytorch作为基础学习框架来编写程序，在SCN网络的源代码基础上搭建本文模型。本文根据图 1所示的网络框架对整体网络进行建模和相关库的优化，在训练过程中使用随机Adam优化交叉熵损失，初始学习率设置为0.01，在FERPlus和RAF-DB数据集中总批次均设置为100次。

RAF-DB和FERPlus数据集有不同的制作标准。RAF-DB数据集为研究者提供了裁剪好的人脸图片，而FERPlus数据集仅提供48×48的灰度值矩阵。本文实验的所有图片都是通过人脸对齐算法检测，并调整到224×224像素。

2.3 实验结果 2.3.1 与现有方法对比

本文将原始ReXNet、VGG16、VGG19、ResNet18、ResNet34和ResNet50主干网络与改进ReXNet网络进行对比，在RAF-DB数据集上训练和测试不同网络的性能。网络的输入图片尺寸均为224×224像素。在RAF-DB数据集上不同主干网络的准确率对比如表 1所示。

下载CSV 表 1 不同主干网络的准确率对比 Table 1 Accuracy comparison among different backbone networks

从表 1可以看出，相对于VGG和ResNet系列网络，ReXNet网络以少量的参数能够达到更高的人脸表情识别率，同时改进ReXNet网络较原始的ReXNet网络能够更好地适应表情识别任务，表明改进后的ReXNet网络具有更少的参数量和较低的计算复杂度。相比其他主干网络，改进的ReXNet作为特征提取器更合适，并具有较优的识别精度。

在RAF-DB数据集上，使用改进ReXNet网络的表情识别方法与DLP-CNN^[22]、gACNN^[23]、RAN^[24]、SCN^[25]方法的准确率对比如表 2所示。从表 2可以看出，本文方法的FER准确率达到88.43%。因此，本文方法优于这些最新的方法。说明本文提出的改进网络在RAF-DB数据集上能够有效改进FER识别效果。

下载CSV 表 2 在RAF-DB数据集上不同方法的人脸表情识别准确率对比 Table 2 Accuracy of facial expression recognition comparison among different methods on RAF-DB dataset

在FERPlus数据集上，本文方法与目前主流方法VGG16-PLD^[26]、SHCNN^[27]、ResNet+VGG^[28]、RAN^[24]进行准确率对比，结果如表 3所示。从表 3可以看出，本文方法的FER准确率达到88.80%。与现有主流方法相比，本文方法具有较优的泛化能力，并且对人脸表情的识别具有更高的准确率。

下载CSV 表 3 在FERPlus数据集上不同方法的人脸表情识别准确率对比 Table 3 Accuracy of facial expression recognition comparison among different methods on FERPlus dataset

2.3.2 注意力图可视化

为进一步验证改进ReXNet网络的有效性，本文采用加权梯度类激活映射（Gradient-weighted Class Activation Mapping，Grad-CAM）^[29]方法获得网络模型的分类结果，使模型更关注人脸图像区域的表情特征。Grad-CAM方法使得任何目标特征经过最后一个卷积层后生成大致的局部特征图，凸显出图像中对表情预测分类重要的区域。本节在RAF-DB数据集上利用Grad-CAM方法生成可视化注意力热图。部分测试图像的可视化注意力热图如图 6所示（彩色效果见《计算机工程》官网HTML版）。

	Download: JPG larger image
图 6 部分测试图像的可视化注意力热图 Fig. 6 Visual attention heat map of some test images

从图 6可以看出，对于各类基本表情，热力图红色区域基本集中在人脸的眼睛、眉毛和嘴巴等周围的关键区域。通过Grad-CAM方法对测试图像中惊讶表情预测的概率分别为0.895 4和0.994 2（第一行和第二行），对恐惧表情预测的概率分别为1.000 0和0.985 4（第一行和第二行），对厌恶表情预测的概率分别为0.825 1和0.984 7（第一行和第二行），对开心表情预测的概率分别为0.995 1和0.825 1（第一行和第二行），对伤心表情预测的概率分别为1.000 0和0.912 5（第一行和第二行），对生气表情预测的概率分别均为1.000 0（第一行和第二行），对中性表情预测的概率分别为1.000 0和0.857 8（第一行和第二行）。本文方法能够有效地挖掘表情局部和全局信息之间的关系，降低表情间共享特征的影响，使表情学习到区分性更明显的人脸表情特征。

2.3.3 鲁棒性对比

在人脸表情识别的相关研究中，最终的识别效果往往受诸多因素的干扰，特别是人脸中的遮挡因素。本文从RAF-DB数据集中挑选具有遮挡的图像，构建带有遮挡的遮挡RAF-DB测试子集，测试本文方法对遮挡条件下表情识别的鲁棒性。在RAF-DB数据集和遮挡RAF-DB数据集上，原始方法（ReXNet网络）和本文方法的人脸表情识别准确率对比如表 4所示。从表 4可以看出，在遮挡RAF-DB数据集上本文方法对于遮挡的表情识别具有较优的鲁棒性。

下载CSV 表 4 在不同数据集上不同方法的人脸表情识别准确率对比 Table 4 Accuracy of facial expression recognition comparison among different methods on different datasets

2.3.4 消融实验

为进一步验证坐标注意力模块和细化模块的有效性，以改进的ReXNet为基础架构，本文在RAF-DB和FERPlus数据集上进行消融实验。消融实验结果如表 5所示。改进的ReXNet网络融合坐标注意力机制CA和细化模块ACF后，准确率均有一定的提升。在RAF-DB和FERPlus数据集上加入CA和ACF模块后整体网络的FER准确率比基础网络（没有坐标注意力机制CA和细化模块ACF）分别提高了0.93和0.8个百分点。这说明坐标注意力有助于模型更精准地定位和识别感兴趣的目标，从而提高有效特征的提取能力，同时说明细化模块在一定程度上解决不同人脸表情类别间的差异性问题，通过上下文信息与粗分类进行特征细化操作，增强模型对人脸表情的精细化分类。因此，注意力机制和细化模块能够有效提高网络性能，具有较优的特征提取和模型优化性能，提高表情识别的准确率。

下载CSV 表 5 消融实验结果 Table 5 Ablation experimental results

2.3.5 特征可视化结果

本文采用t-SNE^[30]对2D空间上可视化基线方法（仅采用ReXNet网络）和改进ReXNet网络进行特征提取。提取表达特征的可视化结果如图 7所示（彩色效果见《计算机工程》官网HTML版）。对于不同的面部表情，基线方法提取的表情特征难以区分，本文方法提取的特征可以有效地减少类内差异，增强不同表情的类间可分性。因此，本文方法对恐惧与惊讶、厌恶与悲伤表情之间的分类更为明显。

	Download: JPG larger image
图 7 提取表达特征的可视化结果 Fig. 7 Visualization results of extracted expression features

3 结束语

本文提出一种基于改进轻量级秩扩展网络的人脸表情识别方法。将改进的ReXNet作为基础架构，同时融合坐标注意力模块，增强表情局部特征的表达能力，从而减少计算开销。在此基础上，将细化模块引入到改进的网络架构中，从分类的角度提取全局上下文信息，结合粗分类结果对表情间的关系进行细化分析，改进类间分化效果，从而提高模型的表情分类能力。在RAF-DB和FERPlus数据集上的实验结果表明，与DLP-CNN、gACNN、RAN等方法相比，本文方法能够有效挖掘表情局部与全局信息之间的关系，具有较高的人脸表情识别准确率。后续将在GPU、CPU等通用计算平台上通过模型压缩算法减少模型参数量，以满足实际部署中低功耗、高性能的需求，使模型适用于更加复杂的应用场景中。

参考文献

[1]	TAHA B, HATZINAKOS D. Emotion recognition from 2D facial expressions[C]//Proceedings of IEEE Canadian Conference of Electrical and Computer Engineering. Washington D.C., USA: IEEE Press, 2019: 1-4.
[2]	DING H, SRICHARAN K, CHELLAPPA R. ExprGAN: facial expression editing with controllable expression intensity[EB/OL]. [2021-08-23]. https://arxiv.org/pdf/1709.03842.pdf.
[3]	PANG L, LI N Q, ZHAO L, et al. Facial expression recognition based on Gabor feature and neural network[C]//Proceedings of International Conference on Security, Pattern Analysis, and Cybernetics. Washington D.C., USA: IEEE Press, 2018: 489-493.
[4]	KUSHWAH K, SHARMA V, SINGH U. Neural network method through facial expression recognition[C]//Proceedings of International Conference on Electronics, Communication and Aerospace Technology. Washington D.C., USA: IEEE Press, 2017: 532-537.
[5]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-08-23]. https://arxiv.org/pdf/1409.1556.pdf.
[6]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386
[7]	HE K M, ZHANG X Y, REN S Q, et al. Identity mappings in deep residual networks[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 630-645.
[8]	CHENG S, ZHOU G H. Facial expression recognition method based on improved VGG convolutional neural network[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2020, 34(7): 1-10.
[9]	ZHONG Y X, QIU S H, LUO X S, et al. Facial expression recognition based on optimized ResNet[C]//Proceedings of the 2nd World Symposium on Artificial Intelligence. Washington D.C., USA: IEEE Press, 2020: 84-91.
[10]	方明, 陈文强. 结合残差网络及目标掩膜的人脸微表情识别[J]. 吉林大学学报(工学版), 2021, 51(1): 303-313. FANG M, CHEN W Q. Face micro-expression recognition based on ResNet with object mask[J]. Journal of Jilin University (Engineering and Technology Edition), 2021, 51(1): 303-313. (in Chinese)
[11]	亢洁, 李佳伟, 杨思力. 基于域适应卷积神经网络的人脸表情识别[J]. 计算机工程, 2019, 45(12): 201-206. KANG J, LI J W, YANG S L. Facial expression recognition based on convolutional neural network with domain adaption[J]. Computer Engineering, 2019, 45(12): 201-206. (in Chinese)
[12]	钱勇生, 邵洁, 季欣欣, 等. 基于改进卷积神经网络的多视角人脸表情识别[J]. 计算机工程与应用, 2018, 54(24): 12-19. QIAN Y S, SHAO J, JI X X, et al. Multi-view facial expression recognition based on improved convolutional neural network[J]. Computer Engineering and Applications, 2018, 54(24): 12-19. (in Chinese) DOI:10.3778/j.issn.1002-8331.1810-0315
[13]	冯杨, 刘蓉, 鲁甜. 基于小尺度核卷积的人脸表情识别[J]. 计算机工程, 2021, 47(4): 262-267. FENG Y, LIU R, LU T. Facial expression recognition based on small-scale kernel convolution[J]. Computer Engineering, 2021, 47(4): 262-267. (in Chinese)
[14]	WANG K, PENG X J, YANG J F, et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 6896-6905.
[15]	CHENG Y, JIANG B, JIA K B. A deep structure for facial expression recognition under partial occlusion[C]//Proceedings of the 10th International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Washington D.C., USA: IEEE Press, 2014: 211-214.
[16]	CHEN Y J, LIU S G. Deep partial occlusion facial expression recognition via improved CNN[C]//Proceedings of International Symposium on Visual Computing. Berlin, Germany: Springer, 2020: 451-462.
[17]	SHI H C, LI H L, MENG F M, et al. Key-word-aware network for referring expression image segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 38-54.
[18]	HAN D, YUN S, HEO B, et al. Rethinking channel dimensions for efficient model design[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2021: 732-741.
[19]	HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2021: 13708-13717.
[20]	LI S, DENG W H, DU J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1-10.
[21]	BARSOUM E, ZHANG C, FERRER C C, et al. Training deep networks for facial expression recognition with crowd-sourced label distribution[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. New York, USA: ACM Press, 2016: 279-283.
[22]	LI S, DENG W H, DU J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2584-2593.
[23]	LI Y, ZENG J B, SHAN S G, et al. Occlusion aware facial expression recognition using CNN with attention mechanism[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2439-2450. DOI:10.1109/TIP.2018.2886767
[24]	WANG K, PENG X J, YANG J F, et al. Region attention networks for pose and occlusion robust facial expression recognition[J]. IEEE Transactions on Image Processing, 2020, 29: 4057-4069. DOI:10.1109/TIP.2019.2956143
[25]	WANG K, PENG X J, YANG J F, et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 6896-6905.
[26]	BARSOUM E, ZHANG C, FERRER C C, et al. Training deep networks for facial expression recognition with crowd-sourced label distribution[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. New York, USA: ACM Press, 2016: 279-283.
[27]	MIAO S, XU H Y, HAN Z Q, et al. Recognizing facial expressions using a shallow convolutional neural network[J]. IEEE Access, 2019, 7: 78000-78011. DOI:10.1109/ACCESS.2019.2921220
[28]	HUANG C. Combining convolutional neural networks for emotion recognition[C]//Proceedings of IEEE MIT Undergraduate Research Technology Conference. Washington D.C., USA: IEEE Press, 2017: 1-4.
[29]	SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[J]. International Journal of Computer Vision, 2020, 128(2): 336-359. DOI:10.1007/s11263-019-01228-7
[30]	MAATEN V D, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.