基于遮挡感知卷积神经网络的面部表情识别模型

引用本文

王军, 赵凯, 程勇. 基于遮挡感知卷积神经网络的面部表情识别模型[J]. 计算机工程, 2021, 47(10), 242-251. DOI: 10.19678/j.issn.1000-3428.0059166.

WANG Jun, ZHAO Kai, CHENG Yong. Facial Expression Recognition Model Based on Convolutional Neural Network with Occlusion Perception[J]. Computer Engineering, 2021, 47(10), 242-251. DOI: 10.19678/j.issn.1000-3428.0059166.

基金项目

国家自然科学基金（41875184，61373064）；江苏省“六大人才高峰”创新团队项目（TD-XYDXX-004）；赛尔网络下一代互联网技术创新项目（NGII20170610，NGII20171204）；江苏省农业气象重点实验室开放基金（KYQ1309）

作者简介

王军(1970-), 男, 教授、博士, 主研方向为机器学习、神经网络、图像处理;
赵凯, 硕士研究生;
程勇, 高级工程师, 博士

文章历史

收稿日期：2020-08-04
修回日期：2020-10-13

Contents Abstract Full text Figures/Tables PDF

基于遮挡感知卷积神经网络的面部表情识别模型

王军¹ , 赵凯² , 程勇¹

1. 南京信息工程大学科技产业处, 南京 210044;
2. 南京信息工程大学计算机与软件学院, 南京 210044

收稿日期：2020-08-04；修回日期：2020-10-13

基金项目：国家自然科学基金（41875184，61373064）；江苏省“六大人才高峰”创新团队项目（TD-XYDXX-004）；赛尔网络下一代互联网技术创新项目（NGII20170610，NGII20171204）；江苏省农业气象重点实验室开放基金（KYQ1309）

作者简介：王军(1970-), 男, 教授、博士, 主研方向为机器学习、神经网络、图像处理; 赵凯, 硕士研究生; 程勇, 高级工程师, 博士.

E-mail: zhaokai@nuist.edu.cn

摘要：针对面部遮挡情况下表情特征难以提取的问题，提出一种双通道遮挡感知神经网络模型。设计区域遮挡判定单元并集成到VGG16网络中形成遮挡感知神经网络，提取面部图像中未遮挡区域及遮挡较少区域的表情特征。运用迁移学习算法对卷积层参数进行预训练，减轻训练数据样本不足带来的过拟合问题。通过优化残差网络提取全脸表情相关特征，在此基础上加权融合遮挡感知神经网络和残差网络的输出以识别表情。在CK+、RAF-DB、SFEW这3个公开数据库上进行对比实验，结果表明，该模型平均准确率分别达到97.33%、86%、61.06%，与OPCNN、ResNet、VGG16等传统卷积神经网络模型相比，有效提高了面部遮挡情况下的表情识别精度。

Facial Expression Recognition Model Based on Convolutional Neural Network with Occlusion Perception

WANG Jun¹ , ZHAO Kai² , CHENG Yong¹

1. Technology Industry Department, Nanjing University of Information Science & Technology, Nanjing 210044, China;
2. School of Computer & Software, Nanjing University of Information Science & Technology, Nanjing 210044, China

Abstract: To reduce the difficulty in extracting features of an occluded face, a dual-channel Convolutional Neural Network (CNN) model with occlusion perception is proposed.The model is constructed by integrating newly designed occlusiondecision units into VGG16 network, which aims at extractingexpression-related features of the areas that are less occluded.The model employs the transfer learning algorithm to pre-train the parameters of the convolutional layer, which means to alleviate the over-fittingproblem.At the meantime, the expression-related features of the whole facial image are extracted by the modified residual network.Finally, the outputs of theperceptive neural network and residual network arefused in a weighted manner.The experimental results show that the proposed model achieves an accuracy of 97.33% on CK+, 86% on RAF-DB, and 61.06%on SFEW.Compared with traditional OPCNN, ResNet, and VGG16 models, the proposed model exhibits a significant improvement in the accuracy of recognizing the expression of an occluded face.

开放科学（资源服务）标志码（OSID）：

0 概述

近年来，面部表情识别（Facial Expression Recognition，FER）在人机交互、自动驾驶和心理健康评估等方面应用广泛。作为交叉领域技术，面部表情识别的发展可以推动人脸检测技术^[1-2]、人脸重组技术^[3-4]、动画模拟技术^[5]等相关技术领域的进步。尽管现有面部表情识别系统已有较高识别率，但大多数基于实验室数据库系统获取，如CK+^[6]、JAFFE^[7]、MMI^[8]等，这些面部图像多数是正脸图像且没有任何遮挡，在实际应用中不具有普适性。为提升真实场景下的表情识别率，研究人员收集大量脸部图像组建表情数据库^[9-10]，并提出新颖算法^[11-13]与优化网络架构^[14-16]，但从现有模型在数据库上的表现来看，真实场景下的面部表情识别技术仍处于起步阶段，其中对识别率影响最大因素之一就是遮挡问题。在真实场景中，遮挡不可避免，它可能由本身引起，如姿态、头发、手臂等引起的自遮挡，也可能由外物引起，比如眼镜、围巾、口罩、食物和其他人的遮挡，这都将不可避免地导致识别精度下降。本文对表情识别中的遮挡问题进行分析，提出具有遮挡感知能力的神经网络以提取遮挡情况下的面部表情特征。设计区域遮挡判定单元并集成到VGG16网络（Visual Geometry Group Network，VGGNet），使整个模型能够提取未遮挡区域及遮挡较少区域表情特征，在网络卷积层利用迁移学习算法对卷积层进行参数预训练，并使用基于残差神经网络^[16]修改的网络（The modified Residual Network，modified ResNet）提取全脸特征。最终通过加权融合残差网络和遮挡感知网络的输出进行面部识别。

1 相关工作 1.1 网络结构

卷积神经网络（Convolutional Neural Network，CNN）在计算机视觉领域所取得的显著成就，如图像分类^[17-18]、目标检测^[19-20]等的主要原因是网络架构的不断改进。例如，ALEX等^[14]提出的AlexNet在ImageNet竞赛中获得出色表现（top1和top5的错误率分别为37.5%和17.0%），以高于第2名10.9个百分点的成绩取得第1，AlexNet的出现引起人们对CNN的学习热潮。随后为探索CNN为何在图像处理中有着优异表现，ZEILER等^[21]设计反卷积神经网络（Deconvolutional Network）对网络内部进行可视化分析并进一步提高CNN能力。反卷积神经网络主要由反池化、反激活、反卷积3个部分组成，通过可视化AlexNet各个特征层，对卷积核大小及步长进行优化，改进后的模型ZFNet在ImageNet 2012的分类误差与AlexNet相比均有所下降。2014年，由SIMONYAN等^[15]提出的VGGNet，通过探索分析出卷积神经网络深度和性能之间的关系，成功构建出16/19层深度神经网络。此后，为解决网络层数达到一定程度后出现的性能退化问题，HE等^[16]提出残差卷积神经网络，通过在网络中增加跳跃结构以实现恒等映射，实现了利用网络深度来提高准确率的目的。当前，科研人员对网络结构优化的兴趣较高，HUANG等^[22]提出的网络模型的深度已达数百层。

本文基于VGGNet和残差网络提出模型架构，选用VGGNet的主要原因在于其在图像特征提取方面的优异表现，且易于修改和训练。使用残差网络是由于其易于优化，且经过简单修改就可以很好地提取面部表情特征。

1.2 特征提取

真实场景下的面部表情识别是一项极具挑战的任务，因为在识别过程中会遇到诸多不可避免的问题，如部分遮挡、光照变化、个体差异等，这些问题在空间表达上都与表情非线性相关。因此，有效提取表情相关特征难度很大。为解决面部表情识别中遇到的各种问题，研究人员通过尝试不断优化网络架构和提出新算法来解决。例如，为有效提升模型对光照变化的鲁棒性，YANG等^[23]提出名为双通道混合神经网络模型（Weighted Mixed Deep Neural Network，WMDNN），该模型能有效地对面部灰度图像特征和LBP图像特征进行融合，成功构建出光照不敏感模型。本文提出的模型与之类似，也采用双通道输出融合的方式来获得更好的性能。为解决遮挡问题，LI等人^[24]提出带有注意力机制的卷积神经网络（Convolution Neutral Network with Attention mechanism，ACNN），其由局部感知网（patch based ACNN，pACNN）和全局感知网（global based ACNN，gACNN）组成，通过感知面部遮挡区域比例，使网络专注于未遮挡区域。与ACNN不同，本文模型使用多个区域遮挡判定单元构成遮挡感知网络，比ACNN更容易训练和优化。为解决样本数据不足，DING等^[11]提出迁移学习算法FaceNet2ExpNet以针对表情识别网络的卷积层进行参数预训练，该算法为2阶段训练算法：第1阶段利用人脸信息作为卷积层参数训练的监督值，以实现卷积层参数初始化；第2阶段以面部表情信息作为监督值来训练全连接层参数，从而解决因训练数据不足带来的过拟合问题。

本文提出的模型主要针对面部表情识别中部分遮挡问题，在ACNN的基础上进行优化，设计区域遮挡判定单元并将其集成到单个网络中，使网络具有遮挡感知功能。采用双通道网络结构来实现特征互补，以获得更好地表现性能。此外，利用迁移学习算法对网络进行预训练，解决训练样本不足带来的过拟合问题。

2 本文方法 2.1 系统框架

本文提出的模型整体框架如图 1所示。蓝色（彩色效果见《计算机工程》官网HTML版）实线框中为遮挡感知网络，用来提取遮挡较少区域的表情相关特征。蓝色虚线框部分为区域遮挡判定单元（Region Decision Unit，RD-Unit），其主要功能为判定子区域遮挡比例是否超过设定值，当某一区域遮挡超过设定比例时，即舍弃该区域特征向量。本文通过将多个区域遮挡判定单元集成于VGG16网络中，使其能够筛选出脸部遮挡较少的子区域。因此遮挡感知网络能够提取遮挡较少区域的表情相关特征。红色实线框部分为修改后的残差神经网络，用以提取全脸表情特征，该网络以残差网络作为主干网并进行针对性优化。2个网络的输出通过单因子加权方式进行特征向量融合，融合后的特征向量将用以表情分类。

	Download: JPG larger image
图 1 本文模型框架 Fig. 1 Framework of the proposed model

2.2 遮挡感知网络

如图 2所示，本文使用Face++调用应用程序编程接口的方式对脸部进行关键点检测，随后在OpenCV中对图像包含关键点的区域进行选取操作，处理后的面部图像尺寸将统一缩放至128像素$ \times $ 128像素，随后将会作为遮挡感知网络的输入进行特征提取。在特征提取阶段将使用滑动划分的方式对子区域进行选取，即使用固定大小的窗口并设定滑动步长，随后使用逐步滑动方式对人脸图像进行滑动选取。

	Download: JPG larger image
图 2 图像滑动划分方式 Fig. 2 Facial image sliding division methods

假设输入图像的宽和高分别为$ w $和$ h $，滑动窗口尺寸为$ d\times d $，使用滑动划分方式对输入图像进行划分后，将得到$ n $子区域，其计算公式如下：

$ n=\left[\frac{w-d}{s}+1\right]\times \left[\frac{h-d}{s}+1\right] $

(1)

其中：$ s $为滑动步长大小。通过实验分析，滑动步长和网络精确度及内存消耗成正比。综合考虑，本文将滑动步长设定为滑动窗口尺寸的1/2，即$ s=d/2 $。使用滑动方式进行选取会产生部分区域重叠和资源消耗，但这有助于保留更多脸部信息。滑动选取方式在整个图像上操作，对脸部关键点定位精度依赖性不高，因此该方式在一定程度上可以提升遮挡感知网络的性能。脸部图像区域的滑动划分方式如图 2所示，当$ d $的大小被设定为32，在尺寸为128像素$ \times $128像素的脸部图像上进行滑动划分后将得到49个子区域。在实际操作中，此划分方式在图像特征图层面进行，通过共享卷积层减少网络参数。划分后的区域特征图将通过遮挡判定单元以提取遮挡少于设定比例的区域表情特征。

遮挡感知网络结构如图 3所示，红色（彩色效果见《计算机工程》官网HTML版）虚线框部分为网络卷积层，其主要功能是将输入转化为特征图，其包含12个卷积层和4个池化层，卷积层过滤器尺寸为3$ \times $3，池化层过滤器尺寸为2$ \times $2。蓝色（彩色效果见《计算机工程》官网HTML版）虚线部分为区域遮挡判定单元，其主要功能是对划分后的区域进行遮挡判定，即判断该区域的遮挡比例是否超过设定比例阈值。遮挡判定单元由2个分支构成，第1个分支是决策网，第2个分支是全连接层。决策网由1个池化层、2个全连接层和1个逻辑回归函数组成。决策网的输入为区域特征图，经过池化操作和向量特征提取后得到1个一维向量，最后通过一个逻辑回归函数以实现对该区域向量的遮挡判定。如果该区域遮挡比例超过了设定阈值，则判定该区域标签为0，并舍弃该区域由第2分支提取的特征向量，如果遮挡比例小于设定阈值则保留该区域特征向量。

	Download: JPG larger image
图 3 遮挡感知网络结构 Fig. 3 Structure of the convolutional neural network with occlusion perception

本文使用$ {\rho }_{i} $表示第$ i $个区域特征图。第1个分支是决策网，可对$ {\rho }_{i} $执行遮挡比例判定：

$ {\eta }_{i}=\delta \left({\rho }_{i}\right) $

(2)

其中：$ {\eta }_{i} $表示第$ i $个区域判定结果；$ \delta \left(·\right) $为分类函数，表示决策网中的判定操作，如式（3）所示：

$ \delta \left(x\right)=\left\{\begin{array}{l}1, Ob\le \beta \\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $

(3)

其中，$ Ob $为区域遮挡比例；$ \beta $是设定遮挡比例阈值；1表示该区域遮挡比例低于设定阈值；0则表示判定该区域遮挡比例超过设定阈值，意味着从该区域学习的特征向量将不会进行融合操作。最后，对第$ i $个通道的输出执行判定操作：

$ {\boldsymbol{\upsilon }}_{i}={\eta }_{i}\times {\tilde{\boldsymbol{\rho }}}_{i} $

(4)

其中：$ {\tilde{\boldsymbol{\rho }}}_{i} $代表在第2个分支全连接层中学习到的向量表示；$ {\boldsymbol{\upsilon }}_{i} $表示经过判定操作后的区域特征向量。

实验结果表明，当脸部关键区域遮挡比例为0.45时的平均识别率为36.9%，遮挡比例为0.55时平均识别率为29.1%，即遮挡比例超过0.5时准确率出现明显下降。因此将遮挡比例阈值手动设置为0.5，即保留遮挡比例少于1/2的区域特征向量用以表情分类。通过遮挡判定单元的筛选，遮挡感知网络将保留遮挡较少区域的特征向量。

文中将多个遮挡判定单元集成到单个神经网络中，使用窗口滑动方式进行区域划分，通过这2种方式的结合使神经网络能筛选出遮挡比例较少的区域，从而形成遮挡感知神经网络。此外，采用在特征图上进行子区域划分的方式来实现卷积层共享以减少网络参数，从而达到优化模型的效果。遮挡感知网络卷积层参数将利用迁移学习算法FaceNet2ExpNet^[11]进行预训练。

2.3 残差网络

考虑到大面积遮挡以及非遮挡性问题会导致遮挡感知网络丢失部分细节，因此将使用另一个深度神经网络来提取全脸特征，以达到和遮挡感知网络互补的效果。该网络以更易优化的残差网络作为基础网络结构。残差网络的优点在于当网络深度达到一定程度时，可进一步优化以提升性能，而不会像普通网络那样随着网络深度增加而产生性能退化问题，这是因为残差网络在2个卷积层中引入恒等映射（Identity mapping）。恒等映射相当于在网络层中间加入捷径连接（Short-cut connections）以形成高速支路来构成基本残差单元。假设本来需学习的输出为$ H\left(x\right) $，而在残差网络中，将学习$ F\left(x\right) $，即$ H\left(x\right)-x $，这意味着原来要学习网络的输出$ H\left(x\right) $变成了学习输出$ H\left(x\right) $与输入$ x $之间的差值，如果差值逼近于0，则说明这一层网络发生了梯度消失，意味着在这层网络中未学习到有效信息，将对这一层网络进行跳跃。网络通过恒等映射的方式在未引入额外参数和未增加计算量的情况下实现进一步优化。残差学习单元应用于深度卷积神经网络可有效缓解网络模型训练时反向传播中梯度消失问题，进而解决深层网络难以训练和性能退化的问题。

本文使用残差网络作为第2个网络的骨干网，基于101层残差网络进行修改以提取全脸图像表情相关特征。修改后网络结构为102层，其网络结构如图 4所示。对于网络第一层，将尺寸为7$ \times $7的过滤器改为5$ \times $5，因为7$ \times $7的过滤器对表情特征来说相对较大，无法捕捉细节。随后的池化层过滤器尺寸也做出相应调整，由3$ \times $3减小到2$ \times $2。其余4个卷积块仍使用尺寸为1$ \times $1和3$ \times $3过滤器。在卷积层训练阶段使用ReLU（Rectified Linear Unit）作为激活函数，并使用批归一化（Batch Normalization，BN）对激活值进行处理。最后，将1 000维的单个全连接层改为2个全连接层，分别为256维和64维。由于1 000维向量对表情特征来说容易导致过拟合现象，因此改用256维向量以减少特征维数，并使用Dropout以进一步防止过拟合现象发生。最后，残差网络的64维向量将和遮挡感知网络的输出进行特征融合。

	Download: JPG larger image
图 4 修改后的残差网络结构 Fig. 4 Structure of the modified ResNet

2.4 卷积层预训练

在主通道卷积层训练阶段，使用迁移学习算法FaceNet2ExpNet对卷积层参数进行预训练。其训练过程如图 5所示。训练过程分为2个阶段。在第1个阶段训练中，利用人脸网络中的人脸深层特征信息作为监督值，使表情学习变得容易。训练中定义卷积层的训练损失函数$ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s} $如下：

$ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}=\underset{\theta }{\mathrm{m}\mathrm{i}\mathrm{n}}\left|\right|{g}_{\theta }\left(I\right)-G\left(I\right)|{|}_{p}^{p} $

(5)

其中：$ G\left(I\right) $表示人脸网络卷积层输出；$ {g}_{\theta }\left(I\right) $表示表情网络卷积层输出；$ \left|\right|\cdot |{|}_{p}^{p} $表示使用$ p $范式来进行正则化训练。本文使用的是$ L2 $范式，并且在每个卷积层都使用ReLU作为激活函数。

	Download: JPG larger image
图 5 迁移学习算法 Fig. 5 Transfer learning algorithm

在第2阶段训练时，首先将卷积层参数进行冻结，随后使用pool5的输出对表情网络学习进行监督学习，最后在卷积层后面加上全连接层进行训练。

2.5 特征融合

2个网络通道完成特征提取后，输出将进行加权融合。文中采用单因子加权方式，其融合方式如图 6所示。其中遮挡感知网络的输出将进行等量融合，即遮挡判定单元中的有效输出进行等量加权融合后得到一个64维特征向量。随后该特征向量将与残差网络特征向量进行单因子加权融合。

	Download: JPG larger image
图 6 双通道输出加权融合 Fig. 6 Weighted fusion outputs of two channels

使用$ {\boldsymbol{v}}_{i} $表示区域判定单元的单个输出；$ {\boldsymbol{v}}_{f\_1} $表示遮挡感知网络中所有有效特征向量融合后得到的向量，即所有遮挡少于设定阈值子区域转化的向量融合得到的特征向量；$ {\boldsymbol{v}}_{f\_2} $表示残差网络输出向量，最后进行单因子加权融合得到融合向量$ {\boldsymbol{v}}_{f} $：

$ {\boldsymbol{v}}_{f}=\alpha \cdot {\boldsymbol{v}}_{f\_1}+(1-\alpha )\cdot {\boldsymbol{v}}_{f\_2} $

(6)

其中：$ \alpha $为加权因子，代表遮挡感知网络输出在融合向量中所占比重，$ \alpha $取值范围为[0, 1]。使用softmax分类函数对表情进行分类，计算出每个表情概率值$ {\widehat{y}}_{i} $：

$ {{\hat y}_i} = \frac{{{{\rm{e}}^{{x_i}}}}}{{\sum\limits_{j = 1}^K {{{\rm{e}}^{{x_j}}}} }}K$

(7)

其中：$ K $（6或7）表示表情种类；$ {x}_{i} $表示第$ i $个表情的输出值。在训练全连接层时，交叉熵损失函数将被用于优化整个网络，其公式定义如下：

$ L\left( {y,\hat y} \right) = - \sum\limits_{i = 1}^K {{y_i}} {\rm{lo}}{{\rm{g}}_a}{{\hat y}_i} $

(8)

其中：$ {y}_{i} $为表情真值标签；$ {\widehat{y}}_{i} $是表情预测标签。

3 实验结果与分析 3.1 数据库

本文在3个公开的数据库上进行实验评估，分别为1个实验室图像数据库CK+和2个真实场景下的数据库，包括RAF-DB和SFEW。图 7是数据库样本图像对比。第1排是CK+数据库样本图像，第2排为RAF-DB数据库样本图像，最后一排为SFEW数据库图像样本。

	Download: JPG larger image
图 7 数据库样本图像 Fig. 7 Examples images in datasets

CK+^[6]数据库是最广泛使用的实验室收集图像数据库。CK+包含来自123名的593个视频序列项目。这些序列持续时间从10帧到60帧不等，包含面部表情从自然到最高峰值的转变。在这些视频中，来自118名采集者的327个序列基于面部表情动作编码系统（FACS）被标注为7种基本表情，包括愤怒、轻蔑、厌恶、恐惧、快乐、悲伤和惊讶。因为CK+不提供指定训练、验证和测试集，所以算法评估在这个数据库上并不统一。基于静态的识别方法，最常用的数据选择方法是提取第一帧自然表情到最后一帧中的峰值表情，并将受试者分为$ n $组进行$ n $次交叉验证实验，其中$ n $值通常选择为5、8和10。

RAF-DB^[25]为真实世界情感人脸数据库，是一个大型面部表情数据库，该数据库从互联网上下载了约3万张各种各样的面部图像。在众包标注基础上对每张图片进行了大约40次独立标注。数据库中图像受试者年龄、性别、种族、头部姿势、光照条件、遮挡（如眼镜、面部毛发或自遮挡）、后处理操作（如各种滤镜和特殊效果）等方面具有很大差异性。RAF-DB具有多样性、数量大、注释丰富等特点。数据库包含2个不同子集：单标签子集和双标签子集。单标签子集包括7类基本情绪和边界框；双标签子集包括12类复合情绪、5个准确的地标位置、37个自动地标位置、边界框、种族、年龄范围，每张图片性别属性都有注释，使用基线分类器输出基本情绪和复合情绪。为了能够客观地评估测试系统的性能，将数据库分为训练集和测试集，其中训练集的大小为测试集的5倍，两组表达式的分布几乎相同。

SFEW^[9]数据库是从真实场景下实际表情中选择的静态帧图片，是一个非常具有挑战性的数据库，因为SFEW数据库包含不同程度面部表情、不受约束的头部姿势、不同遮挡、不同年龄范围以及不同光照变化。数据库样本是1个带有7个表达式的表情标签：愤怒、厌恶、恐惧、幸福、悲伤、惊讶和自然。数据库中有95个主题，其中有663张明确标签的图像。该数据库已被分类为训练、验证和测试集。SFEW 2.0分为3组：训练集包含958个样本，验证集包含436个样本，测试集为372个样本。该数据库的每个图像都被分类到7种表情中的1个，即愤怒、厌恶、恐惧、自然、快乐、悲伤和惊喜。表情的测试集和验证集的标签是公开的。

判定单元训练数据集为训练遮挡判定单元，从公开数据库中选择100张面部图像进行遮挡合成，并用作训练样本。

遮挡物根据其在日常生活中出现的频率进行选取，例如水果、头发、帽子、书籍、杯子、玻璃杯等。此外，另选取100张自然遮挡图像作训练样本，经过组员一致标记和检查，最终该数据库包含200个训练样本。图 8展示了该数据库部分图像样本。本文将区域遮挡率阈值设置为0.5，即当区域遮挡率超过1/2时，将标签设置为0。因此，该数据库易于标记和训练。训练过程中，使用LOPES等^[26]提出的数据扩充策略对样本进行了7次增强，通过训练，最终准确率达到了84.3%。

	Download: JPG larger image
图 8 遮挡判定单元训练数据库样本图像 Fig. 8 Examples images in the datasets for region decision units

3.2 实验配置及权值评估 3.2.1 实验配置

本文基于Keras框架提出的模型并运行在Ubuntu操作系统上，实验数据均在NVIDIA CUDA framework 6.5上获取，并使用了NVIDIA GTX 1080 GPU进行实验。此外，采用了VGGNet作为ACNNs的骨干网络，首先使用ImageNet上的图像数据对网络参数进行初始化训练。实验中采用了小批量随机梯度下降法优化模型，基础学习率的初始值设置为0.001，通过多项式策略将其降至0.1。动量设定为0.9，重量衰减设置为0.000 5。在训练阶段，将实际批大小的值设置为64并迭代10 000次。在训练残差网络时，同样使用ImageNet上的脸部图像对卷积层进行预训练，并初始化所有卷积层的参数。随后固定卷积层参数，对最后全连接层进行微调训练。训练过程中，将学习率的值设置为0.01，迭代20 000次后，在微调阶段将学习率的值调整为0.000 1，并继续迭代10 000次。整个模型训练耗时5天，参数固定后模型处理单张图像时间为1.2 s。

3.2.2 权值评估

本文在3个基准数据库上对权重因子$ \alpha $进行评估。测试过程中$ \alpha $的初始值设定为0，增幅设置为0.1。当$ \alpha =0 $时表示只使用遮挡感知网络的输出作为分类结果，$ \alpha =1 $时则表示只使用残差网络输出作分类结果。如图 9所示，图 9（a）、图 9（b）、图 9（c）分别表示在CK+，RAF-DB和SFEW这3个数据库上的评估结果。在这3个数据库上，$ \alpha $取值分别为0.5、0.7和0.6时，模型取得最佳表现。随后进一步对$ \alpha $的取值进行测试，结果表明当$ \alpha $取值为0.6时模型在3个数据库上的整体表现最好，因此最终手动将$ \alpha $的值设定为0.6。图 9证明2个网络的输出融合可以有效地提升模型性能。

	Download: JPG larger image
图 9 不同数据库上的权重因子评估结果 Fig. 9 Evaluations of fusion weight on different datasets

3.3 实验结果

所提模型在3个公开数据库上的混淆矩阵结果如图 10所示。图 10（a）是在数据库CK+上的实验结果，对于6个表情而言，识别准确率均达95%以上，和人类的识别率不相上下。尤其是对变化特征比较明显的几个表情更是达到了99%的准确率，比如高兴、愤怒等。这意味着实验室图像数据库对于现有模型而言已不具有挑战性，因此研究人员需要更多关注于解决真实场景下的表情识别问题。图 10（b）是在数据库RAF-DB下的混淆矩阵，对于高兴和愤怒这2个变化特征明显的表情，实验模型达到了90%以上的准确率，在可接受范围内。而对于外观变现并不明显的表情，比如厌恶、悲伤，识别率仍然在85%以下。分析实验结果可知，其主要原因是这些表情在真实场景下外在表现差异并不明显，甚至对人类而言，也难以准确地分辨这2个表情。图 10（c）是在数据库SFEW上的实验结果，此为评估实验中最具挑战性的数据库。实验结果表明，只有2个表情取得了80%以上的识别率，其余所有表情识别率都低于70%，最低甚至只有49%的识别率。通过分析可知导致表情“厌恶”识别率低的主要原因是表情变化并不明显；另外，有2对表情经常发生混淆，包括“悲伤”和“恐惧”、“惊讶”和“开心”。在现实中这些表情往往是伴随性发生。例如，恐惧导致的悲伤，开心中带着惊讶，这些表情即使人类在真实场景下也很难通过单幅静态图像对其进行明确区分。

	Download: JPG larger image
图 10 3个公开数据库上的混淆矩阵结果 Fig. 10 Confusion matrices on three public databases

3.4 实验对比评估

本文将提出的模型与相似模型以及目前广泛使用的模型进行了实验结果对比。表 1~表 3分别是本文模型与其他模型在3个不同数据库上的对比结果。

下载CSV 表 1 CK+数据库上的实验对比评估 Table 1 Comparisons between proposed approach and other approaches on CK+ database

下载CSV 表 2 RAF-DB数据库上的实验对比评估 Table 2 Comparisons between proposed approach and other approaches on RAF-DB database

下载CSV 表 3 SFEW数据库上的实验对比评估 Table 3 Comparisons between proposed approach and other approaches on SFEW database

表 1是在数据库CK+上的对比结果，分析可知，本文所提出的模型平均准确率为97.33%，取得了排名第2的成绩。排名第1的算法模型是FaceNet2ExpNet，其准确率比本文模型高1.27个百分点。CK+数据库中的图像都是在实验室情况下采集的无遮挡正面人脸照片，且并不提供指定训练集和测试集，因此不同的划分结果会导致实验结果有所差异。由表 1还可知，大多数模型在实验室数据库上的识别率均取得了较为满意的准确率，实现了与人类相当的识别水平。

表 2是在RAF-DB数据库上的对比结果，结果表明本文模型取得了86%的平均准确率，排名第1，其精确度比遮挡感知模型ACNN^[24]提高了0.93个百分点。与ACNN相比，本文模型使用滑动划分选取方式在驱域上划分，不依赖于关键点的精确度，选取方式与卷积神经网络中滤波器类似，使得网络可以保留更多有效特征。此外，本文的单个遮挡判定单元只需对子区域进行遮挡阈值的判定，而不需要计算子区域的精确遮挡比例，这使得单个遮挡判定单元更容易训练。在输出的融合方式上，使用单因子方式进行融合，也进一步提升了模型的表现。此外，与基础VGG16和残差网络相比，遮挡感知网络和修改后的残差网络分别提高了2.16和1.7个百分点。实验结果证实加入区域遮挡判定单元及优化网络结构均可提升网络性能。

表 3是在SFEW数据库上的对比情况。在所有对比模型中，准确率最高的是YU等^[27]提出的模型，其精确度比本文模型高0.23个百分点，该模型在脸部检测阶段有效结合3种脸部检测方式，使脸部的选取更为精准，从而提升了模型整体表现。遮挡感知网络在SFEW数据库上的精确度比基础VGG16高了3.89个百分点，修改后的残差网络比基础残差网络提升了1.96个百分点。通过RAF-DB和SFEW这2个真实场景表情数据库上的结果分析可知，对于挑战难度更大的SFEW数据库，加入遮挡判定单元所带来的性能提升比在RAF-DB数据库上更为明显，这证实了遮挡感知网络的实际应用潜力。从本文模型在3个公开数据库上的表现以及与现有方法的对比分析结果来看，该模型具有实际应用价值。

4 错误案例分析

实验结果对后续工作及方向十分重要，因此仔细检查了实验结果中所有错误预测图像，其中部分错误样本如图 11所示。

	Download: JPG larger image
图 11 RAF-DB数据库上的错误预测样本图像 Fig. 11 Some example images in RAF-DB that proposed model failed to predict the correct expression categories

通过对错误样本的仔细分析，发现模型将图像错误分类主要由几个原因引起，如关键区域均被遮挡、图像模糊、光照条件差异、表情变化微小等。错误案例中，当表情相关区域均被遮挡时，模型则不能对表情进行正确地分类，这时需要从手势及姿态等方面进行表情判定。在对相似表情（悲伤和恐惧、惊讶和恐惧等）进行分类时，需要考虑加入额外的输入（如声音）以提高系统识别准确率。同时，微表情也是判定表情极大的依据，而系统往往不能很好地对微表情进行识别，结果导致系统将表情错误分类。通过对错误案例的分析，将进一步明确后续工作方向及改进点。

5 结束语

本文提出具有遮挡感知能力的双通道网络模型，通过设计遮挡感知神经网络提取遮挡情况下面部图像的表情特征，利用优化后的残差网络对全脸图像表情特征进行提取。在模型训练阶段，使用迁移学习算法对卷积层参数进行预训练，并融合2个网络输出以进一步提升整体模型表现。实验结果表明，与基础网络模型相比，本文提出的模型有效提升了真实场景数据库上的表情识别准确率。下一步将增加网络对光照问题的鲁棒性及提升对微表情的识别率，以提高模型在真实场景下的表情识别率。

参考文献

[1]	FARFADE S S, SABERIAN M, LI L J. Multi-view face detection using deep convolutional neural networks[C]//Proceedings of the 5th International Conference on Multimedia Retrieval. New York, USA: ACM Press, 2005: 643-650.
[2]	ZHANG K P, ZHANG Z P, LI Z F, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-503. DOI:10.1109/LSP.2016.2603342
[3]	WANG P R, CHE W J, BO X. A cascaded framework for model-based 3D face reconstruction[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2018: 3151-3155.
[4]	BURGOS-ARTIZZU X P, FLEUREAU J, DUMAS O, et al. Real-time expression-sensitive HMD face reconstruction[M]. New York, USA: ACM Press, 2015: 4-13.
[5]	DOU P F, SHAH S K, KAKADIARIS I A. End-to-end 3D face reconstruction with deep neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1503-1512.
[6]	LUCEY P, COHN J F, T. KANADE T, et al. The extended cohn-kanade dataset: a complete dataset for action unit and emotion-specified expression[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2010: 94-101.
[7]	LYONS M, AKAMATSU S, KAMACHI M, et al. Coding facial expressions with gabor wavelets[M]. Washington D.C., USA: IEEE Press, 1998.
[8]	PANTIC M, VALSTAR M, RADEMAKER R, et al. Web-based database for facial expression analysis[C]//Proceedings of IEEE International Conference on Multimedia and Expo. Washington D.C., USA: IEEE Press, 2005: 5-12.
[9]	DHALL A, RAMANA MURTHY O V, GOECKE R, et al. Video and image based emotion recognition challenges in the wild: emotiw 2015[C]//Proceedings of International Conference on Multimodal Interaction. New York, USA: ACM Press, 2015: 423-426.
[10]	GOODFELLOW I J, ERHAN D, CARRIER P, et al. challenges in representation learning: a report on three machine learning contests[J]. Neural Networks, 2015, 64(1): 59-63.
[11]	DING H, ZHOU S H K, CHELLAPPA R. Facenet2expnet: regularizing a deep face recognition net for expression recognition[C]//Proceedings of the 12th IEEE International Conference on Automatic Face & Gesture Recognition. Washington D.C., USA: IEEE Press, 2017: 118-126.
[12]	JUNG H, LEE S, YIM J, et al. Joint fine-tuning in deep neural networks for facial expression recognition[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2015: 2983-2991.
[13]	LIU P, HAN S Z, MENG Z B, et al. Facial expression recognition via a boosted deep belief network[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2014: 1805-1812.
[14]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E, et al. ImageNet classification with deep convolutional neural networks[EB/OL]. [2020-07-01]. https://users.ics.aalto.fi/perellm1/thesis/summaries_html/node64.html.
[15]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-07-03], http://arXiv:1409.1556.
[16]	SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 1-9.
[17]	MAGGIORI E, TARABAIKA Y, CHARPIAT G, et al. Convolutional neural networks for large-scale remote-sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(2): 645-657. DOI:10.1109/TGRS.2016.2612821
[18]	SLAVKOVIKJ V, VERSTOCKT S, NEVE W D, et al. Hyperspectral image classification with convolutional neural networks[C]//Proceedings of the 23rd ACM International Conference. New York, USA: ACM press, 2015: 1159-1162.
[19]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 779-788.
[20]	REN S P, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(5): 1137-1149.
[21]	ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//Proceedings of Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2014: 818-833.
[22]	HUANG G, LIU Z, MAATEN L V, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2261-2269.
[23]	YANG B, CAO J M, NI R R, et al. Facial expression recognition using weighted mixture deep neural network based on double-channel facial images[J]. IEEE Access, 2017, 6: 4630-4640. DOI:10.1109/ACCESS.2017.2784096
[24]	LI Y, ZENG J B, SHAN S G, et al. Occlusion aware facial expression recognition using CNN with attention mechanism[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2439-2450.
[25]	SHAN L, DENG W H, DU J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2584-2593.
[26]	LOPES A T, AGUIAR E, SOUZA A F, et al. Facial expression recognition with convolutional neural networks: coping with few data and the training sample order[J]. Pattern Recognition, 2017, 61(1): 610-628. DOI:10.1016/j.patcog.2016.07.026
[27]	YU Z D, ZHANG C. Image based static facial expression recognition with multiple deep network learning[C]//Proceedings of 2015 ACM International Conference on Multimodal Interaction. New York, NY: ACM Press, 2015: 435-442.
[28]	JIE S, QIAN Y S. Three convolutional neural network models for facial expression recognition in the wild[J]. Neurocomputing, 2019, 355(1): 82-92. DOI:10.1016/j.neucom.2019.05.005
[29]	MOLLAHOSSEINI A, CHAN D, MAHOOR M H. Going deeper in facial expression recognition using deep neural networks[C]//Proceedings of 2016 IEEE Winter Conference on Applications of Computer Vision. Washington D.C., USA: IEEE Press, 2016: 1-10.
[30]	ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 5967-5976.
[31]	MENG Z B, LIU P, CAI J, et al. Identity-aware convolutional network for facial expression recognition[C]//Proceedings of the 12th IEEE International Conference on Automatic Face and Gesture Recognition. Washington D.C., USA: IEEE Press, 2017: 558-565.
[32]	NG H W, NGUYEN D V, VONIKAKIS V, et al. Deep Learning for Emotion Recognition on Small Datasets Using Transfer Learning[C]//Proceedings of the 2015 ACM International Conference on Multimodal Interaction. New York, USA: ACM Press, 2015: 443-449.