融合多尺度特征的多监督人脸活体检测算法

引用本文

陈苏阳, 宋晓宁. 融合多尺度特征的多监督人脸活体检测算法[J]. 计算机工程, 2022, 48(12), 79-85, 94. DOI: 10.19678/j.issn.1000-3428.0063424.

CHEN Suyang, SONG Xiaoning. Multi-supervision Face Liveness Detection Algorithm Fused with Multi-scale Feature[J]. Computer Engineering, 2022, 48(12), 79-85, 94. DOI: 10.19678/j.issn.1000-3428.0063424.

基金项目

国家自然科学基金(61876072)；江苏省“六大人才高峰项目”

通信作者

宋晓宁(通信作者)，教授、博士、博士生导师

作者简介

陈苏阳(1997—)，男，硕士研究生，主研方向为人脸活体检测

文章历史

收稿日期：2021-12-01
修回日期：2022-01-21

Contents Abstract Full text Figures/Tables PDF

融合多尺度特征的多监督人脸活体检测算法

陈苏阳 , 宋晓宁

江南大学人工智能与计算机学院, 江苏无锡 214122

收稿日期：2021-12-01；修回日期：2022-01-21

基金项目：国家自然科学基金(61876072)；江苏省“六大人才高峰项目”

作者简介：陈苏阳(1997—)，男，硕士研究生，主研方向为人脸活体检测.

通信作者：宋晓宁(通信作者)，教授、博士、博士生导师.

E-mail: x.song@jiangnan.edu.cn

摘要：目前的多数活体检测算法忽略了特征挖掘，导致判别性信息提取不足。提出一种融合梯度纹理和群感受野的活体检测算法。使用中心差分卷积计算感受野周围点与中心点的差值，提取图像的梯度纹理特征，设计群感受野模块，采用不同尺寸的卷积核结合空洞卷积组成多分支结构，在使用较少参数量的情况下获得更大的感受野和多尺度特征，并将两种特征融合输入到残差结构中。此外，在使用深度图进行监督的同时，增加二值掩模进行辅助监督，使得网络将学习的中心放到人脸部位，进一步提升模型的鲁棒性。在此基础上，综合深度图生成器和掩模生成器的输出结果，计算预测得分，实现端到端的活体检测。实验结果表明，该算法在公开数据集OULU-NPU 4个协议上的平均分类错误率分别为0.9%、1.9%、1.6%±2.0%和2.7%±1.8%，在数据集CASIA-MFSD和Replay-Attack上可实现无误差活体检测，并且模型参数量仅为1.1 MB，与Auxiliary和STASN等活体检测算法相比，检测精度更高，具有更好的鲁棒性。

Multi-supervision Face Liveness Detection Algorithm Fused with Multi-scale Feature

CHEN Suyang , SONG Xiaoning

School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi, Jiangsu 214122, China

Abstract: To address the problem that most face liveness detection algorithms ignore feature mining and cannot extract enough discriminative information, this paper proposes a novel algorithm that combines gradient texture and group receptive fields. On the one hand, central difference convolution is used to calculate the difference between the points around the receptive field and the center point.In this way, the gradient texture feature of the image can be fully extracted.On the other hand, a group receptive field module is proposed to obtain larger receptive fields and multi-scale features with fewer parameters.It uses convolution kernels of different sizes combined with dilated convolution to form multiple small branch structures.Then, two types of feature are combined and input into the residual structure.In addition, while a depth map is used for the main supervision, binary mask supervision is added to assist with supervision. As a result, the network focuses on the face part, further improving the robustness of the model.Finally, the outputs of the depth map generator and mask generator are combined to calculate the prediction score to realize end-to-end detection.Experimental results show that the average classification error rates of the proposed algorithm on the four protocols of the OULU-NPU database are 0.9%, 1.9%, 1.6%±2.0%, and 2.7%±1.8%.Moreover, error-free liveness detection was achieved on the CASIA-MFSD and Replay-Attack datasets.In addition, the size of the model is only 1.1 MB.It has higher detection accuracy and better robustness than auxiliary and the Spatio-Temporal Anti-Spoof Network (STASN) liveness detection algorithms.

开放科学(资源服务)标志码(OSID)：

0 概述

近年来，人脸识别系统因其低成本、易安装等优点，被广泛应用于交通、监控等领域。然而，人脸识别系统存在一定漏洞，攻击者可以利用合法用户的人脸信息进行系统攻击，这对用户的权益造成极大的危害。常用的欺诈攻击手段包括照片、视频和3D Mask攻击。为了解决这一问题，越来越多的研究人员开始关注人脸活体检测技术^[1]。

人脸活体检测是一种识别镜头前人脸是真实的人脸，还是由照片或电子屏幕等设备处理后的欺诈人脸的技术。针对多变的欺诈方式，目前主流的检测方法可以分为传统机器学习和深度神经网络。传统方法侧重于探索活体与欺诈人脸之间如颜色失真、非刚性变形和莫尔图案等纹理差异，然后通过机器学习算法将活体检测转变为二分类问题。但由于手工设计的特征描述算子只能提取低层信息，因此在复杂场景下模型的泛化能力较弱。

随着深度学习的进一步发展，研究人员开始尝试使用神经网络进行人脸活体检测。文献[2]使用金字塔LK光流和卷积神经网络来区分真实人脸和欺诈人脸。为了提升网络模型的泛化能力，文献[3]提出将人脸深度图作为区分活体与非活体标准的方法，将真实人脸和欺诈人脸描述为三维深度图像和平面图像。文献[4]将欺诈人脸逆分解为欺诈噪声和真实人脸，然后利用欺诈噪声进行活体分类。文献[5-6]运用多帧图像作为网络的输入来提取时间信息，学习人脸图像中含有的时间特征、颜色特征等多维度信息，提升活体检测性能。但是目前的深度学习算法大多注重于神经网络模型的优化，而忽略了传统特征描述算子在特征抽取上的有效性。同时，现有的活体检测模型普遍具有庞大的计算量，当以多帧图像作为输入来提取时序信息时，往往需要更优良的设备，检测活体的时间复杂度也相应增加。

为了减少模型的参数量，充分发挥传统特征描述算子的优势，本文提出一种融合梯度纹理和群感受野特征的轻量网络。对于输入的RGB图像，通过梯度纹理分支对图像的梯度信息进行抽取，使用群感受野分支获得多尺度空间和语义特征，并将其拼接融合，使得网络学习到更加丰富的特征。此外，为提升活体检测的鲁棒性，本文使用深度图和二值掩模的多监督策略，将深度图生成器和掩模生成器得到的预测结果进行相加，若预测分数高于阈值，则检测为活体，否则为非活体。最后在公开人脸活体数据集OULU-NPU、CASIA-MFSD和Replay-Attack上对本文算法的准确性和有效性进行验证。

1 相关工作

卷积神经网络作为深度学习的主流方法，其利用卷积强大的特征提取能力，在计算机视觉领域得到广泛的应用。卷积的作用在于提取图像特征，由卷积核实现卷积过程。卷积核的个数决定卷积操作后特征图的维度，卷积核的大小决定特征感受野的大小，卷积核内每个位置都有对应的参数和偏差量。在进行卷积操作时，卷积核会有规律地扫描特征图，并对卷积核对应的特征做矩阵乘法求和并叠加偏差量。以二维卷积核为例，卷积核$ w $在输入特征图$ x $上采样感受野区域$ R $，进行矩阵运算，输出的特征$ y $可以表示为：

$ y\left({p}_{0}\right)=\sum\limits_{{p}_{n}\in R}w\left({p}_{n}\right)·x\left({p}_{0}+{p}_{n}\right) $

(1)

其中：$ {p}_{0} $表示输入和输出特征图的当前位置；$ {p}_{n} $表示感受野$ R $上的各个位置。

传统的卷积核参数由神经网络计算的代价函数误差进行反向传播而更新得到，但是这种随机性的参数会导致卷积的细节特征提取能力不足。为了提升卷积神经网络的细节表征能力，文献[7]提出了中心差分卷积(Central Difference Convolution，CDC)。中心差分卷积结构如图 1所示，中心差分卷积的扫描过程与标准卷积相同，不同点在于矩阵运算过程中多了感受野周围点对中心点的差值运算，这样卷积操作可以更加专注于提取感受野的中心梯度信息。

	Download: JPG larger image
图 1 中心差分卷积结构 Fig. 1 Central difference convolution structure

CDC计算公式表示为：

$ y\left({p}_{0}\right)=\sum\limits_{{p}_{n}\in R}w\left({p}_{n}\right)·\left(x\left({p}_{0}+{p}_{n}\right)-x\left({p}_{0}\right)\right) $

(2)

图像的纹理信息、空间和语义信息对于人脸活体检测任务来说都十分重要，所以文献[7]将中心差分卷积与标准卷积结合起来，采用直接相加的方式使卷积具有更好的特征提取能力。修改后的混合卷积计算公式可以表示为：

$ \begin{array}{l}y\left({p}_{0}\right)=\theta \cdot \sum\limits_{{p}_{n}\in R}w\left({p}_{n}\right)\cdot \left(x\left({p}_{0}+{p}_{n}\right)-x\left({p}_{0}\right)\right)+\\ \left(1-\theta \right)\cdot \sum\limits_{{p}_{n}\in R}w\left({p}_{n}\right)\cdot x\left({p}_{0}+{p}_{n}\right)\end{array} $

(3)

其中：超参数$ \theta $∈[0, 1]代表标准卷积和中心差分卷积的贡献权重，$ \theta $值越大，表示混合卷积提取的中心差分梯度信息的占比越大。

2 多监督多尺度特征提取算法 2.1 网络结构

目前人脸活体检测多是基于深度学习算法，为了避免网络过拟合，许多工作从模型结构、监督标签和卷积核设计等方面切入提升检测效果。本文结合已有方案，从抽取图像特征和监督方式角度出发，提出多监督特征提取网络(Multi-supervision Feature Extraction Network，MFEN)。

针对标准卷积提取的感受野及纹理信息有限而多尺度信息对活体检测任务十分重要的问题，本文设计多尺度特征融合模块(Multi-scale Feature Fusion Module，MFFM)，使用中心差分卷积与群感受野分支提取多维特征，并对其编码融合。该模块使得网络可以在使用较少参数量且特征图大小不变的情况下增加感受野，获得不同尺度的空间和语义信息。之后使用残差结构替代主流的“DepthNet^[3]”，减少参数量并提升计算速度。为了提高模型的鲁棒性，使得模型提取到更多人脸深度特征，本文在使用深度图监督的同时，通过二值掩模进行辅助监督。整体网络结构如图 2所示，其中，残差部分的实线代表前后通道数相同，进行直连，虚线代表前后通道数不同，需要1×1卷积调整维度。

	Download: JPG larger image
图 2 多监督特征提取网络结构 Fig. 2 Multi-supervision feature extraction network structure

MFEN框架由多尺度特征融合模块、残差结构和生成器这三部分组成。网络输入的图像尺寸为256×256×3，包含RGB这3个通道。MFFM对图像进行特征提取，该模块主要分为梯度纹理分支和群感受野分支，然后将两个分支的输出进行拼接，得到尺寸为128×128×64的多尺度特征。残差结构主要对特征进行深层语义学习和编码。在本文中，该部分由4个残差块构成，每个残差块使用尺寸为3×3的标准卷积，通过批归一化层加速网络训练，得到尺寸为32×32×128的特征图。最终，结果输入深度图生成器与掩模生成器，得到两个尺寸为32×32×1的特征图。综合判断生成的深度图与掩模图，计算得出预测概率，实现端到端的人脸活体检测。

2.2 多尺度特征融合模块

特征提取一直是人脸活体检测的重点研究方向，特征的好坏在一定程度上决定了网络的性能。为了从RGB图像中提取到具有判别性的特征，本文设计了包含梯度纹理分支和群感受野分支的多尺度特征融合模块。根据中心差分卷积学习细节纹理特征，通过空洞卷积在保持特征图大小不变的情况下学习群感受野特征。与标准卷积模块相比，MFFM可以提取更多包含细节信息、空间信息和语义信息的特征，提高模型的泛化能力。

2.2.1 梯度纹理分支

为了获得细节纹理信息，本文设计了梯度纹理分支。与文献[7]将中心差分卷积和标准卷积直接相加不同，该分支取消标准卷积部分，仅使用中心差分卷积来提取细节信息，防止直接相加造成的纹理特征破坏。分支结构见图 2，RGB图像经过卷积核尺寸为3×3的中心差分卷积后得到包含丰富纹理信息的特征图，再对其进行一次卷积与池化操作，对特征进一步编码，得到128×128×32的纹理特征图，之后与群感受野分支进行拼接融合。

2.2.2 群感受野分支

为了获得具有判别性的多尺度特征，融合人脸空间信息和语义信息，本文设计了群感受野分支。如图 3所示，受Inception结构^[8]的启发，采用不同尺寸的卷积核组成多个小分支结构。每个小分支先通过卷积核尺寸为1×1的卷积学习浅层空间信息，之后分别使用3×3、3×1和1×3三种尺寸的卷积核学习多尺度特征信息，同时减少了模型的参数量。Inception结构的核心是通过多个不同尺寸的卷积核来提取图像不同尺度的特征，从而更好地获得图像表征信息，但是过多的卷积核也会在一定程度上增加模型的复杂度。为了使模型可以在不增加卷积核参数量且保持分辨率的情况下获得更大的感受野，群感受野模块在第二和第三小分支增加扩张率为3、卷积核尺寸为3×3的空洞卷积。接着将3个小分支的特征拼接，并使用尺寸为1×1的卷积核对多尺度的空间及语义信息进行编码，使得不同感受野信息充分融合，增强特征表征能力。最后使用残差结构将多尺度深层信息与浅层空间信息融合，得到尺寸为128×128×32的群感受野特征图，之后与梯度纹理分支进行拼接融合。

	Download: JPG larger image
图 3 群感受野模块 Fig. 3 Group receptive field module

2.3 多监督策略

对于监督学习，合适的监督策略对网络的收敛与性能起着至关重要的作用。目前主流活体检测方法可分为二值监督与回归监督。二值监督策略使用0、1标签来区分真实和欺诈人脸，但是该策略在复杂场景下易对背景、照明等信息产生过拟合现象。为了解决以上问题，文献[3]提出深度图监督策略，该策略认为真实人脸具有深度信息，而通过照片、电子屏幕等设备得到的人脸图像为平面物体，所以通过提取检测对象的深度特征可以有效地抵御照片攻击和视频攻击。

相比单监督策略，多监督可以使网络学习到更加鲁棒性的特征。本文使用深度图作为主要监督，并设计人脸的二值掩模作为辅助监督。掩模监督结合了二值监督与深度图监督的特点，标签人脸部分为1，背景为0，使得网络将学习中心放在人脸部位，起到注意力作用。深度图生成器与掩模生成器都由三层标准卷积组成，输出尺寸为32×32×1的深度估计图与掩模估计图。损失函数使用均方误差函数，表达式如下：

$ {l}_{\mathrm{d}\mathrm{e}\mathrm{p}\mathrm{t}\mathrm{h}}=\frac{1}{p}\cdot \sum\limits_{i=1}^{p}{\left({D}_{i}-{G}_{\mathrm{i}}^{\mathrm{G}\mathrm{D}}\right)}^{2} $

(4)

$ {l}_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}}=\frac{1}{q}\cdot \sum\limits_{j=1}^{q}{\left({M}_{j}-{G}_{\mathrm{j}}^{\mathrm{G}\mathrm{M}}\right)}^{2} $

(5)

其中：$ p $代表深度估计图中的像素值；$ q $代表掩模估计图中的像素值；$ D $和$ M $分别代表生成的深度估计图与掩模估计图；$ \mathrm{G}\mathrm{D} $和$ \mathrm{G}\mathrm{M} $分别代表深度图标签与掩模标签。

loss表示为：

$ l={\alpha }_{1}\cdot {l}_{\mathrm{d}\mathrm{e}\mathrm{p}\mathrm{t}\mathrm{h}}+{\alpha }_{2}\cdot {l}_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}} $

(6)

其中：$ {\alpha }_{1} $和$ {\alpha }_{2} $是每一项的正则化系数，为使网络更好地收敛，本文设置系数分别为3和1。

3 实验结果与分析 3.1 实验数据集

本文采用OULU-NPU^[9]、CASIA-MFSD^[10]和Replay-Attack^[11]这3个主流公开数据集。

3.1.1 OULU-NPU数据集

OULU-NPU数据集由4 950个活体和欺诈视频组成，这些视频使用6款不同的手机，在3种不同的采集场景下录制。每个视频长度为5 s，帧速率为30 Hz，分辨率为1 920×1 080像素。该数据集通过4种协议来评估活体检测算法的性能。协议1主要评估模型在不同照明和背景下的泛化能力。协议2主要评估模型在不同攻击方式下的泛化能力。协议3主要探讨不同的拍摄设备对模型性能的影响。协议4最具有挑战性，评估模型在不同场景、攻击方式及拍摄设备下的通用能力。本文按照上述4种协议对OULU-NPU数据集进行详细测试。

3.1.2 CASIA-MFSD数据集

CASIA-MFSD数据集由600个视频组成，其中训练集包含20个主题，测试集包含30个主题。每个主题采集12个视频，包含480×640像素、640×480像素、720×1 080像素3种图像分辨率和不同照明条件。攻击方式分为照片、图片切割和视频攻击。其中照片攻击指彩色打印人脸照片并弯曲展示，图片切割攻击指将照片的眼睛区域分割出来，然后人脸在照片后进行欺诈攻击，视频攻击指使用高像素视频冒充真实人脸。该数据集具有3种不同分辨率图像，在复杂背景下模拟多种攻击方式，对模型的泛化能力具有极大的考验。

3.1.3 Replay-Attack数据集

Replay-Attack数据集收集了50个用户在不同条件下的1 300个人脸视频样本。视频帧速率为25 Hz，分辨率为320×240像素，在均匀人工照明与复杂自然照明两种光照条件下录制。攻击方式包括照片和视频攻击，支持条件包括手持媒体和固定媒体两种方式。该数据集采集了在不同光照和支持条件下的样本，实验结果更加接近真实情况。

3.2 评价标准

为了进行公平比较，本文依据各个数据集的原始评估指标进行实验。对于OULU-NPU数据集，使用攻击表示分类错误率(Attack Presentation Classification Error Rate，APCER)、真实表示分类错误率(Bona fide Presentation Classification Error Rate，BPCER)和平均分类错误率(Average Classification Error Rate，ACER)作为评估指标。

对于CASIA-MFSD和Replay-Attack数据集，使用等错误率(Equal Error Rate，EER)和半错误率(Half Total Error Rate，HTER)^[12]作为评估指标。等错误率是错误接受率(False Accept Rate，FAR)与错误拒绝率(False Reject Rate，FRR)相等时的错误率。其中，FAR表示模型在所有数据中将欺诈人脸判断成真实人脸的比率，FRR表示模型在所有数据中把真实人脸判断为欺诈人脸的比率，HTER表示测试数据中错误接受率与错误拒绝率的均值。

3.3 实验设置

本文实验数据首先使用多任务卷积神经网络(Multi-Task Convolutional Neural Network，MTCNN)^[13]进行人脸检测并裁剪对齐，得到256×256像素大小的人脸图像。之后对训练数据进行重新采样，使真实人脸与欺诈人脸的数量比为1∶1。同时增加随机擦除、剪切和水平翻转操作用于数据增强。在测试阶段，计算深度估计图与掩模估计图中每个像素的均值并求和得到最终预测分数。当分数较低时，输入图像很可能为欺诈图像。

实验采用Adam优化器^[14]，初始学习率设置为1E-4，batchsize设置为32。编程环境为PyTorch，硬件设备为一张NVIDIA RTX 2080Ti显卡。

3.4 结果分析 3.4.1 消融实验

为了验证本文设计的多尺度特征融合模块与多监督策略的有效性，本文在OULU-NPU数据集的协议1上做了三组消融实验来说明不同改进方案对检测性能的影响。

消融实验结果如表 1所示，其中，方法1表示标准卷积模型，方法2表示中心差分卷积策略，方法3表示中心差分卷积+群感受野策略，方法4表示中心差分卷积+群感受野+多监督策略。

下载CSV 表 1 在OULU-NPU数据集协议1上的消融实验结果 Table 1 Results of ablation experiments on the OULU-NPU dataset protocol 1

从表 1可以看出，在中心差分卷积替代模型中第一层提取特征标准卷积后，性能得到了明显提升，说明梯度纹理信息对于活体检测任务起着至关重要的作用，同时表明标准卷积的提取能力有限，可能会导致网络缺失捕获细节信息的能力。为了提升图像表征能力，本文设计了中心差分卷积+群感受野的多尺度特征融合模块，使得模型更好地提取多维度特征，提高检测精度。为了提升模型鲁棒性，采用多监督策略，结合深度图与二值掩模，进一步增强检测性能。

3.4.2 不同算法的结果比较

为了验证本文算法的有效性，使用OULU-NPU、CASIA-MFSD和Replay-Attack 3个公开数据集，与其他主流活体检测算法进行大量对比实验。

OULU-NPU是一个具有复杂测试样本的高分辨率数据集。表 2所示为OULU-NPU数据集上各主流算法的实验结果。可以看出，本文算法在4个协议中的ACER评价指标分别达到了0.9%、1.9%、1.6%±2.0%、2.7%±1.8%，均优于其他方法。与多帧方法不同，例如Auxiliary^[3]和STASN^[5]使用多张图像作为网络输入，本文算法仅使用单帧图像进行活体检测，大幅降低了模型的复杂度，模型参数量大小仅为1.1 MB。同时，MFEN从特征挖掘角度对细节信息和语义信息进行充分提取，而其他算法如DRL-FAS^[15]却忽略了这些纹理特征，所以MFEN可以捕获更加丰富的判别信息。最终实验结果也充分证明了提取多尺度特征和多监督策略的有效性。

下载CSV 表 2 不同算法在OULU-NPU数据集上的结果 Table 2 Results of different algorithms on the OULU-NPU dataset

协议1~协议3分别评估不同场景、攻击方式和拍摄设备对模型性能的影响可以看出，本文算法均优于目前效果最好的算法，说明多尺度特征算法对于多种环境及攻击方式均有较好的鲁棒性。协议4包含上述3种协议不同的变化因素，更加贴近真实应用场景。在此协议下，本文算法较目前最优算法提升39%，并且取得了最低的标准差，表明该算法在复杂场景下仍然具有较强的泛化能力和稳定性。

不同算法在CASIA-MFSD和Replay-Attack数据集上的结果如表 3所示。两个数据集都包含多种分辨率的视频，可以检测模型在多分辨率和不同光照背景下的鲁棒性。实验的对比算法包括基于手工特征的机器学习算法与深度神经网络算法。可以看出，本文提出的算法在CASIA-MFSD和Replay-Attack数据集上的EER和HTER都达到0.0%，优于DRL-FAS^[15]算法，实现了无误差人脸活体检测，说明MFEN提取的多尺度特征使算法可以在多种攻击方式和不同光照背景下有效地进行活体检测。同时，对于不同质量的照片和拍摄设备，也具备较好的鲁棒性。

下载CSV 表 3 不同算法在CASIA-MFSD和Replay-Attack数据集上的结果 Table 3 Results of different algorithms on CASIA-MFSD and Replay-Attack datasets

为了进一步验证提出方法的泛化能力，本文使用CASIA-MFSD和Replay-Attack来执行跨数据集评估，即对不同的数据集进行训练和测试评估，评估结果如表 4所示。

下载CSV 表 4 CASIA-MFSD and Replay-Attack的跨数据集评估结果 Table 4 Cross-dataset evaluation results of CASIA-MFSD and Replay-Attack

使用CASIA-MFSD训练、Replay-Attack测试时(CA-Re)，本文算法取得最优的HTER。这是因为CASIA-MFSD数据集比Replay-Attack数据集具有更高的分辨率，本文提出的多尺度特征融合模块在高分辨率情况下可以比DRL-FAS^[15]等算法更好地提取具有判别性的纹理信息，因此取得了更好的检测效果。

使用Replay-Attack训练、CASIA-MFSD测试时(Re-CA)，在Replay-Attack数据集像素值较低，不利于本文算法进行梯度纹理特征提取的情况下，仍取得较为优异的检测效果。结果表明，本文算法在完全不同的场景下具有一定的鲁棒性。

3.5 复杂性分析

在实际应用中，模型的处理效率和复杂程度同样十分重要。为了进一步验证算法的轻量性，以模型参数量(Parameters，Params)、每秒10亿次的浮点运算数(Giga Floating-point Operations Per Second，GFLOPs)和每秒传输帧数(Frames Per Second，FPS)为指标在OULU-NPU数据集的协议1上对网络模型进行复杂性分析。

不同模型复杂性分析结果如表 5所示，其中，模型1表示使用标准卷积的基准模型，模型2表示使用中心差分卷积和群感受野策略的改进模型，模型3表示使用中心差分卷积、群感受野和多监督策略的最终模型，即本文提出的多监督特征提取网络(MFEN)。

下载CSV 表 5 不同模型的复杂性分析 Table 5 Complexity analysis of different models

与主流深度监督网络DepthNet相比，本文提出的MFEN具有更低的参数量和更快的处理速度，同时需要更少的计算资源。这是因为DepthNet网络浅层部分下采样较少，导致特征图过大从而需要更多的参数量和算力；而MFEN具有较少的特征通道数，并且使用空洞卷积来减少参数量，因此模型更加轻量化。对比常规的轻量网络MobileNetV2，MFEN不仅更加轻量，在性能上也有很大优势。在模型1、模型2和模型3的对比中可以看出，本文提出的多尺度特征融合模块和多监督策略，在没有明显增加模型复杂度的情况下显著提高检测精度。综合各项指标可以得出本文提出的算法不仅具有较好的检测性能，并且模型大小仅为1.14 MB，帧率达到323 frame/s，满足实时性的要求。

3.6 结果可视化

卷积神经网络是一个“黑盒”模型，而可视化方案大幅提高了可解释性。为进一步验证所提方法的有效性，在OULU-NPU数据集的协议1上对生成的深度图和掩模图像进行了可视化对比，结果如图 4所示，可以看出，本文提出的模型可以很好地生成真实人脸的深度图和二值掩模图。对于照片攻击和视频攻击，模型也可以正确处理，仅生成平面图像，表明了本文方法的有效性。

	Download: JPG larger image
图 4 真实人脸与欺诈人脸的特征图可视化对比 Fig. 4 Visualization comparison of feature map between real face and spoofing face

4 结束语

针对活体检测任务中细节信息提取不足的问题，本文提出一种融合梯度纹理与群感受野特征的活体检测算法。利用中心差分卷积提取梯度特征，使用空洞卷积获得多尺度空间和语义特征，同时通过深度图与二值掩模进行多监督以提升网络的性能与泛化能力。在多个数据集上的实验结果表明，与现有主流的活体检测算法相比，本文算法检测精度更高，具有更好的鲁棒性。虽然本文算法在高分辨率数据集中获得了较好的检测效果，但是在低分辨率图像上训练模型并在高分辨率图像上测试模型时可能会无法准确地区分真实人脸和欺诈人脸，下一步将重点研究低分辨率情况下鲁棒性特征的提取方案，提升活体检测的通用性和有效性。

参考文献

[1]	马钰锡, 谭励, 董旭, 等. 面向VTM的交互式活体检测算法[J]. 计算机工程, 2019, 45(3): 256-261. MA Y X, TAN L, DONG X, et al. Interactive liveness detection algorithm for VTM[J]. Computer Engineering, 2019, 45(3): 256-261. (in Chinese)
[2]	胡斐, 文畅, 谢凯, 等. 基于微调策略的多线索融合人脸活体检测[J]. 计算机工程, 2019, 45(5): 256-260. HU F, WEN C, XIE K, et al. Multi-cue fusion face liveness detection based on fine-tuning strategy[J]. Computer Engineering, 2019, 45(5): 256-260. (in Chinese)
[3]	LIU Y J, JOURABLOO A, LIU X M. Learning deep models for face anti-spoofing: binary or auxiliary supervision[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 389-398.
[4]	JOURABLOO A, LIU Y J, LIU X M. Face de-spoofing: anti-spoofing via noise modeling[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 290-306.
[5]	YANG X, LUO W H, BAO L C, et al. Face anti-spoofing: model matters, so does data[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 3502-3511.
[6]	林云, 孙晓刚, 姜尧岗, 等. 基于语义分割的活体检测算法[J]. 吉林大学学报(工学版), 2020, 50(3): 1040-1046. LIN Y, SUN X G, JIANG X G, et al. Face anti-spoofing algorithm based on semantic segmentation[J]. Journal of Jilin University (Engineering and Technology Edition), 2020, 50(3): 1040-1046. (in Chinese)
[7]	YU Z T, ZHAO C X, WANG Z Z, et al. Searching central difference convolutional networks for face anti-spoofing[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 5294-5304.
[8]	SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 1-9.
[9]	BOULKENAFET Z, KOMULAINEN J, LI L, et al. Oulu-npu: a mobile face presentation attack database with real-world variations[C]//Proceedings of the 12th IEEE International Conference on Automatic Face & Gesture Recognition. Washington D. C., USA: IEEE Press, 2017: 612-618.
[10]	ZHANG Z W, YAN J J, LIU S F, et al. A face antispoofing database with diverse attacks[C]//Proceedings of the 5th IAPR International Conference on Biometrics. Washington D. C., USA: IEEE Press, 2012: 26-31.
[11]	CHINGOVSKA I, ANJOS A, MARCEL S. On the effectiveness of local binary patterns in face anti-spoofing[C]//Proceedings of International Conference on Biometrics Special Interest Group. Washington D. C., USA: IEEE Press, 2012: 1-7.
[12]	BENGIO S, MARIETHOZ J. A statistical significance test for person authentication[C]//Proceedings of IEEE Conference on Speaker and Language Recognition. Washington D. C., USA: IEEE Press, 2004: 158-167.
[13]	ZHANG K P, ZHANG Z P, LI Z F, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503. DOI:10.1109/LSP.2016.2603342
[14]	KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-11-01]. https://arxiv.org/abs/1412.6980.
[15]	CAI R Z, LI H L, WANG S Q, et al. DRL-FAS: a novel framework based on deep reinforcement learning for face anti-spoofing[J]. IEEE Transactions on Information Forensics and Security, 2021, 16(4): 937-951.
[16]	KIM T, KIM Y, KIM I, et al. BASN: enriching feature representation using bipartite auxiliary supervisions for face anti-spoofing[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 494-503.
[17]	ZHANG K Y, YAO T P, ZHANG J, et al. Face anti-spoofing via disentangled representation learning[C]// Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 641-657.
[18]	LI L, FENG X Y, BOULKENAFET Z, et al. An original face anti-spoofing approach using partial convolutional neural network[C]//Proceedings of the 6th International Conference on Image Processing Theory, Tools and Applications. Washington D. C., USA: IEEE Press, 2020: 1-6.
[19]	YANG J W, LEI Z, LI S Z. Learn convolutional neural network for face anti-spoofing[EB/OL]. [2021-11-01]. https://arxiv.org/abs/1408.5601.
[20]	XU Y W, WU L F, JIAN M, et al. Identity-constrained noise modeling with metric learning for face anti-spoofing[J]. Neurocomputing, 2021, 434: 149-164. DOI:10.1016/j.neucom.2020.12.095
[21]	CHEN H N, HU G S, LEI Z, et al. Attention-based two-stream convolutional networks for face spoofing detection[J]. IEEE Transactions on Information Forensics and Security, 2020, 15(5): 578-593.
[22]	BOULKENAFET Z, KOMULAINEN J, HADID A. Face antispoofing using speeded-up robust features and fisher vector encoding[J]. IEEE Signal Processing Letters, 2017, 24(2): 141-145.
[23]	AGARWAL A, SINGH R, VATSA M. Face anti-spoofing using Haralick features[C]//Proceedings of the 8th IEEE International Conference on Biometrics Theory, Applications and Systems. Washington D. C., USA: IEEE Press, 2016: 1-6.
[24]	BHARADWAJ S, DHAMECHA T I, VATSA M, et al. Computationally efficient face spoofing detection with motion magnification[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2013: 105-110.
[25]	DE FREITAS PEREIRA T, ANJOS A, DE MARTINO J M, et al. Can face anti-spoofing countermeasures work in a real world scenario?[C]//Proceedings of 2013 International Conference on Biometrics. Washington D. C., USA: IEEE Press, 2013: 1-8.
[26]	PINTO A, PEDRINI H, SCHWARTZ W R, et al. Face spoofing detection through visual codebooks of spectral temporal cubes[J]. IEEE Transactions on Image Processing, 2015, 24(12): 4726-4740.
[27]	VARETO R H, DINIZ M A, SCHWARTZ W R. Face spoofing detection on low-power devices using embeddings with spatial and frequency-based descriptors[C]//Proceedings of International Conference on Image Analysis, Computer Vision, and Applications. Berlin, Germany: Springer, 2019: 187-197.
[28]	SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 4510-4520.