一种端到端的人脸对齐方法

引用本文

康智慧, 王全玉, 王战军. 一种端到端的人脸对齐方法[J]. 计算机工程, 2021, 47(10), 207-213. DOI: 10.19678/j.issn.1000-3428.0059225.

KANG Zhihui, WANG Quanyu, WANG Zhanjun. An End-to-End Face Alignment Method[J]. Computer Engineering, 2021, 47(10), 207-213. DOI: 10.19678/j.issn.1000-3428.0059225.

基金项目

国家自然科学基金（71834001）

作者简介

康智慧(1993-), 女, 硕士研究生, 主研方向为人机交互、深度学习;
王全玉, 副教授、博士;
王战军, 教授、博士

文章历史

收稿日期：2020-08-11
修回日期：2020-09-15

Contents Abstract Full text Figures/Tables PDF

一种端到端的人脸对齐方法

康智慧¹ , 王全玉¹ , 王战军²

1. 北京理工大学计算机科学与技术学院, 北京 100081;
2. 北京理工大学人文与社会科学学院, 北京 100081

收稿日期：2020-08-11；修回日期：2020-09-15

基金项目：国家自然科学基金（71834001）

作者简介：康智慧(1993-), 女, 硕士研究生, 主研方向为人机交互、深度学习; 王全玉, 副教授、博士; 王战军, 教授、博士.

E-mail: 18811708090@163.com

摘要：现有的人脸对齐方法多数是非端到端的，中间过程需要大量的人工干预，导致人脸关键点检测的稳定性较差。为此，提出一种端到端的基于深度学习的人脸对齐方法。基于MobileNets系列网络的子模块，使用类VGG结构的方式进行搭建，将整张图片作为输入，采用基于深度可分离卷积模块进行特征提取，并运用改进的倒残差结构避免网络训练过程的梯度消失，减少特征损失。在此基础上将眼间距离作为正规化方法，在300W人脸数据集上进行测试，结果表明，与CDM、DRMF等方法相比，该方法在保证较优精度的同时，具有良好的实时性。

An End-to-End Face Alignment Method

KANG Zhihui¹ , WANG Quanyu¹ , WANG Zhanjun²

1. School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China;
2. School of Humanities and Social Sciences, Beijing Institute of Technology, Beijing 100081, China

Abstract: Most of the existing face alignment methods are not end-to-end, and require frequent manual intervention, which leads to a reduction in their stability.To address the problem, an end-to-end face alignment method based on deep learning is proposed.The network required by this method is constructed based on the sub-modules of the MobileNet series in a structure similar to VGG.Taking the entire image as the input, the depth-wise separable convolution module is used for feature extraction, and the method employs an improved inverted residual structure to avoid the disappearance of gradients in the network training process while reducing the loss of features.The distance between eyes is taken as the basis for normalization.The designed network is tested on the 300W face dataset and compared with CDM, DRMF methods. The experimental results show that the proposed algorithm displays excellent accuracy and real-time performance.

开放科学（资源服务）标志码（OSID）：

0 概述

人脸对齐是在给定的图像中确定人脸主要器官（如眼睛、鼻子、嘴巴等）的轮廓点位置，这些轮廓点在人脸研究中被称为人脸特征点或人脸关键点，对人脸研究具有重要意义，在人脸验证、人脸表情识别、人机交互以及人脸动画技术方面起着不可代替的作用。

随着研究人员对人脸关键点检测的研究，许多优秀的方法不断被提出。其中根据是否有参数分为参数化方法和非参数化的方法。在参数化方法中具有代表性的人脸关键点检测方法有基于主动形状模型（Active Shape Model，ASM）^[1]的方法和基于主动外观模型（Active Appearance Model，AAM）^[2]的方法。ASM方法是基于局部特征的，独立考虑每个关键点周围的变化，通过训练学习到的全局形状来检测人脸关键点；AAM是对ASM的一种改进和优化，同时考虑面部形状和纹理，以便更精确地检测人脸关键点。基于非参数化的方法有基于图模型的马尔科夫随机场的建模、基于级联回归的方法和基于深度学习的方法。基于级联回归的方法采用从粗略估计到精细估计的方式对人脸关键点进行直接估计，并不需要对任何模型进行学习和建模。随着深度学习研究的不断深入，基于深度学习的方法在人脸关键点检测方面的应用也随之增加，该方法通过对训练数据的学习自动地生成人脸关键点检测模型，无需人工干预。这种超强的学习能力，使其成为近年来广泛使用的方法。然而，即使已经存在大量先进的人脸关键点检测算法，人脸关键点检测任务仍然面临很多挑战：不同的人脸表情、不同的头部姿势以及遮挡、光线等外在条件都会影响人脸关键点的位置和外观特征，从而影响人脸关键点检测的准确性和可靠性；现存的人脸关键点检测方法大多不是端到端的检测，中间过程需要大量的人工干预，使得模型不具有良好的稳定性；目前的多数方法输入的是人脸的局部特征，关键点定位不具有整体的稳定性。很多方法虽然具有良好的定位精度，但是其模型规模过大，在实时性方面还有待提高。

为解决上述方法的不足，本文提出一种基于深度学习的人脸对齐方法。采用整张图像作为网络的输入，以保证人脸对齐具有全局性，在此基础上设计一种端到端的网络结构，减少中间过程人工干预带来的不确定性，并采用基于深度可分离卷积^[3]模块，构建一个类VGG^[4]结构的网络进行人脸特征提取与关键点定位。

1 相关工作

在计算机视觉领域的研究初期，人脸关键点检测大都基于传统机器学习，其中的经典方法是基于AAM^[2]的算法，其采用人脸形状和外观2种特征进行人脸关键点检测，随后文献[5-6]在AAM基础上进行优化，其中主要有2个优化方向：对关键点准确率进行提升与对拟合的速度进行提升。

随着深度学习的普及以及计算机性能的提升，人们开始采用深度学习的方法对人脸关键点进行检测。2013年，SUN等^[7]提出采用深度学习方法对人脸关键点进行检测和跟踪，该算法采用了三层级联卷积神经网络（Convolutional Neural Network，CNN）的结构对人脸的5个关键点进行检测，取得了较好的检测结果。

文献[8]采用由粗到精的深度学习方法对人脸的68个关键点进行检测，该方法的贡献在于检测的关键点更多，而且降低了传统卷积网络的网络复杂性和减轻了训练模型的负担。文献[9]提出人脸关键点检测不是一个独立的问题，对人脸关键点位置的估计会受到许多因素的影响，因此提出了一种基于多任务学习的人脸关键点检测算法（Multi-Task Convolutional Neural Networks，MTCNN）。当人脸有遮挡或者人脸姿势变化较大时，该算法获得了较高的准确率。为了能够更好地克服头部姿势运动带来的困扰，2017年KOWALSKI等^[10]提出深度对齐网络（Deep Alignment Network，DAN）的人脸关键点检测算法。该算法在人脸关键点检测的整个过程中采用整张脸作为输入，使得对于头部运动较大变化时关键点的检测都很稳定，这也是本文的创新动机来源之一。除了卷积神经网络外，递归神经网络（Recurrent Neural Network，RNN）也被用于人脸关键点的检测与跟踪。

2 用于人脸对齐的端到端网络

本节首先对提出的用于人脸对齐的端到端的网络模型进行总体概述。然后分别对每个子模块进行介绍，子模块主要包含深度可分离卷积模块、改进的倒残差结构和Squeeze-and-Excitation结构^[11]。最后介绍本文设计的网络结构的具体实现。

2.1 端到端的网络模型方法

本文设计一种端到端的网络模型对图像中的N个人脸关键点进行定位。图 1所示为该方法的整体结构。

	Download: JPG larger image
图 1 人脸对齐网络结构 Fig. 1 Structure of face alignment network

本文基于深度可分离卷积的方法对图像中的人脸关键点进行定位。采用该网络结构的主要原因是：深度可分离卷积可以采用不同尺寸的视野域，不同的视野域可以提取出不同的图像特征。在计算量一定的情况下，与传统的全卷积网络相比，深度可分离卷积可以被设计为更深层次的网络，因此其采集到的图像特征会更加丰富。采用深度可分离卷积神经网络可以减少网络模型中的参数个数，缩短计算时间，从而提升效率。由于VGG结构在目标检测中具有良好的表现，因此采用类VGG的结构进行网络构建来提高人脸对齐的精度。

2.2 深度可分离卷积结构

在特征提取网络中，主要是从图像的像素信息中提取与关键点定位相关的特征，本文采用基于深度可分离卷积的网络结构对图像信息进行提取。深度可分离网络是由HOWARD等^[3]在2017年提出的。视野域在深度卷积操作中对应的就是卷积核，选择不同尺寸的卷积核进行操作，意味着考虑的图像周围的环境不同，因此提取到的特征就会不同。一个标准的卷积既可以卷积又可以将输入合并为一组新的输出，而深度可分离卷积包含2个部分：一个专门用于卷积的层称为深度卷积层；另一个专门用于特征生成的层称为点式卷积层。深度卷积层将卷积按照图像通道数均匀分解，点式卷积层采用1×1的卷积实现。深度可分离卷积结构如图 2所示。

	Download: JPG larger image
图 2 深度可分离卷积结构 Fig. 2 Structure of depth separable convolution

假设输入特征图为D₁×D₁×M，输出的特征图为D₂×D₂×N，卷积核的大小为K，若采用普通的卷积操作，则计算成本为$ K\times K\times M\times N\times {D}_{1}\times {D}_{1} $。若采用深度可分离卷积操作，则深度卷积的计算成本为$ K\times K\times M\times {D}_{1}\times {D}_{1} $，1×1卷积操作的计算成本为$ M\times N\times {D}_{1}\times {D}_{1} $，因此深度可分离卷积的总的计算成本为$ K\times K\times M\times {D}_{1}\times {D}_{1}+M\times N\times {D}_{1}\times {D}_{1} $。仅一次卷积操作，在计算成本上采用深度可分离卷积为普通卷的$ 1/N+1/\left({K}^{2}\right) $。由此可见，采用深度可分离结构比普通的卷积网络的计算成本低，因此在计算量一定的情况下，深度可分离卷积能够提取到更深层次的图像特征。因此，本文设计的网络结构在设备的计算能力有限或者对实时性要求较高的场景下具有一定的优势。

为加速模型收敛和防止过拟合，在每个卷积分支的卷积后都会进行一次批量正规化，采用的激活函数是ReLU6，ReLU6的计算如式（1）所示：

$ \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}6\left[x\right]=\left\{\begin{array}{l}0, x < 0\\ x, 0\le x < 6\\ 6, x\ge 6\end{array}\right. $

(1)

2.3 改进的倒残差结构

为避免训练阶段出现梯度消失等情况，采用MobileNet系列中的一种称为“倒残差”^[11]模块，即在每次深度卷积之后再与此次深度卷积之前的图像特征做合并，作为下一次深度卷积的输入。但是这一“倒残差”的变换与传统的残差网络的变换过程有所不同，由于深度可分离卷积不能改变通道数，通道数量越多采集到的特征也就越多，因此为了提取到更多的特征，在进行深度卷积之前需要先增加通道数，“倒残差”结构的变换过程在通道数量上的变化恰好与传统的残差结构的变换过程相反，即倒残差的变换过程是“扩展-深度分离卷积-压缩”。

原始的倒残差结构在输入尺寸与深度卷积后的尺寸相同的情况下直接合并通道，若两者尺寸不同则直接采用卷积后的特征作为下一模块的输入，这在一定程度上损失了图像特征。为了最大限度地避免图像特征的丢失，本文对输入尺寸与深度可分离卷积后的尺寸不同的情况做了改进，即将输入的尺寸经过池化变换后生成与深度可分离卷积输出尺寸相同的特征图，然后将两者合并，作为下一次卷积的输入。改进前后的倒残差结构在2种情况下的结构如图 3所示。图 3（a）表示当卷积的步长stride=1时的情况，即直接将输入与卷积之后的输出合并；图 3（b）是原始倒残差结构卷积步长为stride=2时的情况，即直接将卷积后的输出作为下一卷积的输入；图 3（c）是卷积步长stride=2时改进后的结构，将原始的输入进行池化操作后与卷积后的输出进行合并。

	Download: JPG larger image
图 3 改进前后的倒残差结构 Fig. 3 Inverse residual structure before and after improvement

很明显，当stride=2时，在改进后的结构中，不仅包含了原始结构的卷积操作的输出特征，另外增加了对输入进行池化后的特征，池化后的特征在一定程度上保留着原始输入的特征，与原始模型相比较，用于下一次卷积的特征内容更加丰富。

2.4 Squeeze-and-Excitation结构

Squeeze-and-Excitation结构由HU等^[12]提出，该结构能够学习图像通道之间的关系。图 4所示为Squeeze-and-Excitation模块详细结构，$ X\in {\mathbb{R}}^{{H}^{\text{'}}\times {W}^{\text{'}}\times {C}^{\text{'}}} $为输入，F_tr为普通的卷积操作，$ U\in {\mathbb{R}}^{H\times W\times C} $为X经过F_tr卷积后的输出，F_sq（·）为全局的平均池化操作，该操作是Squeeze过程，F_ex（·，W）为2个连续的全连接操作，全连接的输出维度为1×1×C，该过程称为Excitation，F_scale（·，·）为采用hard_sigmoid激活函数的激活层，目的是将最后的输出值限定在[0, 1]之间，并将该值作为每个通道的系数乘以特征U，使得到的特征中重要的特征增强，不重要的特征减弱，最终提取到的特征指向性更强。

	Download: JPG larger image
图 4 Squeeze-and-Excitation模块结构 Fig. 4 Modular structure of Squeeze-and-Excitation

在卷积操作F_tr中，输入为$ X\in {\mathbb{R}}^{{H}^{\text{'}}\times {W}^{\text{'}}\times {C}^{\text{'}}} $，卷积核表示为V=[v₁，v₂，…，v_c]，卷积操作的输出表示为U=[u₁，u₂，…，u_c]。其中，v_c是第c个卷积核参数，对应的输出u_c可以表示为：

$ {u_c} = {v_c}{\rm{*}}X = \sum\limits_{S = 1}^{C'} {{X_i}} v_c^s{\rm{*}}{x^s}$

(2)

其中：*为卷积操作；$ {v}_{c}=\left[{v}_{c}^{1}, {v}_{c}^{2}, \cdot \cdot \cdot , {v}_{c}^{{C}^{\text{'}}}\right] $；$ X=\left[{x}^{1}, {x}^{2}, \cdot \cdot \cdot , {x}^{{C}^{\text{'}}}\right] $；$ {u}_{c}\in {\mathbb{R}}^{H\times W} $；$ {v}_{c}^{s} $是二维空间卷积核，其代表着v_c的一个通道，对应于X的单个通道。根据式中的表达可知输出是由所有通道之和产生的，通道之间的依赖关系隐藏在v_c中。

每个卷积核都只能对局部区域进行操作，因此输出的u_c都无法利用该区域以外的上下文信息。为克服这一问题，采用全局的平均池化的方法将全局信息压缩到一个通道中，生成通道的统计信息。统计信息$ z\in {\mathbb{R}}^{C} $是通过将U的空间维度减小到$ H\times W $实现的。因此，z的第c个统计信息如式（3）所示：

$ {z_c} = {F_{{\rm{sq}}}}\left( {{u_c}} \right) = \frac{1}{{H \times W}}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {{u_c}} } \left( {i,j} \right) $

(3)

在获得统计信息后，为了捕捉通道之间的依赖关系，采用式（4）进行全连接操作，该过程即Excitation操作。

$ s={F}_{\mathrm{e}\mathrm{x}}\left(z, W\right)=\sigma \left(g\left(z, W\right)\right)=\sigma \left({W}_{2}\delta \left({W}_{1}z\right)\right) $

(4)

其中：$ \delta $表示ReLU函数；$ {W}_{1}\in {\mathbb{R}}^{\frac{C}{r}\times C} $；$ {W}_{2}\in {\mathbb{R}}^{\frac{C}{r}\times C} $；$ \sigma $表示sigmoid激活函数。运算的流程如图 5所示。

	Download: JPG larger image
图 5 Excitation结构 Fig. 5 Excitation structure

2.5 人脸对齐网络

根据上文的分析可以得出：深度可分离卷积结构与传统的卷积操作相比具有计算成本低的特点，因此在计算成本一定的情况下，采用深度可分离卷积可以提取到更深层次的网络结构。图像通道数越多，提取到的图像特征也会越多，但是深度可分离卷积又不能改变图像的通道数，因此采用改进的倒残差结构对图像的通道数进行增加，同时在原始深度卷积特征的基础上增加了对输入的池化输出部分特征，使得用于下一次卷积的输入特征增加。采用Squeeze-and-Excitation可以学习到不同通道之间的关系，更加有利于最终人脸关键点的定位。搭建类VGG结构是由于VGG结构在目标检测中表现良好，说明这样的结构是利于特征提取的。

本文基于深度可分离卷积结构、改进的倒残差机构和Squeeze-and-Excitation结构构建一个类VGG结构的人脸对齐网络。

在人脸特征提取网络中，输入是人脸图像$ X\in {\mathbb{R}}^{{W}^{\text{'}}\times {H}^{\text{'}}\times {C}^{\text{'}}} $，W′为图像的宽度，H′为图像的高度，C′为图像的通道（RGB）。本文使用的是224×224×1的二维图像，经过多次的深度可分离卷积后提取出丰富的人脸特征，用于最终的人脸关键点定位。

本文设计的网络输出为对人脸的N个关键点进行定位，采用（x，y）表示人脸关键点坐标位置，最终输出的结果为（N，2）结构。本文对人脸的68个关键点进行测试时N为68，当仅对人脸内部关键器官眼睛、鼻子、嘴巴进行测试时，N为各个器官的轮廓关键点数目。

3 实验结果与分析 3.1 数据集

本文介绍了用于人脸关键点定位^[13-15]的各种数据集^[16-17]，300W^[18]数据集是来自文献[13-17]中介绍的LFPW、HELEN、AFW、IBUG和300W私有测试集这5个数据集的集合。300W数据集具有图像内容广泛、数据量大等优点，数据集对图像中的人脸标记了68个关键点的坐标，根据文献[10]的划分方法将数据集划分为训练集和测试集。

训练集部分包括AFW数据集以及LFPW和HELEN的训练子集，共计3 148张图像。测试数据由其余数据集组成：IBUG、300W专用测试集，LFPW、HELEN测试子集。为便于与现有的方法进行比较，将该测试数据分为4个子集：

1）普通数据集。包括LFPW和HELEN测试子集，共计554张图像，该测试集的特点是图像均为正面人脸，可以很容易地定位到人脸关键点位置。

2）具有挑战性数据集。包括IBUG数据集，共有135张图像，该测试集的特点是这类图像或者为侧面人脸，或者是光线不佳时的人脸，该数据集中的人脸关键点不易被定位。

3）由子集1）、子集2）共同构成的300W公共测试集，共计689张图像。

4）300W专用测试集，共600张图像。

普通数据集的样例如图 6（a）所示，具有挑战性的数据集样例如图 6（b）所示。

	Download: JPG larger image
图 6 300W测试数据集样例 Fig. 6 Samples of 300W test dataset

3.2 评估方法

对于人脸关键点的检测，在近来的相关研究中，针对单个面部图像的面部特征点检测误差的度量有如下3种方法：

1）预测关键点和真实关键点之间的平均距离除以眼间距离（外眼角之间的距离），如图 7所示。

	Download: JPG larger image
图 7 两眼间外侧距离 Fig. 7 Outer distance between eyes

2）预测关键点和真实关键点之间的平均距离除以瞳孔间距离（眼中心之间的距离）。

3）预测关键点和真实关键点之间的平均距离除以边界框的对角线。

本文采用第1种归一化方法，以便与先进的算法进行比较。均方误差的计算方法如式（5）所示：

$ {R_{{\rm{RMSE}}}} = \frac{{\sum\limits_{i = 1}^N {\sqrt {{{\left( {x_i^f - x_i^g} \right)}^2} + {{\left( {y_i^f - y_i^g} \right)}^2}} } }}{{d \times N}} $

(5)

其中：$ \left({x}_{i}^{f}, {y}_{i}^{f}\right) $表示第i个关键点的预测坐标；$ \left({x}_{i}^{g}, {y}_{i}^{g}\right) $表示第i个关键点的实际坐标；N表示预测的关键点总数；d为两眼外眼角之间的欧氏距离。在本文的研究中，当对整体人脸关键点进行评估时N为68，当要对面部的每个器官分别进行评估时N取相应的值，对单个眼睛轮廓的关键点进行评估时N为8，对鼻子轮廓关键点进行评估时N为9，对嘴巴轮廓关键点进行评估时N为18。

另外，本文还采用累积误差分布（CED）曲线下的面积（AUC_0.08）和失败率进行结果评估。

3.3 实验及数据集处理

本文主要采用平均误差、失败率等对实验结果进行评估。首先对本文设计的网络结构进行68个人脸关键点的定位评估，并与先进的人脸对齐方法进行比较。其次分别对人脸的眼睛、鼻子和嘴巴这3个主要器官的轮廓进行评估，并与现存的眼睛、鼻子、嘴巴的定位方法进行比较。

为提高训练模型的性能，本文进行数据增强，即对原始数据进行平移、放大、缩小、旋转等操作，最终将每个原始图像扩充为10张，这样获得的训练图像共计31 480张，测试图像是原来的10倍。

3.4 实验结果

采用300W训练集进行模型的训练，并分别在300W的4个子测试集上进行测试。

1）68个关键点定位结果

首先在300W的公共测试集的普通数据集和具有挑战性数据集上对设计的网络结构分别进行测试。表 1为先进的人脸对齐方法和本文设计的人脸对齐方法的平均误差的测试结果。

下载CSV 表 1 人脸对齐方法在300W公共测试集上的平均误差 Table 1 The average error of the face alignment method on the 300W public test set

从表 1的数据可知，本文方法在所有列出的关键点定位方法中仅次于DAN算法的结果，但是本文方法的模型简单，参数数量少于DAN。

在300W公共测试集上采用AUC和错误率对设计的网络模型进行评估，其中将可接受的误差设置为0.08，实验结果如表 2所示。

下载CSV 表 2 人脸对齐方法在300W公共测试集上的AUC和失败率 Table 2 AUC and failure rate of face alignment method on 300W public test set

从表 2的数据可知，本文方法对68个关键点的AUC_0.08仅比ESR和SDM稍高，但是失败率却低于这2种算法，在此种评估方法中本文设计的模型处于居中偏上的水平。

2）人脸内部关键器官轮廓点的定位结果

本文分别对眼睛、鼻子、嘴巴这3个主要的面部器官的轮廓进行测试，并与现有的面部器官的定位结果进行比较，如表 3所示。

下载CSV 表 3 在300W公共测试集上测试的平均误差 Table 3 The average error of tested on the 300W public test set

从对人脸的关键器官的关键点定位可以看出，在普通数据集上这3个器官的定位误差比最先进的算法误差还要小，在挑战性数据集上，只比DAN的结果稍差一点，在整体数据集上的测试结果都优于其余方法。由此推断出本文算法的较大误差存在于人脸外轮廓的定位上，因此本文算法适用于对眼睛鼻子嘴巴定位精度较高且对人脸外轮廓定位精度相对不高的人脸任务中。

为评估提出算法的稳定性，在300 W的专用的私有测试集上对人脸内部关键点的平均误差、AUC_0.08和失败率进行评估，与先进方法的比较如表 4所示。

下载CSV 表 4 300W私有测试集上的平均误差AUC和失败率 Table 4 Average error AUC and failure rate on 300W private test set

从表 4的数据可知，在仅对内部51个关键点进行评估时，AUC_0.08的值要远高于最好的算法DAN的AUC_0.08值，失败率比DAN算法降低了0.67个百分点，比MDM方法降低了4.8个百分点，说明本文设计的方法有良好的关键点定位效果。表 4中的结果与在300W公共数据集上的得到的结论一致，说明了本文设计算法的有效性和稳定性。

3）人脸对齐性能对比

本文采用python语言实现的算法在NVIDIA GeForce RTX 2060 GPU笔记本电脑上的人脸对齐速度为65 frame/s，为证明本文提出算法在性能方面的优势，在同样的硬件条件下对python实现的DAN算法进行了性能评测，其人脸对齐速度为50 frame/s，这一结果充分说明了本文提出方法在性能上优于DAN算法。

4 结束语

本文基于MobileNets系列的子模块，设计一种端到端的用于人脸对齐的网络。该网络基于深度可分离卷积构建，对倒残差模块进行改进，减少特征的损失。实验结果表明，该方法对人脸68个关键点的定位，在定位精度上优于大部分先进算法，而对面部主要器官的51个轮廓关键点的定位误差明显小于多数先进算法的定位误差，在性能方面具有良好的实时性，适用于对眼睛、鼻子、嘴巴定位精度较高且对人脸外轮廓定位精度相对较低的人脸任务。下一步将研究提高本文算法对人脸外部轮廓关键点的定位精度，使算法适用于更广泛的人脸研究相关领域。

参考文献

[1]	COOTES T F, TAYLOR C J, COOPER D H, et al. Active shape models-their training and application[J]. Computer Vision and Image Understanding, 1995, 61(1): 38-59. DOI:10.1006/cviu.1995.1004
[2]	COOTES T F, EDWARDS G J, TAYLOR C J, et al. Active appearance models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(6): 681-685. DOI:10.1109/34.927467
[3]	HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2020-07-10]. https://arxiv.org/pdf/1704.04861.pdf.
[4]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-07-10]. https://arxiv.org/abs/1409.1556.
[5]	SARAGIH J, GOECKE R. A nonlinear discriminative approach to AAM fitting[C]//Proceedings of the 11th IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2007: 1-8.
[6]	TZIMIROPOULOS G, PANTIC M. Optimization problems for fast AAM fitting in-the-wild[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2013: 593-600.
[7]	SUN Y, WANG X, TANG X, et al. Deep convolutional network cascade for facial point detection[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2013: 3476-3483.
[8]	ZHOU E, FAN H, CAO Z, et al. Extensive facial landmark localization with coarse-to-fine convolutional network cascade[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2013: 386-391.
[9]	ZHANG K, ZHANG Z, LI Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503. DOI:10.1109/LSP.2016.2603342
[10]	KOWALSKI M, NARUNIEC J, TRZCINSKI T P, et al. Deep alignment network: a convolutional neural network for robust face alignment[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2034-2043.
[11]	SANDER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 4510-4520.
[12]	HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 57(10): 181-196. DOI:10.1109/TPAMI.2019.2913372
[13]	JESORSKY O, KIRCHBERG K J, FRISCHHOLZ R W. Robust face detection using the Hausdorff distance[C]//Proceedings of IEEE AVBPAʼ01. Washington D.C., USA: IEEE Press, 2001: 90-95.
[14]	BELHUMEUR P N, JACOBS D W, KRIEGMAN D J, et al. Localizing parts of faces using a consensus of exemplars[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2930-2940.
[15]	KOSTINGER M, WOHLHART P, ROTH P M, et al. Annotated facial landmarks in the wild: a large-scale, real-world database for facial landmark localization[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2011: 2144-2151.
[16]	BELHUMEUR P N, JACOBS D W, KRIEGMAN D J, et al. Localizing parts of faces using a consensus of exemplars[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2011: 545-552.
[17]	ZHU X, RAMANAN D. Face detection, pose estimation, and landmark localization in the wild[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2012: 2879-2886.
[18]	SAGONAS C, TZIMIROPOULOS G, ZAFEIRIOU S, et al. A semi-automatic methodology for facial landmark annotation[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2013: 896-903.
[19]	XIONG X, LA TORRE F D. Supervised descent method and its applications to face alignment[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2013: 532-539.
[20]	ASTHANA A, ZAFEIRIOU S, CHENG S, et al. Robust discriminative response map fitting with constrained local models[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2013: 3444-3451.
[21]	ZHANG J, SHAN S G, KAN M N, et al. Coarse-to-fine auto-encoder networks for real-time face alignment[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 1-16.
[22]	CAO X, WEI Y, WEN F, et al. Face alignment by explicit shape regression[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2012: 2887-2894.
[23]	XIONG X, LA TORRE F D. Supervised descent method and its applications to face alignment[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2013: 532-539.
[24]	ZHU S, LI C, LOT C C, et al. Face alignment by coarse-to-fine shape searching[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 4998-5006.
[25]	ZHANG Z, LUO P, LOY C C, et al. Facial landmark detection by deep multi-task learning[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 94-108.
[26]	TIRGEORGIS G, SNAPE P, NICOLAOU M A, et al. Mnemonic descent method: a recurrent process applied for end-to-end face alignment[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 4177-4187.