人脸检测是计算机视觉领域的一个重要研究方向,其在实时监控、目标跟踪、安全验证等诸多场景中被广泛应用。在VIOLAJONES等人构建的目标检测框架[1-2]基础上,许多关于人脸检测的算法被陆续提出,这些算法不同程度地提高了人脸检测的准确性。在计算机视觉领域,早期的研究工作主要集中于提取不同类型的手工特征(如方向梯度直方图[3]和SURF算法[4]),并针对这些特征使用传统的机器学习方法训练有效的分类器来进行检测和识别。但此类方法通常需要研究者设计有效的手工特征,并且针对这些特征进行单独优化,影响了整体的检测效果。
近年来,深度学习特别是深度卷积神经网络在图像分类、目标检测和图像语义分割等方面取得了较多的研究成果。与传统方法相比,深度学习方法避免了手工设计特征,这使得模型具有良好的自适应能力,提升了模型的泛化能力[5]。因此,基于深度学习的目标检测方法被广泛应用于人脸检测。
基于目标检测框架RCNN[6]和深度学习的人脸检测方法能够取得良好的检测效果。文献[7]提出的方法结合了基础区域建议网络(Region Proposal Network,RPN)和RCNN。文献[8]提出的多尺度Faster-RCNN模型将不同层的特征图进行融合,实现了多尺度人脸检测。文献[9]提出一种改进的基于R-FCN模型的人脸检测算法,其根据人脸位置敏感的特性来提取特征图以提高人脸检测的性能。然而,在自然场景下,人脸图像常常会出现尺度过小、人脸过于密集或者人脸重叠等情况。一般而言,从图像中提取的深层次的特征图包含高层的语义信息,但是无法表达准确的人脸,针对小尺度或遮挡重叠等情况,卷积最后一层特征图经过映射后迅速缩小,这给人脸检测任务带来了很大的挑战,使得检测模型在上述情况下表现并不理想。
本文构建一种改进Faster-RCNN[10]模型用于自然场景人脸检测。使用更深层的残差网络ResNet-50代替VGG-16,从而准确提取人脸特征,同时采用多尺度融合策略融合低层次和高层次的特征图,使模型适用于不同尺度的人脸图像检测。进一步地,改变原始RPN中锚框(Anchor)的尺度和长宽比,以提升算法在小尺度人脸检测方面的性能,并使用在线难例挖掘(Online Hard Example Mining,OHEM)[11]、软非极大抑制(Soft-Non-Maximum Suppression,Soft-NMS)[12]和多尺度训练的方法提升算法对人脸检测的泛化能力。
1 相关工作人脸检测是计算机视觉中最基本和最具挑战性的问题之一。早期的人脸检测算法多基于手工特征和滑动窗口,而近年来,基于深度学习的方法被广泛用于人脸检测且具有更高的精度。
文献[1-2]提出使用类似矩形Harr的特征在一个级联的Adaboost分类器中实现实时的人脸检测。但由于特征尺寸较大,在24×24的检测窗口中,类似Harr的特征数量多达160 000个。此外,该模型无法有效处理非正面人脸和自然场景人脸。此后,随着实际场景中因人脸不同姿态对检测算法的要求越来越高,研究者陆续提出新的检测方法,包括建立新的局部特征[13]、采用级联结构的算法[14]和基于多种模型的有效级联模型[15-16]。DPM[17]是另一个重要的突破,其HOG特征顶部的可变形部分用于表示目标对象。在DPM的基础上,许多其他改进策略[18]通过使用受监督的组件、更多的姿态分配和更好的训练方法来提升模型性能。
随着深度学习技术的不断发展,许多基于深度学习的目标检测算法被提出应用于人脸检测,如Cascade-CNN[19]、MTCNN[20]将卷积神经网络作为滑动窗口检测器作用在图像金字塔上来建立特征金字塔。然而,使用图像金字塔会减慢检测速度并且降低内存使用效率。与此类方法不同的是,二阶段(Two Stage)检测直接在单尺度图像上提取特征。RCNN[6]通过选择性搜索(Selective Search)方法[21]获取候选区域,然后将候选区域输入到卷积神经网络中提取特征,在此基础上,使用支持向量机(Support Vector Machine,SVM)进行分类并采用边框回归(Boungding Box Regression)方法确定和校准目标位置。Faster-RCNN[10]、R-FCN[22]使用区域建议网络初始化候选区域,并利用感兴趣区域池化(ROI-Pooling)和位置敏感池化(Position-Sensitive Pooling)提取每个感兴趣区域的特征。文献[23]将Faster-RCNN应用于人脸检测中,该方法在FDDB人脸数据集上取得了良好的效果。文献[24]提出的Face R-FCN通过对得分图上的嵌入响应重新加权,并使用位置敏感的平均池化消除了每个人脸部位对得分贡献不均匀的影响。
2 改进的Faster⁃RCNN模型本节提出基于改进Faster-RCNN框架的人脸检测模型,通过构建多尺度特征图融合网络、增加Anchor数量、应用在线难例挖掘和线性非极大值抑制方法并进行多尺度训练,实现对小尺度人脸目标的准确匹配。
2.1 多尺度特征图融合网络结构在原始Faster-RCNN网络结构中,ROI-Pooling在卷积神经网络的最后一层被执行以生成候选区域[25]。然而这种方法并不是最佳的,有时会忽略一些重要的特征,因为深层的卷积特征图具有较大的感受野,对一些大尺度的目标人脸表现较好,而对于小尺度的目标人脸表现并不理想。为捕获感兴趣区域中更多细粒度的特征信息,同时引入上下文信息,本文提出通过融合多个卷积特征图(包括低层特征图和高层特征图)来改进ROI-Pooling。如图 1所示,首先将卷积特征图conv4f_x、con3c_x和con2c_x分别与得到的ROIs进行ROI-Pooling,然后对池化后的结果分别进行L2归一化(L2-Normalization)处理,使其在各个维度上不会存在较大差异,最后对得到的结果进行融合和尺度缩放。为使融合后的结果与原始网络结构相匹配,使用一个1×1的卷积核进行通道降维。
![]() |
Download:
|
图 1 多尺度融合网络结构 Fig. 1 Structure of multi-scale fusion network |
另一方面,重新对锚框进行设计,以获得包含更好位置信息的锚框。根据在训练集上的训练经验分析,将锚框的长宽比设置为3种,即1:1、1:1.5和2:1,将锚框的尺度设置为5种,即16×16、32×32、64×64、128×128和256×256,由此得到15种不同长宽比和尺度的锚框。这些不同大小的锚框对于捕捉小尺度人脸非常有用。由于Wider Face数据集中包含了许多小尺度人脸(宽度及高度小于16像素),因此在训练和测试中保留这些小的候选区域[26]。
2.2 L2归一化为在不同尺度上对人脸候选区域特征进行扩展,图 1所示的网络对3个不同尺度特征图进行ROI-Pooling操作后进行融合。通常,特征图的通道数量和尺度大小在ResNet-50的每一层都不同,而在更深的卷积层上对应的特征图尺度也更小。因此,直接对ROI-Pooling后的特征图进行融合可能效果不佳,因为特征图之间的尺度差异较大,而尺度大的特征可能会占据主导地位,从而减弱算法的鲁棒性。为解决这个问题,对每个ROI-Pooling后的特征图做L2归一化处理。在融合之前,将L2归一化方法应用于ROI-Pooling后每个特征图的每个像素中。归一化后,尺度缩放操作将独立应用于每个特征图。对于一个d维的输入x=(x1, x2, …, xd),应用L2范数对其进行标准化处理,如式(1)所示:
$\hat {\mathit{\boldsymbol{x}}} = \frac{x}{{\parallel \mathit{\boldsymbol{x}}{\parallel _2}}}$ | (1) |
输入x的L2范数,定义如式(2)所示:
$\parallel \mathit{\boldsymbol{x}}{\parallel _2} = {\left( {\mathop \sum \limits_{i = 1}^d |\mathit{\boldsymbol{x}}{|^2}} \right)^{\frac{1}{2}}}$ | (2) |
其中,x是原始像素向量,
引入缩放因子γi,并通过式(3)缩放归一化后的值:
${y_i} = {\gamma _i}{{\hat x}_i}$ | (3) |
在训练阶段,缩放因子γ和输入数据x通过反向传播来计算,相应的链式法定义为:
$\frac{{\partial l}}{{\partial \hat x}} = \frac{{\partial l}}{{\partial y}} \cdot \gamma \frac{{\partial l}}{{\partial x}} = \frac{{\partial l}}{{\partial \hat x}}\left( {\frac{I}{{|\left| x \right|{|_2}}} - \frac{{x{x^{\rm{T}}}}}{{|\left| x \right||_2^3}}} \right)\frac{{\partial l}}{{\partial {\gamma _i}}} = \mathop \sum \limits_{{y_i}} \frac{{\partial l}}{{\partial {y_i}}}{\hat x_i}$ | (4) |
对于提高基于深度卷积神经网络的目标检测准确率,在线难例挖掘已被确认为一种有效策略[11]。难例是指那些无法被网络准确预测到的样本。因此,将那些难例再次送入到网络中训练可以作为提升网络性能的有效手段。在原始Faster-RCNN中,候选区域和真值区域的重叠率(IOU)在[0.1,0.5]之间的样本被设置为负样本,重叠率大于0.5的被设置为正样本。为保持样本均衡,设置正负样本的比例为1:3。在训练时,因为被检测的是人脸,所以可能会出现一些极端的情况,如一张图像中可能会出现很多人脸、人脸与人脸之间存在严重遮挡、部分人脸尺度太小、角度偏转较大,由于这些难例与Ground Truth重叠率为0,因此无法加入到网络中训练。此外,人为设置正负样本的比例约束条件也会导致模型的训练不充分。
本文将在线难例挖掘算法加入到模型中。首先通过RPN计算候选区域的损失值,并将这些损失值从大到小排序,挑出前K个最大损失值作为难例加入到后续的网络中进行训练。同时,将负样本的阈值下调为0,并取消正负样本的比例,使网络能够自适应训练。
2.4 软非极大值抑制在目标检测过程中,非极大值抑制(NMS)算法在被检测的图像中产生一系列的检测框集合B以及对应的分数S。当选中最大分数的检测框M时,将M从集合B中移除并放入到最终的检测结果集合D,同时,集合B中任意与重叠率大于阈值Nt的检测框也被移除[12]。NMS算法中分数重置函数表示为:
${s_i} = \left\{ {\begin{array}{*{20}{l}} {{s_i}, {I_{{\rm{ou}}}}\left( {M, {b_i}} \right) < {N_{\rm{t}}}}\\ {0, {I_{{\rm{ou}}}}\left( {M, {b_i}} \right) \ge {N_{\rm{t}}}} \end{array}} \right.$ | (5) |
其中,Iou表示重叠率。但该方法存在一个明显的问题:如果图像上同一个区域人脸重叠度较高,其中有些人脸检测框分数被置为0,则会导致对该人脸的检测失败并降低算法的平均检测率(mAP),如图 2所示。
![]() |
Download:
|
图 2 重叠人脸漏检示意图 Fig. 2 Schematic diagram of omissive detection for overlapping face |
从图 2中可以看出,前面一个检测框人脸(女士)的得分值为0.98,后面一个检测框人脸(男士)的得分值为0.89,一般来说,设置人脸重叠率的阈值为0.3,而图中两个检测框的重叠率为0.33,根据NMS算法,重叠率超过阈值的检测框得分较低的将被移除,会导致无法检测出第2个框中的人脸。
针对NMS存在的问题,本文使用一种Soft-NMS算法[12]。基于重叠率的大小为相邻的检测框设置一个衰减函数而非彻底将其分数置为0。简单来说,如果一个检测框与M有大部分重叠,它会有很低的分数;而如果检测框与M只有小部分的重叠,则其原有检测分数不会受太大的影响。此外,Soft-NMS不需要额外的训练且易于实现,因此很容易被集成到模型中,Soft-NMS分数衰减函数如式(6)所示:
${s_i} = \left\{ {\begin{array}{*{20}{l}} {{s_i}, {I_{{\rm{ou}}}}\left( {M, {b_i}} \right) < {N_{\rm{t}}}}\\ {{s_i}\left( {1 - {I_{{\rm{ou}}}}\left( {M, {b_i}} \right)} \right), {I_{{\rm{ou}}}}\left( {M, {b_i}} \right) \ge {N_{\rm{t}}}} \end{array}} \right.$ | (6) |
原始的Faster-RCNN模型通常对所有训练图像采用固定尺度。本文通过将图像调整为随机尺度,使检测模型可以学习到不同尺度的特征,从而提高模型的检测性能。本文随机调整图像的大小,使图像的短边尺度为480、600或700,并确保图像的长边尺度不超过1 000,从而使模型对不同大小的图像具有鲁棒性。
3 实验与结果分析 3.1 实验环境与实验细节本文实验在Ubuntu 16.04系统及Caffe深度学习框架上进行,主干网络为ResNet-50,GPU为NVIDIA RTX2080Ti,采用迁移学习[27]的方法训练网络,使用ImageNet[28]上预训练的模型初始化网络参数。本文利用Wider Face人脸数据集训练模型,该数据集中图像均为自然场景下采集的图像,包含32 203张图像,其中有393 703个已经标注好的人脸图像,其姿态、形状、尺度大小、模糊程度、光照条件、是否遮挡等因素均具有差异,能够满足本文实验的训练要求。测试集为FDDB人脸标准测试集,包含2 845张图片,有5 171个人脸图像。
在训练阶段,将模型在Wider Face数据集上训练迭代160 000次,设置初始学习率为0.000 1,同时采用学习率衰减策略,衰减率为0.005,每经过40 000次迭代学习率衰减1次。图像输入到网络前先进行随机裁剪,确保其短边尺度为480、600或700,长边尺度不超过1 000。采用水平翻转作为数据增强策略。在RPN中,Anchor数量由原始的9个增加为15个,3种长宽比分别为1:1、1:1.5和2:1,5种不同的基础尺度分别为16×16、32×32、64×64、128×128和256×256。对于Fast⁃RCNN分类回归网络部分,设置ROI为前景的条件为其和真值框的IOU阈值大于等于0.5,其余为背景。当某个ROI的得分值高于0.8且与对应真正框的IOU小于0.5时,将其视为难例样本,这些难例样本会被送入后续的网络中进一步训练。
与训练阶段类似,在测试阶段,被测试的图像被随机裁剪后输入测试网络。对每张测试图像,RPN将产生128个候选框,当某个候选框分类得分值超过0.8时将其视为人脸。本文将Soft-NMS算法中的阈值设为0.3。
3.2 实验结果分析 3.2.1 不同改进策略对模型的提升比较为检验模型使用不同策略的有效性和贡献,在Wider Face人脸数据集上进行实验,并在其测试集上测试模型的平均精度,实验时设置相同的学习率0.000 1和迭代次数160 000,实验结果如表 1所示,其中,×表示未使用,√表示使用。
![]() |
下载CSV 表 1 不同策略对模型提升效果对比 Table 1 Effect comparison of model promotion by different strategies |
从表 1可以看出,原始Faster-RCNN模型检测的平均精度为85.6%,采用不同的改进策略对模型的提升效果不同,其中使用多尺度特征图融合对模型效果影响较为明显,而使用全部改进策略的最终模型检测平均精度达到89.0%,较原始模型提升了3.5%。
3.2.2 本文模型与其他经典模型的对比为比较本文模型与其他经典人脸检测模型(包括Cascade CNN[19]、Joint Cascade[29]等)的效果差异,将本文方法和其他经典方法在FDDB人脸数据库上进行测试评估。FDDB评估指标有两种,分别为离散分数和连续分数。离散分数是当检测的人脸和标注人脸的重叠率超过50%时,得分为1,否则为0。连续分数的值是检测人脸和标注人脸的重叠比率。本文采用离散分数作为评估模型的指标。根据模型在FDDB人脸数据库中的检测结果绘制相应的ROC曲线,如图 3所示。在实验中,本文提出的模型检测出FDDB人脸数据库5 171个人脸目标中的4 943个人脸,检出率为95.6%,其中漏检228个人脸,每张图像的平均检测时间为0.29 s。从图 3可以看出,本文模型所对应的ROC曲线位于最上方,明显高于其他模型对应的ROC曲线,说明本文提出的改进模型相较于目前其他流行的人脸检测模型在检测精度和检出率上均有所提高。
![]() |
Download:
|
图 3 本文模型与其他人脸检测模型性能比较 Fig. 3 Performance comparison of the proposed model and other face detection models |
为比较不同策略对模型时间性能的影响,将基于不同改进策略的模型在FDDB人脸标准测试集上进行测试,以平均检测每张图像所需时间和检测完2 845张图像所需时间作为对比项,结果如表 2所示。
![]() |
下载CSV 表 2 不同模型的时间性能对比 Table 2 Time performance comparison of different models |
从表 2可以看出,原始Faster-RCNN模型使用VGG16作为主干网络,平均检测每张图像所需时间为0.19 s,总检测时间为540.55 s,当采用更深的ResNet-50作为主干网络时,平均检测每张图像所需时间为0.26 s,相较于原始模型多用0.07 s,总检测时间为739.70 s,相较于原始模型多用199.15 s。当使用本文最终模型(ResNet-50+增加Anchor数量+多尺度特征图融合+在线难例挖掘+软非极大值抑制+多尺度训练)时,平均检测每张图像所需时间为0.29 s,相较于使用ResNet-50作为主干网络的原始模型多用0.03 s,总检测时间为825.05 s,相较于ResNet-50作为主干网络的原始模型多用85.35 s。分析可知,本文模型检测时间的增加主要耗费在使用更深的ResNet-50主干网络上,而其他改进策略对检测时间的耗费相对较少。总体来看,本文模型在以少量时间代价的基础上显著提升了人脸检测的精度,说明本文改进的方案是行之有效的。
3.2.4 调参失败案例分析在模型训练过程中,本文尝试通过3种不同的基础学习率来训练迭代模型,分别为0.00 1、0.000 1和0.000 01。实验结果表明:当使用较大的基础学习率0.001时,模型迭代较快,训练时间较短,但模型最终检测效果不理想;当使用0.000 1作为基础学习率时,模型迭代时间有所延迟,但模型最终检测效果较为理想;当使用较小的基础学习率0.000 01时,模型迭代缓慢,训练时间大幅延长,收敛缓慢,最终模型检测效果与基础学习率为0.000 1几乎无差别。
实验初始时,在多尺度特征图融合前未使用L2归一化方法,直接将不同尺度特征图融合后的特征传入后续网络,最终模型无法收敛到理想状态,检测效果不佳,导致实验失败。由于特征图的通道数量和尺度大小通常在卷积神经网络的每一层都不同,而在更深的卷积层上对应的特征图尺度也更小,因此直接将ROI-Pooling后的特征图进行融合可能会导致不好的效果,因为特征图之间的尺度差异较大。实验结果表明,L2归一化能有效解决这一问题。
3.2.5 检测效果用本文提出的改进模型检测从FDDB人脸数据库中随机抽取的一些图像,这些图像中存在人脸姿态不同、部分遮挡、人脸重叠、尺度较小、光照强度不同等情况,得到的检测结果如图 4所示。由图 4(a)可以看出,改进的模型能够很好地检测出不同姿态的人脸。由图 4(b)和图 4(d)可以看出,对于部分被遮挡的人脸,改进的模型也能很好地检测出且置信度较高。由图 4(c)可以看出,改进的模型也能很好地适应光照条件不同的自然场景下的人脸检测。由图 4(e)可以看出(右上方),对于人脸重叠的情况以及人脸尺度较小的情况,改进的模型也具有一定的鲁棒性。
![]() |
Download:
|
图 4 改进Faster-RCNN的人脸检测效果 Fig. 4 Face detection effect of improved Faster-RCNN |
本文针对自然场景人脸检测问题,提出一种改进的Faster-RCNN模型。以残差网络ResNet-50作为主干网络提取图像特征,采用多尺度特征图融合策略检测小尺度人脸,并将在线难例样本挖掘方法加入网络训练,从而提高对困难样本的检测精度。在此基础上,利用软非极大值抑制方法解决人脸目标重叠的问题,并引入多尺度训练策略进一步提升模型的检测精度与检出率。实验结果表明,该模型对自然场景下的人脸检测有较好的效果,其在Wider Face数据集上的检测精度为89.0%,在FDDB数据集上的检出率为95.6%,平均每张图像的检测时间为0.29 s。后续将进一步优化网络结构以更准确地提取图像人脸特征,同时适当轻量化主干网络,缩短检测时间。
[1] |
VIOLA P, JONES J.Rapid object detection using a boosted cascade of simple features[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2001: 511-518.
|
[2] |
VIOLA P, JONES J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154. DOI:10.1023/B:VISI.0000013087.49260.fb |
[3] |
ZHU Q, YEH M C, CHENG K T, et al.Fast human detection using a cascade of histograms of oriented gradients[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2006: 1491-1498.
|
[4] |
LI Jianguo, ZHANG Yimin.Learning SURF cascade for fast and accurate object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 3468-3475.
|
[5] |
ZHANG Zemiao, HUO Huan, ZHAO Fengyu. Survey of object detection algorithm based on deep convolutional neural networks[J]. Journal of Chinese Computer Systems, 2019, 40(9): 1825-1831. (in Chinese) 张泽苗, 霍欢, 赵逢禹. 深层卷积神经网络的目标检测算法综述[J]. 小型微型计算机系统, 2019, 40(9): 1825-1831. DOI:10.3969/j.issn.1000-1220.2019.09.004 |
[6] |
GIRSHICK R, DONAHUE J, DARRELL T, et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2014: 580-587.
|
[7] |
CHEN Dong, HUA Gang, WEN Fang, et al.Supervised transformer network for efficient face detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 122-138.
|
[8] |
LE T H N, ZHANG Y, ZHU C, et al.Multiple scale Faster-RCNN approach to driver's cell-phone usage and hands on steering wheel detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 46-53.
|
[9] |
DAI Haineng, MAO Yaobin. An improved face detection algorithm based on R-FCN model[J]. Computer and Modernization, 2018, 276(8): 16-19, 24. (in Chinese) 戴海能, 茅耀斌. 一种改进的基于R-FCN模型的人脸检测算法[J]. 计算机与现代化, 2018, 276(8): 16-19, 24. DOI:10.3969/j.issn.1006-2475.2018.08.004 |
[10] |
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031 |
[11] |
TANG Tianyu, ZHOU Shilin, DENG Zhipeng, et al. Vehicle detection in aerial images based on region convolutional neural networks and hard negative example mining[J]. Sensors, 2017, 17(2): 336. DOI:10.3390/s17020336 |
[12] |
BODLA N, SINGH B, CHELLAPPA R, et al.Soft-NMS-improving object detection with online of code[C]//Proceedings of 2017 IEEE International Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2017: 5562-5570.
|
[13] |
YANG Bin, YAN Junjie, LEI Zhen, et al.Aggregate channel features for multi-view face detection[C]//Proceedings of IEEE International Joint Conference on Biometrics.Washington D.C., USA: IEEE Press, 2014: 1-8.
|
[14] |
ZHANG Lun, CHU Rufeng, XIANG Shiming, et al.Face detection based on multi-block LBP representation[C]//Proceedings of International Conference on Biometrics.Berlin, Germany: Springer, 2007: 11-18.
|
[15] |
BOURDEV L, BRANDT J B.Robust object detection via soft cascade[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2005: 236-243.
|
[16] |
LI S Z, ZHU L, ZHANG Z Q.Statistical learning of multi-view face detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2002: 67-81.
|
[17] |
YAN Junjie, LEI Zhen, WEN Longyin.The fastest deformable part model for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2014: 2497-2504.
|
[18] |
FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al.Object detection with discriminatively trained part-based models[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2010: 1627-1645.
|
[19] |
LI Haoxiang, LIN Zhe, SHEN Xiaohui.A convolutional neural network cascade for face detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 5325-5334.
|
[20] |
ZHANG Kaipeng, ZHANG Zhanpeng, LI Zhifeng. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503. DOI:10.1109/LSP.2016.2603342 |
[21] |
UIJLINGS J R, VANDESANDE K E, GEVERS T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171. DOI:10.1007/s11263-013-0620-5 |
[22] |
DAI Jifeng, LI Yi, HE Kaiming, et al.R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems.New York, USA: ACM Press, 2016: 379-387.
|
[23] |
WAN Shaohua, CHEN Zhijun, ZHANG Tao, et al.Bootstrapping face detection with hard negative examples[EB/OL].(2016-08-07)[2019-10-10].https://arxiv.org/pdf/1608.02236.pdf.
|
[24] |
WANG Yitong, JI Xing, ZHOU Zheng, et al.Detecting faces using region-based fully convolutional networks[EB/OL].(2017-09-18)[2019-10-10].https://www.researchgate.net/publication/319875564_Detecting_Faces_Using_Region-based_Fully_Convolutional_Networks#read.
|
[25] |
CHEN Ze, YE Xueyi, QIAN Dingwei, et al. Small-scale pedestrian detection using improved Faster R-CNN network[J]. Computer Engineering, 2020, 46(9): 226-232, 241. (in Chinese) 陈泽, 叶学义, 钱丁炜, 等. 基于改进Faster R-CNN的小尺度行人检测[J]. 计算机工程, 2020, 46(9): 226-232, 241. |
[26] |
CHEN X L, GUPTA A.An implementation of Faster RCNN with study for region sampling[EB/OL].(2017-02-08)[2019-10-10].https://arxiv.org/pdf/1702.02138.pdf.
|
[27] |
ZHUANG Fuzhen, LUO Ping, HE Qing, et al. Research progress on transfer learning[J]. Journal of Software, 2015, 26(1): 26-39. (in Chinese) 庄福振, 罗平, 何清, 等. 迁移学习研究进展[J]. 软件学报, 2015, 26(1): 26-39. |
[28] |
RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. DOI:10.1007/s11263-015-0816-y |
[29] |
CHEN Dong, REN Shaoqing, WEI Yichen, et al.Joint cascade face detection and alignment[C]//Proceedings of the 13th European Conference on Computer Vision.Berlin, Germany: Springer, 2014: 109-122.
|