2. 河北工业大学 机械工程学院, 天津 300401
2. School of Mechanical Engineering, Hebei University of Technology, Tianjin 300401, China
开放科学(资源服务)标志码(OSID):
手势识别是人机交互的一个重要研究方向,在体感游戏、智能家居等场景有着广泛应用。LIAN[1]及YANG等[2]利用穿戴设备识别简单手势,但穿戴设备使用不便且难以推广。基于视觉的手势识别方法,由于其灵活便捷的优势成为研究热点。在深度学习成为研究热点之前,基于视觉的手势识别的重大突破多是由于使用了人工特征提取方法,如方向梯度直方图[3-5]、SIFT[6]等。对特征分类多采用支持向量机(Support Vector Machine,SVM),如文献[7]提出一种基于RGB-D数据的手势识别方法,通过分割手部区域提取手势特征,进而使用SVM进行分类。TARVEKAR等[8]提出一种用于非接触式的手势识别系统,该系统在多种颜色空间中检测肤色信息,应用皮肤阈值从分割图像中分割手部区域,从中提取颜色和边缘特征,并利用SVM分类器进行手势识别。文献[9]提出一种基于梯度方向直方图与局部二值模式融合的手势识别方法,利用主成分分析对梯度方向直方图特征描述算法进行降维,将降维后的数据与局部二值模式特征融合,最后利用SVM实现静态手势识别。
随着深度学习的发展,卷积神经网络逐渐被应用于各种领域。文献[10]通过Faster RCNN深度网络模型进行手势识别,能够在识别手势的同时进行手势检测。ZHANG等[11]采用改进的YOLOV3算法对静态手势进行识别,并综合使用Kinect设备采集的4种信息的优势,利用K-Means聚类算法对YOLOV3候选框参数进行优化,以提高手势识别精度。ZHOU等[12]基于DSSD算法提出一种静态手势识别算法,DSSD算法中的先验框宽高比并非手动设定,而是使用K-Means聚类算法和手肘法共同决定先验框宽高比,同时还利用迁移学习解决数据量小的问题。CHAUDHARY等[13]提出一个用于光不变手势识别系统的神经网络,利用方向直方图提取手势特征向量并对6类手势分类,结果表明,该网络在极端光照强度变化环境下的总体精度达到92.86%。ALNUJAIM等[14]利用手势对天线阻抗产生的变化进行分类,并将采集阻抗转化为光谱图,在采集时将信号转变为图像,利用卷积神经网络进行分类。
针对现有神经网络模型对手势特征表征不足的问题,本文提出一种结合注意力和特征融合的静态手势识别算法。引入注意力机制对输入特征图进行选择性输入,并通过特征融合将高级特征经上采样与低级特征相结合,增强特征表征能力,提高手势识别的分类精度。
1 相关工作注意力机制研究源于19世纪的实验室心理学,Google DeepMind团队提出注意力机制并将其用在图片分类中[15]。注意力机制的本质是对输入数据特定选择,使网络模型更加关注输入数据中的重要信息,抑制非重要信息。
WANG等[16]提出残差注意力网络,残差学习机制由多个注意力模块堆叠而成,注意力模块内部采用自底向上、自顶向下结构与堆叠的沙漏网络,能够快速收集图像全局信息,并将全局信息与原始特征图相结合,但存在计算量大的问题。HU等[17]提出SENet网络,通过压缩—激励方法使特征图通道间建立相互依赖关系,自适应调整特征图通道权重。WOO等[18-19]提出BAM及CBAM两种不同注意力模块,同时考虑空间注意力和通道注意力。BAM在深度神经网络下采样前发挥作用,其中通道注意力模型和空间注意力模型采用并联方式。CBAM通道注意力模型和空间注意力模型采用串联方式相结合,是一个轻量级注意力模块。WANG等[20]提出一种有效的通道注意力深度卷积神经网络ECA,通过借鉴SENet思想,将全连接层替换为一维卷积,并且采用自适应一维卷积对通道进行特征提取,联合相邻通道信息,虽然实验取得不错结果,但没有引入特征图空间关系。WU等[21]将多通道注意力机制用于人脸替换的鉴别任务中,在多通道注意力中融合了全局注意力和局部注意力。LU等[22]提出一种特征图注意力机制用于超分辨率图像重建,并获取特征通道间依赖关系,自适应地调整特征图通道权重。
特征融合多用于目标检测、图像分割领域中,通常通过融合多层特征提升检测和分割能力。LIN等[23]提出目标检测的特征金字塔网络,采用具有横向连接、自顶向下结构将高层语义特征与低层语义特征相结合,提高小目标检测能力。LIU等[24]提出路径聚合网络(Path Aggregation Network,PANet),采用自底向上的路径增强方法,以较底层的精确定位信号增强整个特征层,缩短较底层与最上层间的信息路径,并且提出自适应特征池化,将特征网络与各特征层连接。CAO等[25]提出一种基于注意力引导的语义特征金字塔网络(Attention-guided Context Feature Pynamid Network,ACFPN),利用注意力机制整合不同大规模区域信息。CHEN等[26]提出基于级联的多层特征融合策略,将浅层特征图与深层特征图按通道维度连接,解决小目标识别效果差的问题。LI等[27]针对目标尺度不同的问题,采用多尺度融合的思想,构建三分支网络,然后对低层特征和高层特征进行选择性融合。
2 本文算法本文算法创新点在于提出了一种新的注意力机制ACAM及特征图融合方式CFP。ACAM综合特征图的通道和空间信息,CFP融合低层和高层特征,有效提高了分类的准确度。除以上两点外,本文将ACAM、CFP运用在改进的MobileNetV2[28]上,提出了r-mobilenetv2算法。
2.1 注意力机制ACAM本文提出的注意力模块ACAM如图 1所示。ACAM由通道注意力模型和空间注意力模型两部分组成。通道注意力模型采用自适应一维卷积操作,且在通道注意力模型后添加跳跃连接,将通道注意力模型输出特征图F1与空间注意力模型输出特征图F2线性相加。假设初始输入特征图F大小为
![]() |
Download:
|
图 1 自适应通道注意力模块 Fig. 1 Adaptive convolution attention module |
整体注意力过程如式(1)所示:
$ \left\{\begin{array}{l}{\mathit{\pmb{F}}}_{1}=\mathrm{C}\mathrm{A}\left(\mathit{\pmb{F}}\right)\\ {\mathit{\pmb{F}}}_{2}=\mathrm{S}\mathrm{A}\left({\mathit{\pmb{F}}}_{1}\right)\\ {\mathit{\pmb{F}}}_{3}={\mathit{\pmb{F}}}_{1}+{\mathit{\pmb{F}}}_{2}\end{array}\right. $ | (1) |
其中:CA为通道注意力模型;SA为空间注意力模型;F为输入特征图;F1为经过通道注意力模型处理后的特征图;F2为经过空间注意力模型处理后的特征图;F3为整体注意力模型处理后的重建特征图。
通道注意力模型采用一维卷积对特征图通道信息处理,根据特征图通道数动态选择卷积核大小。通道注意力模型的工作流程如图 2所示。首先对输入特征图进行压缩,即在空间方向进行压缩,得到大小为
![]() |
Download:
|
图 2 通道注意力模型 Fig. 2 Channel attention model |
根据特征图共享卷积核的原则,可以推断通道数C与一维卷积核kernel-size:
$ k=f\left(C\right)=⌊\frac{\mathrm{l}\mathrm{b}\left(C\right)}{r}+\frac{b}{r}⌋ $ | (2) |
其中:
空间注意力模型在通道注意力输出特征图F1的基础上进行操作,如图 3所示。首先沿着通道所在维度方向进行均值化处理,得到大小为
![]() |
Download:
|
图 3 空间注意力模型 Fig. 3 Spatial attention model |
本文借鉴特征金字塔的思想,提出分类特征金字塔CFP。CFP的整体结构如图 4所示,采用横向连接、自顶向下与自底向上结合的连接方式。在stage2中高层特征A经上采样和stage1中低层特征B经一维卷积后得到的特征图线性相加,得到特征图G,特征图G经二维卷积得到特征图D,特征图D与高层特征A空间维度匹配后,在通道维度上连接,得到新特征图E,并送入后序网络中分类。
![]() |
Download:
|
图 4 分类特征金字塔 Fig. 4 Classification feature pyramid |
CFP主要分为stage1、stage2、stage3 3个部分,分别对应特征提取、上采样、特征融合3个方面。在stage1中,采用卷积神经网络对输入数据进行特征提取,自底而上的特征图空间维度依次减半,取最上两层特征图A、B作为最终特征融合所需特征图。stage2应用stage1中最上层高级语义特征A进行上采样,经上采样后的特征图空间尺度变为原来2倍,与stage1中特征图B在空间维度上匹配。stage1中特征图B经过1×1卷积调整通道数,使其与stage2中特征图A通道维度相匹配,两者进行简单线性相加。stage3将stage2中高分辨率特征图G经卷积操作使空间维度与低分辨率特征图A相匹配,并在通道维度连接。最后将融合特征图E送入后序网络分类。
2.3 r-mobilenetv2算法r-mobilenetv2在MobileNetV2基础上引入ACAM和CFP的同时,对原网络结构进行调整。具体为,删除最后一个输入尺寸为7×7×160的Inverted Residuals模块,并加入注意力机制ACAM和特征融合CFP。
MobileNet系列[28-30]为轻量级网络,虽然相较其他网络需要牺牲部分准确度,但在计算量和参数量上有着巨大优势。在224×224像素的RGB图片上,MobileNetV2的参数量仅为VGG16参数量的1.72%,是ResNet-18参数量的20.63%。故MobileNet系列及变体能够有效地部署在移动端。本文主要对MobuleNetV2进行改进。r-mobilenetv2的网络结构如表 1所示。其中:当重复次数大于1时,每组的第一个bottleneck中卷积步数为表中的值,其他默认卷积步数取1。一组bottleneck构成一个Inverted Residuals模块。
![]() |
下载CSV 表 1 r-mobilenetv2的网络结构 Table 1 Network structure of r-mobilenetv2 |
r-mobilenetv2在Inverted Residuals模块中Strides等于1和2时的共同部分后添加ACAM,最后在两个Inverted Residuals模块中引入CFP。加入ACAM的位置如图 5所示。
![]() |
Download:
|
图 5 ACAM机制在Inverted Residuals中的位置 Fig. 5 Position of ACAM mechanism in Inverted Residuals |
本文的实验硬件环境为Inter® Xeon® CPU E5-2640 v4@ 2.40 GHz,GPU为一块显存为11 GB的GTX 1080Ti。软件环境为Ubuntu16.04,Keras2.2.2。使用RMSprop对网络进行训练,初始学习率为0.001,权重衰减系数为1×10-6,batch-size设为64,若10个epoch后测试集准确率没有提升,学习率将衰减为原来的1/10,若30个epoch后测试集准确率没有提升,则程序停止。
3.1 数据来源及预处理本文在LaRED[31]数据集上进行实验测评。LaRED数据集共有27种基础手势,含242 900张图片。27种基础手势如图 6所示,每个基础手势取3个朝向,分别为基础手势、基础手势绕X轴旋转90°、基础手势绕X/Y轴各旋转90°的手势。从数据集中选取部分手势如图 7所示。
![]() |
Download:
|
图 6 LaRED数据集类别 Fig. 6 Classification of LaRED date set |
![]() |
Download:
|
图 7 LaRED数据集的部分数据 Fig. 7 Partial data of LaRED date set |
原始数据集是按帧采集的连续序列,相邻帧图片近似,故每15帧取一张图片,对数据集进行筛选,并只利用数据中的RGB信息。其中,训练集含12 955张图片,测试集含3 239张图片。对于处理好的图片采取RGB的方式输入,去均值后,送到后续网络中进行分类。
3.2 注意力机制ACAM实验分析本文首先在不同网络模型上验证所提注意力机制的适用性,然后在MobileNetV2网络的基础上添加不同注意力机制,并与本文所提注意力机制进行对比,以综合验证ACAM的有效性。选取网络ResNet-18[32]、ShuffleNetV2[33]、MobileNetV2进行对比,实验结果如表 2所示。
![]() |
下载CSV 表 2 ACAM在不同网络模型上的结果对比 Table 2 Comparison of ACAM results on different worknet models |
从表 2可知,本文所提ACAM虽然仅引入较少参数,但在不同网络模型的准确率上均有1个百分点左右的提升,证明了ACAM的适用性。ACAM在ResNet-18网络上的错误率降低了1.57个百分点,参数量增加214;在ShuffleNetV2网络上错误率降低0.77个百分点,参数量增加864;在MobileNetV2网络上错误率降低0.98个百分点,参数量增加892。
对比3种不同网络及加入ACAM的表现,MobileNetV2不管从Top1错误率还是参数量上均有明显优势。从Top1错误率看,MobileNetV2+ACAM的Top1错误率比ResNet-18降低了0.31个百分点,比ShuffleNetV2+ACAM降低0.92个百分点。从参数量上看,MobileNetV2+ACAM参数量仅为RestNet-18的20.64%,为ShuffleNetV2+ACAM的57.18%。综合以上考虑,选择在MobileNetV2基础上进行实验。
为验证ACAM的有效性,以MobileNetV2为例,在BAM、CBAM、ECA上与ACAM进行对比,实验结果如表 3所示。由表 3可知,在MobileNetV2上,不同注意力模型对于手势识别效果均有贡献。与MobileNetV2基础网络相比,MobileNetV2+BAM的参数量增加了157 400,在MobileNetV2参数量的基础上增加了6.81%;MobileNetV2+CBAM的参数量增加了60 286,在MobileNetV2参数量的基础上增加了2.61%;MobileNetV2+ECA参数量仅增加了59,增加参数量相对MobileNetV2参数量可忽略不计。本文所提ACAM与MobileNetV2结合后参数量为2 311 703,与MobileNetV2的参数量相比增加了892,相当于在MobileNetV2参数量的基础上增加3.86×10-4。在不考虑错误率情况下,通过引入参数量进行比较,BAM引入参数量最多,CBAM次之,ACAM和ECA引入参数量相对较少。综合Top1错误率和模型参数量两个衡量标准考虑,本文所提ACAM结果更优。
![]() |
下载CSV 表 3 不同注意力机制在MobileNetV2网络上的结果对比 Table 3 Comparison of results of different attention mechanisms on MobileNetV2 network |
将本文提出的注意力机制与特征融合模块加入MobileNetV2中,并对MobileNetV2进行修改,mobilenetv2为直接在MobileNetV2上修改后的网络,实验结果如表 4所示,其中“×”表示未添加,“√”表示添加。
![]() |
下载CSV 表 4 ACAM机制与CFP特征融合模块对网络性能的影响 Table 4 Influence of ACAM mechanism and CFP feature fusion module on network performance |
由表 4可知,在MobileNetV2基础上进行删减后,mobilenetv2的参数量减少了900 480,相当于MobileNetV2参数量的38.97%。mobilenetv2在减少参数量的同时准确率提升,Top1错误率减少0.3个百分点,这说明删减后的网络更适合手势识别。在MobileNetV2和mobilenetv2上添加CFP和ACAM,添加CFP后两种不同的网络MobileNetV2+CFP和mobilenetv2+CFP Top1的错误率均降低1个百分点左右,但参数量大幅上升,相较原基础网络,参数量分别增加了58.96%、19.27%。添加ACAM后,mobilenetv2+ACAM相较MobileNetV2+ACAM Top1错误率更低,在参数量更少的情况下,Top1错误率降低0.53个百分点。通过上述分析可知,CFP、ACAM对手势识别任务有效。将CFP和ACAM加入MobileNetV2和mobilenetv2中,形成R-MobileNetV2和r-mobilenetv2。其中R-MobileNetV2以未经删减的MobileNetV2为基础,r-mobilenetv2以删减后的MobileNetV2为基础。最终R-MobileNetV2相对MobileNetV2的Top1错误率降低了1.26个百分点,参数量相对MobileNetV2增加了59.00%,达到了3 674 263。r-mobilenetv2相对mobilenetv2 Top1的错误率降低了1.52个百分点,参数量相对mobilenetv2增加了11.79%,达到1 682 849;相对R-MobileNetV2 Top1的错误率降低了0.56个百分点,参数量仅为R-MobileNetV2的45.80%;相对MobileNetV2 Top1的错误率降低了1.82个百分点,达到1.17%,参数量仅为MobileNetV2的72.83%。以上实验结果充分验证了CFP、ACAM及r-mobilenetv2的有效性。
此外,在r-mobilenetv2网络中,选取测试集数据制作混淆矩阵,结果如图 8所示。由图 8可知,r-mobilenetv2对27种手势的预测基本完全正确,在手势识别中有着优异的表现。
![]() |
Download:
|
图 8 r-mobilenetv2算法的混淆矩阵 Fig. 8 Confusion matrix of r-mobilenetv2 algorithm |
为有效提取特征,解决特征表征不足的问题及提高手势识别精度,本文结合注意力机制和特征融合,提出一种轻量级网络静态手势识别算法r-mobilenetv2。通过结合空间注意力和通道注意力模型,得到一种自适应卷积注意力机制,针对高级语义特征含有的分类信息不完全问题,构建分类特征金字塔,并通过实验验证自适应卷积注意力机制及分类特征金字塔的有效性。实验结果表明,r-mobilenetv2算法的准确率达98.83%,与MobileNetV2算法相比,其参数量及Top1的错误率分别降低了27.20%、1.82个百分点。下一步将从损失函数、卷积方式入手对网络的适应性及实时性进行改进,提高网络识别精度及泛化性能。
[1] |
LIAN K Y, CHIU C C, HONG Y J, et al. Wearable armband for real time hand gesture recognition[C]//Proceedings of 2017 IEEE International Conference on Systems, Man, and Cybernetics. Washington D.C., USA: IEEE Press, 2017: 2992-2995. https://ieeexplore.ieee.org/document/8123083
|
[2] |
YANG A, CHUN S M, KIM J G. Detection and recognition of hand gesture for wearable applications in IoMTW[C]//Proceedings of the 19th International Conference on Advanced Communication Technology. Washington D.C., USA: IEEE Press, 2017: 598-601. https://ieeexplore.ieee.org/document/7890160
|
[3] |
WANG X, ZHOU Z, LI Y, et al. An algorithm for detecting the HOG features of head and shoulder of football players based on SVM classifier[C]//Proceedings of 2020 International Conference on Intelligent Transportation. Washington D.C., USA: IEEE Press, 2020: 845-849. https://ieeexplore.ieee.org/document/9110107
|
[4] |
NGUYEN N, BUI D, TRAN X. A novel hardware architecture for human detection using HOG-SVM co-optimization[C]//Proceedings of 2019 IEEE Asia Pacific Conference on Circuits and Systems. Washington D.C., USA: IEEE Press, 2019: 33-36. https://ieeexplore.ieee.org/document/8953123
|
[5] |
ARAVINDA C V, MENG L, PRABHU A. Signature recognition and verification using multiple classifiers combination of Hu's and HOG features[C]//Proceedings of 2019 International Conference on Advanced Mechatronic Systems. Washington D.C., USA: IEEE Press, 2019: 63-68. https://ieeexplore.ieee.org/document/8861686
|
[6] |
ZHONG B, LI Y. Image feature point matching based on improved SIFT algorithm[C]//Proceedings of 2019 IEEE International Conference on Image, Vision and Computing. Washington D.C., USA: IEEE Press, 2019: 489-493. https://ieeexplore.ieee.org/document/8981329
|
[7] |
文芳, 康彩琴, 陈立文, 等. 基于RGBD数据的静态手势识别[J]. 计算机与现代化, 2018(1): 74-77. WEN F, KANG C Q, CHEN L W, et al. Static handgesture recognition based on RGB data[J]. Computer and Modernization, 2018(1): 74-77. (in Chinese) |
[8] |
TARVEKAR M P. Hand gesture recognition system for touch-less car interface using multiclass support vector machine[C]//Proceedings of 2018 International Conference on Intelligent Computing and Control Systems. Washington D.C., USA: IEEE Press, 2018: 1929-1932.
|
[9] |
缑新科, 王瑶. 基于特征融合的静态手势识别[J]. 计算机与数字工程, 2018, 46(7): 1336-1340. GOU X K, WANG Y. Static gesture recognition based on feature fusion[J]. Computer and Digital Engineering, 2018, 46(7): 1336-1340. (in Chinese) |
[10] |
吴晓凤, 张江鑫, 徐欣晨. 基于Faster RCNN的手势识别算法[J]. 计算机辅助设计与图形学学报, 2018, 32: 187-192. WU X F, ZHANG J X, XU X C. Hand gesture recognition algorithm based on faster R-CNN[J]. Journal of Computer Aided Design and Graphics, 2018, 32(6): 187-192. (in Chinese) |
[11] |
张强, 张勇, 刘芝国, 等. 基于改进YOLOv3的手势实时识别方法[J]. 计算机工程, 2020, 46(3): 237-245, 253. ZHANG Q, ZHANG Y, LIU Z G, et al. Real-time hand gesture recognition method based on improved YOLOv3[J]. Computer Engineering, 2020, 46(3): 237-245, 253. (in Chinese) |
[12] |
周文军, 张勇, 王昱洁. 基于DSSD的静态手势实时识别方法[J]. 计算机工程, 2020, 46(2): 255-261. ZHOU W J, ZHANG Y, WANG Y J. Real-time recognition method for static gestures based on DSSD[J]. Computer Engineering, 2020, 46(2): 255-261. (in Chinese) |
[13] |
CHAUDHARY A, RAHEGA J L. Light invariant real-time robust hand gesture recognition[J]. Optik, 2018, 159: 283-294. DOI:10.1016/j.ijleo.2017.11.158 |
[14] |
ALNUJAIM I, ALALI H, KHAN F, et al. Hand gesture recognition using input impedance variation of two antennas with transfer learning[J]. IEEE Sensors Journal, 2018, 18(10): 4129-4135. DOI:10.1109/JSEN.2018.2820000 |
[15] |
MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2014: 8-13.
|
[16] |
WANG F, JIANG M, QIAN C, et al. Residual attention network for image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 3156-3164. https://ieeexplore.ieee.org/document/8100166
|
[17] |
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7132-7141. https://ieeexplore.ieee.org/document/8578843
|
[18] |
PARK J, WOO S, LEE J Y, et al. BAM: bottleneck attention module[EB/OL]. [2021-01-20]. https://www.researchgate.net/publication/263390366_Recurrent_Models_of_Visual_Attention.
|
[19] |
WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of 2018 European Conference on Computer Vision. New York, USA: ACM Press, 2018: 3-19. https://link.springer.com/chapter/10.1007/978-3-030-01234-2_1
|
[20] |
WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognitio. Washington D.C., USA: IEEE Press, 2020: 13-19. https://ieeexplore.ieee.org/document/9156697
|
[21] |
武茜, 贾世杰. 基于多通道注意力机制的人脸替换鉴别[J]. 计算机工程, 2022, 48(2): 180-185, 193. WU Q, JIA S J. Face swapping detection based on multi-channel attention mechanism[J]. Computer Engineering, 2022, 48(2): 180-185, 193. (in Chinese) |
[22] |
鲁甜, 刘蓉, 刘明, 等. 基于特征图注意力机制的图像超分辨率重建[J]. 计算机工程, 2021, 47(3): 261-268. LU T, LIU R, LIU M, et al. Image super-resolution reconstruction based on attention mechanism of feature map[J]. Computer Engineering, 2021, 47(3): 261-268. (in Chinese) |
[23] |
LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 936-944. https://ieeexplore.ieee.org/document/8099589
|
[24] |
LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 8759-8768. https://ieeexplore.ieee.org/document/8579011
|
[25] |
CAO J, CHEN Q, GUO J, et al. Attention-guided context feature pyramid network for object detection[EB/OL]. [2021-01-20]. https://arxiv.org/abs/2005.11475v1.
|
[26] |
陈泽, 叶学义, 钱丁炜, 等. 基于改进Faster R-CNN的小尺度行人检测[J]. 计算机工程, 2020, 46(9): 226-232, 241. CHEN Z, YE X Y, QIAN D W, et al. Small-scale pedestrian detection based on improved Faster R-CNN[J]. Computer Engineering, 2020, 46(9): 226-232, 241. (in Chinese) |
[27] |
李季, 周轩弘, 何勇, 等. 基于尺度不变性与特征融合的目标检测算法[J]. 南京大学学报(自然科学), 2021, 57(2): 237-244. LI J, ZHOU X H, HE Y, et al. The algorithm based on scale in variance and feature fusion for object detection[J]. Jouranal of Nan Jing University(Nature Science), 2021, 57(2): 237-244. (in Chinese) |
[28] |
SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 4510-4520. https://ieeexplore.ieee.org/document/8578572
|
[29] |
HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2021-01-20]. https://arxiv.org/abs/1704.04861.
|
[30] |
HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 1314-1324. https://ieeexplore.ieee.org/document/9008835
|
[31] |
HSIAO Y S, SANCHEZRIERA J, LIM T, et al. LaRED: a large RGB-D extensible hand gesture dataset[C]//Proceedings of 2014 ACM Multimedia Systems Conference. New York, USA: ACM Press, 2014: 53-58. https://dl.acm.org/doi/10.1145/2557642.2563669
|
[32] |
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778. https://ieeexplore.ieee.org/document/7780459/figures#figures
|
[33] |
MA N, ZHANG X, ZHENG H T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]//Proceedings of the European Conference on Computer Vision. New York, USA: ACM Press, 2018: 116-131.
|