结合注意力机制与特征融合的静态手势识别算法

引用本文

胡宗承, 周亚同, 史宝军, 等. 结合注意力机制与特征融合的静态手势识别算法[J]. 计算机工程, 2022, 48(4), 240-246. DOI: 10.19678/j.issn.1000-3428.0060912.

HU Zongcheng, ZHOU Yatong, SHI Baojun, et al. Static Gesture Recognition Algorithm Based on Attention Mechanism and Feature Fusion[J]. Computer Engineering, 2022, 48(4), 240-246. DOI: 10.19678/j.issn.1000-3428.0060912.

基金项目

国家重点研发计划“智能机器人”专项子课题（2019YFB1312102）；河北省自然科学基金（F2019202364）

通信作者

周亚同（通信作者），教授、博士、博士生导师

作者简介

胡宗承（1993—），男，硕士研究生，主研方向为计算机视觉、图像处理;
史宝军，教授、博士、博士生导师;
何昊，讲师、博士

文章历史

收稿日期：2021-02-23
修回日期：2021-04-27

Contents Abstract Full text Figures/Tables PDF

结合注意力机制与特征融合的静态手势识别算法

胡宗承¹ , 周亚同¹ , 史宝军² , 何昊¹

1. 河北工业大学电子信息工程学院, 天津 300401;
2. 河北工业大学机械工程学院, 天津 300401

收稿日期：2021-02-23；修回日期：2021-04-27

基金项目：国家重点研发计划“智能机器人”专项子课题（2019YFB1312102）；河北省自然科学基金（F2019202364）

作者简介：胡宗承（1993—），男，硕士研究生，主研方向为计算机视觉、图像处理; 史宝军，教授、博士、博士生导师; 何昊，讲师、博士.

通信作者：周亚同（通信作者），教授、博士、博士生导师.

E-mail: zyt@hebut.edu.cn

摘要：卷积神经网络在手势识别领域应用广泛，但现有的卷积神经网络存在特征表征不足的问题，导致手势识别精度较低。提出一种轻量级静态手势识别算法r-mobilenetv2，通过串联通道注意力与空间注意力，将两者输出的特征图以跳跃连接的形式线性相加，得到一种全新的注意力机制。使用一维卷积调整低层特征的通道维度，将低级特征与经过上采样的高层特征进行空间维度匹配及通道维度匹配，并进行线性相加，其结果经卷积操作后与高层特征按通道维度连接，从而实现特征融合。在此基础上，将所提注意力机制与特征融合相结合，并用于改进后的轻量级网络MobileNetV2中，得到r-mobilenetv2算法。实验结果表明，与MobileNetV2算法相比，r-mobilenetv2算法的参数量降低了27%，错误率下降了1.82个百分点。

Static Gesture Recognition Algorithm Based on Attention Mechanism and Feature Fusion

HU Zongcheng¹ , ZHOU Yatong¹ , SHI Baojun² , HE Hao¹

1. School of Electronics and Information Engineering, Hebei University of Technology, Tianjin 300401, China;
2. School of Mechanical Engineering, Hebei University of Technology, Tianjin 300401, China

Abstract: Convolutional neural networks are widely used in the field of gesture recognition, but the existing convolutional neural networks have the problem of insufficient feature representation, resulting in low gesture recognition accuracy.This study proposes a lightweight static gesture recognition algorithm, r-mobilenetv2.By concatenating the channel attention and spatial attention, the output characteristic graphs of the two are linearly added in the form of a jump connection to obtain a new attention mechanism.Simultaneously, the channel dimension of the low-level features is adjusted by one-dimensional convolution.The low-level features are matched with the up-sampled high-level features in the spatial and channel dimensions, and they are added linearly.The results are connected to high-level features according to the channel dimension after convolution to realize feature fusion.On this basis, the proposed attention mechanism is combined with feature fusion and applied to the improved lightweight network MobileNetV2 to obtain the r-mobilenetv2 algorithm.The experimental results show that, compared with the MobileNetV2 algorithm, the number of parameters and error rate of the r-mobilenetv2 algorithm are reduced by 27% and 1.82 percentage points, respectively.

开放科学（资源服务）标志码（OSID）：

0 概述

手势识别是人机交互的一个重要研究方向，在体感游戏、智能家居等场景有着广泛应用。LIAN^[1]及YANG等^[2]利用穿戴设备识别简单手势，但穿戴设备使用不便且难以推广。基于视觉的手势识别方法，由于其灵活便捷的优势成为研究热点。在深度学习成为研究热点之前，基于视觉的手势识别的重大突破多是由于使用了人工特征提取方法，如方向梯度直方图^[3-5]、SIFT^[6]等。对特征分类多采用支持向量机（Support Vector Machine，SVM），如文献[7]提出一种基于RGB-D数据的手势识别方法，通过分割手部区域提取手势特征，进而使用SVM进行分类。TARVEKAR等^[8]提出一种用于非接触式的手势识别系统，该系统在多种颜色空间中检测肤色信息，应用皮肤阈值从分割图像中分割手部区域，从中提取颜色和边缘特征，并利用SVM分类器进行手势识别。文献[9]提出一种基于梯度方向直方图与局部二值模式融合的手势识别方法，利用主成分分析对梯度方向直方图特征描述算法进行降维，将降维后的数据与局部二值模式特征融合，最后利用SVM实现静态手势识别。

随着深度学习的发展，卷积神经网络逐渐被应用于各种领域。文献[10]通过Faster RCNN深度网络模型进行手势识别，能够在识别手势的同时进行手势检测。ZHANG等^[11]采用改进的YOLOV3算法对静态手势进行识别，并综合使用Kinect设备采集的4种信息的优势，利用K-Means聚类算法对YOLOV3候选框参数进行优化，以提高手势识别精度。ZHOU等^[12]基于DSSD算法提出一种静态手势识别算法，DSSD算法中的先验框宽高比并非手动设定，而是使用K-Means聚类算法和手肘法共同决定先验框宽高比，同时还利用迁移学习解决数据量小的问题。CHAUDHARY等^[13]提出一个用于光不变手势识别系统的神经网络，利用方向直方图提取手势特征向量并对6类手势分类，结果表明，该网络在极端光照强度变化环境下的总体精度达到92.86%。ALNUJAIM等^[14]利用手势对天线阻抗产生的变化进行分类，并将采集阻抗转化为光谱图，在采集时将信号转变为图像，利用卷积神经网络进行分类。

针对现有神经网络模型对手势特征表征不足的问题，本文提出一种结合注意力和特征融合的静态手势识别算法。引入注意力机制对输入特征图进行选择性输入，并通过特征融合将高级特征经上采样与低级特征相结合，增强特征表征能力，提高手势识别的分类精度。

1 相关工作

注意力机制研究源于19世纪的实验室心理学，Google DeepMind团队提出注意力机制并将其用在图片分类中^[15]。注意力机制的本质是对输入数据特定选择，使网络模型更加关注输入数据中的重要信息，抑制非重要信息。

WANG等^[16]提出残差注意力网络，残差学习机制由多个注意力模块堆叠而成，注意力模块内部采用自底向上、自顶向下结构与堆叠的沙漏网络，能够快速收集图像全局信息，并将全局信息与原始特征图相结合，但存在计算量大的问题。HU等^[17]提出SENet网络，通过压缩—激励方法使特征图通道间建立相互依赖关系，自适应调整特征图通道权重。WOO等^[18-19]提出BAM及CBAM两种不同注意力模块，同时考虑空间注意力和通道注意力。BAM在深度神经网络下采样前发挥作用，其中通道注意力模型和空间注意力模型采用并联方式。CBAM通道注意力模型和空间注意力模型采用串联方式相结合，是一个轻量级注意力模块。WANG等^[20]提出一种有效的通道注意力深度卷积神经网络ECA，通过借鉴SENet思想，将全连接层替换为一维卷积，并且采用自适应一维卷积对通道进行特征提取，联合相邻通道信息，虽然实验取得不错结果，但没有引入特征图空间关系。WU等^[21]将多通道注意力机制用于人脸替换的鉴别任务中，在多通道注意力中融合了全局注意力和局部注意力。LU等^[22]提出一种特征图注意力机制用于超分辨率图像重建，并获取特征通道间依赖关系，自适应地调整特征图通道权重。

特征融合多用于目标检测、图像分割领域中，通常通过融合多层特征提升检测和分割能力。LIN等^[23]提出目标检测的特征金字塔网络，采用具有横向连接、自顶向下结构将高层语义特征与低层语义特征相结合，提高小目标检测能力。LIU等^[24]提出路径聚合网络（Path Aggregation Network，PANet），采用自底向上的路径增强方法，以较底层的精确定位信号增强整个特征层，缩短较底层与最上层间的信息路径，并且提出自适应特征池化，将特征网络与各特征层连接。CAO等^[25]提出一种基于注意力引导的语义特征金字塔网络（Attention-guided Context Feature Pynamid Network，ACFPN），利用注意力机制整合不同大规模区域信息。CHEN等^[26]提出基于级联的多层特征融合策略，将浅层特征图与深层特征图按通道维度连接，解决小目标识别效果差的问题。LI等^[27]针对目标尺度不同的问题，采用多尺度融合的思想，构建三分支网络，然后对低层特征和高层特征进行选择性融合。

2 本文算法

本文算法创新点在于提出了一种新的注意力机制ACAM及特征图融合方式CFP。ACAM综合特征图的通道和空间信息，CFP融合低层和高层特征，有效提高了分类的准确度。除以上两点外，本文将ACAM、CFP运用在改进的MobileNetV2^[28]上，提出了r-mobilenetv2算法。

2.1 注意力机制ACAM

本文提出的注意力模块ACAM如图 1所示。ACAM由通道注意力模型和空间注意力模型两部分组成。通道注意力模型采用自适应一维卷积操作，且在通道注意力模型后添加跳跃连接，将通道注意力模型输出特征图F₁与空间注意力模型输出特征图F₂线性相加。假设初始输入特征图F大小为$ H\times W\times C $，通过ACAM中的通道注意力模型可得大小为$ 1\times 1\times C $的一维通道注意力特征图；通过ACAM中的空间注意力模型可得大小为$ H\times W\times 1 $的二维空间注意力特征图。

	Download: JPG larger image
图 1 自适应通道注意力模块 Fig. 1 Adaptive convolution attention module

整体注意力过程如式（1）所示：

$ \left\{\begin{array}{l}{\mathit{\pmb{F}}}_{1}=\mathrm{C}\mathrm{A}\left(\mathit{\pmb{F}}\right)\\ {\mathit{\pmb{F}}}_{2}=\mathrm{S}\mathrm{A}\left({\mathit{\pmb{F}}}_{1}\right)\\ {\mathit{\pmb{F}}}_{3}={\mathit{\pmb{F}}}_{1}+{\mathit{\pmb{F}}}_{2}\end{array}\right. $

(1)

其中：CA为通道注意力模型；SA为空间注意力模型；F为输入特征图；F₁为经过通道注意力模型处理后的特征图；F₂为经过空间注意力模型处理后的特征图；F₃为整体注意力模型处理后的重建特征图。

通道注意力模型采用一维卷积对特征图通道信息处理，根据特征图通道数动态选择卷积核大小。通道注意力模型的工作流程如图 2所示。首先对输入特征图进行压缩，即在空间方向进行压缩，得到大小为$ 1\times 1\times C $的特征图。然后，根据特征图通道数C，自适应选择一维卷积核大小，并根据卷积核大小使用一维卷积对相邻通道特征进行处理，增加通道间的相关性。再将一维卷积处理后的特征图通过激活函数进行重建。最后，将一维通道注意力特征图与输入特征图F相乘，输出为通道注意力输出特征图F₁。

	Download: JPG larger image
图 2 通道注意力模型 Fig. 2 Channel attention model

根据特征图共享卷积核的原则，可以推断通道数C与一维卷积核kernel-size：$ k $必然存在某种联系，即满足$ C=\phi \left(k\right)={2}^{(r\times k+b)} $。最基础假设从简单的线性映射验证该函数，即$ C=r\times k+b $，但线性映射表达性有限。另一方面由于计算机是二进制，而卷积神经网络中batch-size、通道维度大多习惯设为2ⁿ，故设$ C=\phi \left(k\right)={2}^{(r\times k+b)} $。采用非线性表示通道数C与一维卷积核$ k $之间关系，相较线性关系有更强的表现型，如式（2）所示：

$ k=f\left(C\right)=⌊\frac{\mathrm{l}\mathrm{b}\left(C\right)}{r}+\frac{b}{r}⌋ $

(2)

其中：$ k $为一维卷积核大小；C为输入特征图通道数；$ r $、$ b $为超参数，这里分别取$ r $为2，$ b $为1。

空间注意力模型在通道注意力输出特征图F₁的基础上进行操作，如图 3所示。首先沿着通道所在维度方向进行均值化处理，得到大小为$ H\times W\times 1 $的特征图。然后对其进行二维卷积操作，得到的特征图经激活函数激活后输出为二维空间注意力特征图。最后，将二维空间注意力特征图与通道注意力输出特征图F₁相乘得到空间注意力输出特征图F₂。

	Download: JPG larger image
图 3 空间注意力模型 Fig. 3 Spatial attention model

2.2 特征融合

本文借鉴特征金字塔的思想，提出分类特征金字塔CFP。CFP的整体结构如图 4所示，采用横向连接、自顶向下与自底向上结合的连接方式。在stage₂中高层特征A经上采样和stage₁中低层特征B经一维卷积后得到的特征图线性相加，得到特征图G，特征图G经二维卷积得到特征图D，特征图D与高层特征A空间维度匹配后，在通道维度上连接，得到新特征图E，并送入后序网络中分类。

	Download: JPG larger image
图 4 分类特征金字塔 Fig. 4 Classification feature pyramid

CFP主要分为stage₁、stage₂、stage₃ 3个部分，分别对应特征提取、上采样、特征融合3个方面。在stage₁中，采用卷积神经网络对输入数据进行特征提取，自底而上的特征图空间维度依次减半，取最上两层特征图A、B作为最终特征融合所需特征图。stage₂应用stage₁中最上层高级语义特征A进行上采样，经上采样后的特征图空间尺度变为原来2倍，与stage₁中特征图B在空间维度上匹配。stage₁中特征图B经过1×1卷积调整通道数，使其与stage₂中特征图A通道维度相匹配，两者进行简单线性相加。stage₃将stage₂中高分辨率特征图G经卷积操作使空间维度与低分辨率特征图A相匹配，并在通道维度连接。最后将融合特征图E送入后序网络分类。

2.3 r-mobilenetv2算法

r-mobilenetv2在MobileNetV2基础上引入ACAM和CFP的同时，对原网络结构进行调整。具体为，删除最后一个输入尺寸为7×7×160的Inverted Residuals模块，并加入注意力机制ACAM和特征融合CFP。

MobileNet系列^[28-30]为轻量级网络，虽然相较其他网络需要牺牲部分准确度，但在计算量和参数量上有着巨大优势。在224×224像素的RGB图片上，MobileNetV2的参数量仅为VGG16参数量的1.72%，是ResNet-18参数量的20.63%。故MobileNet系列及变体能够有效地部署在移动端。本文主要对MobuleNetV2进行改进。r-mobilenetv2的网络结构如表 1所示。其中：当重复次数大于1时，每组的第一个bottleneck中卷积步数为表中的值，其他默认卷积步数取1。一组bottleneck构成一个Inverted Residuals模块。

下载CSV 表 1 r-mobilenetv2的网络结构 Table 1 Network structure of r-mobilenetv2

r-mobilenetv2在Inverted Residuals模块中Strides等于1和2时的共同部分后添加ACAM，最后在两个Inverted Residuals模块中引入CFP。加入ACAM的位置如图 5所示。

	Download: JPG larger image
图 5 ACAM机制在Inverted Residuals中的位置 Fig. 5 Position of ACAM mechanism in Inverted Residuals

3 实验结果与分析

本文的实验硬件环境为Inter^® Xeon^® CPU E5-2640 v4@ 2.40 GHz，GPU为一块显存为11 GB的GTX 1080Ti。软件环境为Ubuntu16.04，Keras2.2.2。使用RMSprop对网络进行训练，初始学习率为0.001，权重衰减系数为1×10^-6，batch-size设为64，若10个epoch后测试集准确率没有提升，学习率将衰减为原来的1/10，若30个epoch后测试集准确率没有提升，则程序停止。

3.1 数据来源及预处理

本文在LaRED^[31]数据集上进行实验测评。LaRED数据集共有27种基础手势，含242 900张图片。27种基础手势如图 6所示，每个基础手势取3个朝向，分别为基础手势、基础手势绕X轴旋转90°、基础手势绕X/Y轴各旋转90°的手势。从数据集中选取部分手势如图 7所示。

	Download: JPG larger image
图 6 LaRED数据集类别 Fig. 6 Classification of LaRED date set

	Download: JPG larger image
图 7 LaRED数据集的部分数据 Fig. 7 Partial data of LaRED date set

原始数据集是按帧采集的连续序列，相邻帧图片近似，故每15帧取一张图片，对数据集进行筛选，并只利用数据中的RGB信息。其中，训练集含12 955张图片，测试集含3 239张图片。对于处理好的图片采取RGB的方式输入，去均值后，送到后续网络中进行分类。

3.2 注意力机制ACAM实验分析

本文首先在不同网络模型上验证所提注意力机制的适用性，然后在MobileNetV2网络的基础上添加不同注意力机制，并与本文所提注意力机制进行对比，以综合验证ACAM的有效性。选取网络ResNet-18^[32]、ShuffleNetV2^[33]、MobileNetV2进行对比，实验结果如表 2所示。

下载CSV 表 2 ACAM在不同网络模型上的结果对比 Table 2 Comparison of ACAM results on different worknet models

从表 2可知，本文所提ACAM虽然仅引入较少参数，但在不同网络模型的准确率上均有1个百分点左右的提升，证明了ACAM的适用性。ACAM在ResNet-18网络上的错误率降低了1.57个百分点，参数量增加214；在ShuffleNetV2网络上错误率降低0.77个百分点，参数量增加864；在MobileNetV2网络上错误率降低0.98个百分点，参数量增加892。

对比3种不同网络及加入ACAM的表现，MobileNetV2不管从Top1错误率还是参数量上均有明显优势。从Top1错误率看，MobileNetV2+ACAM的Top1错误率比ResNet-18降低了0.31个百分点，比ShuffleNetV2+ACAM降低0.92个百分点。从参数量上看，MobileNetV2+ACAM参数量仅为RestNet-18的20.64%，为ShuffleNetV2+ACAM的57.18%。综合以上考虑，选择在MobileNetV2基础上进行实验。

为验证ACAM的有效性，以MobileNetV2为例，在BAM、CBAM、ECA上与ACAM进行对比，实验结果如表 3所示。由表 3可知，在MobileNetV2上，不同注意力模型对于手势识别效果均有贡献。与MobileNetV2基础网络相比，MobileNetV2+BAM的参数量增加了157 400，在MobileNetV2参数量的基础上增加了6.81%；MobileNetV2+CBAM的参数量增加了60 286，在MobileNetV2参数量的基础上增加了2.61%；MobileNetV2+ECA参数量仅增加了59，增加参数量相对MobileNetV2参数量可忽略不计。本文所提ACAM与MobileNetV2结合后参数量为2 311 703，与MobileNetV2的参数量相比增加了892，相当于在MobileNetV2参数量的基础上增加3.86×10^-4。在不考虑错误率情况下，通过引入参数量进行比较，BAM引入参数量最多，CBAM次之，ACAM和ECA引入参数量相对较少。综合Top1错误率和模型参数量两个衡量标准考虑，本文所提ACAM结果更优。

下载CSV 表 3 不同注意力机制在MobileNetV2网络上的结果对比 Table 3 Comparison of results of different attention mechanisms on MobileNetV2 network

3.3 改进网络实验分析

将本文提出的注意力机制与特征融合模块加入MobileNetV2中，并对MobileNetV2进行修改，mobilenetv2为直接在MobileNetV2上修改后的网络，实验结果如表 4所示，其中“×”表示未添加，“√”表示添加。

下载CSV 表 4 ACAM机制与CFP特征融合模块对网络性能的影响 Table 4 Influence of ACAM mechanism and CFP feature fusion module on network performance

由表 4可知，在MobileNetV2基础上进行删减后，mobilenetv2的参数量减少了900 480，相当于MobileNetV2参数量的38.97%。mobilenetv2在减少参数量的同时准确率提升，Top1错误率减少0.3个百分点，这说明删减后的网络更适合手势识别。在MobileNetV2和mobilenetv2上添加CFP和ACAM，添加CFP后两种不同的网络MobileNetV2+CFP和mobilenetv2+CFP Top1的错误率均降低1个百分点左右，但参数量大幅上升，相较原基础网络，参数量分别增加了58.96%、19.27%。添加ACAM后，mobilenetv2+ACAM相较MobileNetV2+ACAM Top1错误率更低，在参数量更少的情况下，Top1错误率降低0.53个百分点。通过上述分析可知，CFP、ACAM对手势识别任务有效。将CFP和ACAM加入MobileNetV2和mobilenetv2中，形成R-MobileNetV2和r-mobilenetv2。其中R-MobileNetV2以未经删减的MobileNetV2为基础，r-mobilenetv2以删减后的MobileNetV2为基础。最终R-MobileNetV2相对MobileNetV2的Top1错误率降低了1.26个百分点，参数量相对MobileNetV2增加了59.00%，达到了3 674 263。r-mobilenetv2相对mobilenetv2 Top1的错误率降低了1.52个百分点，参数量相对mobilenetv2增加了11.79%，达到1 682 849；相对R-MobileNetV2 Top1的错误率降低了0.56个百分点，参数量仅为R-MobileNetV2的45.80%；相对MobileNetV2 Top1的错误率降低了1.82个百分点，达到1.17%，参数量仅为MobileNetV2的72.83%。以上实验结果充分验证了CFP、ACAM及r-mobilenetv2的有效性。

此外，在r-mobilenetv2网络中，选取测试集数据制作混淆矩阵，结果如图 8所示。由图 8可知，r-mobilenetv2对27种手势的预测基本完全正确，在手势识别中有着优异的表现。

	Download: JPG larger image
图 8 r-mobilenetv2算法的混淆矩阵 Fig. 8 Confusion matrix of r-mobilenetv2 algorithm

4 结束语

为有效提取特征，解决特征表征不足的问题及提高手势识别精度，本文结合注意力机制和特征融合，提出一种轻量级网络静态手势识别算法r-mobilenetv2。通过结合空间注意力和通道注意力模型，得到一种自适应卷积注意力机制，针对高级语义特征含有的分类信息不完全问题，构建分类特征金字塔，并通过实验验证自适应卷积注意力机制及分类特征金字塔的有效性。实验结果表明，r-mobilenetv2算法的准确率达98.83%，与MobileNetV2算法相比，其参数量及Top1的错误率分别降低了27.20%、1.82个百分点。下一步将从损失函数、卷积方式入手对网络的适应性及实时性进行改进，提高网络识别精度及泛化性能。

参考文献

[1]	LIAN K Y, CHIU C C, HONG Y J, et al. Wearable armband for real time hand gesture recognition[C]//Proceedings of 2017 IEEE International Conference on Systems, Man, and Cybernetics. Washington D.C., USA: IEEE Press, 2017: 2992-2995. https://ieeexplore.ieee.org/document/8123083
[2]	YANG A, CHUN S M, KIM J G. Detection and recognition of hand gesture for wearable applications in IoMTW[C]//Proceedings of the 19th International Conference on Advanced Communication Technology. Washington D.C., USA: IEEE Press, 2017: 598-601. https://ieeexplore.ieee.org/document/7890160
[3]	WANG X, ZHOU Z, LI Y, et al. An algorithm for detecting the HOG features of head and shoulder of football players based on SVM classifier[C]//Proceedings of 2020 International Conference on Intelligent Transportation. Washington D.C., USA: IEEE Press, 2020: 845-849. https://ieeexplore.ieee.org/document/9110107
[4]	NGUYEN N, BUI D, TRAN X. A novel hardware architecture for human detection using HOG-SVM co-optimization[C]//Proceedings of 2019 IEEE Asia Pacific Conference on Circuits and Systems. Washington D.C., USA: IEEE Press, 2019: 33-36. https://ieeexplore.ieee.org/document/8953123
[5]	ARAVINDA C V, MENG L, PRABHU A. Signature recognition and verification using multiple classifiers combination of Hu's and HOG features[C]//Proceedings of 2019 International Conference on Advanced Mechatronic Systems. Washington D.C., USA: IEEE Press, 2019: 63-68. https://ieeexplore.ieee.org/document/8861686
[6]	ZHONG B, LI Y. Image feature point matching based on improved SIFT algorithm[C]//Proceedings of 2019 IEEE International Conference on Image, Vision and Computing. Washington D.C., USA: IEEE Press, 2019: 489-493. https://ieeexplore.ieee.org/document/8981329
[7]	文芳, 康彩琴, 陈立文, 等. 基于RGBD数据的静态手势识别[J]. 计算机与现代化, 2018(1): 74-77. WEN F, KANG C Q, CHEN L W, et al. Static handgesture recognition based on RGB data[J]. Computer and Modernization, 2018(1): 74-77. (in Chinese)
[8]	TARVEKAR M P. Hand gesture recognition system for touch-less car interface using multiclass support vector machine[C]//Proceedings of 2018 International Conference on Intelligent Computing and Control Systems. Washington D.C., USA: IEEE Press, 2018: 1929-1932.
[9]	缑新科, 王瑶. 基于特征融合的静态手势识别[J]. 计算机与数字工程, 2018, 46(7): 1336-1340. GOU X K, WANG Y. Static gesture recognition based on feature fusion[J]. Computer and Digital Engineering, 2018, 46(7): 1336-1340. (in Chinese)
[10]	吴晓凤, 张江鑫, 徐欣晨. 基于Faster RCNN的手势识别算法[J]. 计算机辅助设计与图形学学报, 2018, 32: 187-192. WU X F, ZHANG J X, XU X C. Hand gesture recognition algorithm based on faster R-CNN[J]. Journal of Computer Aided Design and Graphics, 2018, 32(6): 187-192. (in Chinese)
[11]	张强, 张勇, 刘芝国, 等. 基于改进YOLOv3的手势实时识别方法[J]. 计算机工程, 2020, 46(3): 237-245, 253. ZHANG Q, ZHANG Y, LIU Z G, et al. Real-time hand gesture recognition method based on improved YOLOv3[J]. Computer Engineering, 2020, 46(3): 237-245, 253. (in Chinese)
[12]	周文军, 张勇, 王昱洁. 基于DSSD的静态手势实时识别方法[J]. 计算机工程, 2020, 46(2): 255-261. ZHOU W J, ZHANG Y, WANG Y J. Real-time recognition method for static gestures based on DSSD[J]. Computer Engineering, 2020, 46(2): 255-261. (in Chinese)
[13]	CHAUDHARY A, RAHEGA J L. Light invariant real-time robust hand gesture recognition[J]. Optik, 2018, 159: 283-294. DOI:10.1016/j.ijleo.2017.11.158
[14]	ALNUJAIM I, ALALI H, KHAN F, et al. Hand gesture recognition using input impedance variation of two antennas with transfer learning[J]. IEEE Sensors Journal, 2018, 18(10): 4129-4135. DOI:10.1109/JSEN.2018.2820000
[15]	MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2014: 8-13.
[16]	WANG F, JIANG M, QIAN C, et al. Residual attention network for image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 3156-3164. https://ieeexplore.ieee.org/document/8100166
[17]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7132-7141. https://ieeexplore.ieee.org/document/8578843
[18]	PARK J, WOO S, LEE J Y, et al. BAM: bottleneck attention module[EB/OL]. [2021-01-20]. https://www.researchgate.net/publication/263390366_Recurrent_Models_of_Visual_Attention.
[19]	WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of 2018 European Conference on Computer Vision. New York, USA: ACM Press, 2018: 3-19. https://link.springer.com/chapter/10.1007/978-3-030-01234-2_1
[20]	WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognitio. Washington D.C., USA: IEEE Press, 2020: 13-19. https://ieeexplore.ieee.org/document/9156697
[21]	武茜, 贾世杰. 基于多通道注意力机制的人脸替换鉴别[J]. 计算机工程, 2022, 48(2): 180-185, 193. WU Q, JIA S J. Face swapping detection based on multi-channel attention mechanism[J]. Computer Engineering, 2022, 48(2): 180-185, 193. (in Chinese)
[22]	鲁甜, 刘蓉, 刘明, 等. 基于特征图注意力机制的图像超分辨率重建[J]. 计算机工程, 2021, 47(3): 261-268. LU T, LIU R, LIU M, et al. Image super-resolution reconstruction based on attention mechanism of feature map[J]. Computer Engineering, 2021, 47(3): 261-268. (in Chinese)
[23]	LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 936-944. https://ieeexplore.ieee.org/document/8099589
[24]	LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 8759-8768. https://ieeexplore.ieee.org/document/8579011
[25]	CAO J, CHEN Q, GUO J, et al. Attention-guided context feature pyramid network for object detection[EB/OL]. [2021-01-20]. https://arxiv.org/abs/2005.11475v1.
[26]	陈泽, 叶学义, 钱丁炜, 等. 基于改进Faster R-CNN的小尺度行人检测[J]. 计算机工程, 2020, 46(9): 226-232, 241. CHEN Z, YE X Y, QIAN D W, et al. Small-scale pedestrian detection based on improved Faster R-CNN[J]. Computer Engineering, 2020, 46(9): 226-232, 241. (in Chinese)
[27]	李季, 周轩弘, 何勇, 等. 基于尺度不变性与特征融合的目标检测算法[J]. 南京大学学报(自然科学), 2021, 57(2): 237-244. LI J, ZHOU X H, HE Y, et al. The algorithm based on scale in variance and feature fusion for object detection[J]. Jouranal of Nan Jing University(Nature Science), 2021, 57(2): 237-244. (in Chinese)
[28]	SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 4510-4520. https://ieeexplore.ieee.org/document/8578572
[29]	HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2021-01-20]. https://arxiv.org/abs/1704.04861.
[30]	HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 1314-1324. https://ieeexplore.ieee.org/document/9008835
[31]	HSIAO Y S, SANCHEZRIERA J, LIM T, et al. LaRED: a large RGB-D extensible hand gesture dataset[C]//Proceedings of 2014 ACM Multimedia Systems Conference. New York, USA: ACM Press, 2014: 53-58. https://dl.acm.org/doi/10.1145/2557642.2563669
[32]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778. https://ieeexplore.ieee.org/document/7780459/figures#figures
[33]	MA N, ZHANG X, ZHENG H T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]//Proceedings of the European Conference on Computer Vision. New York, USA: ACM Press, 2018: 116-131.