引入坐标注意力和自注意力的人体关键点检测研究

引用本文

刘圣杰, 何宁, 于海港, 等. 引入坐标注意力和自注意力的人体关键点检测研究[J]. 计算机工程, 2022, 48(12), 86-94. DOI: 10.19678/j.issn.1000-3428.0063010.

LIU Shengjie, HE Ning, YU Haigang, et al. Research on Human Key Point Detection with Coordinated Attention and Self-Attention[J]. Computer Engineering, 2022, 48(12), 86-94. DOI: 10.19678/j.issn.1000-3428.0063010.

基金项目

国家自然科学基金(61872042, 62172045);国家重点研发计划(2018AAA0100804);北京市教委科技计划重点项目(KZ201911417048);北京联合大学人才强校优选计划(BPHR2020AZ01, BPHR2020EZ01);北京联合大学科研项目(ZK50202001)

通信作者

何宁（通信作者），教授、博士

作者简介

刘圣杰（1997—），男，硕士研究生，主研方向为计算机视觉、数字图像处理;
于海港，硕士研究生;
王程，硕士研究生;
韩文静，硕士研究生

文章历史

收稿日期：2021-10-20
修回日期：2021-12-25

Contents Abstract Full text Figures/Tables PDF

引入坐标注意力和自注意力的人体关键点检测研究

刘圣杰^1,2 , 何宁^1,3 , 于海港^1,2 , 王程^1,2 , 韩文静^1,3

1. 北京联合大学北京市信息服务工程重点实验室, 北京 100101;
2. 北京联合大学机器人学院, 北京 100101;
3. 北京联合大学智慧城市学院, 北京 100101

收稿日期：2021-10-20；修回日期：2021-12-25

基金项目：国家自然科学基金(61872042, 62172045);国家重点研发计划(2018AAA0100804);北京市教委科技计划重点项目(KZ201911417048);北京联合大学人才强校优选计划(BPHR2020AZ01, BPHR2020EZ01);北京联合大学科研项目(ZK50202001)

作者简介：刘圣杰（1997—），男，硕士研究生，主研方向为计算机视觉、数字图像处理; 于海港，硕士研究生; 王程，硕士研究生; 韩文静，硕士研究生.

通信作者：何宁（通信作者），教授、博士.

E-mail: xxthening@buu.edu.cn

摘要：人体关键点检测在智能视频监控、人机交互等领域具有重要应用。多数基于深度学习的人体关键点检测算法仅聚焦于增加多尺度特征或加深网络模型深度，忽略了在获取低分辨率特征图过程中因重复下采样操作而造成的信息丢失。针对该问题，提出一种高分辨率的人体关键点检测网络CASANet，以实现二维图像人体姿态估计。使用HRNet作为骨干网络，引入坐标注意力模块在1/16分辨率特征图分支上捕获位置信息和通道信息，利用自注意力模块在1/32分辨率特征图分支上捕获位置信息和通道信息的内部相关性，通过这2个模块克服网络在获取低分辨率特征图过程中的信息丢失问题。在MS COCOVAL 2017数据集上进行实验，结果表明，CASANet网络可以在参数量和计算量有少量提升的情况下获得更高的检测准确度，有效提升通道信息和位置信息的提取效果，相较基线方法，CASANet的AP值提高2.4个百分点。

Research on Human Key Point Detection with Coordinated Attention and Self-Attention

LIU Shengjie^1,2 , HE Ning^1,3 , YU Haigang^1,2 , WANG Cheng^1,2 , HAN Wenjing^1,3

1. Beijing Key Laboratory of Information Service Engineering, Beijing Union University, Beijing 100101, China;
2. College of Robotics, Beijing Union University, Beijing 100101, China;
3. Smart City College, Beijing Union University, Beijing 100101, China

Abstract: Human key point detection has important applications in intelligent video surveillance, human-computer interaction, and other fields.Most human key point detection algorithms based on depth learning focus only on adding multi-scale features or deepening the network model depth, ignoring the information loss caused by repeated downsampling operations in obtaining low-resolution feature maps.To solve this problem, a high-resolution human key point detection network CASANet is proposed to estimate human postures in two-dimensional images.HRNet is used as the backbone network, a Coordinated Attention(CA) module is introduced to capture the position and channel information on the 1/16 resolution feature map branch, and a self-attention module is used to capture the internal correlation of the position and channel information on the 1/32 resolution feature map branch.Using these two modules, the information lost when obtaining low-resolution feature maps is overcome.Experiments were conducted on the MS COCOVAL 2017 dataset, and the results show that CASANet can achieve a higher detection accuracy with a small increase in parameters and computation and effectively improve the extraction effect of channel and location information.Compared with the baseline method, the Average Precision(AP) value of CASANet increased by 2.4 percentage points.

开放科学(资源服务)标志码(OSID)：

0 概述

人体姿态估计又称人体关键点检测，其目的是根据图像、视频等输入数据来定位人体部位并建立人体表征（如人体骨骼）。近年来，人体姿态估计引起了很多研究人员的关注，已成为计算机视觉的基本任务之一，广泛应用于人机交互、运动分析、增强现实、虚拟现实等领域^[1]。深度学习在人体关键点检测任务中取得了显著效果，但是其存在训练数据不足、模糊、遮挡等问题，因此，解决人体姿态估计问题仍然面临较大挑战^[2]。

人体关键点检测可以分为基于2D和基于3D的两类方法。2D人体关键点检测又可以分为单人关键点检测和多人关键点检测两种类别。

单人关键点检测研究主要在MPII数据集上展开：WEI等^[3]提出CPM，将深度学习应用于人体姿态估计任务，其网络结构中设计多个stage，同时用卷积层表达纹理信息和空间信息，提高了关键点检测的效果；NEWELL等^[4]提出Hourglass网络，其延续了多stage结构设计，且结构中包含不同尺度的信息，通过不同stage来保留不同的关键点信息，进一步提升了检测效果；BULAT等^[5]改进了Hourglass网络结构，提出更高效准确的跳跃连接网络，在MPII数据集上其平均精度（AP）值高达94.1%。

多人姿态估计又称多人关键点检测，主要有自上而下和自下而上两种方法。自上而下的方法分为目标检测和单人人体关键点检测两个阶段。目标检测部分采用经典的目标检测算法从输入图像中检测单个人体，然后将检测到的结果进行裁剪并实现单人人体关键点检测。但是自上而下的方法主要存在3个难点：关键点局部信息较弱，容易与背景信息混淆，因此，需要较大的感受野来区分关键点和背景信息；不同关键点的检测和区分难度不同，较难检测的关键点要区别对待；自上而下的人体关键点定位依赖于前一阶段的目标检测结果。FANG等^[6]提出的RMPE方法针对检测框定位误差、相同物体重复检测等问题，通过空间变换网络调整裁剪区域。CHEN等^[7]提出的CPN设计两个阶段的网络，通过特征金字塔检测简单关键点，再通过RefineNet检测较难关键点。LI等^[8]提出的MSPN延续了Refine的思想，在多阶段重复的上采样和下采样过程中，采用coarse-Fine中间监督的方式进一步优化了人体关键点检测效果。QI等^[9]提出的SSN针对相同关节相似度较高而难以区分的问题，设计特征移动模块来补充空间信息，提高了近似关节点的检测精度。SUN等^[10]提出的HRNet由并行的从高到低分辨率子网组成，在不同分辨率子网间进行信息交换，保证网络中的高分辨率表征，提高了中小尺度人物的检测效果。自上而下的方法对人体检测框具有依赖性，对尺度信息不敏感，且多人图像中每个人体都需要人体检测框进行检测，导致计算量较高，使得该类方法很难应用于实时的人体姿态估计任务。

自下而上的方法分为关键点检测、关键点聚类这两个阶段。关键点检测和单人关键点检测方法基本相同，区别在于自下而上的方法需要全部检测出输入图像所有类别中的所有关键点，然后通过聚类处理，将关键点进行聚类以组合成不同的人体。自下而上方法的难点在于关键点聚类过程，即高效准确地构建不同关键点之间的关系。CAO等^[11]提出的OpenPose设计PAF方法，使检测到的关键点迅速组合成单个人体，提高了人体姿态估计的效率。HIDALGO等^[12]对OpenPose中的方法进行改进，提高了其在多人场景中的运行速度，并进一步解决了遮挡问题。

对于2D图像，现有网络对小尺度人物检测效果较差，进而影响网络整体的检测效果。通过大量实验发现，特征图多次上采样和下采样导致分辨率越低的分支越少保留位置信息和通道信息，很难捕获位置信息和通道信息之间的关系，且最小分辨率分支由于感受野较小而更关注局部信息，对全局信息提取能力不足。针对以上问题，本文提出一种改进的人体关键点检测网络CASANet（Coordinated Attention Self-Attention Network），采用CA模块提升位置信息和通道信息的提取效果，使用自注意力模块在低分辨率特征图上捕获位置和通道之间的关系，最后在COCO数据集上验证CASANet的有效性。

1 相关工作 1.1 HRNet高分辨率网络

在当前的人体姿态估计研究中，HigherHRNet^[13]、DEKR^[14]等骨干网络主要采用高分辨率的网络，因为高分辨率网络能够提高局部关节点信息的提取效果，所以本文选取常用的高分辨率网络HRNet作为基础网络。HRNet由于其特殊的结构而被广泛应用于姿态估计、目标检测、语义分割等视觉任务中，并获得了显著的效果。HRNet的结构不同于传统的串联结构，传统串联网络结构仅将不同分辨率的特征图以串联的形式连接，难以融合不同分辨率特征图的信息，导致关键点检测效果较差。传统串联网络结构如图 1所示。

	Download: JPG larger image
图 1 传统串联网络结构 Fig. 1 Traditional serial network structure

高分辨率网络采用并联的方式实现不同分辨率特征图之间的信息融合，通过多次跨并行卷积进行多尺度特征融合，从而增强高分辨率的特征信息，使整个网络保持高分辨率表示，提升人体关键点检测的准确率。HRNet的网络结构分为4个阶段，每个阶段均包含不同分辨率的特征，第一阶段包含1/4分辨率的特征，第二阶段包含1/4、1/8分辨率的特征，第三阶段包含1/4、1/8、1/16分辨率的特征，第四阶段包含1/4、1/8、1/16、1/32分辨率的特征。每个阶段内包含的不同特征通过transition进行融合，从而保证网络中的高分辨率信息。简略的HRNet网络结构如图 2所示。

	Download: JPG larger image
图 2 HRNet网络结构 Fig. 2 HRNet network structure

1.2 注意力机制

近年来，注意力机制^[15-16]被广泛应用于图像分类、图像分割等计算机视觉任务，且取得了优异的效果。注意力机制最初主要用于人类视觉研究，一些学者在进行人类视觉研究时发现，人在观察某些事物时会首先关注一些具有区分性的重要信息而忽略其他相关信息，通过进一步研究发现这是一种信号处理机制，人工智能领域的研究人员将其引入到一些模型中，提高了模型的性能表现。目前，注意力机制已经在深度学习领域占据重要位置，成为该领域应用最广泛的组件之一。

注意力机制依照注意力域进行划分，可分为通道域注意力、空间域注意力和混合域注意力三大类：通道域注意力主要为不同通道划分不同的注意力权重，提高了重要通道对网络的影响；空间域注意力为特征图的每个像素空间位置分配不同的权重，保留了重要的空间特征；混合域注意力包含以上两种注意力。HU等^[17]提出的SENet通道注意力的主要思路是压缩每个2D特征图，有效建立通道间的相互依赖关系。WOO等^[18]提出的CBAM通过使用大尺寸的卷积核引入空间信息编码，进一步推进了SENet的应用。后来出现的许多注意力机制，如GENet^[19]、GALA^[20]、AA^[21]、TA^[22]等，都使用了不同的空间注意力机制或设计不同结构的注意力块，扩展了SENet的思想。

自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性，比较典型的自注意力机制包括NLNet^[23]、GCNet^[24]、A²Net^[25]、SCNet^[26]、GSoP-Net^[27]、CCNet^[28]，所有这些都利用自注意力机制来捕获不同类型的空间信息。然而，自注意力模块内部的计算量较大，可能会给网络增加一定的复杂度。

本文对主干网络中的特征传递过程进行研究，发现通过下采样获取到低分辨率分支的特征图中缺失位置信息和通道信息，而这些信息对热图的生成具有重要作用，进一步影响到关键点检测的准确率。为解决下采样过程中的信息丢失问题，本文引入CA模块提高对位置信息和通道信息的获取能力，降低下采样操作所带来的影响。引入自注意力模块捕获位置信息和通道信息的内部相关性，提高网络对信息的敏感性。

2 本文方法

人体关键点检测的主干网络多采用多阶段的不同分辨率网络结构，主体采用下采样的方式获得低分辨率的特征图，再通过上采样的方式恢复到原分辨率。多次下采样和上采样会导致位置信息和通道信息丢失，致使预测生成热图和标签生成热图有较大偏差。本文引入2个模块解决以上问题：

1）CA模块，该模块可以更好地捕获通道信息和位置信息，降低采样过程中的信息丢失，从而保证热图预测的准确性。

2）自注意力模块，该模块可以捕获通道信息和位置信息的内部联系，使得网络对不同特征的信息具有更好的区分度。

本文在上述2个模块的基础上进行不同分辨率特征的融合，从而实现更好的预测效果。

2.1 CASANet网络

本文采用HRNet作为骨干网络，但是HRNet网络结构中存在一些缺陷，低分辨率的分支对于通道信息和位置信息有一定缺失。本文设计的CASANet网络结构主要在1/16分辨率特征后加入CA模块，进一步对通道信息和位置信息进行提取，将提取到的信息作为下一阶段网络的输入。在1/32的分辨率下捕获通道信息和位置信息之间的关系，将捕获到的信息作为下一阶段网络的输入。通过这2个模块提取的信息能够克服主干网络自身的问题，提高网络对人体关键点的检测效果。在得到不同分辨率的特征之后对特征进行融合，特征融合方式有两种：低分辨率分支通过上采样的方式恢复分辨率并和高分辨率特征进行融合；高分辨率分支通过步长卷积降低分辨率并与低分辨率特征进行融合。最后，将融合后的不同分辨率的分支特征用于热图预测，通过解码的方式回归得到各关键点的坐标。

CASANet网络结构如图 3所示，其中R为原始图像分辨率。

	Download: JPG larger image
图 3 CASANet网络结构 Fig. 3 CASANet network structure

2.2 坐标注意力机制

坐标注意力机制是一种轻量化的注意力机制，该机制将位置信息嵌入到通道注意力中，本文利用该注意力机制捕获位置信息和通道信息。

一个坐标注意力块可以看作一个计算单元，能够增强网络的学习表达能力，其可以将任何中间特征张量$ X=[{x}_{1}, {x}_{2}, \cdots , {x}_{C}]\in {\mathbb{R}}^{C\times H\times W} $作为输入，并通过转换输出与$ X $张量具有相同大小同时具有增强表征的变换张量$ Y=[{y}_{1}, {y}_{2}, \cdots , {y}_{C}] $。为了更加清晰地描述CA注意力机制，本文首先分析被广泛使用的SE注意力机制。

2.3 SE注意力机制

通道注意力机制主要对通道间的依赖关系进行建模，可以自适应地调整各通道的特征响应值。由于普通卷积本身很难对通道关系进行建模，而构建通道相互依赖性可以增加模型对信息通道的敏感性，这些通道对最终的分类决策有重要贡献。此外，通道注意力机制中的全局平均池化可以帮助模型捕获全局信息，这是普通卷积难以实现的。SE模块结构如图 4所示。

	Download: JPG larger image
图 4 SE通道注意力模块结构 Fig. 4 Structure of SE channel attention module

从整体结构上看，SE可以划分为Squeeze和Excitation两步，Squeeze用于全局信息嵌入，Excitation可以对通道间的关系进行自适应调整。

给定输入$ X $，第$ m $通道Squeeze步长的计算过程如式（1）所示：

$ {Z}_{m}=\frac{1}{H\times W}\sum\limits _{i=1}^{H}\sum \limits_{j=1}^{W}{x}_{m}(i, j) $

(1)

其中：$ {Z}_{m} $是与第$ m $通道相关联的输出。输入$ X $来自具有固定核大小的卷积层，因此，其被视为局部描述符的集合。Squeeze操作使收集全局信息成为可能。

Excitation步骤的激励目的是完全捕获通道间的依赖关系，计算过程如式（2）所示：

$ {\widehat{X}}=X\cdot \sigma \left(\widehat{z}\right) $

(2)

其中：“$ \cdot $”表示通道乘法；$ \sigma $为Sigmoid函数；$ \widehat{z} $表示变换函数生成的结果。$ \widehat{z} $函数的计算过程如式（3）所示：

$ \widehat{z}={T}_{2}\left(\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\right({T}_{1}\left(z\right))\cdot \sigma (\widehat{z}\left)\right) $

(3)

其中：$ {T}_{1} $和$ {T}_{2} $是2个线性变换，可以通过学习来捕捉每个通道的重要性。SE只考虑通过建模通道关系来重新衡量每个通道的重要性，忽略了位置信息带来的影响，而位置信息对于生成空间选择性的注意力图非常重要。因此，本文引入一种新的注意力块，不仅关注通道间的关系，还考虑对特征空间位置信息的提取能力。

2.4 坐标注意力模块

坐标注意力模块CA通过精确的位置信息对通道关系和长期依赖性进行编码，整个过程分为两步：第一步完成坐标信息嵌入；第二步生成坐标注意力。坐标注意力模块结构如图 5所示。

	Download: JPG larger image
图 5 坐标注意力模块结构 Fig. 5 Structure of coordinated attention module

2.4.1 坐标信息嵌入

全局池化方法通常用于通道注意编码空间信息的全局编码，但由于其将全局空间信息压缩到通道描述符中，导致难以保存位置信息，而位置信息在视觉任务中对于捕获空间结构至关重要。为了促使注意力模块能够捕捉具有精确位置信息的远程空间交互，本文按照式（1）分解全局池化操作，将其转化为一对一维的特征编码操作。具体地，给定输入$ X $，将全局池化操作分解为沿着输入特征图的水平方向$ (H, 1) $和垂直方向$ (1, W) $分别进行池化操作，从而获得输入特征图的$ x\mathrm{、}y $轴相关位置信息。水平方向上得到的一维特征如式（4）所示：

$ {z}_{c}^{h}\left(h\right)=\frac{1}{W}\sum\limits_{0\le i\le W}{x}_{c}(h, i) $

(4)

垂直方向上得到的一维特征如式（5）所示：

$ {z}_{c}^{w}\left(h\right)=\frac{1}{H}\sum\limits_{0\le j\le H}{x}_{c}(j, w) $

(5)

上述2种变换分别沿2个空间方向聚合特征，生成一对方向感知的特征映射，这与通道注意力方法中产生单一特征向量的SE模块不同，这2种转换不仅能让注意力模块捕捉到沿着一个空间方向的长期依赖关系，而且保存沿着另一个空间方向的精确位置信息，这有助于网络更准确地定位感兴趣的目标。

2.4.2 坐标注意力生成

在坐标嵌入的过程中，式（4）和式（5）可以很好地获得全局感受野并编码精确的位置信息。为了有效利用由此产生的表征，本文设计第二个转换，称为坐标注意力生成。坐标注意力生成参照以下3个标准：首先，这种转换应该尽可能的简单高效；其次，这种转换可以充分利用捕捉的位置信息来精确定位感兴趣区域；最后，它还能有效捕捉通道之间的关系。

通过信息嵌入中的变换后，将式（4）和式（5）进行拼接操作，并将其送入$ 1\times 1 $卷积函数$ {F}_{1} $中进行变换操作以获得注意力图，计算过程如式（6）所示：

$ f=\delta \left({F}_{1}\right([{z}^{h}, {z}^{w}]\left)\right) $

(6)

其中：$ [\cdot \mathrm{ }, \cdot ] $表示沿空间维度的串联操作；$ \delta $是非线性激活函数；$ {F}_{1} $的作用是将水平和垂直方向的池化结果进行拼接；$ f $是在水平方向和垂直方向进行编码的中间特征映射。

沿着空间维数将$ f $分解为2个单独的张量$ {f}^{h}\in {\mathbb{R}}^{c / r \times H} $和$ {f}^{w}\in {\mathbb{R}}^{c / r \times W} $。与SENet相同，$ r $是控制模块大小的一个超参数。利用另外2个$ 1\times 1 $卷积变换$ {F}_{h} $和$ {F}_{w} $，分别将$ {f}^{h} $和$ {f}^{w} $变换为具有相同通道数的张量，如式（7）和式（8）所示：

$ {g}^{h}=\sigma \left({F}_{h}\right({f}^{h}\left)\right) $

(7)

$ {g}^{w}=\sigma \left({F}_{w}\right({f}^{w}\left)\right) $

(8)

经过$ 1\times 1 $卷积统一通道数，利用Sigmoid函数获得注意力的权重数据。为了降低模型复杂度和计算量，通常使用适当的缩减比$ r $（如32）来减少$ f $的通道数，然后分别对输出$ {g}^{h} $和$ {g}^{w} $进行扩展，分别作为注意力权重。最后，坐标注意力块的输出$ Y $如式（9）所示：

$ {y}_{c}(i, j)={x}_{c}(i, j)\times {g}_{c}^{h}\left(i\right)\times {g}_{c}^{w}\left(j\right) $

(9)

不同于只关注通道权重的注意力机制，坐标注意力块也考虑对空间信息进行编码。如上所述，沿水平和垂直方向的注意力同时应用于输入张量。2个注意力图中的每个元素都能反映感兴趣对象是否存在于相应的行和列中，这种编码过程可以使坐标注意力更加准确地定位感兴趣对象的准确位置，使得模型进行更有效的识别。

2.5 自注意力模块

自注意力模块通过关注所有位置并在嵌入空间中取其加权平均值来计算序列中某个位置（如句子）的响应。自注意力模块的主要工作是捕捉长距离像素间的信息，针对2D图像，这种关系表示图像中的像素与目标像素的关系权值。卷积神经网络因自身的局限性，只能利用目标周围局部信息来计算目标像素，局部信息可能会造成一定的偏差。针对该问题，可使用更大卷积核或加深网络深度，但是对于人体关键点检测任务，上述操作只能提高参数量，对网络整体增益效果较差。

本文引入已有的自注意力模块，以提高网络捕捉通道信息和位置信息内部关系的能力，克服传统卷积和下采样过程中信息丢失的缺陷。自注意力模块可以简单高效地嵌入在主干网络中，提高人体关键点检测的准确率。自注意力模块结构如图 6所示。

	Download: JPG larger image
图 6 自注意力模块结构 Fig. 6 Structure of self-attention module

输入信号$ X=H\times W\times 256 $通过3个$ 1\times 1 $卷积进行降维，得到$ \theta \left({x}_{i}\right) $、$ ϕ \left({x}_{j}\right) $、$ g\left({x}_{k}\right) $，该操作的主要目的是降级通道数、降低参数量。然后对$ \theta \left({x}_{i}\right) $、$ ϕ \left({x}_{j}\right) $、$ g\left({x}_{k}\right) $进行变形操作得到$ H\times W\times 128 $维，对变形后的$ ϕ \left({x}_{j}\right) $进行转置，与$ \theta \left({x}_{i}\right) $进行矩阵相乘得到$ ϕ \left({x}_{j}{)}^{t}\theta \right({x}_{i}) $，经过Softmax函数与$ g\left({x}_{k}\right) $相乘，再通过$ 1\times 1 $卷积恢复维度为$ H\times W\times 128 $，与输入信号维度保持一致，与$ {x}_{s} $进行相加操作，如式（10）所示：

$ {z}_{i}={\boldsymbol{W}}_{z}{y}_{i}+{x}_{i} $

(10)

其中：$ {\boldsymbol{W}}_{z} $是可学习的权重矩阵。

$ {x}_{s} $分支与输入信号一致是一种跳跃连接结构，保证输入信号在进行一系列维度转变之后还能起到一定的作用。这种结构可以克服普通卷积的局限性，更好地捕捉通道和空间的内部相关性。在特殊情况下，当式（10）中$ {\boldsymbol{W}}_{z} $初始化为0时，这种结构可以允许自注意力模块在不破坏网络结构的前提下插入到任何网络中，体现了自注意力模块即插即用的特性。

3 实验结果与分析

本文实验环境为Ubuntu 18.04.6 LTS，64位操作系统，Intel^® Xeon^® CPU E5-2678v3@2.50 GHz，内存12 GB，显卡RTX2080Ti以及cuda10.0.130、cudnn7.5、Pytorch1.7和Python3.6的软件平台。网络预训练参数使用在ImageNet数据集上预训练模型的参数。实验中的优化器使用Adam，对模型设置的初始学习率为0.001，学习率衰减系数为0.1，分别在170和200周期时进行学习率衰减，分别衰减为$ 1\mathrm{e}-4 $和$ 1\mathrm{e}-5 $。训练过程在200个周期结束。

数据集采用MS COCO 2017，该数据集是一个大型丰富的物体检测、分割和字幕数据集，以环境感知为目标，主要从复杂的日常场景中截取图像，图像中的目标通过精确分割进行位置标定。图像包括91类目标、328 000个影像和2 500 000个标签。COCO人体姿态估计数据集中包含了超过20万张图片以及超过25万个人体实例对象，每个对象都标记了17个人体关键点。

3.1 评价指标

实验中的评价指标选用MS COCO 2017数据集官方给定的OKS，其计算公式如下：

$ {O}_{\mathrm{O}\mathrm{K}\mathrm{S}}=\frac{\sum \limits_{j}\mathrm{e}\mathrm{x}\mathrm{p}\left(-{d}_{j}^{2}/2{s}^{2}{k}_{j}^{2}\right)\delta ({v}_{j} > 0)}{\sum\limits _{j}\delta ({v}_{j} > 0)} $

(11)

其中：$ {d}_{j} $是检测的关键点坐标和真实值之间的欧式距离；$ {v}_{j} $表示能否观察到人体关键点；$ s $是检测目标的大小；$ {k}_{j} $是每个关键点的衰减系数。

在实验中采用OKS方法：AP⁵⁰（表示在IoU等于0.5时的平均精度值）、AP⁷⁵（表示在IoU等于0.75时的平均精度值）、mAP（mean Average Precision）为各类别AP的平均值，AP^M表示中等尺度人体，AP^L表示大型尺度人体，AR为每个图像中检测到固定数量的最大召回率。

3.2 结果分析

将本文提出的CASANet算法与其他先进的人体关键点检测算法进行对比，表 1所示为各算法在COCOVAL 2017验证集上的实验结果。从表 1可以看出，本文算法在相同输入尺度下取得了最高的精度值。CASANet采用HRNet作为骨干网络，在网络的1/16分辨率特征图后加入CA模块，增加了该分支对位置信息和通道信息的提取能力。在网络的1/32分辨率特征图后加入自注意力模块，使其减少对外部信息的依赖，提高特征内部的相关性。再将2个分辨率分支通过融合模块进行特征融合，提高了网络对于中小尺度人体的关键点检测效果。本文提出的CASANet算法在平均精度上相较基线方法有2.4个百分点的提升，平均精度提升主要来自AP^M提升了2.9个百分点，说明本文设计的方法极大提高了小尺度人体的检测效果。此外与输入图像更大、具有更大感受野的HRNet-W48相比，本文CASANet算法依然提高了0.5个百分点的精度，表明增大输入图像尺度会对关键点检测效果有进一步提升。

下载CSV 表 1 各方法在COCOVAL 2017数据集上的实验结果 Table 1 Experimental results of various methods on COCOVAL 2017 dataset

表 1中还将本文方法与其他经典人体关键点检测方法的参数量和平均精度值结果进行了对比。相较基线网络，本文方法在参数量略有提升的情况下，在验证集上的准确率提高了2.4个百分点。与性能较优的HRNet-W48相比，本文方法的参数量不到其一半，平均精度值却高出0.5个百分点。综上，本文网络可以在提升少量参数量的前提下提高人体关键点检测的平均准确率。

图 7所示为本文方法在COCO验证集上的检测结果可视化效果。通过可视化效果可以看出，本文方法可以适用于不同情境下的人体关键点检测任务，且检测效果较优。

	Download: JPG larger image
图 7 CASANet在COCOVAL 2017数据集上的可视化效果 Fig. 7 Visualization of CASANet on COCOVAL 2017 dataset

3.3 消融实验分析

在COCOVAL 2017数据集上进行消融实验，验证CA模块和自注意力模块对网络检测性能的影响。

如表 2所示，在加入2种模块后，仅提升了少量的参数，但平均精度值有了明显提升。其中，采用CA模块时有1.1个百分点的精度提升，使用自注意力模块时有1.7个百分点的精度提升。通过引入CA模块可以更好地提取位置信息和通道信息，保证更有价值的通道特征和位置特征在特征图中占更高比重。通过引入自注意力模块可以凸显出重要特征，增强不同特征之间的内部联系，减少下采样过程中的图像特征丢失。同时采用2种模块可以获得2.4个百分点的精度提升，表明这2种模块能够提升网络提取特征的效果，进一步提高人体关键点检测准确率。

下载CSV 表 2 消融实验结果 Table 2 Results of ablation experiment

此外，本文还针对2个模块在不同阶段的分辨率分支的添加位置进行消融实验。从表 3可以看出，仅添加一个CA模块，在任意分辨率分支对于参数量提升都是一致的，当仅添加在1/16分辨率分支时，提升效果明显，相较基线网络有1.1个百分点的性能提升。从表 4可以看出，仅添加一个自注意力模块在任意分辨率分支，对网络整体参数量提升一致，在1/32分辨率分支上添加自注意力模块，对网络性能提升较大，精度值可以提高1.7个百分点。由上述消融实验可知，在1/16分辨率分支添加CA模块，在1/32分辨率分支添加自注意力模块，可以得到最优的检测准确率。

下载CSV 表 3 CA模块的消融实验结果 Table 3 Ablation experiment results of CA module

下载CSV 表 4 自注意力模块的消融实验结果 Table 4 Ablation experiment results of self-attention module

4 结束语

本文将高分辨率网络作为骨干网络，结合CA模块和自注意力模块设计CASANet网络，以实现人体关键点检测。CASANet网络可以更好地利用通道信息和位置信息，突出图像的底层特征，使特征图中保留更丰富的信息。在COCO 2017数据集上的实验结果表明，该网络在参数量略微提升的情况下能够大幅提高人体关键点检测准确率。在人体关键点检测任务中，若要实现精度提升，通常需要更加复杂的网络以及更加庞大的参数量，如何在保证较高精度的同时降低网络参数量、提高检测实时性，将是下一步的研究方向。

参考文献

[1]	ZHENG C, WU W H, CHEN C, et al. Deep learning-based human pose estimation: a survey[EB/OL]. [2021-09-05]. https://arxiv.org/abs/2012.13392.
[2]	冯晓月, 宋杰. 二维人体姿态估计研究进展[J]. 计算机科学, 2020, 47(11): 128-136. FENG X Y, SONG J. Research advance on 2D human pose estimation[J]. Computer Science, 2020, 47(11): 128-136. (in Chinese)
[3]	WEI S H, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 4724-4732.
[4]	NEWELL A, YANG K, DENG J. Stacked hourglass networks for human pose estimation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 483-499.
[5]	BULAT A, KOSSAIFI J, TZIMIROPOULOS G, et al. Toward fast and accurate human pose estimation via soft-gated skip connections[C]//Proceedings of the 15th IEEE International Conference on Automatic Face and Gesture Recognition. Washington D. C., USA: IEEE Press, 2020: 8-15.
[6]	FANG H S, XIE S Q, TAI Y W, et al. RMPE: regional multi-person pose estimation[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 2353-2362.
[7]	CHEN Y L, WANG Z C, PENG Y X, et al. Cascaded pyramid network for multi-person pose estimation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7103-7112.
[8]	LI W B, WANG Z C, YIN B Y, et al. Rethinking on multi-stage networks for human pose estimation[EB/OL]. [2021-09-05]. https://arxiv.org/abs/1901.00148.
[9]	QI T, BAYRAMLI B, ALI U, et al. Spatial shortcut network for human pose estimation[EB/OL]. [2021-09-05]. https://arxiv.org/abs/1904.03141.
[10]	SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 5686-5696.
[11]	CAO Z, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using part affinity fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(1): 172-186. DOI:10.1109/TPAMI.2019.2929257
[12]	MARTINEZ G H, RAAJ Y, IDREES H, et al. Single-network whole-body pose estimation[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 6981-6990.
[13]	CHENG B W, XIAO B, WANG J D, et al. HigherHRNet: scale-aware representation learning for bottom-up human pose estimation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 5385-5394.
[14]	GENG Z G, SUN K, XIAO B, et al. Bottom-up human pose estimation via disentangled keypoint regression[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 14671-14681.
[15]	TSOTSOS J K. Analyzing vision at the complexity level[J]. Behavioral and Brain Sciences, 1990, 13(3): 423-445. DOI:10.1017/S0140525X00079577
[16]	TSOTSOS J K. computational perspective on visual attention[M]. Cambridge, USA: MIT Press, 2011.
[17]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7132-7141.
[18]	WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19.
[19]	HU J, SHEN L, ALBANIE S, et al. Gather-excite: exploiting feature context in convolutional neural networks[EB/OL]. [2021-09-05]. https://arxiv.org/abs/1810.12348.
[20]	LINSLEY D, SHIEBLER D, EBERHARDT S, et al. Learning what and where to attend[EB/OL]. [2021-09-05]. https://arxiv.org/abs/1805.08819.
[21]	BELLO I, ZOPH B, LE Q, et al. Attention augmented convolutional networks[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 3285-3294.
[22]	MISRA D, NALAMADA T, ARASANIPALAI A U, et al. Rotate to attend: convolutional triplet attention module[C]//Proceedings of IEEE Winter Conference on Applications of Computer Vision. Washington D. C., USA: IEEE Press, 2021: 3138-3147.
[23]	WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7794-7803.
[24]	CAO Y, XU J, LIN S, et al. Gcnet: non-local networks meet squeeze-excitation networks and beyond[C]//Proceedings of IEEE/CVF International Conference on Computer Vision Workshops. Washington D. C., USA: IEEE Press, 2019: 12-36.
[25]	CHEN Y P, KALANTIDIS Y, LI J S, et al. A²-Nets: double attention networks[EB/OL]. [2021-09-05]. https://arxiv.org/abs/1810.11579.
[26]	LIU J J, HOU Q B, CHENG M M, et al. Improving convolutional networks with self-calibrated convolutions[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 10093-10102.
[27]	GAO Z L, XIE J T, WANG Q L, et al. Global second-order pooling convolutional networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 3019-3028.
[28]	HUANG Z L, WANG X G, WEI Y C, et al. CCNet: criss-cross attention for semantic segmentation[C]//Proceedings of IEEE Conference on Pattern Analysis and Machine Intelligence. Washington D. C., USA: IEEE Press, 2019: 603-612.
[29]	XIAO B, WU H, WEI Y. Simple baselines for human pose estimation and tracking[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 466-481.
[30]	罗梦诗, 徐杨, 叶星鑫. 融入双注意力的高分辨率网络人体姿态估计[J]. 计算机工程, 2022, 48(2): 314-320. LUO M S, XU Y, YE X X. Human pose estimation using high resolution network with dual attention[J]. Computer Engineering, 2022, 48(2): 314-320. (in Chinese)