«上一篇 下一篇»
  计算机工程  2022, Vol. 48 Issue (7): 270-276  DOI: 10.19678/j.issn.1000-3428.0062020
0

引用本文  

郝阿香, 贾郭军. 结合注意力与批特征擦除的行人重识别模型[J]. 计算机工程, 2022, 48(7), 270-276. DOI: 10.19678/j.issn.1000-3428.0062020.
HAO Axiang, JIA Guojun. Person Re-identification Model Combining Attention and Batch Feature Erasure[J]. Computer Engineering, 2022, 48(7), 270-276. DOI: 10.19678/j.issn.1000-3428.0062020.

基金项目

山西省互联网+与旅游产业升级协同创新中心项目(HLWLY2017012)

作者简介

郝阿香(1997—),女,硕士研究生,主研方向为行人重识别;
贾郭军,副教授、硕士

文章历史

收稿日期:2021-07-08
修回日期:2021-09-05
结合注意力与批特征擦除的行人重识别模型
郝阿香 , 贾郭军     
山西师范大学 数学与计算机科学学院, 山西 临汾 041004
摘要:在行人重识别过程中,图像局部遮挡会造成识别准确率下降。提出一种结合注意力和批特征擦除的网络(ABFE-Net)模型,旨在学习具有辨别力的全局特征和局部细粒度特征,提高图像局部遮挡条件下行人特征的表达能力。将轻量级注意力模块嵌入到ResNet-50中自主学习每个通道的权重,通过强化有用特征和抑制无关特征增强网络特征的学习能力,提取行人更具辨别力的全局特征。对于深层特征使用批特征擦除方法,随机擦除同一批次特征图的相同区域,使得网络关注剩余的局部细粒度特征。将两种特征融合得到更加全面的行人特征表示,对其进行相似性度量并排序,得到行人重识别的结果。实验结果表明,与HA-CNN、PCB等方法相比,ABFE-Net模型在Market1501和DukeMTMC-reID数据集上的Rank-1和mAP分别达到94.4%、85.9%和88.3%、75.1%,能够明显增强行人特征的辨别性,提高行人重识别效果。
关键词行人重识别    批特征擦除    注意力机制    残差网络    度量学习    
Person Re-identification Model Combining Attention and Batch Feature Erasure
HAO Axiang , JIA Guojun     
School of Mathematics and Computer Science, Shanxi Normal University, Linfen, Shanxi 041004, China
Abstract: Aiming to make more comprehensive use of pedestrian features, this study proposes a person re-identification model combining Attention and Batch Feature Erasure Network(ABFE-Net)to solve the problem of reduced recognition accuracy caused by the partial occlusion of images in person re-identification.First, the lightweight attention module is embedded into ResNet-50 to autonomously learn the weight of each channel, enhance the learning ability of network features by strengthening useful features, and suppress irrelevant features, thereby extracting more discriminative global features of pedestrians.Second, the batch feature erasure method is used for deep features, randomly erasure the same region of feature maps in a batch to focus on the remaining local fine-grained features.Finally, the two features are merged to obtain a more comprehensive representation of pedestrian features, and similarity measures are performed on them and sorted to obtain the result of person re-identification.On the Market1501 dataset, Rank-1 and mAP reach 94.4% and 85.9%, and on the DukeMTMC-reID dataset, Rank-1 and mAP reach 88.3% and 75.1%, respectively.Experiments results reveal that compared with HA-CNN, PCB, and other methods, the ABFE-Net model can reinforce the discrimination of pedestrian characteristics and improve the performance of person re-identification.
Key words: person re-identification    batch feature erasure    attention mechanism    residual network    metric learning    

开放科学(资源服务)标志码(OSID):

0 概述

行人重识别是指从多个检测到的行人图像中识别同一个人,即给定一个摄像机拍摄的行人图像,从其他非重叠多视角摄像机捕获的图像库中重新识别该行人的过程,属于计算机视觉领域中的图像检索子问题[1-3],其在公安部门破案、社会安全防护等方面具有广泛的应用前景。传统的行人重识别方法通常使用手工制作的低层次鉴别特征,如颜色、纹理信息、局部特征等,然而在现实情境中由于背景噪声、光照、遮挡、人的姿态变化和摄像机角度不同等因素的影响使手工设计特征的使用受到局限,因此行人重识别算法很难应用到复杂环境中。近年来,深度卷积神经网络在行人重识别研究上获得广泛的应用,主要集中在特征提取和度量学习2个方面。

深度学习模型提取行人特征时,使用注意力机制可提取具有辨别力的行人特征,它使模型有选择性地关注图像中行人部分,忽略其他不感兴趣的区域,增强了行人特征的显著性。目前注意力机制的使用大致可概括为两种类型:第1种是基于通道注意力和空间注意力的方法,如文献[4]利用强化学习的思想,提出基于通道注意力和空间注意力的自判别模型,文献[5]通过将注意力模块CBAM嵌入到残差网络中增强网络特征的学习能力,并结合不同深度的信息提取整个行人的显著特征;第2种是基于软注意力和硬注意力的方法,如文献[6]提出一种HA-CNN模型学习软注意力像素特征和硬注意力区域特征,优化未对齐的行人图像识别,文献[7]结合硬注意力机制与软注意力机制,有效增强特征图前景信息,抑制背景噪声,提高了行人再识别的准确性和稳定性。这些工作通过将注意力机制嵌入到行人重识别模型中获得了较好的实验效果。

上述方法都试图挖掘行人整个身体中最显著的外观特征,当图像中行人被其他行人、静态障碍物如标识牌、墙壁和自行车等遮挡时,注意力获得的显著特征无法达到识别要求。因此,找到有效的方法来解决行人重识别中局部遮挡问题至关重要。对于遮挡场景下的行人重识别任务,由于多样化遮挡物的干扰以及遮挡区域的位置变化使一些具有描述性的身体特征被抑制,从而为获取鲁棒性的行人特征增加了难度。针对这个问题,一些研究人员尝试利用特征擦除方法来遮挡图片的部分特征区域,通过学习鲁棒性强的局部细粒度特征来改善最终的特征表达能力。特征擦除方法的应用一般有两种类型:第1种是通过特征擦除对数据预处理增加数据样本的数量,如文献[8]提出通过对抗网络生成擦除特征和变形的训练样本来训练网络,使网络更具有鲁棒性,解决了图像遮挡和变形问题,文献[9]采用随机擦除法对数据进行预处理,增加数据集的数量,降低过拟合现象同时提高网络的泛化能力,解决行人重识别中遮挡问题;第2种是在网络训练过程中对图像随机擦除,强迫网络关注其余的特征,如文献[10]针对弱监督的物体定位,提出了基于注意力的擦除层,使网络在每次迭代时擦除最具辨别力的信息,文献[11]提出了批特征擦除方法,在同一个批次中随机擦除图像相同的区域,使网络关注剩余的细粒度特征,然而该方法没有更好地提取全局特征,对擦除后图像细粒度特征的学习未做到充分的监督。

上述方法仅使用注意力机制获得单一的全局特征或使用特征擦除学习图像细粒度特征,没有充分发挥两种方法的优点。为解决行人重识别中图像的局部遮挡问题,本文在批特征擦除BDB(Batch Drop Block)[11]网络和高效的注意力通道(Efficient Channel Attention,ECA)[12]模块的启发下,提出一种结合注意力和批特征擦除的网络(Attention and Batch Feature Erasure Network,ABFE-Net)模型。该模型在BDB网络的基础上通过在残差网络中嵌入注意力模块,加权强化关键信息获得更具辨别力的全局特征。考虑到图像被遮挡会忽略一些非显著的辨别性特征,因此利用批特征擦除方法获得行人图像的局部细粒度特征,共同构成更加全面的、鲁棒性更强的行人特征表示,以提高行人重识别的准确率。

1 注意力和批特征擦除结合的行人重识别 1.1 网络框架

在面对行人图像局部遮挡问题时,为了提高模型性能,大多数行人重识别模型往往采用更为复杂的局部特征来区分不同的行人,从而忽略了具有辨别力的全局特征的重要性。为了解决这个问题,本文提出一种结合注意力和批特征擦除的网络(ABFE-Net)模型,旨在学习具有辨别力的全局特征和局部细粒度特征,提高图像在局部遮挡条件下行人特征的表达能力。由于BDB网络没有更好地提取全局特征,忽略了全局范围下特征信息对局部特征的监督作用。为此,本文将轻量级注意力模块嵌入到ResNet-50[13]的残差模块中,充分提取行人的关键信息,获取具有辨别力的全局特征。如图 1所示,ABFE-Net网络模型的基本框架由三部分组成,即主干网络、全局分支和局部分支。

Download:
图 1 ABFE-Net结构 Fig. 1 ABFE-Net structure

首先以ResNet-50为主干网络提取输入图片的特征图,全局分支用于提取具有辨别力的全局特征,由全局平均池化层(Global Average Pool,GAP)、1×1的卷积层、批量归一化层以及Relu层的降维模块组成,局部分支引入批特征擦除方法获取局部细粒度特征,由瓶颈层(Bottleneck)、掩码(Mask)、全局最大池化(Global Max Pool,GMP)层以及与全局分支相同的降维模块组成。在训练阶段,将分类损失[14]和软间隔的批次硬三元组损失函数 [15]应用于降维后的512维全局特征和1 024维局部特征,而在测试阶段,则是将所有输出特征拼接起来,通过计算特征间的欧式距离进行排序得到匹配结果。

1.2 主干网络

主干网络使用ResNet-50进行特征提取,并对ResNet-50进行了调整,没有采用第4层中的下采样操作[16],从而获得一个更大的特征图。本文将注意力模块ECA嵌入到ResNet-50的残差模块中,得到一个融合了通道注意力的新的残差模块。如图 2所示,将通道权重加权到原来的特征图上,使网络有选择性地加强关键特征,抑制无用特征,目的是提升网络的辨别能力。

Download:
图 2 残差模块 Fig. 2 Residual module

ECA模块是在通道维度上添加的注意力机制,通过过滤无关信息和关注有用信息来提取具有辨别力的特征。该模块是针对SE模块[17]中降维操作会对通道注意力的预测产生不利影响并且模型复杂度较高的问题而提出的,是基于SE模块改进的轻量级注意力模块。相较于其他的注意力模块,该模块只增加了少量的参数却获得了更高的精度,同时具有较低的模型复杂度。如图 3所示,给定输入特征图,首先对每个通道独立使用全局平均池化,得到一个$ 1\times 1\times C $的向量,接着使用一种无降维的局部跨通道交互方法,该方法是通过一维卷积实现的,只涉及少量参数,并且一维卷积核的大小是根据式(1)自适应选择的,然后通过一个Sigmoid函数生成每个通道的权重,如式(2)所示,最后将通道的权重通过乘法逐通道加权到原来的特征图上,得到新的特征图。

$ k=\psi \left(C\right)={\left|\frac{\mathrm{l}{\mathrm{b}}_{}C}{\lambda }+\frac{b}{\lambda }\right|}_{\mathrm{o}\mathrm{d}\mathrm{d}} $ (1)
$ \omega =\sigma \left(C1{D}_{k}\left(y\right)\right) $ (2)
Download:
图 3 ECA模块 Fig. 3 ECA module

其中:$ C1D $为1维卷积;$ k $为一维卷积核的大小;$ y $为通道特征;$ C $为通道数;$ \lambda $$ b $为超参数;$ \omega $表示通道的权重。

1.3 全局分支

全局分支用于提取行人具有辨别力的全局特征,将输入的训练图像$ I $放入主干网络,经过前4层后输出一个卷积特征$ {F}_{I} $,全局分支经过全局平均池化获得2 048维的特征$ {F}_{\mathrm{G}} $,然后经过1×1的卷积层、批量归一化层以及Relu层得到一个1×1×512的特征向量$ {\boldsymbol{Y}}_{\mathrm{G}} $,如式(3)所示:

$ {\boldsymbol{Y}}_{\mathrm{G}}=\mathrm{R}\mathrm{e}\mathrm{l}\mathrm{u}({W}_{\mathrm{G}}{F}_{\mathrm{G}}+{b}_{\mathrm{G}}), {\boldsymbol{Y}}_{\mathrm{G}}\in {\mathbb{R}}^{1\times 1\times 512} $ (3)

其中:$ {W}_{\mathrm{G}} $$ {b}_{\mathrm{G}} $为卷积层的权重和偏置。

1.4 局部分支

局部分支是通过批特征擦除方法提取局部细粒度特征,在主干网络的第4层后加入,首先将第4层得到的特征图$ {F}_{I} $放入到瓶颈层继续提取深层特征,然后引入随机擦除部分区域的掩码,将擦除区域的特征像素设置为0,擦除后的特征图经过全局最大池化获得2 048维的特征$ {F}_{P} $,和全局分支相似,进行一系列的降维操作最终得到1×1×1 024的向量$ {\boldsymbol{Y}}_{\mathrm{P}} $,如式(4)所示:

$ {\boldsymbol{Y}}_{\mathrm{P}}=\mathrm{R}\mathrm{e}\mathrm{l}\mathrm{u}({W}_{\mathrm{P}}{F}_{\mathrm{P}}+{b}_{\mathrm{P}}), {\boldsymbol{Y}}_{\mathrm{P}}\in {\mathbb{R}}^{1\times 1\times {1}_{}024} $ (4)

其中:$ {W}_{\mathrm{P}} $$ {b}_{\mathrm{P}} $为卷积层的权重和偏置。

卷积神经网络通常会将关注点集中在图像中身体的主要部位,而其他具有描述性的细粒度特征则会受到抑制,批特征擦除方法能够解决这一问题。所谓批特征擦除,就是在单个迭代过程中擦除同一个批次图像中的相同区域,擦除的区域通常能够覆盖输入特征图的大部分语义区间,通过掩码将要删除区域的像素值设置为0,使网络对剩余的细粒度特征更好地学习。假定经过主干网络获得的批次中特征图$ {F}_{I} $的大小为$ C\times H\times W $,其中,$ C $为通道数,$ H $$ W $为特征图的长和宽,设置一定的长宽擦除比$ {r}_{h} $$ {r}_{w} $,随机初始化坐标点$ \left({x}_{t}, {y}_{t}\right) $。根据式(5)确定要擦除区域$ M $,若随机擦除的长度,与坐标点$ {x}_{t} $之和$ X $小于等于原始图像的长度以及宽度与坐标点$ {y}_{t} $之和$ Y $小于等于原始图像的宽度,则将擦除区域的像素赋值为0,最终输出擦除后的特征图FI'。否则,重新初始化坐标,重复上述步骤。该方法流程如图 4所示。

$ \left\{\begin{array}{l}X={x}_{t}+{r}_{h}\times H\to \left(X\le H\right)\\ Y={y}_{t}+{r}_{w}\times W\to \left(Y\le W\right)\\ {x}_{t}\to \mathrm{r}\mathrm{a}\mathrm{n}\mathrm{d}(0, H-{r}_{h}\times H)\\ {y}_{t}\to \mathrm{r}\mathrm{a}\mathrm{n}\mathrm{d}(0, W-{r}_{w}\times W)\end{array}\right. $ (5)
Download:
图 4 批特征擦除流程 Fig. 4 Procedure of batch feature erasure
1.5 特征融合

本文使用双分支结构分别学习行人图像的全局特征和局部细粒度特征,为提高行人重识别的准确率,获取更加全面的行人特征表示,本文采用拼接融合策略对全局特征和局部特征进行融合,即将两个特征拼接在一起形成行人特征表示向量$ {\boldsymbol{Y}}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}} $,如式(6)所示:

$ {\boldsymbol{Y}}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}({\boldsymbol{Y}}_{\mathrm{G}}, {\boldsymbol{Y}}_{\mathrm{P}}) $ (6)

在测试阶段,先对查询集和候选集中的图像进行特征提取,将查询集中每张图像的特征向量与候选集中所有图像的特征向量计算欧氏距离并排序从而获得匹配结果。

1.6 损失函数

为了使模型在训练过程中获得较好的表征学习能力,本文使用分类损失函数和软间隔的批次硬三元组损失函数联合训练的方法。分类损失常用于分类任务,将识别任务当作一个多分类问题,如式(7)所示:

$ {L}_{S}=-\sum \limits_{i=1}^{n}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({W}_{{Y}_{i}}{f}_{i}\right)}{\sum \limits_{k=1}^{C}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{W}}_{k}{f}_{i}\right)} $ (7)

其中:$ s\left(x\right)=\mathrm{l}\mathrm{n}(1+\mathrm{e}\mathrm{x}{\mathrm{p}}^{x}) $为行人图片数量;$ s\left(x\right)=\mathrm{l}\mathrm{n}(1+\mathrm{e}\mathrm{x}{\mathrm{p}}^{x}) $表示行人类别数;第$ s\left(x\right)=\mathrm{l}\mathrm{n}(1+\mathrm{e}\mathrm{x}{\mathrm{p}}^{x}) $个样本的深度特征为$ s\left(x\right)=\mathrm{l}\mathrm{n}(1+\mathrm{e}\mathrm{x}{\mathrm{p}}^{x}) $$ s\left(x\right)=\mathrm{l}\mathrm{n}(1+\mathrm{e}\mathrm{x}{\mathrm{p}}^{x}) $为相应的身份标签;Wk表示第$ s\left(x\right)=\mathrm{l}\mathrm{n}(1+\mathrm{e}\mathrm{x}{\mathrm{p}}^{x}) $类别的权重向量。

三元组损失用于度量学习任务,由锚样本、正样本和负样本构成三元组,目的是使正样本对的距离小于负样本对的距离。无论是传统的三元组损失函数还是批次硬三元组损失函数,其公式中都包含一个求最大值的截断操作,当正样本对和负样本对的距离满足三元组关系时,则不需要优化,损失为0。然而在行人重识别任务中,处在模糊区域的负样本对难以分辨,所以采用一种可平滑接近的软间隔函数代替截断操作,使同类样本的距离越近越好,如式(8)所示,最终得到软间隔的批次硬三元组损失函数,如式(9)和式(10)所示:

$ s\left(x\right)=\mathrm{l}\mathrm{n}(1+\mathrm{e}\mathrm{x}{\mathrm{p}}^{x}) $ (8)
$ \begin{array}{l}{L}_{\mathrm{B}\mathrm{H}\mathrm{T}}=\underset{p=\mathrm{1, 2}, \cdots , k}{\mathrm{m}\mathrm{a}\mathrm{x}}D\left({f}_{\theta }\right({x}_{a}^{i}), {f}_{\theta }({x}_{p}^{i}\left)\right)-\\ \underset{\begin{array}{c}j=\mathrm{1, 2}, \cdots , p\\ n=\mathrm{1, 2}, \cdots , k\\ n\ne j\end{array}}{\mathrm{m}\mathrm{i}\mathrm{n}}D\left({f}_{\theta }\right({x}_{a}^{i}), {f}_{\theta }({x}_{n}^{j}\left)\right)\end{array} $ (9)
$ {L}_{\mathrm{S}\mathrm{B}\mathrm{H}\mathrm{T}}=\sum \limits_{i=1}^{P}\sum \limits_{a=1}^{k}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}(1+\mathrm{e}\mathrm{x}\mathrm{p}({L}_{BHT}\left({x}_{a}^{i}\right)\left)\right) $ (10)

其中:$ p $$ k $表示一个批次中共有$ p $个行人,每个行人有$ k $张图片;$ {x}_{a}^{i} $$ {x}_{p}^{i} $$ {x}_{n}^{j} $分别表示锚样本、正样本和负样本;$ {f}_{\theta }\left(x\right) $表示提取的特征;$ D\left(\cdot \right) $表示欧式距离。

2 实验结果与分析

实验采用的操作系统环境为Windows 10,中央处理器为Intel Xeon W-2123 CPU(3.6 GHz),显卡为NVIDIA GeForce GTX1080,显存大小为8 GB。软件环境采用Python 3.6和Pytorch1.6的深度学习框架,使用Adam优化器,初始学习率设为le-3,在200个周期后衰减至1e-4,300个周期后衰减至1e-5,总的迭代次数为500,批量大小为32,在每次迭代中,ECA模块中的超参数$ \lambda $=2,$ b $=1,分别在两大行人重识别数据集Market1501和DukeMTMC-reID上进行实验。

2.1 数据集与评价指标

实验在Market1501[18]和DukeMTMC-reID[19]两个主流公开数据集上进行有效性验证,Market1501数据集包括由6个摄像头拍摄到的1 501个行人,总计32 668张图像,训练集包含来自751个行人的12 936张图像,测试集包含来自750个行人的19 732张图像。DukeMTMC-reID是DukeMTMC数据集的行人重识别子集,包括8个摄像头拍摄到1 404个行人的36 411张图像,训练集包含来自702个行人的16 522张图像,其他的702个行人的19 889张图片作为测试集。

行人重识别任务中普遍使用首位命中率(Rank-1)和平均精度均值(mAP)两个评价指标来评价所有数据集上的模型性能的好坏。首位命中率表示在搜索结果中排在第一位的图像为正确结果的概率。平均精度均值能更加全面地衡量行人重识别算法的性能,它反映了正确的重识别图像在排序中排在前面的程度,是将平均精度(AP)求和再取平均。AP和mAP的计算公式如式(11)和式(12)所示:

$ {A}_{\mathrm{A}\mathrm{P}}=\frac{1}{m}\sum \limits_{i=1}^{n}\left(p\right(i)\cdot g(i\left)\right) $ (11)
$ {m}_{\mathrm{m}\mathrm{A}\mathrm{P}}=\frac{1}{C}\sum\limits _{k}^{C}{A}_{AP}\left(k\right) $ (12)

其中:$ i $表示检索图像的序号;$ p\left(i\right) $表示序号为$ i $图像在所有图像中的比例;当$ g\left(i\right) $=1时表示$ i $号图像与待识别图像匹配,否则为$ g\left(i\right) $=0时,$ m $表示与待识别图像匹配图像的个数。

2.2 模型参数分析

在批特征擦除分支中,通过设置不同的长宽擦除比来验证行人重识别的精确度,在实验中,将图片大小设置为384×128像素,训练时通过随机水平翻转和归一化进行数据增强,将$ {r}_{w} $的值设置为1,$ {r}_{h} $设置为不同的数。图 5为分别在Market1501和DukeMTMC-reID数据集上设置不同长宽擦除比的实验结果,从图 5可以看出,当长宽擦除比设置为0.5时,两个数据集上的Rank-1和mAP都达到最佳。

Download:
图 5 不同擦除比的实验结果 Fig. 5 Experimental results of different erasure ratios
2.3 与其他方法的对比

将本文方法与其他行人重识别方法在Market1501和DukeMTMC-reID两个数据集上进行比较,实验结果如表 1所示。与其他方法相比,本文方法取得了较好的效果,在Market1501数据集上Rank-1和mAP分别达到了94.4%和85.9%,在DukeMTMC-reID数据集上Rank-1和mAP分别达到了88.3%和75.1%。

下载CSV 表 1 不同方法在Market1501和DukeMTMC-reID数据集上的对比结果 Table 1 Comparison results with different methods on Market1501 and DukeMTMC-reID datasets  

表 1实验结果可知,本文方法与结合全局特征和局部特征的CASN相比精确度都有一定程度的提升,其中CASN通过手动分割特征图来关注局部区域,而本文则通过批特征擦除方法学习局部细粒度特征,提取的特征鲁棒性更强,在Market1501数据集上Rank-1无明显提升,mAP提高了3.1个百分点,在DukeMTMC-reID数据集上Rank-1提高了0.6个百分点,mAP提高了1.4个百分点;与HOReID和SNR方法相比,本文方法在两个数据集上的精确度有略微提升;与BDB相比,本文方法通过添加轻量级的注意力模块强化了关键信息,增强了全局特征的辨别力,一定程度上与擦除后的细粒度特征起到互补作用,在Market1501数据集上,Rank-1提高了0.4个百分点,mAP提高了2个百分点,在DukeMTMC-reID数据集上,Rank-1提高了2.3个百分点,mAP提高了2.6个百分点。

综上所述,本文通过结合具有辨别力的全局特征和批特征擦除后的局部细粒度特征能够提升网络的识别能力,行人重识别的准确率明显提高。

2.4 消融实验

为了验证注意力模块对行人重识别性能的影响,将ResNet-50中添加的ECA模块使用不同的注意力模块替换,其他设置保持不变,分别在Market1501和DukeMTMC-reID数据集上进行实验,实验结果如表 2所示。

下载CSV 表 2 不同注意力模块的消融实验结果 Table 2 Ablation experiment results of different attention modules 

表 2的消融实验结果可知,与主干网络ResNet-50相比,注意力模块的加入对行人重识别的准确率都有所提升。在Market1501数据集上,加入SE模块的网络Rank-1和mAP分别提高了0.2和1.5个百分点,加入CBAM模块[26]的网络Rank-1和mAP分别提高了0.2和1.6个百分点,加入了ECA模块的网络Rank-1和mAP分别提高了0.4和2.0个百分点;在DukeMTMC-reID数据集上,加入SE模块的网络Rank-1和mAP分别提高了2.0和2.6个百分点,加入CBAM模块的网络Rank-1和mAP分别提高了1.4和2.6个百分点,加入了ECA模块的网络Rank-1和mAP分别提高了2.3和2.6个百分点。实验结果表明,加入ECA模块的网络在两个数据集上的Rank-1和mAP达到最佳,因此主干网络中添加注意力模块ECA有助于提取显著性的全局特征,一定程度上增强了模型的检索性能。

本文研究了不同分支设置下对行人重识别性能的影响,分别在Market1501和DukeMTMC-reID数据集上进行实验,实验结果如表 3所示。

下载CSV 表 3 不同网络分支的消融实验结果 Table 3 Ablation experiment results of different network branches 

表 3的消融实验结果可知,当仅保留全局分支或局部分支时,实验结果明显不如本文提出的全局分支和局部分支相结合的方法,因为仅保留单一分支时,网络学习到行人特征不完整,识别性能有所下降。两分支结合的网络相较于ResNet-50在两个数据集上Rank-1分别提高了0.4和2.3个百分点,mAP分别提高了2.0和2.6个百分点,这表明全局分支和局部分支之间具有互补作用,将具有辨别力的全局特征和局部细粒度特征联合能够学习到更加全面的行人特征表示,进一步提高行人重识别的准确率。

2.5 可视化结果

ABFE-Net网络模型以ResNet-50为基线,将学习到的全局特征和局部细粒度特征相结合获得更全面的行人特征,可视化特征如图 6所示。从图 6可以看出,与基线相比,ABFE-Net特征图的响应区域更为广泛,能够覆盖到更多细节特征,这是因为本文通过添加通道注意力机制来挖掘更丰富的全局信息,并结合局部细粒度特征增强行人特征的鲁棒性。如图 6(b)中的图像经过ABFE-Net后行人全局轮廓比较清晰,并且衣服上的条纹可作为具有辨别力的细粒度特征进行重识别,从而更好地区分不同的行人。

Download:
图 6 可视化特征示意图 Fig. 6 Schematic diagram of visual features

此外,本文还展示了在Market1501数据集下某些查询图像的前5个排序结果,如图 7所示。从图 7中的前两行图像可以看出,当不同类别的行人穿着相似时,相较于基线,ABFE-Net通过注意力机制能发现更多具有辨别力的全局特征,因此识别错误率较低。图 7中第三行查询图像被背包遮挡时,ABFE-Net相较于基线能够正确检索,这是因为ABFE-Net网络结合了注意力机制和批特征擦除方法,在发生图像遮挡时能够提取到局部细粒度特征,使行人特征表示更具鲁棒性。

Download:
图 7 Market1501数据集部分图像查询结果 Fig. 7 Market-1501 dataset partial image query results
3 结束语

为解决行人重识别中图像局部遮挡的问题,本文提出一种结合注意力和批特征擦除的行人重识别模型。基于ResNet-50的主干网络,在特征提取时,将轻量级的注意力模块ECA嵌入到残差网络中挖掘更丰富的全局信息,使提取的特征更具辨别力,同时联合批特征擦除获得的局部细粒度特征,增强行人特征的鲁棒性和完整性。在两个大型的行人重识别数据集Market1501和DukeMTMC-reID上进行实验,结果表明,该模型行人重识别性能有明显提升。后续将考虑从多个尺度提取行人的不变性特征,进一步提高行人重识别模型的准确率。

参考文献
[1]
胡晓强, 魏丹, 王子阳, 等. 基于时空关注区域的视频行人重识别[J]. 计算机工程, 2021, 47(6): 277-283.
HU X Q, WEI D, WANG Z Y, et al. Person re-identification in video based on spatial-temporal attention region[J]. Computer Engineering, 2021, 47(6): 277-283. (in Chinese)
[2]
罗浩, 姜伟, 范星, 等. 基于深度学习的行人重识别研究进展[J]. 自动化学报, 2019, 45(11): 2032-2049.
LUO H, JIANG W, FAN X, et al. A survey on deep learning based person re-identification[J]. Acta Automatica Sinica, 2019, 45(11): 2032-2049. (in Chinese)
[3]
WU D, ZHENG S J, ZHANG X P, et al. Deep learning-based methods for person re-identification: a comprehensive review[J]. Neurocomputing, 2019, 337: 354-371. DOI:10.1016/j.neucom.2019.01.079
[4]
CHEN G Y, LIN C Z, REN L L, et al. Self-critical attention learning for person re-identification[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 9636-9645.
[5]
王粉花, 赵波, 黄超, 等. 基于多尺度和注意力融合学习的行人重识别[J]. 电子与信息学报, 2020, 42(12): 3045-3052.
WANG F H, ZHAO B, HUANG C, et al. Person re-identification based on multi-scale network attention fusion[J]. Journal of Electronics & Information Technology, 2020, 42(12): 3045-3052. (in Chinese) DOI:10.11999/JEIT190998
[6]
LI W, ZHU X T, GONG S G. Harmonious attention network for person re-identification[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 2285-2294.
[7]
王坤峰, 王飞跃, 李雪松, 等. 基于姿态和注意力机制的行人再识别方法, 系统, 装置: CN110659589A[P]. 2020-01-07.
WANG K F, WANG F Y, LI X S, et al. Person re-identification method, system and device based on posture and attention mechanism: CN110659589A[P]. 2020-01-07. (in Chinese)
[8]
WANG X L, SHRIVASTAVA A, GUPTA A. A-fast-RCNN: hard positive generation via adversary for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 3039-3048.
[9]
刘紫燕, 万培佩. 基于注意力机制的行人重识别特征提取方法[J]. 计算机应用, 2020, 40(3): 672-676.
LIU Z Y, WAN P P. Pedestrian re-identification feature extraction method based on attention mechanism[J]. Journal of Computer Applications, 2020, 40(3): 672-676. (in Chinese)
[10]
CHOE J, SHIM H. Attention-based dropout layer for weakly supervised object localization[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 2214-2223.
[11]
DAI Z Z, CHEN M Q, GU X D, et al. Batch DropBlock network for person re-identification and beyond[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 3690-3700.
[12]
WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 11531-11539.
[13]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
[14]
SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 2818-2826.
[15]
HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[EB/OL]. [2021-06-05]. http://arxiv.org/abs/1703.07737.
[16]
SUN Y F, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 501-518.
[17]
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7132-7141.
[18]
ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1116-1124.
[19]
ZHENG Z D, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 3774-3782.
[20]
SUN Y F, ZHENG L, DENG W J, et al. SVDNet for pedestrian retrieval[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 3820-3828.
[21]
ZHONG Z, ZHENG L, KANG G L, et al. Random erasing data augmentation[C]//Proceedings of AAAI Conference on Artificial Intelligence. [S. 1.]: AAAI Press, 2020, 34(7): 13001-13008.
[22]
WANG C, ZHANG Q, HUANG C, et al. Mancs: a multi-task attentional network with curriculum sampling for person re-identification [C]//Proceedings of Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2018: 384-400.
[23]
ZHENG M, KARANAM S, WU Z Y, et al. re-identification with consistent attentive Siamese networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 5728-5737.
[24]
WANG G A, YANG S, LIU H Y, et al. High-order information matters: learning relation and topology for occluded person re-identification[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 6448-6457.
[25]
JIN X, LAN C L, ZENG W J, et al. Style normalization and restitution for generalizable person re-identification[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, IEEE Press, 2020: 3140-3149.
[26]
WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [C]//Proceedings of the 15th European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19.