融合多尺度对比池化特征的行人重识别方法

引用本文

刘晓蓉, 李小霞, 秦昌辉. 融合多尺度对比池化特征的行人重识别方法[J]. 计算机工程, 2022, 48(4), 292-298. DOI: 10.19678/j.issn.1000-3428.0061508.

LIU Xiaorong, LI Xiaoxia, QIN Changhui. Person Re-Identification Method with Multi-Scale Contrast Pooling Feature[J]. Computer Engineering, 2022, 48(4), 292-298. DOI: 10.19678/j.issn.1000-3428.0061508.

基金项目

国家自然科学基金(61771411)；四川省科技计划项目(2019YJ0449，2021YFG0383)

通信作者

李小霞(通信作者)，教授、博士

作者简介

刘晓蓉(1997—)，女，硕士研究生，主研方向为深度学习、模式识别;
秦昌辉，硕士研究生

文章历史

收稿日期：2021-06-10
修回日期：2021-08-03

Contents Abstract Full text Figures/Tables PDF

融合多尺度对比池化特征的行人重识别方法

刘晓蓉¹ , 李小霞^1,2 , 秦昌辉¹

1. 西南科技大学信息工程学院, 四川绵阳 621000;
2. 特殊环境机器人技术四川省重点实验室, 四川绵阳 621010

收稿日期：2021-06-10；修回日期：2021-08-03

基金项目：国家自然科学基金(61771411)；四川省科技计划项目(2019YJ0449，2021YFG0383)

作者简介：刘晓蓉(1997—)，女，硕士研究生，主研方向为深度学习、模式识别; 秦昌辉，硕士研究生.

通信作者：李小霞(通信作者)，教授、博士.

E-mail: 1154480363@qq.com

摘要：行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。受行人姿态、遮挡、光照变化等因素的影响，传统的行人重识别方法中特征的表达能力有限，导致准确率降低，提出一种融合不同尺度对比池化特征的行人重识别方法。利用残差网络ResNet50提取行人图像的多尺度特征，在网络的不同层次上，通过对输入的特征进行全局平均池化和最大平均池化，将每组平均池化特征和最大池化特征相减，对相减得到的差异特征与最大池化特征进行相加，获得具有强判别性的对比池化特征。在此基础上，利用三元组损失和交叉熵损失联合优化模型，提高模型的泛化能力，同时采用重排序技术优化网络性能。实验结果表明，该方法在Market1501和DukeMTMC-reID数据集上的首位命中率分别达到96.41%和91.43%，平均精度均值为94.52%和89.30%，相比SVDNet、GLAD和PCB等方法，其行人重识别的准确率较高。

Person Re-Identification Method with Multi-Scale Contrast Pooling Feature

LIU Xiaorong¹ , LI Xiaoxia^1,2 , QIN Changhui¹

1. College of Information Engineering, Southwest University of Science and Technology, Mianyang, Sichuan 621000, China;
2. Sichuan Province Key Laboratory of Robotics in Special Environment, Mianyang, Sichuan 621010, China

Abstract: Person re-identification is a technology that uses computer vision to identify whether there are specific people in images or video sequences.Owing to the influence of the person's posture, occlusion, illumination change, and other factors, the expression ability of features in traditional person re-identification methods is limited, resulting in reduced accuracy.A person re-identification method that combines the contrast pooling feature at different scales is proposed.The residual network ResNet50 is used to extract the multi-scale features of the images of the people.At different levels of the network, through the global average pooling and maximum average pooling of the input features, each group of average pooling features and maximum pooling features are subtracted, and the subtracted difference features and maximum pooling features are added to obtain highly discriminative constrast pooling fusion features.On this basis, the triplet loss and cross entropy loss joint optimization model is used to improve the generalization ability of the model; the reordering technology is used to optimize the network performance.The experimental results show that the first ranking of this method on the Market1501 and DukeMTMC-reID datasets are 96.41% and 91.43%, respectively, and the average accuracies are 94.52% and 89.30%, respectively.Compared with SVDNet, GLAD, and PCB, this method has a higher person re-identification accuracy.

开放科学（资源服务）标志码（OSID）：

0 概述

行人重识别是在特定的监控行人图像，查找该行人在其他摄像头下拍摄到的图像^[1]。因摄像头的位置、视角不同，同时受行人姿态、遮挡、光照变化等因素的影响，同一行人的不同图像存在较大的差异。因此，行人重识别成为计算机领域的研究热点。

随着卷积神经网络的发展，基于深度学习的方法被应用于行人重识别任务中。目前，基于深度学习的行人重识别主流方法大多数采用平均池化、最大池化或将两者相结合。本文提出一种多尺度对比池化特征融合的行人重识别方法。基于网络中不同尺度的特征信息，通过构建对比池化模块，同时结合平均池化和最大池化的优点，提取具有强判别性的对比池化特征，从而提升行人重识别的准确度。

1 相关工作

传统的行人重识别方法主要分为基于特征表示的方法和基于距离度量的方法。基于特征表示的行人重识别方法主要通过提取颜色、局部二值模式^[2](Local Binary Pattern，LBP)、尺度不变特征变换^[3](Scale Invariant Feature Transform，SIFT)等特征。由于单一特征在行人目标表征方面具有局限性，因此研究人员又提出其他方法：文献[4]采用累积颜色直方图表示全局特征，进而提取局部特征；文献[5]引入局部最大发生率(Local Maximal Occurrence，LOMO)。基于距离度量的行人重识别方法通过设计距离函数，使得同一行人目标的距离小于不同行人目标的距离。文献[6-7]分别提出KISSME(Keep It Simple and Straightforward Metric)和最大近邻分类间隔(Large Margin Nearest Neighbor classification，LMNN)算法来学习最佳的相似性度量。

传统的行人重识别方法提取的特征表达能力有限，难以适应实际复杂场景下的行人重识别任务。近年来，越来越多的研究人员将深度学习方法应用到行人重识别领域中，通过提取全局特征和局部特征来获得具有判别性的行人特征表达。文献[8]提出一种全局-局部对齐特征算子(Global Local Alignment Descriptor，GLAD)来提取全局特征和局部特征。文献[9]构建均匀分块的PCB(Part-based Convolutional Baseline)模型，将得到的特征等分后通过RPP(Refined Part Pooling)网络对齐图像块，进而提取各图像块的局部特征。

卷积神经网络是深度学习的代表算法之一，在构建卷积神经网络时，通常会在卷积层之后接入1个池化层，以降低卷积层输出的特征维度，同时达到抑制噪声、防止过拟合的作用，从而提高网络的泛化性能。卷积神经网络中平均池化能较完整地传递特征信息，但是容易受背景噪声的影响；最大池化能提取出辨识度较优的特征，但更关注局部信息。主流网络的池化方法如表 1所示，大多数基于卷积神经网络的行人重识别方法仅使用平均池化或最大池化，或者将两者池化后输出的特征进行简单融合。

下载CSV 表 1 主流网络的池化方法 Table 1 Pooling method of mainstream networks

2 对比池化特征融合的行人重识别方法

本文设计的行人重识别网络结构如图 1所示，主要包括多尺度特征提取、对比池化模块和分类回归3个部分。

	Download: JPG larger image
图 1 本文网络结构 Fig. 1 Structure of the proposed network

2.1 多尺度特征提取

卷积神经网络中的不同层次会产生不同空间分辨率的特征图，通过不同卷积层得到的特征图内包含的信息不同。高层特征更关注语义信息，较少关注图像细节信息，而低层特征在包含更多细节信息的同时，也可能包含了混乱的背景信息。因此，研究人员通过结合多个尺度的特征，以这种简单且有效的方式对不同层次的特征进行互补。本文以残差网络结构ResNet50^[15]作为行人重识别的骨干网络，用于提取通过ResNet50网络layer3层和layer4层的特征。从图 1可以看出，本文设计的行人重识别网络结构移除ResNet50网络中最后一层的全连接层，引入平均池化层与最大池化层。图 1中Avg(m)、Max(m)分别表示平均池化和最大池化，得到宽和高都为m的特征图。本文分别将ResNet50网络中layer3层输出的特征进行全局平均池化和全局最大池化，得到输出维度为1×1×1 024的P_avg1和P_max12个特征图。同理，将ResNet50网络中layer4层输出的特征分别进行全局平均池化和全局最大池化，得到输出维度为1×1×2 048的P_avg2和P_max2。为降低池化对信息丢失的影响，通过调整平均池化和最大池化的步长(stride)，以得到更丰富的特征信息，输出维度为2×2×2 048的P_avg3和P_max3。将提取得到的行人图像多尺度特征P_avg1、P_max1、P_avg2、P_max2、P_avg3和P_max3送入到对比池化模块，得到相应的对比特征P_cont1、P_cont2、P_cont3，再将其转化为统一维度进行融合，将融合后的特征送入分类器进行分类，最后得到行人重识别结果。

2.2 对比池化模块

图 2为卷积神经网络中常用的平均池化和最大池化计算示意图。

	Download: JPG larger image
图 2 池化计算示意图 Fig. 2 Schematic diagram of pooling calculation

平均池化是对邻域内的特征求平均值，最大池化则是对邻域内的特征求最大值。经过平均池化后得到的特征虽然能够较完整地传递图像的全局信息，但是其计算方式容易受背景杂波和遮挡的影响，难以区分行人和背景。与平均池化相比，最大池化能够降低背景杂波的影响，但最大池化更关注提取行人图像局部的显著特征和行人的轮廓信息，池化后的特征并不能完整包含行人的全身信息。在行人重识别任务中，由于摄像头角度和外界光照的变化，需要在保留行人全身信息的同时去除背景杂波的影响，并且突出行人和背景的差异。在此基础上，本文提出一个对比池化模块，如图 3所示，通过结合最大池化和平均池化的优点，弥补最大池化和平均池化的不足，在保留行人全身信息、加深行人轮廓的同时，更加关注行人与背景的差异，使得行人图像的最终特征表达更全面和更具判别性，从而提高行人重识别的准确率。

	Download: JPG larger image
图 3 对比池化模块结构 Fig. 3 Structure of contrast pooling module

从图 3可以看出，对比池化模块是将ResNet50提取得到的行人图像多尺度特征P_avg与P_max相减，并将其得到的特征使用一个1×1的卷积核进行卷积，以得到P_avg与P_max之间的差异特征。利用1×1的卷积核对经过最大池化得到的P_max特征进行卷积，与之前得到的P_avg与P_max之间的差异特征相加得到对比特征P_cont。本文提出的对比池化模块结合了最大池化和平均池化的优点，得到的对比特征P_cont在覆盖行人全身和加深行人轮廓的同时降低了背景杂波的影响，并且更加关注行人和背景之间的区别。对比特征P_cont如式(1)所示：

$ {P}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}}={\delta }_{1\times 1}({P}_{\mathrm{m}\mathrm{a}\mathrm{x}})+{\delta }_{1\times 1}({P}_{\mathrm{a}\mathrm{v}\mathrm{g}}-{P}_{\mathrm{m}\mathrm{a}\mathrm{x}}) $

(1)

其中：P_avg和P_max分别为经过平均池化和最大池化后得到的特征；$ {\delta }_{1\times 1}(x) $为对x使用一个1×1的卷积核操作。

2.3 损失函数

为了训练模型，本文使用三元组损失(Triplet Loss)和交叉熵损失(Cross Entropy Loss)联合优化模型，损失函数如式(2)所示：

$ {L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}\_\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}=\frac{1}{6}\sum\limits_{i=1}^{6}{L}_{\mathrm{T}\mathrm{r}\mathrm{i}\mathrm{p}\mathrm{l}\mathrm{e}\mathrm{t}}^{i}+\frac{1}{3}\sum\limits_{j=1}^{3}{L}_{\mathrm{C}\mathrm{E}}^{j} $

(2)

其中：$ {L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}\_\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}} $为总体损失；$ {L}_{\mathrm{T}\mathrm{r}\mathrm{i}\mathrm{p}\mathrm{l}\mathrm{e}\mathrm{t}}^{i} $为三元组损失；$ {L}_{\mathrm{C}\mathrm{E}}^{j} $为交叉熵损失。三元组损失逐渐缩短正样本对之间的距离，使得正负样本之间的距离逐渐变大。交叉熵损失关注实际输出与期望输出的接近程度。$ {L}_{\mathrm{T}\mathrm{r}\mathrm{i}\mathrm{p}\mathrm{l}\mathrm{e}\mathrm{t}}^{i} $中$ i\in \left[\mathrm{1, 6}\right] $，i表示通过ResNet50网络layer3层和layer4层后，提取到的6个行人图像基础特征P_avg1、P_max1、P_avg2、P_max2、P_avg3和P_max3中的第i个特征。$ {L}_{\mathrm{C}\mathrm{E}}^{j} $中$ j\in \left[\mathrm{1, 3}\right] $，j表示通过对比池化模块后提取到3个对比特征P_cont1、P_cont2和P_cont3中的第j个特征。本文设计的损失函数采用三元组损失和交叉熵损失联合优化模型，通过计算多个损失来加快模型收敛，以提高模型的泛化能力。

3 实验

本文实验包含以下4个训练策略：1)在训练阶段，学习率使用WarmUp方式；2)对训练集的数据进行概率为0.5的随机擦除；3)使用标签平滑提高模型的泛化性能；4)使用BNNeck(Batch Normalization Neck)对特征进行归一化。此外，所有实验重复3次取得的均值作为实验结果，在避免随机性的同时保证实验结果的准确性。

3.1 实验数据集

本文在Market1501^[16]和DukeMTMC-reID^[17]数据集上对提出的行人重识别方法进行对比。

Market1501数据集采集于清华大学，包括6个摄像头拍摄到的1 501个行人，训练集有751个行人的12 936幅图像。测试集有另外750个行人的19 732幅图像。测试集又分为查询集和图库集，查询集包含测试集中750个行人在6个摄像头中随机挑选出的3 368幅图像；图库集包含与查询集相同行人的其他13 056幅图像，以及不在查询集中的6 676幅图像。

Duke MTMC-reID数据集包括8个摄像机拍摄到的1 404个行人的36 411幅图像。训练集有702个行人的16 522幅图像。测试集有另外702个行人的17 661幅图像。测试集又分为查询集和图库集，查询集包含测试集中702个行人在8个摄像头中随机挑选出的2 228幅图像；图库集包含17 661幅图像。

3.2 实验设置

本文算法基于Pytorch框架，实验使用的计算平台是基于64位的Windows 10专业版操作系统，硬件配置如下：GPU为NVIDIA GeForce GTX 1080 Ti、CPU为Intel^® Core^TM i7-7700K CPU @ 4.20 GHz、内存32 GB。在训练模型时，输入行人图像的分辨率设置为288×144像素，训练批次为32，总共迭代次数为220，使用SGD优化器优化模型参数，初始学习率设置为0.03，权重衰减率设置为0.000 5，随着迭代次数增加，权重衰减率逐渐增加到0.03，然后分别在迭代到40、110和150次时降到0.003、0.000 3和0.000 3。

3.3 实验评估标准

本文实验采用累积匹配特征(Cumulative Matching Characteristics，CMC)曲线中的Rank-1、Rank-5、Rank-10和平均精度均值(mean Average Precision，mAP)作为评估指标。测试时从查询集中取一幅查询图像，将测试集中所有图像与查询图像进行相似度度量，CMC是指在前K幅候选图像中与查询图像匹配成功的概率，Rank-1、Rank-5、Rank-10的值就是CMC(K)中K=1、5、10时对应的准确率。mAP是计算所有样本的准确率-召回率曲线下面积的平均值。

3.4 实验结果分析

为验证本文方法的有效性，在Market1501数据集上进行对比实验，重识别结果如图 4所示，每行第一列为查询图像，后10列为前10名的查询结果，图 4中实线边框表示正确的查询结果，虚线边框表示错误的查询结果。

	Download: JPG larger image
图 4 本文方法的行人重识别结果 Fig. 4 Person re-identification results of the proposed method

avg方法是利用本文提出的行人重识别网络结构对行人图像基础特征进行平均池化，以得到特征图。max方法是通过最大池化得到的特征图。在Market1501数据集上，avg方法、max方法与本文对比池化模块(contrast)方法的准确率和损失值对比结果如图 5所示。从图 5可以看出，contrast方法相较于avg方法和max方法的准确率更高，同时损失值下降得更快，验证了contrast方法在行人重识别任务中的有效性。

	Download: JPG larger image
图 5 不同方法的准确率和损失值对比 Fig. 5 Accuracy and loss value comparison among different methods

本文利用Grad-CAM类激活热力图对avg方法、max方法和contrast方法进行可视化，结果如图 6所示(彩图效果见《计算机工程》官网HTML版)。从图 6可以看出，avg方法更关注图像的全局信息，但容易受背景杂波影响；max方法更注重局部的行人轮廓信息，但并不包含行人全身信息；contrast方法结合两者的优点，能够包含行人全身的同时，降低背景杂波对其的影响。

	Download: JPG larger image
图 6 不同方法的可视化结果 Fig. 6 Visualization results of different methods

在Market1501和DukeMTMC-reID数据集上，不同方法的性能指标对比如表 2所示。本文提出的contrast+re-ranking方法通过重排序re-ranking^[18]技术优化网络性能，ResNet50_baseline方法直接利用ResNet50网络layer4层输出的特征优化网络性能。从表 2可以看出，本文提出的contrast+re-ranking方法在Market1501和DukeMTMC-reID数据集上的mAP分别为94.52%和89.30%。

下载CSV 表 2 不同方法的性能指标对比1 Table 2 Performance indexs comparison 1 among different methods

在同样以ResNet50为骨干网络的情况下，contrast方法和contrast+re-ranking方法的性能指标能够显著提升。相比ResNet50_baseline方法，avg方法和max方法的性能指标也有明显提升，验证了contrast方法和contrast+re-ranking方法在提取网络中多尺度特征方面的有效性。contrast方法和contrast+re-ranking方法的指标相较于avg方法和max方法有所提升，说明本文所提的对比池化模块结合平均池化和最大池化的优点，对行人重识别网络性能指标的提升具有重要意义。

本文所提方法与近年来行人重识别领域中代表方法(SVDNet^[19]、GLAD^[8]、PCB^[9]、PCB+RPP^[9]、BEF^[20]等)的性能指标对比如表 3所示。对比方法的性能指标都引用自原文，其中“—”表示原文献中没有该项实验结果，同时给出了利用re-ranking技术优化contrast方法后的性能指标。

下载CSV 表 3 不同方法的性能指标对比2 Table 3 Performance indexs comparison 2 among different methods

从表 3可以看出，contrast+re-ranking方法的Rank-1和mAP指标优于对比方法，尤其mAP指标得到显著提高。在Market1501数据集上，contrast+ re-ranking方法在经过重排序后相较于基于局部特征的PCB+RPP方法的Rank-1指标提高2.61个百分点，mAP指标提高了约13个百分点；其Rank-1指标相比BEF方法提高了1.1个百分点，mAP指标提高了7.8个百分点；比DG-Net方法在Rank-1指标上提高了1.61个百分点，在mAP指标上提高了8.52个百分点；比CtF方法在Rank-1指标上提高了2.21个百分点，在mAP指标上提升了9.62个百分点。在DukeMTMC-reID数据集上，与BEF方法相比，本文方法(contrast)的Rank-1指标较低，但是在mAP指标上提高了1.7个百分点。contrast方法经过重排序后，其Rank-1和mAP指标上均高于对比方法。

表 4为本文方法与对比方法的参数量、计算量和推理时间对比。从表 4可以看出，相比大多数对比方法，本文方法的模型参数量(Parameters)更多，但本文方法的计算量(FLOPs)更小，在单幅图像进行推理时所消耗的时间也更少。

下载CSV 表 4 不同方法的参数量、计算量和推理时间对比 Table 4 Parameters, calculation and inference time comparison among different methods

4 结束语

本文提出一种多尺度对比池化特征融合的行人重识别方法。通过构建对比池化模块，结合最大池化和平均池化的优点，使得网络更加关注图像中行人与背景的差异，利用重排序技术优化网络性能，以提取网络中不同尺度的特征。在Market1501和DukeMTMC-reID数据集上的实验结果表明，本文方法的首位命中率分别为96.41%和91.43%，相比SVDNet、GLAD和PCB等方法，能够有效提高行人重识别的准确率。后续将通过可变形卷积或引入注意力机制的方法，提取更加显著的特征，以提升行人重识别的精度。

参考文献

[1]	宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(6): 770-780. SONG W R, ZHAO Q Q, CHEN C H, et al. Survey on pedestrian re-identification research[J]. CAAI Transactions on Intelligent Systems, 2017, 12(6): 770-780. (in Chinese)
[2]	OJALA T, PIETIKÄINEN M, MÄENPÄÄ T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987. DOI:10.1109/TPAMI.2002.1017623
[3]	LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94
[4]	BAZZANI L, CRISYANI M, PERINA A, et al. Multiple-shot person re-identification by chromatic and epitomic analyses[J]. Pattern Recognition Letters, 2012, 33(7): 898-903. DOI:10.1016/j.patrec.2011.11.016
[5]	LIAO S C, HU Y, ZHU X Y, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 2197-2206.
[6]	KOESTINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2012: 2288-2295.
[7]	WEINBERGER K Q, SAUL L K. Distance metric learning for large margin nearest neighbor classification[J]. Journal of machine learning research, 2009, 10(2): 207-244.
[8]	WEI L H, ZHANG S L, YAO H T, et al. GLAD: global local-alignment descriptor for scalable person re-identification[J]. IEEE Transactions on Multimedia, 2018, 21(4): 986-999.
[9]	SUN Y F, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of the European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 480-496.
[10]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791
[11]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems. Los Angeles, USA: NIPS Foundation Press, 2012: 1097-1105.
[12]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-05-07]. https://arxiv.org/pdf/1409.1556.pdf.
[13]	LIN M, CHEN Q, YAN S C. Network in network[EB/OL]. [2021-05-07]. https://arxiv.org/abs/1312.4400.
[14]	SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 1-9.
[15]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
[16]	ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2015: 1116-1124.
[17]	ZHENG Z D, ZHENG L, YANG Y. Unlabeled sample generated by GAN improve the person re-identification baseline in vitro[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 3774-3782.
[18]	ZHONG Z, ZHENG L, CAO D L, et al. Re-ranking person re-identification with k-reciprocal encoding[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1318-1327.
[19]	SUN Y F, ZHENG L, DENG W J, et al. SVDNet for pedestrian retrieval[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 3800-3808.
[20]	DAI Z Z, CHEN M Q, GU X D, et al. Batch feature erasing for person re-identification and beyond[EB/OL]. [2021-05-07]. https://arxiv.org/pdf/1811.07130.pdf.
[21]	LIN Y T, ZHENG L, ZHENG Z D, et al. Improving person re-identification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161. DOI:10.1016/j.patcog.2019.06.006
[22]	ZHENG Z D, YANG X D, YU Z D, et al. Joint discriminative and generative learning for person re-identification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 2138-2147.
[23]	WANG Guan'an, GONG S G, CHENG J, et al. Faster person re-identification[C]//Proceedings of the European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 275-292.