2. 郑州大学 地球科学与技术学院, 郑州 450052;
3. 郑州大学 河南省超级计算中心, 郑州 450052
2. School of Geoscience and Technology, Zhengzhou University, Zhengzhou 450052, China;
3. Supercomputing Center of Henan Province, Zhengzhou University, Zhengzhou 450052, China
针对公共场所某个视频监控摄像头捕捉的目标行人,基于视频监控网络和计算机视觉技术对其再次出现时识别的过程称为行人重识别[1]。行人重识别技术由于能直观、准确地反映犯罪嫌疑人与犯罪行为之间的联系,因此被广泛应用,特别是近年来得到快速发展,成为维护公共安全和社会稳定的重要手段。目前在可控环境下,基于人脸等生物特征的目标识别技术己比较成熟,但在实际监控场景下,受视角变换、行人姿态变化、图像分辨率低、目标被遮挡以及光照变化等因素的影响,通常难以获得高质量人脸图像,无法利用人脸信息进行行人重识别。因此,研究人员通过行人衣着与携带的物品等外貌特征来实现行人重识别[2]。
现有行人重识别算法分为基于距离度量学习的算法和基于特征描述的算法[2]。其中:基于距离度量学习的算法主要学习度量目标特征分布的距离函数,通常不同目标行人的特征距离值较大,而同一个目标行人的特征距离值较小[3];基于特征描述的算法常用来设计可靠、鲁棒且具有判别性的行人图像特征,该特征能有效区分不同目标行人,且不受图像尺度、视角及光照等变化因素的影响。传统行人重识别算法主要基于颜色、纹理和局部描述[4-6]等低维特征,自2012年HINTON团队利用深度卷积神经网络在ImageNet图像分类比赛中获胜后,深度卷积神经网络[7-8]被广泛应用于行人重识别的研究。在早期,研究人员主要关注行人图像的全局特征,发现存在以下问题:目标行人有缺失及被格挡现象;目标行人检测不准确;目标行人姿态发生变化;目标行人之间相似度高;复杂背景的干扰使模型学习到的全局特征鲁棒性不强。因此,研究人员将工作重点转移到对行人图像局部特征的研究上。
由行人身体姿态识别领域近期的研究成果可知,研究人员对行人身体关键点进行定位并将其划分为头部、上肢和下肢三部分,分别提取局部特征并与整体特征融合后作为行人特征,最终得到比全局特征更高的准确率[9-10]。但是该方法需引入外部数据集,而外部数据集与行人重识别数据集差异较大且训练过程较繁琐,因此研究人员转而采用行人图像的内在特征,并达到与利用外部数据集相同的准确率[11-13]。文献[14]提出一种精简的PCB模型,将行人图像经过卷积神经网络后所得张量自上而下等分为N个区域,并分别提取各区域特征进行同步训练,该方法所得局部特征识别率比关键点定位更高。利用行人图像的局部特征虽然识别率更好,但是行人图像局部结构划分后会出现离异值,导致所提取局部特征可区分性降低。
本文提出一种基于局部区域特征选择的内容一致性行人重识别(Content-Consistent Pedestrian Re-identification,CCreID)算法。根据局部区域内容一致性,从行人图像张量中选择特征向量,结合Softmax函数计算其局部区域概率重新生成局部区域,并分别在Market-1501[15]和DukeMTMC-reID[16]数据集上进行重识别性能分析。
1 本文算法本文所提算法以残差卷积神经网络ResNet50[17]为主干网络,其结构如图 1所示。行人图像输入主干网络后获得三维张量T,使用CCreID算法对张量T进行处理后得到p个局部区域,再对局部区域进行全局平均池化操作获得特征向量,然后对其进行降维与分类。由于每个区域内出现离异值造成各区域内容不一致,为解决该问题,本文提出基于局部特征选择的内容一致性算法CCreID。
|
Download:
|
| 图 1 本文算法的网络结构 Fig. 1 Network structure of the proposed algorithm | |
为得到每个局部区域的训练权重Wi,建立预训练模型进行预训练,其结构如图 2所示。该模型采用ResNet50网络中全局平均池化层前的结构,行人图像输入主干网络后生成三维张量T,经过平均池化操作将张量T自上而下等分为p个局部区域,使用1×1卷积对p个局部区域进行降维。在张量T后加上分类器,每个分类器由1个全连接层(FC)和1个Softmax函数实现。然后采用交叉熵损失函数进行监督,直至收敛,最终得到p个训练权重Wi(i=1, 2, ..., p)。
|
Download:
|
| 图 2 预训练模型结构 Fig. 2 Structure of pre-trained model | |
将行人图像输入卷积神经网络后所得张量T自上而下等分为p个局部区域,得到p个局部区域特征。在p个局部区域内存在不属于自身区域的离异值,该离异值与其他局部区域更相似[14]。有部分研究因为未考虑局部区域间的离异值,所以在复杂背景、位姿变化以及遮挡等因素的影响下,提取的行人特征鲁棒性不强[17-18]。由此可知,局部区域划分的前提是p个局部区域中各区域具有内容一致性,即:1)各局部区域不存在不属于自身区域的离异值;2)各局部区域之间的内容存在差异。
1.3 局部特征的选择行人图像输入主干网络后得到张量T大小为24×8×2048。基本单位向量是张量T中最小的特征向量,其大小为1×1,维度为2 048。本文网络共有192个基本单位向量,如图 3所示。张量T被等分为6个局部区域,每个局部区域包含32个基本单位向量,其均由张量T中某一个大小为4×8固定空间得到。在每个局部区域内均存在不属于自身区域的离异值,该离异值与其他局部区域更相似,使得所提取特征的鲁棒性较差。为解决该问题,本文从张量T中选择基本单位向量组成各局部区域,并通过阈值α控制局部区域以选择基本单位向量的最低可能性,通过重新分配每个基本单位向量的归属可得到6个新局部区域,且各区域内容一致。
|
Download:
|
| 图 3 局部特征的选择过程 Fig. 3 Selection process of local features | |
为解决p个局部区域所产生的离异值问题,需对所得p个局部区域进行重新生成。使用Softmax算法计算张量T中每个基本单位向量属于局部区域Pi(i= 1, 2, ..., p)的概率,计算公式如下:
| $\left(P_{i} \mid \boldsymbol{f}_{m}\right)=\operatorname{Softmax}\left(\boldsymbol{w}_{i}^{\boldsymbol{T}} \boldsymbol{f}_{m}\right)=\frac{\exp \left(\boldsymbol{w}_{i}^{\boldsymbol{T}} \boldsymbol{f}_{m}\right)}{\sum\limits_{j=1}^{n} \exp \left(\boldsymbol{w}_{i}^{\boldsymbol{T}} \boldsymbol{f}_{j}\right)}$ | (1) |
其中:Wi为预训练得到的权重;fm为在张量T中第m个基本单位向量,且满足
根据
| $\mathrm{S}-\operatorname{Softmax}\left(\boldsymbol{w}_{i}^{\boldsymbol{T}} \boldsymbol{f}_{m}\right)=\left\{\begin{array}{l}\frac{\exp \left(\boldsymbol{w}_{i}^{\boldsymbol{T}} \boldsymbol{f}_{m}\right)}{\sum\limits_{j=1}^{n} \exp \left(\boldsymbol{w}_{i}^{\boldsymbol{T}} \boldsymbol{f}_{j}\right)}+ \\ P\left(P_{i} \mid \boldsymbol{f}_{n}\right), P\left(P_{i} \mid \boldsymbol{f}_{n}\right) \geqslant \alpha \\ 0, P\left(P_{i} \mid \boldsymbol{f}_{n}\right)<\alpha\end{array}\right.$ | (2) |
其中,
| $P^{\prime}\left(P_{i} \mid \boldsymbol{f}_{m}\right)=\mathrm{S}-\operatorname{Softmax}\left(\boldsymbol{w}_{i}^{\boldsymbol{T}} \boldsymbol{f}_{m}\right)$ | (3) |
1个局部区域对应1个概率图,其中包括192个基本单位向量,表达式如下:
| $\sum\limits_{m=1}^{n} P^{\prime}\left(P_{i} \mid \boldsymbol{f}_{m}\right)=1$ | (4) |
局部区域Pi的表达式如下:
| $P_{i}=\left\{P^{\prime}\left(P_{i} \mid \boldsymbol{f}_{m}\right) \times \boldsymbol{f}_{m}, \forall \boldsymbol{f}_{m} \in V\right\}$ | (5) |
其中,V为基本单位向量的完备集。
2 实验与结果分析 2.1 数据集和评价标准本文通过实验分析阈值α、张量T和局部区域个数p对行人重识别性能的影响。实验采用Market-1501数据集和DukeMTMC-reID数据集,其为目前行人重识别数据量最大的两个数据集,部分图例和具体参数分别如图 4与表 1所示。
|
Download:
|
| 图 4 2个数据集的图例 Fig. 4 Legend of two datasets | |
|
下载CSV 表 1 Market-1501数据集和DukeMTMC-reID数据集的具体参数 Table 1 Specific parameters of Market-1501 dataset and DukeMTMC-reID dataset |
Market-1501数据集为2015年研究人员在清华大学使用5个高清摄像头和1个低清摄像头采集得到。行人矩形检测框采用可变形部件模型[19](Deformable Part Model,DPM)标注。将该数据集分为训练集和测试集,其中:训练集有12 936张图像,包含751个行人;测试集有19 732张图像,包含750个行人。
DukeMTMC-reID数据集为DukeMTMC数据集的行人重识别子数据集。该数据集为2017年研究人员在杜克大学使用8个摄像头采集的85 min高分辨率视频,并提供人工标注的行人检测矩形框。对视频每隔120帧采样1张图像,共得到36 411张图像组成DukeMTMC-reID数据集。其中,408个行人由一个摄像头采集,1 404人由两个及两个以上摄像头采集,在训练集和测试集中分别有702个行人。此外,该数据集中查询图像均为每个摄像头下每个ID的1张图像,其他行人图像放入测试的行人查询集,并将另外408个行人图像作为干扰项也放入行人查询集。DukeMTMC-reID数据集共有16 522张训练图像、2 228张查询图像以及包含17 661张图像的查询集。
目前评价行人重识别准确率的标准[20]主要有平均查准率(mean Average Precision,mAP)和Rank-n。其中,mAP是对多类任务中的平均精度求和再取平均值,该指标反映学习所得模型在多类任务上性能的优劣,主要是通过对相似度排序,从高到低统计从第一项到最后一项相同行人图像的重识别准确率,其更强调查准率和查全率之间的平衡。Rank-n是给定查询集中一幅图像,计算其与图库数据集中所有图像的相似度并将其按从高到低排序,如果前n 项中有相同行人则说明识别准确,该评价方式所得第一次成功匹配的概率Rank-1最重要,Rank-5与Rank-10作为辅助参考。本文以mAP和Rank-n作为行人重识别准确率性能的评价指标,其中,Rank-1为主要评价指标,Rank-5和Rank-10为辅助评价指标。此外,为更好地评估模型性能,本文给出包括测试集特征提取时间、特征间距离计算时间、Rank-n计算时间和mAP计算时间在内的模型测试时间。
2.2 实验环境及参数分析本文实验采用深度学习工具包PyTorch0.4.0并以ResNet50为模型主干网络。由于图像尺寸较大有利于学习局部区域特性,且mAP和Rank-1的精度均随着图像大小的增加而提升,若下采样率较小则张量T的空间尺寸较大,识别性能更好[14],因此本文将数据集中行人图像设置为348像素×128像素,所得张量T大小为24×8×2048,并对训练图像进行水平翻转和归一化处理。批大小设置为64,初始化学习率设置为0.1,在50次迭代后学习率衰减为0.01。
阈值α决定基本单位向量是否被选中,本文使用控制变量法确定阈值α的大小,并根据经验将局部区域个数p设置为6。图 5和图 6分别为模型的mPA值和Rank-1值随阈值α的变化情况。可以看出:当α=0时,局部区域公平性地选择基本单位向量;当α=0.038时,模型的mPA值和Rank-1值达到最大;当α>0.038时,模型的mPA值和Rank-1值出现下降。因此,本文采用α=0.038。
|
Download:
|
| 图 5 mPA随阈值α的变化曲线 Fig. 5 The change curve of mPA with threshold α | |
|
Download:
|
| 图 6 Rank-1随阈值α的变化曲线 Fig. 6 The change curve of Rank-1 with threshold α | |
局部区域个数P决定特征可区分性强度,本文使用控制变量法确定P的大小,阈值α=0.038。图 7和图 8分别为模型的mPA值和Rank-1值随α的变化情况。可以看出:当P=1时,模型学习的行人特征为全局特征;当P=6时,模型的mPA值和Rank-1值达到最大;当P>6时,模型的mPA值和Rank-1值出现下降,其原因是P减弱局部区域的识别能力。因此,本文采用P=6。
|
Download:
|
| 图 7 mPA随p的变化曲线 Fig. 7 The change curve of mPA with p | |
|
Download:
|
| 图 8 Rank-1随p的变化曲线 Fig. 8 The change curve of Rank-1 with p | |
为验证本文所提CCreID算法的有效性,将其与基准ResNet50算法、利用关键点定位产生行人身体局部区域的Spindel算法[10]、利用GAN网络对齐特征的PN-GAN算法[21]以及等比例划分局部特征的PCB算法[14]进行对比。在Market-1501数据集上不同算法的测试时间对比结果如表 2所示,可以看出CCreID算法的测试时间较ResNet50算法和PCB算法更长,但是较Spindel算法和PN-GAN算法更短。在Market-1501数据集和DukeMTMC-reID数据集上不同算法的重识别性能的对比结果分别如表 3和表 4所示,可以看出CCreID算法在两个数据集上的mPA值和Rank-n(n=1,3,5)值均高于其他算法,说明其所提取局部区域特征的可区分性和丰富度更优,提高了行人重识别准确率。
|
下载CSV 表 2 5种算法在Market-1501数据集上的测试时间 Table 2 Test time of five algorithms on Market-1501 dataset |
|
下载CSV 表 3 5种算法在Market-1501数据集上的重识别性能 Table 3 Re-identification performance of five algorithms on Market-1501 dataset |
|
下载CSV 表 4 5种算法在DukeMTMC-reID数据集上的重识别性能 Table 4 Re-identification performance of five algorithms on DukeMTMC-reID dataset |
图 9为本文实验中部分Rank-1查询结果(第1行是查询图像,第2行是查询结果,图 9(e)和图 9(f)中第2行图像是错误结果)。可以看出,6张查询图像均存在不同程度的背景干扰,其中:图 9(a)中查询图像存在木质柜子格挡,查询结果准确;图 9(b)中查询图像和查询结果的行人姿态不同,分别为骑自行车和正常行走,但仍为同一个行人;图 9(c)和9(d)中查询图像无行人面部特征,无法利用行人面部特征,需根据行人属性特征来识别,此查询结果验证了该结论。图 9(a)~图 9(d)的查询结果均准确,图 9(e)和图 9(f)的查询结果错误,说明当行人属性非常接近时,无法用本文模型进行识别。
|
Download:
|
| 图 9 本文实验中部分Rank-1查询结果 Fig. 9 Partial Rank-1 query results of the proposed experiment | |
基于特征描述的行人重识别算法要求所提取的特征鲁棒、具有判别性且不受环境变化因素的影响,针对现有重识别算法在行人图像局部区域存在离异值的问题,本文提出一种内容一致性行人重识别算法。根据局部区域特征的内容一致性,使用Softmax函数计算生成新局部区域,以减少其内部特征差异,并增加局部区域之间的特征差异。实验结果表明,该算法较Spindel、PN-GAN等算法重识别准确率更高,行人特征具有更好的可区分性和鲁棒性。后续将研究不同行人属性对识别准确率的影响,以提升行人属性相近时算法的重识别性能。
| [1] |
DING Zongyuan, WANG Hongyuan, CHEN Fuhua, et al. Person re-identification based on distance centralization and projection vectors learning[J]. Journal of Computer Research and Development, 2017, 54(8): 1785-1794. (in Chinese) 丁宗元, 王洪元, 陈付华, 等. 基于距离中心化与投影向量学习的行人重识别[J]. 计算机研究与发展, 2017, 54(8): 1785-1794. |
| [2] |
SONG Wanru, ZHAO Qingqing, CHEN Changhong, et al. Survey on pedestrian re-identification research[J]. CAAI Transactions on Intelligent Systems, 2017, 12(6): 770-780. (in Chinese) 宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(6): 770-780. |
| [3] |
ZHENG L, YANG Y, HAUPTMANN A G, et al.Person re-identification: past, present and future[EB/OL].[2019-10-13].https://www.researchgate.net/publication/308981025_Person_Re-identification_Past_Present_and_Future.
|
| [4] |
LIU Xiaokai, WANG Hongyu, WU Yi, et al.An ensemble color model for human re-identification[C]//Proceedings of 2015 IEEE Winter Conference on Applications of Computer Vision.Washington D.C., USA: IEEE Press, 2015: 868-875.
|
| [5] |
FARENZENA M, BAZZANI L, PERINA A, et al.Person re-identification by symmetry-driven accumulation of local features[C]//Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2010: 2360-2367.
|
| [6] |
HAMDOUN O, MOUTARDE F, STANCIULESCU B, et al.Person re-identification in multi-camera system by signature based on interest point descriptors collected on short video sequences[C]//Proceedings of 2008 IEEE Conference on Distributed Smart Cameras.Washington D.C., USA: IEEE Press, 2008: 1-6.
|
| [7] |
LI Zhi, SUN Yubao, WANG Feng, et al. Clothing image classification and retrieval algorithm based on deep convolutional neural network[J]. Computer Engineering, 2016, 42(11): 309-315. (in Chinese) 厉智, 孙玉宝, 王枫, 等. 基于深度卷积神经网络的服装图像分类检索算法[J]. 计算机工程, 2016, 42(11): 309-315. |
| [8] |
CHENG De, GONG Yihong, ZHOU Sanping, et al.Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 1335-1344.
|
| [9] |
CAO Z, SIMON T, WEI S E, et al.Realtime multi-person 2D pose estimation using part affinity fields[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 7291-7299.
|
| [10] |
ZHAO Haiyu, TIAN Maoqing, SUN Shuyang, et al.Spindle net: person re-identification with human body region guided feature decomposition and fusion[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 1077-1085.
|
| [11] |
YAO Hantao, ZHANG Shiliang, HONG Richang, et al. Deep representation learning with part loss for person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(6): 2860-2871. DOI:10.1109/TIP.2019.2891888 |
| [12] |
LIU Xihui, ZHAO Haiyu, TIAN Maoqing, et al.Hydraplus-net: attentive deep features for pedestrian analysis[C]//Proceedings of 2017 IEEE Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2017: 350-359.
|
| [13] |
ZHAO Liming, LI Xi, WANG Jingdong, et al.Deeply-learned part-aligned representations for person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2017: 3219-3228.
|
| [14] |
SUN Yifan, ZHENG Liang, YANG Yi, et al.Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of 2018 European Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2018: 480-496.
|
| [15] |
ZHENG Liang, SHEN Liyue, TIAN Lu, et al.Scalable person re-identification: a benchmark[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2015: 1116-1124.
|
| [16] |
RISTANI E, SOLERA F, ZOU R, et al.Performance measures and a data set for multi-target, multi-camera tracking[C]//Proceedings of 2016 European Conference on Computer Vision.Berlin, Germany: Springer, 2016: 17-35.
|
| [17] |
HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 770-778.
|
| [18] |
VARIOR R R, SHUAI B, LU J, et al.A siamese long short-term memory architecture for human re-identification[C]//Proceedings of 2016 European Conference on Computer Vision.Berlin, Germany: Springer, 2016: 135-153.
|
| [19] |
YAO Hantao, ZHANG Shiliang, HONG Richang, et al. Deep representation learning with part loss for person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(6): 2860-2871. DOI:10.1109/TIP.2019.2891888 |
| [20] |
FELZENSQWALB P F, MCALLESTER D, RAMANAN D, et al.A discriminatively trained, multiscale, deformable part model[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2008: 1-8.
|
| [21] |
QIAN Xuelin, FU Yanwei, XIANG Tao, et al.Pose-normalized image generation for person re-identification[C]//Proceedings of 2018 European Conference on Computer Vision.Berlin, Germany: Springer, 2018: 650-667.
|
2021, Vol. 47
