开放科学(资源服务)标志码(OSID):
行人重识别是判断图像或视频序列中是否存在特定行人的关键技术,被认为是图像检索的子问题,可为犯人追踪、视频数据处理等问题提供智能化解决方案,具有重要的理论意义和实际应用价值[1]。由于行人外观易受穿着、遮挡、姿态和视角等因素的影响,使得行人重识别成为计算机视觉领域中一项具有挑战性的研究课题。
行人重识别的关键问题是寻找一个最具鲁棒性的特征表示。在现有模式识别研究中,涉及区域特征[2]和特征融合[3]的研究较多。文献[4]提出一种端到端比较注意网络(Comparative Attention Network,CAN)模型。该模型在学习几张行人图像后有选择地关注显著的部分,采用比较注意元件生成关注区域,基于LSTM生成注意力图,利用CAN模型模拟人类的感知过程,验证两幅图像是否为同一行人。文献[5]提出基于局部卷积基准(Part-based Convolutional Baseline,PCB)网络和精确局部池化(Refined Part Pooling,RPP)方法提取局部特征。利用PCB网络将特征图水平划分为六等分并进行平均池化和降维,同时利用RPP方法将异常值重新分配生成具有内部一致性的精确局部特征,但这种处理方式会产生区域异常值。文献[6]提出一种基于视频的全局深度表示学习方法,以软注意力模块学习局部特征,在视频范围内聚合局部特征。该方法作为对3D卷积神经网络(Convolutional Neural Network,CNN)层的补充,能够捕获视频中的外观信息和运动信息,进一步增加3D局部对齐方式。网络经过端到端训练,能够自动学习更具判别性的局部区域,从而减少背景等因素造成的影响,但是行人姿势会随着时间的推移而发生改变,显著区域会被佩戴物品遮挡,同时也会造成大量空间信息的丢失。
进行视频行人重识别时需要考虑时间信息的影响,对此的解决方法主要有3D CNN、递归循坏网络(Recurrent Neural Network,RNN)、光流和时间聚合[7]。文献[8-9]在采用CNN提取空间特征的同时利用RNN提取时序特征,针对单帧图像信息不足的问题,采用多帧序列图像信息进行弥补,对图像区域的质量进行评估,将来自其他采样帧的高质量区域补偿到低质量区域[10]。文献[11]采用CNN提取步态序列的空间特征,利用LSTM从步态序列中提取时间特征,最终得到时空信息融合的特征表示。文献[12]提出利用改善循环单元(Refining Recurrent Unit,RRU)进行帧间特征的升级。不同于LSTM,RRU不直接利用每帧特征提取时间信息,而是根据历史视频帧的外观和上下文恢复当前帧缺失的部分。文献[13]将RNN单元输出的平均值作为最终的特征表示并直接采用最后一个隐藏层的输出作为时间聚合的特征表示。本文对局部特征序列进行权重分配并加权平均,在空间特征的基础上融入时间信息,这种权重分配的方式优于文献[13]的全局平均和最后隐藏层输出的方法。以上行人重识别方法着重考虑关注区域,丢弃了全局特征的大量信息,同时也没有将空间信息与时间信息进行充分融合。
本文提出一种基于时空关注区域的行人重识别方法,将空间信息与时序信息进行深度融合,以解决行人姿势变换[14]和遮挡等问题,并通过快慢网络[15]提取全局特征和关注区域特征。快慢网络以不同的速度处理时间信息,用以捕获视频帧快速变化的动作信息,两个路径分别提取关注区域特征和全局特征。同时,提出一种融合模型替代快慢网络中的横向连接,采用亲和度矩阵和定位参数融合局部特征和全局特征,从而形成凸显关注区域的全局特征。
1 基于时空关注区域的行人重识别 1.1 网络框架视频V被分割成连续的非重叠视频片段
![]() |
Download:
|
图 1 基于时空关注区域的行人重识别框架 Fig. 1 Person re-identification framework based on spatio-temporal attention region |
慢路径采样帧稀疏,低帧率运行,时间分辨率低,用于提取优良的空间特征,获得完整的语义信息;快路径采样帧数是慢路径的
多重空间关注模型基于文献[16]的多样性正则化实现,用于发现具有判别性的身体区域,减小遮挡、视角等因素对识别结果的影响。
如图 2所示,时空关注模型采用ResNet-50的conv1到res5c作为特征提取器,每个图像
![]() |
Download:
|
图 2 多重空间关注模型 Fig. 2 Multiple spatial attention model |
以
$ {\boldsymbol{I}}_{n, k}=\sum\limits_{l=1}^{L}{\boldsymbol{S}}_{n, k, l}{\boldsymbol{u}}_{n, l} $ | (1) |
其中,每个视觉特征表示图像的显著区域。为约束空间关注模型学习到不同的显著区域,文献[16]设计一个惩罚项衡量感受野之间的重叠,基于Hellinger距离度量关注区域之间的相似性:
$ \begin{array}{l}H({\boldsymbol{S}}_{n, i}\mathrm{ }, {\boldsymbol{S}}_{n, j})=\frac{1}{\sqrt{2}}\sqrt{\sum\limits_{l}^{L}{\left(\sqrt{{\boldsymbol{S}}_{n, i, l}}-\sqrt{{\boldsymbol{S}}_{n, j, l}}\right)}^{2}}=\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{{{{{{{{{{{{{{{}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}\mathrm{ }\frac{1}{\sqrt{2}}{‖\sqrt{{\boldsymbol{S}}_{n, i}}-\sqrt{{\boldsymbol{S}}_{n, j}}‖}_{2}\end{array} $ | (2) |
其中,
$ {H}^{2}({\boldsymbol{S}}_{n, i}, {\boldsymbol{S}}_{n, j})=1-\sum\limits_{l=1}^{L}\left(\sqrt{{\boldsymbol{S}}_{n, i, l}{\boldsymbol{S}}_{n, j, l}}\right) $ | (3) |
为抑制关注区域之间的重叠,
在1.2.1节中,每个采样帧都由4个关注区域的集合表示,即
![]() |
Download:
|
图 3 时间聚合模型 Fig. 3 Temporal aggregation model |
时间聚合模型由空间卷积层(输入通道数为1 024,输出通道数为D)和全连接层(输入通道数为D,输出通道数为1)组成,采用采样帧相同部位的关注区域特征作为输入,空间卷积层对关注区域的特征表示做进一步卷积操作,生成6个采样帧相同部位的特征表示
$ {\boldsymbol{f}}_{k}=\sum\limits_{n=1}^{6}{\boldsymbol{C}}_{n, k}{\boldsymbol{f}}_{n, k} $ | (4) |
其中,
快慢网络中的横向连接存在融合过程复杂和单向连接等不足。本文提出一种融合模型代替快慢网络中的横向连接。该模型将局部关注特征fk与全局特征X融合,形成关注区域凸显且不丢失全局信息的全局特征表示,其融合过程简单,且不受单向连接的限制。模型中包括亲和度函数H和定位函数G,具体细节如图 4所示。
![]() |
Download:
|
图 4 融合模型 Fig. 4 Fusion model |
亲和度函数H用于表示局部特征fk与特征X之间的相似性,函数表达式为
$ H(m, n)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{X}}^{\mathrm{{\rm T}}}\right(m\left){\boldsymbol{f}}_{k}\right(n\left)\right)}{\sum\limits_{m}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{X}}^{\mathrm{{\rm T}}}\right(m\left){\boldsymbol{f}}_{k}\right(n\left)\right)} $ | (5) |
其中,
定位函数G由2个卷积层和1个线性层组成,将亲和度函数
$ G\left({H}_{k}\right)={\boldsymbol{\theta }}_{k}, G:{\boldsymbol{R}}^{900\times {e}^{2}}\to {\boldsymbol{R}}^{4} $ | (6) |
定位参数
$ \left[\begin{array}{l}{x}_{i}^{\mathrm{\text{'}}}\\ {y}_{i}^{\mathrm{\text{'}}}\end{array}\right]=\left[\begin{array}{cc}a& -b\\ b& a\end{array}\right]\left[\begin{array}{l}{x}_{i}\\ {y}_{i}\end{array}\right]+\left[\begin{array}{l}c\\ d\end{array}\right] $ | (7) |
其中,
$ F=o\left({\boldsymbol{f}}_{k},\boldsymbol{X},G\left(H\left(\boldsymbol{X}, {\boldsymbol{f}}_{k}\right)\right)\right) $ | (8) |
函数
本文采用融合损失函数和三重损失函数进行网络训练,融合损失函数基于局部关注特征fk与其在全局特征中相对应区域之间的平均欧氏距离对识别结果进行判定:
$ {L}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}=\frac{1}{K}\sum\limits_{k=1}^{K}\left(\boldsymbol{X}\right({\boldsymbol{\theta }}_{k})\mathrm{ }, {\boldsymbol{f}}_{k}) $ | (9) |
其中,
三重损失函数[18]在一个批次中将待检测样本、一个正样本和一个负样本构成三元组,该批次由P个待检测样本和每个检测样本的A个视频片段组成,每个视频片段有
$ \begin{array}{l}{L}_{\mathrm{t}\mathrm{r}\mathrm{i}\mathrm{p}\mathrm{l}\mathrm{e}\mathrm{t}}=\\ \frac{1}{P}\cdot \frac{1}{A}\sum\limits_{i=1}^{P}\sum\limits_{m=1}^{A}\left[\underset{P=\mathrm{1, 2}, \cdots , A}{\mathrm{m}\mathrm{a}\mathrm{x}}D({f}_{i, m}\mathrm{ }, {f}_{p}^{i})-\right.{\left.\underset{\begin{array}{l}j=\mathrm{1, 2}, \cdots , P\\ n=\mathrm{1, 2}, \cdots , A\end{array}}{\mathrm{m}\mathrm{i}\mathrm{n}}D({f}_{i, m}\mathrm{ }, {f}_{j, n})+a\right]}_{+}\end{array} $ | (10) |
其中,
$ L={L}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}+{L}_{\mathrm{t}\mathrm{r}\mathrm{i}\mathrm{p}\mathrm{l}\mathrm{e}\mathrm{t}} $ | (11) |
融合损失和三重度量损失都是基于特征表示的,彼此之间存在内在联系,因此,可将融合损失作为融合阶段的经验指导和纠正匹配错误。
2 实验与结果分析基于iLIDS-VID、PRID-2011和MARS视频数据集对本文方法进行性能评估。
2.1 实验细节首先在ImageNet数据集上对Resnet-50进行预训练,然后在3个数据集上进行微调。在训练阶段,输入图像的大小为240像素×240像素。为方便实验对比,训练包含不同关注区域数量的空间关注模型。在时间聚合模型和融合模型训练过程中,假设
首先研究空间关注模型的数量K对识别效果的影响。随着空间关注模型数量的增加,网络能够发现更多的显著区域。由于受到多样性正则化的约束,随着K的增大,关注区域的尺寸不断缩小。如表 1所示,当K=2时,关注区域往往会包含多个身体部位和背景,识别性能较低,经实验验证,本文模型在K=4时网络的识别性能达到最优。如果K再持续增大,识别效果反而降低,这是因为在多样性正则化约束的情况下,空间关注模型的数量过多会导致关注区域尺寸过小或者特征判别性降低,最终使识别准确率下降。笔者在iLIDS-VID数据集上进行实验时发现,K=6时识别效果最佳,这与数据集的特性有关,因为iLIDS-VID数据集具有复杂的背景和严重的遮挡。增加关注区域的数量可以减少背景和遮挡对识别结果的影响,在不同数据集中关注区域的尺寸对识别准确率有很大影响,下文将对此做进一步讨论。
![]() |
下载CSV 表 1 多重空间关注模型的Rank-1准确率 Table 1 Rank-1 accuracy of multiple spatial attention model |
在上述实验中,设置每个相同部位的关注区域尺寸是相同的,目的是便于进行时间聚合,在此基础上进行关注部位区域尺寸的讨论,并记录最优的区域尺寸和识别准确率。首先进行单一关注区域尺寸的讨论。以膝盖为例,分别设定不同尺寸的膝盖区域,记录识别准确率,然后以所有关注区域的尺寸最优值为约束条件,最终得到识别准确率。
表 2的上半部分为单一区域尺寸的实验结果。可以看出,在原始图像中,膝盖区域尺寸为48×48时Rank-1准确率最高,达到80.4%,由实验数据可以发现,识别准确率会随着设定区域的扩大而不断减小,这是由于背景逐渐增多造成的影响。表 2的下半部分为关注区域尺寸全部为最优值的实验结果。可以看出,在MARS数据集上Rank-1准确率达到88.2%,在对单一区域尺寸进行单独讨论时,Rank-1准确率都略低于88.2%,这是因为其他关注部位的区域尺寸不是最优值。
![]() |
下载CSV 表 2 不同部位的关注区域尺寸 Table 2 Size of attention region in different parts |
设置一系列对比实验验证融合模型的性能,首先是单一路径实验,分为慢网络和快网络进行双路径快慢网络结合的实验验证。快慢网络横向连接存在3种形式,即时间到通道、时间跨度采样和时间跨度卷积[15]。横向连接需要匹配特征的大小,慢网络的特征参数为
首先对单一路径与双路径的对比,由表 3可以看出,在PRID 2011和MARS数据集上,双路径的识别性能更优越。对于快慢网络横向连接的3种形式[15],实验结果表明:在PRID 2011数据集上显示时间跨度卷积的横向连接性能最好,Rank-1准确率达到78.2%,本文方法Rank-1准确率达到93.4%,相较于时间跨度卷积提高15.2%;在MARS数据集上本文方法Rank-1准确率较时间跨度卷积提高13.6%。由实验结果可得出,本文方法识别准确率远高于单一路径方法。
![]() |
下载CSV 表 3 在PRID 2011和MARS数据集上不同融合方法的准确率对比 Table 3 Comparison of different fusion methods on PRID 2011 and MARS datasets |
本文方法与SeeForest[19]、ASTPN[20]、RQEN[11]、MARS[21]、AMOC+EpicFLOW[22]、DRSTA[16]和STMP[13]方法的识别准确率对比如表 4所示。可以看出,在3个数据集上,本文方法的Rank-1准确率均能达到最优。与STMP方法相比,本文方法在MARS数据集上的Rank-1识别准确率提高了3.8%,在iLIDS-VID数据集上Rank-1准确率提高了2%。MARS是最具有挑战性的视频行人重识别数据集,其中存在干扰视频片段,图 5显示,本文方法在MARS上的的平均精度达到79.5%,较DRSTA提高13.7%,较STMP提高6.8%。这一结果表明,在关注区域的基础上融合时空特性对再识别性能的提升有很大帮助。
![]() |
下载CSV 表 4 不同方法的准确率比较 Table 4 Accuracy comparison between different methods |
![]() |
Download:
|
图 5 MARS数据集上不同方法的mAP对比 Fig. 5 mAP comparison between different methods on MARS dataset |
本文通过融合局部特征和全局特征,提出一种新的视频行人重识别方法。在提取局部特征的同时,利用时间关注模型将视频序列中同一关注部位的局部特征进行跨帧聚合,以形成视频级关注区域特征表示,并通过融合模型将关注区域特征与全局特征融合,以形成具有全局空间细节和局部关注区域的视频级特征表示。基于视频级特征表示计算特征距离,使用特征距离进行识别排序,在PRID2011、iLIDS-VID和MARS数据集上进行实验验证。实验结果表明,本文方法能够有效提升Rank-1和mAP指标,具有较高的识别准确率。后续将依据行人动作变化建立关注区域之间的结构关系,提取对姿势变化更具有鲁棒性的特征,进一步提升行人重识别性能。
[1] |
SHU Chang, DING Xiaoqing, FANG Chi. Face recognition method of multiple features local and global fusion[J]. Computer Engineering, 2011, 37(19): 145-147, 156. (in Chinese) 舒畅, 丁晓青, 方驰. 多特征局部与全局融合的人脸识别方法[J]. 计算机工程, 2011, 37(19): 145-147, 156. |
[2] |
KU Haohua, ZHOU Ping, CAI Xiaodong, et al. Person re-identification method based on regional feature alignment and k-reciprocal encoding[J]. Computer Engineering, 2019, 45(3): 207-211. (in Chinese) 库浩华, 周萍, 蔡晓东, 等. 基于区域特征对齐与k倒排编码的行人再识别方法[J]. 计算机工程, 2019, 45(3): 207-211. |
[3] |
HUANG Cundong, LIU Renjin, YANG Sichun. Video face recognition based on feature fusion and manifold enhancement[J]. Computer Engineering, 2012, 38(9): 193-196. (in Chinese) 黄存东, 刘仁金, 杨思春. 基于特征融合和流形增强的视频人脸识别[J]. 计算机工程, 2012, 38(9): 193-196. |
[4] |
LIU Hao, FENG Jiashi, QI Meibin, et al. End-to-end com-parative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3492-3506. DOI:10.1109/TIP.2017.2700762 |
[5] |
SUN Yifan, ZHENG Liang, YANG Yang, et al. Beyond part models: person retrieval with refind part pooling(and a strong convolutional baseline)[C]//Proceedings of 2018 European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 501-518.
|
[6] |
WU Lin, WANG Yang, SHAO Ling, et al. 3D PersonVLAD: learning deep global representations for video-based person re-identification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(11): 3347-3359. DOI:10.1109/TNNLS.2019.2891244 |
[7] |
CHEN Guangyi, LU Jiwen, YANG Ming, et al. Spatial-temporal attention-aware learning for video-based person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(9): 4192-4205. DOI:10.1109/TIP.2019.2908062 |
[8] |
ZHANG Dongyu, WU Wenxi, CHENG Hui, et al. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2017, 28(10): 2622-2632. |
[9] |
LIU Feng, CHEN Zhigang, WANG Jie. Video image target monitoring based on RNN-LSTM[J]. Multimedia Tools & Applications, 2018, 70(4): 4527-4544. |
[10] |
SONG Guanglu, LENG Biao, LIU Yu, et al. Region-based quality estimation network for large-scale person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 7347-7354.
|
[11] |
LIAO R, CAO C, GARCIA E, et al. Pose-based Temporal-Spatial Network (PTSN) for gait recognition with carrying and clothing variations[C]//Proceedings of Chinese Conference on Biometric Recognition. Berlin, Germany: Springer, 2017: 474-483.
|
[12] |
LIU Yiheng, YUAN Zhenxun, ZHOU Wengang, et al. Spatial and temporal mutual promotion for video-based person re-identification[C]//Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Washington D.C., USA: IEEE Press, 2019: 8786-8793.
|
[13] |
GAO J, NEVATIA R. Revisiting temporal modeling for video-based person reid[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 1-11.
|
[14] |
TAO Fei, CHENG Keyang, ZHANG Jianming, et al. Pedestrian reidentification method based on posture and parallel attribute learning[J]. Computer Engineering, 2020, 46(3): 246-253. (in Chinese) 陶飞, 成科扬, 张建明, 等. 基于姿态与并行化属性学习的行人再识别方法[J]. 计算机工程, 2020, 46(3): 246-253. |
[15] |
FEICHTENHOFER C, FAN H, MALIK J, et al. SlowFast networks for video recognition[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 6201-6210.
|
[16] |
SHUANG L, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for video-based person re-identification[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 369-378.
|
[17] |
JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 2017-2025.
|
[18] |
HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1-15.
|
[19] |
ZHEN Zhou, YAN Huang, WEI Wei, et al. See the forest for the trees: joint spatial and temporal recurrent neural networks for video-based person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 6776-6785.
|
[20] |
XU Shuangjie, CHENG Yu, GU Kang, et al. Jointly attentive spatial-temporal pooling networks for video-based person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 4743-4752.
|
[21] |
ZHENG Liang, BIE Zhi, SUN Yifan, et al. MARS: a video benchmark for large-scale person re-identification[C]//Proceedings of 2016 European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 868-884.
|
[22] |
LIU H, JIE Z, JAYASHREE K, et al. Video-based person re-identification with accumulative motion context[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2018, 28(10): 2788-2802. |