基于时空关注区域的视频行人重识别

引用本文

胡晓强, 魏丹, 王子阳, 等. 基于时空关注区域的视频行人重识别[J]. 计算机工程, 2021, 47(6), 277-283. DOI: 10.19678/j.issn.1000-3428.0057892.

HU Xiaoqiang, WEI Dan, WANG Ziyang, et al. Person Re-Identification in Video Based on Spatial-Temporal Attention Region[J]. Computer Engineering, 2021, 47(6), 277-283. DOI: 10.19678/j.issn.1000-3428.0057892.

基金项目

国家自然科学基金青年科学基金（51805312）

通信作者

魏丹(通信作者), 讲师、博士

作者简介

胡晓强(1996-), 男, 硕士研究生, 主研方向为模式识别、行人重识别;
王子阳, 硕士研究生;
沈江霖, 硕士研究生;
任洪娟, 副教授、博士

文章历史

收稿日期：2020-03-30
修回日期：2020-05-14

Contents Abstract Full text Figures/Tables PDF

基于时空关注区域的视频行人重识别

胡晓强 , 魏丹 , 王子阳 , 沈江霖 , 任洪娟

上海工程技术大学机械与汽车工程学院, 上海 201620

收稿日期：2020-03-30；修回日期：2020-05-14

基金项目：国家自然科学基金青年科学基金（51805312）

作者简介：胡晓强(1996-), 男, 硕士研究生, 主研方向为模式识别、行人重识别; 王子阳, 硕士研究生; 沈江霖, 硕士研究生; 任洪娟, 副教授、博士.

通信作者：魏丹(通信作者), 讲师、博士.

E-mail: weiweidandan@163.com

摘要：在执行视频行人重识别任务时，传统基于局部的方法主要集中于具有特定预定义语义的区域学习局部特征表示，在复杂场景下的学习效率和鲁棒性较差。通过结合全局特征和局部特征提出一种基于时空关注区域的视频行人重识别方法。将跨帧聚合的关注区域特征与全局特征进行融合得到视频级特征表示，利用快慢网络中的两个路径分别提取全局特征和关注区域特征。在快路径中，利用多重空间关注模型提取关注区域特征，利用时间聚合模型聚合所有采样帧相同部位的关注区域特征。在慢路径中，利用卷积神经网络提取全局特征。在此基础上，使用亲和度矩阵和定位参数融合关注区域特征和全局特征。以平均欧氏距离评估融合损失，并将三重损失函数用于端到端网络训练。实验结果表明，该方法在PRID 2011数据集上Rank-1准确率达到93.4%，在MARS数据集上mAP达到79.5%，识别性能优于SeeForst、ASTPN、RQEN等方法，并且对光照、行人姿态变化和遮挡具有很好的鲁棒性。

Person Re-Identification in Video Based on Spatial-Temporal Attention Region

HU Xiaoqiang , WEI Dan , WANG Ziyang , SHEN Jianglin , REN Hongjuan

School of Mechanical and Automotive Engineering, Shanghai University of Engineering Science, Shanghai 201620, China

Abstract: When performing person re-identification task for videos, the traditional local-based methods mainly focus on learning local feature representations in regions with specific predefined semantics, and their learning efficiency and robustness is reduced in complex scenes.This paper combines global and local features to propose a person re-identification method in video based on spatio-temporal attention regions.The feature of attention regions of cross-frame aggregation are fused with the global feature to obtain the video-level feature representation.Then two paths of SlowFast network are used to extract global features and attention region features.In the fast path, the multiple spatial attention model extracts the attention region features, and the attention region features of the same part of all sampling frames are aggregated by the temporal aggregation model.In the slow path, global features are extracted by Convolutional Neural Network(CNN).On this basis, the affinity matrix and the location parameter are used to integrate the attention region feature and the global feature.The average Euclidean distance is used to evaluate the fusion loss, and the triplet loss function is used for end-to-end network training.The experimental results show that the accuracy of this method reaches 93.4% on PRID 2011 data set and 79.5% on mAP on MARS data set, which demonstrates its recognition performance advantage over SeeForst、ASTPN、RQEN and other methods.In addition, it shows excellent robustness to illumination, person pose changes and occlusion.

开放科学（资源服务）标志码（OSID）：

0 概述

行人重识别是判断图像或视频序列中是否存在特定行人的关键技术，被认为是图像检索的子问题，可为犯人追踪、视频数据处理等问题提供智能化解决方案，具有重要的理论意义和实际应用价值^[1]。由于行人外观易受穿着、遮挡、姿态和视角等因素的影响，使得行人重识别成为计算机视觉领域中一项具有挑战性的研究课题。

行人重识别的关键问题是寻找一个最具鲁棒性的特征表示。在现有模式识别研究中，涉及区域特征^[2]和特征融合^[3]的研究较多。文献[4]提出一种端到端比较注意网络（Comparative Attention Network，CAN）模型。该模型在学习几张行人图像后有选择地关注显著的部分，采用比较注意元件生成关注区域，基于LSTM生成注意力图，利用CAN模型模拟人类的感知过程，验证两幅图像是否为同一行人。文献[5]提出基于局部卷积基准（Part-based Convolutional Baseline，PCB）网络和精确局部池化（Refined Part Pooling，RPP）方法提取局部特征。利用PCB网络将特征图水平划分为六等分并进行平均池化和降维，同时利用RPP方法将异常值重新分配生成具有内部一致性的精确局部特征，但这种处理方式会产生区域异常值。文献[6]提出一种基于视频的全局深度表示学习方法，以软注意力模块学习局部特征，在视频范围内聚合局部特征。该方法作为对3D卷积神经网络（Convolutional Neural Network，CNN）层的补充，能够捕获视频中的外观信息和运动信息，进一步增加3D局部对齐方式。网络经过端到端训练，能够自动学习更具判别性的局部区域，从而减少背景等因素造成的影响，但是行人姿势会随着时间的推移而发生改变，显著区域会被佩戴物品遮挡，同时也会造成大量空间信息的丢失。

进行视频行人重识别时需要考虑时间信息的影响，对此的解决方法主要有3D CNN、递归循坏网络（Recurrent Neural Network，RNN）、光流和时间聚合^[7]。文献[8-9]在采用CNN提取空间特征的同时利用RNN提取时序特征，针对单帧图像信息不足的问题，采用多帧序列图像信息进行弥补，对图像区域的质量进行评估，将来自其他采样帧的高质量区域补偿到低质量区域^[10]。文献[11]采用CNN提取步态序列的空间特征，利用LSTM从步态序列中提取时间特征，最终得到时空信息融合的特征表示。文献[12]提出利用改善循环单元（Refining Recurrent Unit，RRU）进行帧间特征的升级。不同于LSTM，RRU不直接利用每帧特征提取时间信息，而是根据历史视频帧的外观和上下文恢复当前帧缺失的部分。文献[13]将RNN单元输出的平均值作为最终的特征表示并直接采用最后一个隐藏层的输出作为时间聚合的特征表示。本文对局部特征序列进行权重分配并加权平均，在空间特征的基础上融入时间信息，这种权重分配的方式优于文献[13]的全局平均和最后隐藏层输出的方法。以上行人重识别方法着重考虑关注区域，丢弃了全局特征的大量信息，同时也没有将空间信息与时间信息进行充分融合。

本文提出一种基于时空关注区域的行人重识别方法，将空间信息与时序信息进行深度融合，以解决行人姿势变换^[14]和遮挡等问题，并通过快慢网络^[15]提取全局特征和关注区域特征。快慢网络以不同的速度处理时间信息，用以捕获视频帧快速变化的动作信息，两个路径分别提取关注区域特征和全局特征。同时，提出一种融合模型替代快慢网络中的横向连接，采用亲和度矩阵和定位参数融合局部特征和全局特征，从而形成凸显关注区域的全局特征。

1 基于时空关注区域的行人重识别 1.1 网络框架

视频V被分割成连续的非重叠视频片段$ \{{A}_{m}{\}}_{m\in [1, M]} $，每个视频片段包含T帧，将视频片段的首尾两帧$ P=\left\{{J}_{a}\left|a=\mathrm{1, 2}\right.\right\} $作为慢路径的输入，对视频片段按梯度采样6帧$ Q=\left\{{I}_{n}\left|n=\mathrm{1, 2}, \cdots , 6\right.\right\} $作为快路径的输入，采样帧P和Q均来自同一视频片段。如图 1所示，本文方法框架由快慢网络的基础架构改进，其中，慢路径是全局特征X的提取流程，快路径是局部关注区域生成和特征聚合的流程，跨帧的关注区域特征被时间聚合后生成$ {\boldsymbol{f}}_{k}=[{\boldsymbol{f}}_{1}, {\boldsymbol{f}}_{2}, {\boldsymbol{f}}_{3}, {\boldsymbol{f}}_{4}] $，融合模块将全局特征X和局部特征f_k融合成最终的全局时空特征表示F。

	Download: JPG larger image
图 1 基于时空关注区域的行人重识别框架 Fig. 1 Person re-identification framework based on spatio-temporal attention region

慢路径采样帧稀疏，低帧率运行，时间分辨率低，用于提取优良的空间特征，获得完整的语义信息；快路径采样帧数是慢路径的$ \gamma $倍，高帧率运行，时间分辨率高，用于捕捉快速变化的动作信息。快路径的通道数是慢路径的$ 1/\gamma $倍，便于网络的快速运行。2个路径的输入帧尺寸均为240×240，慢路径提取的全局特征尺寸为30×30，快路径则进行关注区域特征的获取与聚合。在本文中，慢路径视频片段采样2帧，取$ \gamma =3 $，快路径视频片段采样6帧，通道数是慢路径的1/3。

1.2 时空关注模型 1.2.1 多重空间关注

多重空间关注模型基于文献[16]的多样性正则化实现，用于发现具有判别性的身体区域，减小遮挡、视角等因素对识别结果的影响。

如图 2所示，时空关注模型采用ResNet-50的conv1到res5c作为特征提取器，每个图像$ {\boldsymbol{I}}_{n} $由8×8网格的特征向量$ \left\{{\boldsymbol{u}}_{n, l}\right\}, l\in [1, L] $表示，$ L=30 $是网格单元的数量，利用conv网络和softmax函数生成输入图像的多个空间注意区域和相应的感受野。

	Download: JPG larger image
图 2 多重空间关注模型 Fig. 2 Multiple spatial attention model

以$ {\boldsymbol{S}}_{n, k}=[{\boldsymbol{S}}_{n, k, 1}, {\boldsymbol{S}}_{n, k, 2}, \cdots , {\boldsymbol{S}}_{n, k, L}] $表示第n个采样帧第$ k $个空间关注区域的感受野，每个感受野是概率质量分数，即$ \sum\limits_{l=1}^{L}{\boldsymbol{S}}_{n, k, l}=1 $。对于每个图像$ {\boldsymbol{I}}_{n} $，使用注意加权平均生成K个关注区域视觉特征：

$ {\boldsymbol{I}}_{n, k}=\sum\limits_{l=1}^{L}{\boldsymbol{S}}_{n, k, l}{\boldsymbol{u}}_{n, l} $

(1)

其中，每个视觉特征表示图像的显著区域。为约束空间关注模型学习到不同的显著区域，文献[16]设计一个惩罚项衡量感受野之间的重叠，基于Hellinger距离度量关注区域之间的相似性：

$ \begin{array}{l}H({\boldsymbol{S}}_{n, i}\mathrm{ }, {\boldsymbol{S}}_{n, j})=\frac{1}{\sqrt{2}}\sqrt{\sum\limits_{l}^{L}{\left(\sqrt{{\boldsymbol{S}}_{n, i, l}}-\sqrt{{\boldsymbol{S}}_{n, j, l}}\right)}^{2}}=\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{{{{{{{{{{{{{{{}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}}_{}\mathrm{ }\frac{1}{\sqrt{2}}{‖\sqrt{{\boldsymbol{S}}_{n, i}}-\sqrt{{\boldsymbol{S}}_{n, j}}‖}_{2}\end{array} $

(2)

其中，$ {\boldsymbol{S}}_{n, i} $和$ {\boldsymbol{S}}_{n, j} $是注意力矩阵$ {\boldsymbol{S}}_{n, k} $中的注意力向量，$ \sum\limits_{l}^{L}{\boldsymbol{S}}_{n, k, l}=1 $。

$ {H}^{2}({\boldsymbol{S}}_{n, i}, {\boldsymbol{S}}_{n, j})=1-\sum\limits_{l=1}^{L}\left(\sqrt{{\boldsymbol{S}}_{n, i, l}{\boldsymbol{S}}_{n, j, l}}\right) $

(3)

为抑制关注区域之间的重叠，$ {\boldsymbol{S}}_{n, i} $和$ {\boldsymbol{S}}_{n, j} $之间的距离应尽可能大，即$ 1-{H}^{2}({\boldsymbol{S}}_{n, i}, {\boldsymbol{S}}_{n, j}) $应尽可能小。在快路径中，每个视频片段存在6张采样帧，每张采样帧确定4个关注区域，即$ K=4 $，网络通过预训练和约束训练自动学习每个行人的脸部、手臂、膝盖、脚，产生24个关注区域特征（共6组，每组4个）：$ \left\{{\boldsymbol{I}}_{n, k}\left|n\in [\mathrm{1, 2}, \cdots , 6]\mathrm{ }, \right.\right.\left.k\in [\mathrm{1, 2}, \mathrm{3, 4}]\right\} $。

1.2.2 时间聚合模型

在1.2.1节中，每个采样帧都由4个关注区域的集合表示，即$ \left\{{\boldsymbol{I}}_{n, k}\right\}=[{\boldsymbol{I}}_{n, 1}, {\boldsymbol{I}}_{n, 2}, {\boldsymbol{I}}_{n, 3}, {\boldsymbol{I}}_{n, 4}] $，本文采用图 3所示的时间聚合模型，在局部特征的基础上融入时间信息，计算所有采样帧相同部位的特征权重$ {\boldsymbol{C}}_{n, k} $，$ \sum\limits_{n=1}^{6}{\boldsymbol{C}}_{n, k}=1, k\in [\mathrm{1, 2}, \mathrm{3, 4}] $，由此形成时空关注的局部特征表示。

	Download: JPG larger image
图 3 时间聚合模型 Fig. 3 Temporal aggregation model

时间聚合模型由空间卷积层（输入通道数为1 024，输出通道数为D）和全连接层（输入通道数为D，输出通道数为1）组成，采用采样帧相同部位的关注区域特征作为输入，空间卷积层对关注区域的特征表示做进一步卷积操作，生成6个采样帧相同部位的特征表示$ \left\{{\boldsymbol{f}}_{1, k}, {\boldsymbol{f}}_{2, k}, {\boldsymbol{f}}_{3, k}, {\boldsymbol{f}}_{4, k}, {\boldsymbol{f}}_{5, k}, {\boldsymbol{f}}_{6, k}\right\} $，经全连接层输出每个特征表示的权重$ {\boldsymbol{C}}_{n, k} $，然后对跨帧的局部特征表示进行加权聚合：

$ {\boldsymbol{f}}_{k}=\sum\limits_{n=1}^{6}{\boldsymbol{C}}_{n, k}{\boldsymbol{f}}_{n, k} $

(4)

其中，$ k\in [\mathrm{1, 2}, \mathrm{3, 4}] $，$ {\boldsymbol{f}}_{k} $为连续帧相同部位具有时空特性的特征表示。

1.3 融合模型

快慢网络中的横向连接存在融合过程复杂和单向连接等不足。本文提出一种融合模型代替快慢网络中的横向连接。该模型将局部关注特征f_k与全局特征X融合，形成关注区域凸显且不丢失全局信息的全局特征表示，其融合过程简单，且不受单向连接的限制。模型中包括亲和度函数H和定位函数G，具体细节如图 4所示。

	Download: JPG larger image
图 4 融合模型 Fig. 4 Fusion model

1.3.1 亲和度函数

亲和度函数H用于表示局部特征f_k与特征X之间的相似性，函数表达式为$ H(\boldsymbol{X}, {\boldsymbol{f}}_{k})={H}_{k} $，$ {\boldsymbol{R}}^{D\times 30\times 30}\times $ $ H:{{\boldsymbol{R}}^{D\times }}^{e\times e}\to {\boldsymbol{R}}^{900\times {e}^{2}} $，其中，D是特征向量维数，e×e是关注区域特征尺寸。亲和度函数计算嵌入特征之间的点积，f_k与X之间的相似性度量矩阵为：

$ H(m, n)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{X}}^{\mathrm{{\rm T}}}\right(m\left){\boldsymbol{f}}_{k}\right(n\left)\right)}{\sum\limits_{m}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{X}}^{\mathrm{{\rm T}}}\right(m\left){\boldsymbol{f}}_{k}\right(n\left)\right)} $

(5)

其中，$ \boldsymbol{X}\left(m\right) $表示特征X中空间网格m的特征，$ {\boldsymbol{f}}_{k}\left(n\right) $表示f_k中网格n的特征。对于每个$ {\boldsymbol{f}}_{k}\left(n\right) $，利用亲和度函数$ H(m, n) $在$ {\boldsymbol{f}}_{k}\left(n\right) $的空间维度上进行softmax归一化。

1.3.2 定位函数

定位函数G由2个卷积层和1个线性层组成，将亲和度函数$ H(m, n) $作为输入，在特征X中寻找与关注区域特征f_k最相似的区域，并输出该区域的定位参数$ {\boldsymbol{\theta }}_{k} $，定位参数为双线性采样网格的4个参数^[17]，定位函数的表达式为：

$ G\left({H}_{k}\right)={\boldsymbol{\theta }}_{k}, G:{\boldsymbol{R}}^{900\times {e}^{2}}\to {\boldsymbol{R}}^{4} $

(6)

定位参数$ {\boldsymbol{\theta }}_{k}=\left[a, b, c, d\right] $用于映射局部关注特征f_k和全局特征X坐标位置之间的关系：

$ \left[\begin{array}{l}{x}_{i}^{\mathrm{\text{'}}}\\ {y}_{i}^{\mathrm{\text{'}}}\end{array}\right]=\left[\begin{array}{cc}a& -b\\ b& a\end{array}\right]\left[\begin{array}{l}{x}_{i}\\ {y}_{i}\end{array}\right]+\left[\begin{array}{l}c\\ d\end{array}\right] $

(7)

其中，$ ({x}_{i}, {y}_{i}) $表示关注区域特征f_k的坐标位置，$ ({x}_{i}^{\mathrm{\text{'}}}, {y}_{i}^{\mathrm{\text{'}}}) $表示在全局特征X中与关注特征f_k相对应的区域坐标位置，参数$ {\boldsymbol{\theta }}_{k}=\left[a, b, c, d\right] $表达坐标位置之间的平移和旋转关系。

$ F=o\left({\boldsymbol{f}}_{k}，\boldsymbol{X}，G\left(H\left(\boldsymbol{X}, {\boldsymbol{f}}_{k}\right)\right)\right) $

(8)

函数$ o\left(\cdot \right) $根据定位参数将局部特征f_k融合到全局特征X中，最终获得凸显局部特征且不丢失整体细节的全局特征表示F。

1.4 损失函数

本文采用融合损失函数和三重损失函数进行网络训练，融合损失函数基于局部关注特征f_k与其在全局特征中相对应区域之间的平均欧氏距离对识别结果进行判定：

$ {L}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}=\frac{1}{K}\sum\limits_{k=1}^{K}\left(\boldsymbol{X}\right({\boldsymbol{\theta }}_{k})\mathrm{ }, {\boldsymbol{f}}_{k}) $

(9)

其中，$ \boldsymbol{X}\left({\boldsymbol{\theta }}_{k}\right) $表示与f_k相对应的关注区域特征，$ \sum\limits_{k=1}^{K}\left(\boldsymbol{X}\right({\boldsymbol{\theta }}_{k}), {\boldsymbol{f}}_{k}) $表示f_k与$ \boldsymbol{X}\left({\boldsymbol{\theta }}_{k}\right) $的欧氏距离的和，$ {L}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}} $即为平均欧式距离，采用端到端的方式训练网络，直到$ {L}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}} $趋于最优值。

三重损失函数^[18]在一个批次中将待检测样本、一个正样本和一个负样本构成三元组，该批次由P个待检测样本和每个检测样本的A个视频片段组成，每个视频片段有$ T $帧，该批次共有P×A个视频片段，利用本文网络架构在该批次中识别出最优正样本和最差负样本，构成三重度量损失，表达式如下：

$ \begin{array}{l}{L}_{\mathrm{t}\mathrm{r}\mathrm{i}\mathrm{p}\mathrm{l}\mathrm{e}\mathrm{t}}=\\ \frac{1}{P}\cdot \frac{1}{A}\sum\limits_{i=1}^{P}\sum\limits_{m=1}^{A}\left[\underset{P=\mathrm{1, 2}, \cdots , A}{\mathrm{m}\mathrm{a}\mathrm{x}}D({f}_{i, m}\mathrm{ }, {f}_{p}^{i})-\right.{\left.\underset{\begin{array}{l}j=\mathrm{1, 2}, \cdots , P\\ n=\mathrm{1, 2}, \cdots , A\end{array}}{\mathrm{m}\mathrm{i}\mathrm{n}}D({f}_{i, m}\mathrm{ }, {f}_{j, n})+a\right]}_{+}\end{array} $

(10)

其中，$ a $是设定的阈值参数。总损失等于两个损失函数的和，表示为：

$ L={L}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}+{L}_{\mathrm{t}\mathrm{r}\mathrm{i}\mathrm{p}\mathrm{l}\mathrm{e}\mathrm{t}} $

(11)

融合损失和三重度量损失都是基于特征表示的，彼此之间存在内在联系，因此，可将融合损失作为融合阶段的经验指导和纠正匹配错误。

2 实验与结果分析

基于iLIDS-VID、PRID-2011和MARS视频数据集对本文方法进行性能评估。

2.1 实验细节

首先在ImageNet数据集上对Resnet-50进行预训练，然后在3个数据集上进行微调。在训练阶段，输入图像的大小为240像素×240像素。为方便实验对比，训练包含不同关注区域数量的空间关注模型。在时间聚合模型和融合模型训练过程中，假设$ T=6, K=4 $，采用随机梯度下降算法对网络学习进行更新，初始学习率设置为0.1，逐渐降至0.01。在测试阶段，在3个视频数据集上分别计算平均精度（mAP）和Rank-1、Rank-5的准确率作为对模型行人重识别性能的评价指标。

2.2 结果分析 2.2.1 空间关注模型数量

首先研究空间关注模型的数量K对识别效果的影响。随着空间关注模型数量的增加，网络能够发现更多的显著区域。由于受到多样性正则化的约束，随着K的增大，关注区域的尺寸不断缩小。如表 1所示，当K=2时，关注区域往往会包含多个身体部位和背景，识别性能较低，经实验验证，本文模型在K=4时网络的识别性能达到最优。如果K再持续增大，识别效果反而降低，这是因为在多样性正则化约束的情况下，空间关注模型的数量过多会导致关注区域尺寸过小或者特征判别性降低，最终使识别准确率下降。笔者在iLIDS-VID数据集上进行实验时发现，K=6时识别效果最佳，这与数据集的特性有关，因为iLIDS-VID数据集具有复杂的背景和严重的遮挡。增加关注区域的数量可以减少背景和遮挡对识别结果的影响，在不同数据集中关注区域的尺寸对识别准确率有很大影响，下文将对此做进一步讨论。

下载CSV 表 1 多重空间关注模型的Rank-1准确率 Table 1 Rank-1 accuracy of multiple spatial attention model

2.2.2 关注区域尺寸

在上述实验中，设置每个相同部位的关注区域尺寸是相同的，目的是便于进行时间聚合，在此基础上进行关注部位区域尺寸的讨论，并记录最优的区域尺寸和识别准确率。首先进行单一关注区域尺寸的讨论。以膝盖为例，分别设定不同尺寸的膝盖区域，记录识别准确率，然后以所有关注区域的尺寸最优值为约束条件，最终得到识别准确率。

表 2的上半部分为单一区域尺寸的实验结果。可以看出，在原始图像中，膝盖区域尺寸为48×48时Rank-1准确率最高，达到80.4%，由实验数据可以发现，识别准确率会随着设定区域的扩大而不断减小，这是由于背景逐渐增多造成的影响。表 2的下半部分为关注区域尺寸全部为最优值的实验结果。可以看出，在MARS数据集上Rank-1准确率达到88.2%，在对单一区域尺寸进行单独讨论时，Rank-1准确率都略低于88.2%，这是因为其他关注部位的区域尺寸不是最优值。

下载CSV 表 2 不同部位的关注区域尺寸 Table 2 Size of attention region in different parts

2.2.3 横向连接与融合模型

设置一系列对比实验验证融合模型的性能，首先是单一路径实验，分为慢网络和快网络进行双路径快慢网络结合的实验验证。快慢网络横向连接存在3种形式，即时间到通道、时间跨度采样和时间跨度卷积^[15]。横向连接需要匹配特征的大小，慢网络的特征参数为$ \left\{T, {S}^{2}, C\right\} $，快网络的特征参数为$ \left\{\gamma T, {S}^{2}, \tau C\right\} $，其中，$ T $为时间长度，$ S $为特征表示的高度和宽度，$ C $为通道数，$ \gamma $为快慢路径采样帧数量之比，$ \tau $为快慢路径通道数之比，且$ \tau =\frac{1}{\lambda } $。时间到通道表示将所有$ \mathrm{\gamma } $帧打包到一帧的通道中，即将特征$ \left\{\gamma T, {S}^{2}, \tau C\right\} $转换为$ \left\{T, {S}^{2}, \lambda \tau C\right\} $；时间跨度采样表示在每个$ \gamma $帧中采样一次，即将特征$ \left\{\gamma T, {S}^{2}, \tau C\right\} $转换为$ \left\{T, {S}^{2}, \tau C\right\} $；时间跨度卷积采用$ 5\times {1}^{2} $、$ 2\tau C $输出通道、步长等于$ \gamma $的3D卷积核进行卷积。本文对每一种横向连接形式都进行实验对比，进一步验证融合模型的优越性。空间关注模型数量和关注区域尺寸均采用上述实验最优值。

首先对单一路径与双路径的对比，由表 3可以看出，在PRID 2011和MARS数据集上，双路径的识别性能更优越。对于快慢网络横向连接的3种形式^[15]，实验结果表明：在PRID 2011数据集上显示时间跨度卷积的横向连接性能最好，Rank-1准确率达到78.2%，本文方法Rank-1准确率达到93.4%，相较于时间跨度卷积提高15.2%；在MARS数据集上本文方法Rank-1准确率较时间跨度卷积提高13.6%。由实验结果可得出，本文方法识别准确率远高于单一路径方法。

下载CSV 表 3 在PRID 2011和MARS数据集上不同融合方法的准确率对比 Table 3 Comparison of different fusion methods on PRID 2011 and MARS datasets

2.3 识别性能对比

本文方法与SeeForest^[19]、ASTPN^[20]、RQEN^[11]、MARS^[21]、AMOC+EpicFLOW^[22]、DRSTA^[16]和STMP^[13]方法的识别准确率对比如表 4所示。可以看出，在3个数据集上，本文方法的Rank-1准确率均能达到最优。与STMP方法相比，本文方法在MARS数据集上的Rank-1识别准确率提高了3.8%，在iLIDS-VID数据集上Rank-1准确率提高了2%。MARS是最具有挑战性的视频行人重识别数据集，其中存在干扰视频片段，图 5显示，本文方法在MARS上的的平均精度达到79.5%，较DRSTA提高13.7%，较STMP提高6.8%。这一结果表明，在关注区域的基础上融合时空特性对再识别性能的提升有很大帮助。

下载CSV 表 4 不同方法的准确率比较 Table 4 Accuracy comparison between different methods

	Download: JPG larger image
图 5 MARS数据集上不同方法的mAP对比 Fig. 5 mAP comparison between different methods on MARS dataset

3 结束语

本文通过融合局部特征和全局特征，提出一种新的视频行人重识别方法。在提取局部特征的同时，利用时间关注模型将视频序列中同一关注部位的局部特征进行跨帧聚合，以形成视频级关注区域特征表示，并通过融合模型将关注区域特征与全局特征融合，以形成具有全局空间细节和局部关注区域的视频级特征表示。基于视频级特征表示计算特征距离，使用特征距离进行识别排序，在PRID2011、iLIDS-VID和MARS数据集上进行实验验证。实验结果表明，本文方法能够有效提升Rank-1和mAP指标，具有较高的识别准确率。后续将依据行人动作变化建立关注区域之间的结构关系，提取对姿势变化更具有鲁棒性的特征，进一步提升行人重识别性能。

参考文献

[1]	SHU Chang, DING Xiaoqing, FANG Chi. Face recognition method of multiple features local and global fusion[J]. Computer Engineering, 2011, 37(19): 145-147, 156. (in Chinese) 舒畅, 丁晓青, 方驰. 多特征局部与全局融合的人脸识别方法[J]. 计算机工程, 2011, 37(19): 145-147, 156.
[2]	KU Haohua, ZHOU Ping, CAI Xiaodong, et al. Person re-identification method based on regional feature alignment and k-reciprocal encoding[J]. Computer Engineering, 2019, 45(3): 207-211. (in Chinese) 库浩华, 周萍, 蔡晓东, 等. 基于区域特征对齐与k倒排编码的行人再识别方法[J]. 计算机工程, 2019, 45(3): 207-211.
[3]	HUANG Cundong, LIU Renjin, YANG Sichun. Video face recognition based on feature fusion and manifold enhancement[J]. Computer Engineering, 2012, 38(9): 193-196. (in Chinese) 黄存东, 刘仁金, 杨思春. 基于特征融合和流形增强的视频人脸识别[J]. 计算机工程, 2012, 38(9): 193-196.
[4]	LIU Hao, FENG Jiashi, QI Meibin, et al. End-to-end com-parative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3492-3506. DOI:10.1109/TIP.2017.2700762
[5]	SUN Yifan, ZHENG Liang, YANG Yang, et al. Beyond part models: person retrieval with refind part pooling(and a strong convolutional baseline)[C]//Proceedings of 2018 European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 501-518.
[6]	WU Lin, WANG Yang, SHAO Ling, et al. 3D PersonVLAD: learning deep global representations for video-based person re-identification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(11): 3347-3359. DOI:10.1109/TNNLS.2019.2891244
[7]	CHEN Guangyi, LU Jiwen, YANG Ming, et al. Spatial-temporal attention-aware learning for video-based person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(9): 4192-4205. DOI:10.1109/TIP.2019.2908062
[8]	ZHANG Dongyu, WU Wenxi, CHENG Hui, et al. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2017, 28(10): 2622-2632.
[9]	LIU Feng, CHEN Zhigang, WANG Jie. Video image target monitoring based on RNN-LSTM[J]. Multimedia Tools & Applications, 2018, 70(4): 4527-4544.
[10]	SONG Guanglu, LENG Biao, LIU Yu, et al. Region-based quality estimation network for large-scale person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 7347-7354.
[11]	LIAO R, CAO C, GARCIA E, et al. Pose-based Temporal-Spatial Network (PTSN) for gait recognition with carrying and clothing variations[C]//Proceedings of Chinese Conference on Biometric Recognition. Berlin, Germany: Springer, 2017: 474-483.
[12]	LIU Yiheng, YUAN Zhenxun, ZHOU Wengang, et al. Spatial and temporal mutual promotion for video-based person re-identification[C]//Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Washington D.C., USA: IEEE Press, 2019: 8786-8793.
[13]	GAO J, NEVATIA R. Revisiting temporal modeling for video-based person reid[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 1-11.
[14]	TAO Fei, CHENG Keyang, ZHANG Jianming, et al. Pedestrian reidentification method based on posture and parallel attribute learning[J]. Computer Engineering, 2020, 46(3): 246-253. (in Chinese) 陶飞, 成科扬, 张建明, 等. 基于姿态与并行化属性学习的行人再识别方法[J]. 计算机工程, 2020, 46(3): 246-253.
[15]	FEICHTENHOFER C, FAN H, MALIK J, et al. SlowFast networks for video recognition[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 6201-6210.
[16]	SHUANG L, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for video-based person re-identification[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 369-378.
[17]	JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 2017-2025.
[18]	HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1-15.
[19]	ZHEN Zhou, YAN Huang, WEI Wei, et al. See the forest for the trees: joint spatial and temporal recurrent neural networks for video-based person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 6776-6785.
[20]	XU Shuangjie, CHENG Yu, GU Kang, et al. Jointly attentive spatial-temporal pooling networks for video-based person re-identification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 4743-4752.
[21]	ZHENG Liang, BIE Zhi, SUN Yifan, et al. MARS: a video benchmark for large-scale person re-identification[C]//Proceedings of 2016 European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 868-884.
[22]	LIU H, JIE Z, JAYASHREE K, et al. Video-based person re-identification with accumulative motion context[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2018, 28(10): 2788-2802.