基于显著性多尺度特征协作融合的行人重识别方法

引用本文

董亚超, 刘宏哲, 徐成. 基于显著性多尺度特征协作融合的行人重识别方法[J]. 计算机工程, 2021, 47(6), 234-244, 252. DOI: 10.19678/j.issn.1000-3428.0057938.

DONG Yachao, LIU Hongzhe, XU Cheng. Person Re-Identification Method Based on Joint Fusion of Saliency Multi-Scale Features[J]. Computer Engineering, 2021, 47(6), 234-244, 252. DOI: 10.19678/j.issn.1000-3428.0057938.

基金项目

国家自然科学基金(61871039，61802019，61906017)；北京市自然科学基金(4184088)；北京市属高校高水平教师队伍建设支持计划项目(IDHT20170511)；北京联合大学领军人才项目(BPHR2019AZ01)；北京联合大学研究生项目(YZ2020k001)

通信作者

刘宏哲(通信作者), 教授、博士; 徐成, 讲师、博士

作者简介

董亚超(1995-), 男, 硕士研究生, 主研方向为行人重识别、行人检测跟踪、图像处理

文章历史

收稿日期：2020-04-02
修回日期：2020-05-26

Contents Abstract Full text Figures/Tables PDF

基于显著性多尺度特征协作融合的行人重识别方法

董亚超 , 刘宏哲 , 徐成

北京联合大学北京市信息服务工程重点实验室, 北京 100101

收稿日期：2020-04-02；修回日期：2020-05-26

基金项目：国家自然科学基金(61871039，61802019，61906017)；北京市自然科学基金(4184088)；北京市属高校高水平教师队伍建设支持计划项目(IDHT20170511)；北京联合大学领军人才项目(BPHR2019AZ01)；北京联合大学研究生项目(YZ2020k001)

作者简介：董亚超(1995-), 男, 硕士研究生, 主研方向为行人重识别、行人检测跟踪、图像处理.

通信作者：刘宏哲(通信作者), 教授、博士; 徐成, 讲师、博士.

E-mail: 18810443006@163.com

摘要：由于背景信息复杂、遮挡等因素的影响，现有基于局部特征的行人重识别方法所提取的特征不具有辨别力和鲁棒性，从而导致重识别精度较低，针对该问题，提出一种基于显著性检测与多尺度特征协作融合的SMC-ReID方法。利用显著性检测提取行人中具有判别力的特征区域，融合显著性特征与全局特征并完成不同尺度的切块，将上述不同尺度的特征进行协作融合以保证特征切块后的连续性，根据全局特征和局部特征的差异性联合3种损失函数进行学习。在推理阶段，将各个尺度的特征降低到同一维度并融合成新的特征向量，以实现相似性度量。在行人重识别公开数据集Market1501、DukeMTMC-reID和CUHK03上进行实验，结果表明，SMC-ReID方法所提取的特征具有较强的可区分性和鲁棒性，识别准确率优于SVDNet和PSE+ECN等方法。

Person Re-Identification Method Based on Joint Fusion of Saliency Multi-Scale Features

DONG Yachao , LIU Hongzhe , XU Cheng

Beijing Key Laboratory of Information Service Engineering, Beijing Union University, Beijing 100101, China

Abstract: The existing person re-identification methods are limited by multiple factors, such as complex background information and occlusion, which reduces the discrimination and robustness of extracted features, leading to a low re-identification accuracy.To address the problem, this paper proposes a new method called SMC-ReID based on saliency detection and collaborative fusion of multi-scale features.The method employs saliency detection to extract discriminative feature areas in pedestrians, and the saliency features are fused with global features.Then the features are cut at different scales, and collaboratively fused to ensure the continuity of the cut features.Finally, the three loss functions are combined to learn based on the differences between global and local features.In the inference stage, the features of each scale are reduced to the same dimension, and fused into new feature vectors for similarity measurement. Experimental results on the public datasets for person re-identification, such as Market1501, DukeMTMC-reID and CUHK03, show that the features extracted by the proposed method have strong distinguishability and robustness, and the method has higher identification accuracy than SVDNet, PSE+ECN and other advanced algorithms.

开放科学（资源服务）标志码（OSID）：

0 概述

行人重识别指在不同的摄像头视角中匹配同一个目标人物的过程，在交通、公共安防和视频监控等领域发挥着重要作用。行人重识别的难点在于不同的摄像头产生的视角和光照不同，且遮挡和背景复杂等不利因素导致行人的姿态和外观存在巨大的差异，这些均会对行人重识别的准确性产生影响。

通过深度学习方法解决行人重识别问题的大致过程是先使用卷积神经网络(Convolutional Neural Network，CNN)提取每张图片的特征，然后对所查询行人图片特征和底库中的图片特征逐一进行距离相似性度量，根据距离远近排序出前K张与所查询行人最为相似的图片。目前，行人重识别方法主要分为基于表征学习、基于度量、基于局部特征学习和基于生成对抗网络(Generative Adversarial Networks，GAN)造图的四类方法^[1]。

在基于表征学习的行人重识别方法中，文献[2]用Classification Loss和Verification Loss来训练网络，通过分类网络进行ID预测，验证网络从而判断2张图片是否属于同一个行人。考虑到仅靠行人ID信息学习得到的网络表达能力有限，文献[3]对行人图片进行属性标注，结合预测ID信息和属性信息完成判定。文献[4]利用RGB信息和灰度信息融合提取特征，以降低行人图像颜色相近所带来的干扰。

基于度量的学习方法在对2张图片进行相似性度量时，使得2张图片更加容易匹配或者区分开。常用的度量学习损失方法包括对比损失^[5]、三元组损失^[6]和四元组损失^[7]等。文献[8]提出的Cricle Loss中每个相似性得分以不同的步调进行学习，使得收敛目标更加明确。

为提高行人重识别方法的跨域能力、泛化能力以及克服姿态多变性问题，文献[9]使用GAN生成8个姿势的图像样本，用以代表所有摄像头视角下的行人姿势。文献[10]通过GAN生成换衣数据，以更换行人衣服的颜色。

为提取更加细节的局部特征信息，文献[11]提出了分块卷积(PCB)，其将特征在垂直方向上均匀切分为6块并分别预测ID，通过这种方法可以提取更具鲁棒性的特征，但是其分块完后会出现图像不对齐的情况。文献[12]利用提取的人体关键点将图片分为头部、上身和下身3个部分并分别进行特征提取。文献[13]先利用姿态估计模型估计行人关键点，然后通过仿射变换使得相同的关键点对齐。文献[14]提出多任务金字塔重叠匹配方法，以提取鲁棒性的局部特征。文献[15]提出多粒度网络，其将特征分成3个分支，使用多个分类损失和三元组损失联合学习，最后整合所有特征。

上述切块模型存在如下问题：被切块的每个局部特征块享有相同的权重，导致模型不能聚焦到具有分辨力的特征块上，如帽子、背包这些具有分辨力的特征块不能被有效地凸显；在特征切块后，块与块之间的联系被破坏，容易丢失全局特征信息。

本文提出一种基于显著性多尺度特征协作融合的行人重识别方法SMC-ReID。在特征切块前，利用显著性检测提取行人图片的显著特征图，将其与全局特征进行融合，以对切块后的特征赋予不同的权重，增强具有区分力属性特征的特征块，抑制干扰网络从而判断背景特征块的权重。为挖掘多层次的局部特征，对特征进行多尺度切块，与传统切块方法不同，在切块后本文对每一部分的相邻块间再次进行协作融合，以保持块与块之间的联系和连续性。根据局部特征块和全局特征块的差异，本文采用3种损失函数联合学习，以使全局和局部特征更加融合。最后在Market1501^[16]、DukeMTMC-reID^[17]和CUHK03^[18]3个公共数据集上进行实验，以验证SMC-ReID方法的行人重识别效果。

1 相关工作 1.1 显著性检测

行人重识别中的一些特殊情况如图 1所示。由于存在背景复杂(图 1(a)、图 1(b)和图 1(c))、姿态各异(图 1(c))等问题，导致难以提取有效的特征。另外，行人图片中一些额外的辅助信息，如图 1(b)、图 1(d)和图 1(e)中的背包、雨伞等特征，也可作为匹配2个行人的有利因素。

	Download: JPG larger image
图 1 行人重识别中的一些特殊情况 Fig. 1 Some special cases in person re-identification

显著性目标检测通过人类视角检测出图片中具有区分力的醒目区域，目前，显著性检测已被应用于多种视觉任务中。本文使用显著性检测提取图片中具有区分力的显著性区域，抑制复杂的背景信息。

文献[19]将显著性目标检测应用于行人重识别领域，利用行人图像之间成对显著性区域的分布关系进行计算与匹配。文献[20]提出一种基于混合高阶注意力模型的方法，其对图像或特征图不同部分的共同作用机制进行注意力建模。与上述方法不同，本文不使用任何基于显著性区域匹配的方法，而是提取更深层的特征以编码行人特征。本文首先根据输入图像计算出显著性目标区域图，然后使用该特征图对中间层的CNN网络参数权重进行加权。此外，本文的训练流程不包括显著性检测部分。

1.2 基于特征切块的行人重识别模型

由于在真实场景中采集的行人图片有严重遮挡、模糊甚至图像缺失的现象，使得全局特征或者单一局部特征难以完全体现出图片中的重要信息。文献[11-15]均基于特征切块进行行人重识别，但是特征切块容易造成特征块的不连续性，导致特征信息间断，从而对网络模型判断造成干扰。此外，在实际中需要根据特征切块尺度的不同使用相应的损失函数，促使各个损失函数学习进行相互作用。为此，本文将特征进行多尺度切块，切块后实现协作式融和，一方面提取一些被遮挡或忽略的特征，另一方面避免特征块的不连续问题。

2 方法实现 2.1 网络结构

如图 2所示，SMC-ReID整体网络框架由显著性检测、骨干网络、降维层、全连接层(FC)和多损失函数构成，图中Reduce Dimension Operation表示降维层，D表示特征向量的维数，特征提取骨干网络采用ResNet50，使用ImageNet作为预训练模型。

	Download: JPG larger image
图 2 SMC-ReID网络结构 Fig. 2 SMC-ReID network structure

本文对ResNet50网络进行如下改进：1)移除ResNet50中layer 4后面的平均池化层和全连接层，改成相应的不同分支的最大池化层和适应不同尺度特征的全连接层；2)在ResNet50中layer3的后面增加提炼层(Refined Layer)，其不与layer4连接，该层由ResNet残差结构中的Bottleneck构成，一方面可以得到更大的特征图，另一方面能够统一特征维度，与Saliency Map进行更好地融合；3)在更改后的全连接层前面增加降维层，其由卷积核为2×1的二维卷积、批归一化处理和ReLU激活函数构成，目的是将不同尺度的特征块降低到同一维度(512)，既减少参数量的计算，又可以缓解网络的过拟合问题。

为了更清晰地展示图像在输入、特征提取、特征融合、特征切块等操作中特征向量维度的变化，表 1给出不同阶段特征向量的变化过程。

下载CSV 表 1 不同阶段的特征向量维度尺寸 Table 1 Dimension sizes of feature vectors at different stages

如图 1、表 1所示，将图片输入到CNN Backbone中，得到Global Feat的维度为2 048×12×4，与此同时，将经过Refined Layer的特征与经过显著性检测得到的Saliency Map进行融合，得到SG-Feat，维度为2 048×1×1，然后将Global Feat经过最大池化(Max Pooling)得到维度为2 048×1×1的特征，将其与SG-Feat沿通道方向进行拼接融合得到Combo Feat，维度为4 096×1×1。Cut操作中先将Combo Feat进行上采样，得到特征维度为4 096×3×1和4 096×4×1，对其进行不同尺度的切块，切块后得到A1-A3和B1-B4，将其进行协作式融合，即A1和A2协作融合得到A12，A2和A3协作融合得到A23，B1和B2协作融合得到B12，B2和B3协作融合得到B23，B3和B4协作融合得到B34。在对上述进行降维处理后，得到共计8个维度为512的特征向量，均进行ID loss和Label Smooth分类学习，其中，将3个Global Feat(G1、G2和G3)再次使用Triplet Loss和Center Loss进行联合学习，从而拉近正样本间的距离并增大负样本间的距离。

2.2 基于显著性检测的显著性特征图提取

行人重识别中由于背景复杂，全局特征不足以成为判断2个人是否为同一个人的依据，一方面因为全局特征没有有效地将具有区分力的局部特征块凸显出来，另外一方面由于现有多数特征切块方法将每个特征块视为同一权重，导致如背包、帽子等重要的判断依据被忽视。如图 3所示，由于行人脸部不清晰，因此背包可作为重要的判断依据，现有的一些特征分块方法赋予每个块相同的权重，经过显著性特征图后可以自适应地赋予1、2、3特征块更大的权重，尤其是背包所在的第3块特征图。

	Download: JPG larger image
图 3 显著性特征图中的特征块权重 Fig. 3 Feature blocks weight in saliency feature graph

目前，显著性检测算法日趋成熟，本文使用在行人重识别数据集中表现良好的F3Net网络^[21]。考虑到行人重识别数据集中图片像素较低导致识别效果不明显的问题，本文对图片进行预处理，采用双线性插值法对其进行上采样以适应行人重识别数据集。此外，本文不将显著性特征图直接输入到网络中，而是将其进行灰度二值化，然后归一化并以特征向量的形式存储，最后将这些特征计算图与ResNet50中间层layer3进行向量矩阵相乘融合，使得不会有太多抽象信息同时也自适应地对原始特征图进行加权。

设一张图片经过layer3计算后的特征图为$ \tau \in {\mathbb{R}}^{h\times w\times c} $，一张显著性计算图为$ \omega \in {\mathbb{R}}^{{h}^{\text{'}}\times {w}^{\text{'}}} $，为了使两者进行融合，对$ \tau $上采样将其转换为$ \omega \text{'}\in {\mathbb{R}}^{{h}^{\text{'}}\times {w}^{\text{'}}\times c} $，然后通过特征向量矩阵相乘的方法使两者逐个元素融合。图 4所示为显著性检测后的可视化图，可以看出，复杂的背景信息被抑制，具有区分力的信息被凸显。

	Download: JPG larger image
图 4 显著性检测的可视化效果 Fig. 4 Visualization effect of saliency detection

2.3 协作式多尺度特征融合和多损失函数联合学习

局部特征可以捕获到边缘细节信息，常用的局部特征提取方法包括基于图像切块、基于语义分割、基于姿态关键点等方法，其中，图像切块是有效且最常用的一种方法，但是，单一粒度的特征切块容易丢失结构信息。受文献[15]启发，本文采用多分支策略提取多尺度的局部特征。但与文献[15]不同，本文在特征切块前融合显著性特征图，使得每个特征块的权重不同，此外，为解决特征分块后丢失上下文信息的问题，本文在特征分块后再进行协作式融合，以加强特征块之间的连续性。如图 2所示，Global Feat、Combo Feat以及Combo Feat经过Cut操作后的2个特征分支尺度均不同，特征分块后将A1和A2进行通道连接得到A12，保留了A1与A2之间的连续性，其他特征块同样如此。

多尺度特征融合的重点在于损失函数，需要根据不同尺度的特征应用合适的损失函数。为此，本文联合多种损失函数并将其应用到多尺度特征块上进行数据集训练与网络模型优化。常用的行人重识别损失函数包括交叉熵损失(Cross-entropy loss)和Triplet loss等。在Cross-entropy loss中，本文以行人的ID作为分类的类别。Cross-entropy loss的作用是增大类间间距，其定义如式(1)所示：

$ \begin{array}{l}{\mathcal{L}}_{\mathrm{c}\mathrm{r}\mathrm{o}\mathrm{s}\mathrm{s}}=\sum\limits_{i=1}^{K}(-{q}_{i}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\mathrm{ }({p}_{i}))\\ {q}_{i}=\left\{\begin{array}{c}0, y\ne i\mathrm{ }\\ 1, y=i\end{array}\right.\end{array} $

(1)

其中，$ K $为类别数目，即ID数目，y为真值标签，$ {p}_{i} $为模型预测类别为$ i $的概率值。

由于测试集中出现的ID并未出现在训练集中，因此行人重识别是一项one-shot learning。如果训练好的分类网络对所有新加入的ID都粗略地以0或1进行判断，则容易造成过拟合问题。因此，本文加入标签平滑(label smooth)，其将式(1)中的$ {q}_{i} $改为：

$ {q}_{i}=\left\{\begin{array}{c}1-\frac{K-1}{K}\delta , y=i\\ 0，y\ne i\end{array}\right. $

(2)

其中，$ \delta $为设定的一个常数，本文将其设置为0.1，防止训练的模型过于相信训练集。本文采用ID loss，结合式(1)和式(2)得到式(3)：

$ \begin{array}{l}{\mathcal{L}}_{\mathrm{I}\mathrm{D}}=\sum\limits_{i=1}^{K}(-{q}_{i}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\mathrm{ }({p}_{i}))\\ {q}_{i}=\left\{\begin{array}{c}\frac{\delta }{K}, y\ne i\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\\ 1-\frac{K-1}{K}\delta , y=i\end{array}\right.\end{array} $

(3)

Triplet loss的作用是不仅增大类间距离，而且拉近类内距离，因为Triplet loss不能像ID loss那样能达到全局最优约束，甚至使得类间距离小于类内距离，因此本文将ID loss与Triplet loss相结合以训练模型，从而使得模型学习到更具辨别力的特征。Triplet loss定义如式(4)所示：

$ {\mathcal{L}}_{\mathrm{t}\mathrm{r}\mathrm{i}\mathrm{p}}=\sum\limits_{i=1}^{p}\sum\limits_{a=1}^{N}\left[\alpha +\underset{p=1，2，\cdots ，N}{\mathrm{m}\mathrm{a}\mathrm{x}}{‖{\mathit{\boldsymbol{f}}}_{\mathit{\boldsymbol{a}}}^{\left(\mathit{\boldsymbol{i}}\right)}-{\mathit{\boldsymbol{f}}}_{\mathit{\boldsymbol{p}}}^{\left(\mathit{\boldsymbol{i}}\right)}‖}_{2}-\underset{\begin{array}{c}n=\mathrm{1, 2}, \cdots , N\\ j=\mathrm{1, 2}, \cdots , P\\ j\ne i\end{array}}{\mathrm{m}\mathrm{i}\mathrm{n}}{‖{\mathit{\boldsymbol{f}}}_{\mathit{\boldsymbol{a}}}^{\left(\mathit{\boldsymbol{i}}\right)}-{\mathit{\boldsymbol{f}}}_{\mathit{\boldsymbol{n}}}^{\left(\mathit{\boldsymbol{j}}\right)}‖}_{2}\right] $

(4)

其中，$ {\mathit{\boldsymbol{f}}}_{\mathrm{ }\mathrm{ }\mathit{\boldsymbol{a}}}^{\left(i\right)} $、$ {\mathit{\boldsymbol{f}}}_{\mathrm{ }\mathrm{ }\mathit{\boldsymbol{p}}}^{\left(t\right)} $、$ {\mathit{\boldsymbol{f}}}_{\mathrm{ }\mathrm{ }\mathit{\boldsymbol{n}}}^{\left(j\right)} $分别代表锚点特征向量、正样本特征向量、负样本特征向量，P代表每一个训练批次的ID数目，N代表同一ID的图片数，[$ \phi $]$ {}_{+} $表示max($ \phi , 0 $)，$ \alpha $为Triplet loss的margin，本文设置为1.2。由于Triplet loss有随机采样的2张图片ID输入，很难保证正样本对的距离小于负样本对，因此本文加入Center loss，不仅能学习到每个类的深度特征中心，而且惩罚了深度特征与其对应的类中心的距离，弥补了Triplet loss的缺点。Center loss函数定义如式(5)所示：

$ {\mathcal{L}}_{\mathrm{c}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}}=\frac{1}{2}\sum\limits_{j=1}^{B}{‖{\mathit{\boldsymbol{f}}}_{j}-{\mathit{\boldsymbol{c}}}_{{y}_{j}}‖}_{2}^{2} $

(5)

其中$ ，B $是最小批次图片数量，$ {\mathit{\boldsymbol{f}}}_{j} $表示第j张图片的特征向量，$ {y}_{j} $是第j个图像的标签，$ {\mathit{\boldsymbol{c}}}_{{y}_{j}} $为深度特征的第$ {y}_{j} $个类中心，其能有效描述类内变化，提高类内紧凑性。

根据不同尺度特征块的特性，本文应用不同的损失函数。对于全局特征块G1~G3，本文利用Triplet loss和Center loss对其进行优化学习，原因是全局特征块更能拉近类间距离，另外局部特征块不适用于Triplet loss，甚至会影响模型性能。对于所有局部特征块和全局特征块，本文使用ID loss，这样整个网络模型的损失函数如式(6)所示：

$ {{\cal L}_{{\rm{total}}}} = \frac{1}{3}\left( {\sum\limits_{i = 1}^3 \lambda {{\cal L}_{{\rm{trip}}}}{G_i} + \varepsilon \times \sum\limits_{i = 1}^3 {{{\cal L}_{{\rm{center}}}}} {G_i}} \right) + \frac{1}{8}\left( {\sum\limits_{i = 1}^8 {{{\cal L}_{{\rm{ID}}}}} {f_i}} \right) $

(6)

其中，$ {G}_{i} $表示全局特征块，$ {f}_{i} $表示除3个全局特征块外的8个局部特征快，$ \lambda $是Triplet loss的系数，$ \epsilon $是为了平衡Center loss的权重，设为0.000 5。

3 实验结果与分析 3.1 行人重识别数据集和评估指标 3.1.1 行人重识别数据集

为验证SMC-ReID方法的有效性，本文在Market1501、DukeMTMC-reID和CUHK03 3个公开且常用的数据集上进行测试，3个数据集的具体信息如表 2所示。

下载CSV 表 2 Market1501、DukeMTMC-reID和CUHK03数据集的具体信息 Table 2 Specific information of the Market1501, DukMTMC-reID and CUHK03 datasets

Market1501是由5个高清摄像头和1个低清摄像头拍摄到的不同的1 501个行人，共有32 668个行人矩形框，训练集共有12 936张图像，包含751个行人ID，平均每个人有17.2张训练数据，测试集有19 732张图像，包含750个行人ID，平均每个人有26.3张测试数据，查询集共有3 368张图像。

DukeMTMC-reID共有36 411张行人图像框，包含1 404个行人ID，训练集包含702个行人ID，图像数为16 522，测试集包含702个行人身份，图像数为17 661，查询集包含的图像数为2 228。

CUHK03数据集由2个部分组成，一是手工标记的CUHK03-labeled，二是由DPM算法检测到的CUHK03-detected，共由6个摄像头拍摄而成。行人ID数为1 467，包含14 097/14 096个行人检测框，训练集总数为7 365/7 368，行人ID数为767，测试集总数为5 332/5 328，行人ID数为700，查询集包含1 400张图像。CUHK03的测试协议有新旧2种，本文采用新的测试协议。

3.1.2 行人重识别评估指标

首位命中率(Rank-1)、平均准确率均值(mean Average Precision，mAP)和累积匹配特征曲线(Cumulative Matching Curve，CMC)是行人重识别任务中常用的评估标准，其中，CMC常以Rank-k命中率的形式体现，表示在底库图像集合中与所查询图像匹配相似度最高的前k张图片命中查询图像的概率。mAP的定义如式(7)所示：

$ \mathrm{m}\mathrm{A}\mathrm{P}=\frac{\mathrm{A}\mathrm{P}}{Q}\times 100\mathrm{\%} $

(7)

其中，$ Q $代表查询集的数量，AP定义为：

$ \mathrm{A}\mathrm{P}=\frac{\sum\limits_{k=1}^{n}p\left(k\right)\cdot \mathrm{r}\mathrm{e}\mathrm{l}\left(k\right)}{R} $

(8)

其中，$ k $为预测图片的排名，如果预测排名为$ k $的图片与查询图片是同一ID，则$ \mathrm{r}\mathrm{e}\mathrm{l}\left(k\right) $为1；否则，$ \mathrm{r}\mathrm{e}\mathrm{l}\left(k\right) $为0。$ p\left(k\right) $定义为：

$ p\left(k\right)=\frac{\sum\limits_{i=1}^{k}\mathrm{r}\mathrm{e}\mathrm{l}\left(i\right)}{k} $

(9)

CMC可视为Rank list的可视化，定义为：

$ \mathrm{C}\mathrm{M}\mathrm{C}\left(r\right)=\frac{m\left(r\right)}{Q} $

(10)

其中，$ r $代表Rank-k，$ m\left(r\right) $是指在前$ r $个排名中包含所查询图片的数目。

3.2 实验环境及参数设置

本文实验环境如下：操作系统为Ubuntu 16.04，深度学习框架为Pytorch 1.1.0，编程语言版本为Python 3.6，硬件基础为TITAN Xp GPU。

本文实验的骨干网络用ResNet50，并在ImageNet上预训练以初始化网络权重。为了得到更多的行人信息，本文将输入图片重新调整至384$ \times $128大小，而显著性特征图的大小都重新调整至128$ \times $64。对图片数据的预处理操作包括随机翻转和像素归一化等。为应用三元组损失，每个训练批次选取8个行人身份，并从训练集中随机为每个身份选取4张图片，即训练批次大小为32。三元组损失函数边缘参数设置为1.2，中心损失权重值设为0.000 5。使用自适应梯度优化器(Adam)对网络模型进行优化，动量为0.9，权重衰减系数为0.000 5，初始学习率为0.000 2，在训练周期为320和380时对学习率进行指数衰减，衰减系数为0.1，训练总批次为400。测试阶段，将经过FC层后的8个特征向量进行通道连接组合，形成4 096维向量并进行相似度匹配。

3.3 多尺度特征协作式网络的有效性实验

为验证SMC-ReID方法中多尺度特征协作式融合的有效性，本文在Market1501数据集和DukeMTMC-reID数据集上分别进行对比实验。将基于单一尺度特征切块的PCB模型、增加了多尺度特征切块方法的M-ReID模型、在M-ReID上使用协作式融合得到的MC-ReID模型、在SM-ReID上使用协作式融合得到的SMC-ReID模型进行对比，实验结果如图 5和图 6所示。

	Download: JPG larger image
图 5 不同模型在Market1501数据集上的性能对比结果 Fig. 5 Performance comparison results of different models on Market1501 dataset

	Download: JPG larger image
图 6 不同模型在DukeMTMC-reID数据集上的性能对比结果 Fig. 6 Performance comparison results of different models on DukeMTMC-reID dataset

从图 5和图 6可以看出：

1) 在Market1501数据集上，相较于PCB，M-ReID的Rank-1和mAP精度分别提高1.8和14个百分点，在DukeMTMC-reID数据集上，分别提高3.1和14个百分点，证明了多尺度特征切块比单一尺度特征切块更加有效。

2) 在Market1501数据集上，相对于M-ReID，MC-ReID的Rank-1和mAP精度分别提高0.4和0.5个百分点，即使在模型已经基本收敛的情况下，多尺度特征协作融合也可有效提高行人重识别的精度。在DukeMTMC-reID数据集上，相对于M-ReID，MC-ReID的Rank 1和mAP精度分别提高0.9和1.4个百分点，相对于Market1501数据集增幅较高，原因是相比Market1501数据集，DukeMTMC-reID数据集的像素更高，多尺度协作融合方法更能提高特征块之间的连续性。

3) 在DukeMTMC-reID数据集上，在SM-ReID的基础上使用协作融和的方法后，Rank-1和mAP分别提高1.5和3.3个百分点，相比在M-ReID上使用协作融合方法的精度增幅高一点，说明特征协作融合方法和显著性特征图相结合更能发挥作用，验证了协作式特征融合能够提升网络模型的性能，因为单一尺度特征切块的PCB旨在解决由遮挡、姿态各异情况引起的特征信息提取不充分问题，而M-ReID和MC-ReID的精度优于PCB，因此也进一步证明基于多尺度协作融合方法的M-ReID和MC-ReID网络对于遮挡等情况具有有效性。

3.4 显著性特征图的有效性实验

为验证显著性特征图的有效性，本文在Market1501数据集和DukeMTMC-reID数据集上分别进行2组实验，第1组在M-ReID基础上加入显著性特征图进行实验，第2组在MC-ReID基础上加入显著性特征图进行实验，结果如图 5和图 6所示。从图 5和图 6可以看出，在第1组实验中，在Market1501数据集上，相比于M-ReID，SM-ReID的Rank-1和mAP精度分别提高1.0和1.4个百分点，而在DukeMTMC-reID数据集上，分别提高2.7和3.7个百分点。在另外一组实验中，相比于MC-ReID，SMC-ReID在Market1501数据集上的Rank-1和mAP精度分别提升0.8和1.1个百分点，在DukeMTMC-reID数据集上分别提升3.3和5.7个百分点。上述结果一方面证明了增加显著性特征图的有效性，另外一方面可以看出第2组实验的增幅较第1组实验高一些，证明了加入显著性特征图和使用协作式多尺度特征融合的有效性，也进一步体现了在背景信息冗余复杂的情况下，加入显著性特征图对于精度提升的有效性。由于DukeMTMC-reID数据集的像素较高，因此加入显著性特征图后精度提升更加明显。

3.5 多损失函数性能分析

根据不同尺度特征的特性，本文使用多损失函数进行联合学习。为证明多损失函数联合学习的有效性，本文进行定量和定性分析。定量分析结果如表 3所示，从表 3可以看出，在单一的ID loss上使用Triplet loss后，mAP和Rank-1分别提高5.9和4.2个百分点，在此基础上增加Center loss后，mAP和Rank-1分别提高0.5和0.2个百分点，证明了使用多损失函数联合学习对网络模型的有效性。进一步将Triplet loss的系数调整为2，mAP和Rank-1分别提高1.3和0.4个百分点，一方面是因为Triplet loss能够缓解类内间距大于类间间距的情况，从而使得类内更加紧密，另一方面是因为该系数平衡了多尺度特征块中ID loss和Triplet loss在混合loss中的占比。

下载CSV 表 3 不同损失函数在Market1501数据集上的性能对比结果 Table 3 Performance comparison results of different loss functions on Market1501 dataset

图 7所示为使用ID loss后样本分布的可视化效果，可以看出，类内距离很大，并未完全学习到同一ID的共同特征。如图 8所示，在加入Triplet loss后类内距离减小，使得模型学习到更具鲁棒性的特征。

	Download: JPG larger image
图 7 使用ID loss后的样本分布可视化效果 Fig. 7 Visualization of samples distribution using ID loss

	Download: JPG larger image
图 8 加入Triplet loss后样本分布变化的可视化效果 Fig. 8 Visualization of samples distribution change after adding Triple loss

3.6 方法实时性分析

表 4所示为不同方法在Market1501数据集上的测试时间比较，测试集包含751个人，共有19 732张图片，本次实验在相同的硬件条件下进行。从表 4可以看出，本文方法运行速度处于居中水平，但是准确率比其他方法高。在实际应用中，存储行人数据集的底库数量是慢慢增加的，所以只需考虑新增的行人图像，本文方法的单张图片匹配计算时间为0.029 s，满足了一般算法对实时性的要求。

下载CSV 表 4 不同方法在Market1501数据集上的测试时间比较 Table 4 Test time comparison of different methods on Market1501 dataset

3.7 多种方法性能比较

为验证本文SMC-ReID方法的有效性，在Market1501、DukeMTMC-reID和CUHK03 3个行人重识别数据集上进行实验。其中，在Market1501和DukeMTMC-reID 2个数据集上以mAP、Rank-1、Rank-5和Rank-10作为评估指标，在CUHK03数据集上以mAP和Rank-1作为评估指标。对比方法包括Spindle^[22]、SVDNet^[23]、PDC^[24]、PSE^[25]、GLAD^[12]、HA-CNN^[26]、PCB^[11]、PCB+RPP^[11]、Mancs^[27]、HPM^[28]、MHN^[20]和Pyramid^[29]。对比结果如表 5~表 7所示，其中，“—”表示原文献没有给出实验结果。

下载CSV 表 5 Market1501数据集上不同方法的性能比较结果 Table 5 Performance comparison results of different methods on Market1501 dataset

下载CSV 表 6 DukeMTMC-reID数据集上不同方法的性能比较结果 Table 6 Performance comparison results of different methods on DukeMTMC-reID dataset

下载CSV 表 7 CUHK03数据集上不同方法的性能比较结果 Table 7 Performance comparison results of different methods on CUHK03 dataset

从表 5可以看出，在Market1501数据集上，本文SMC-ReID方法的mAP精度达到93.0%，Rank-1准确率达到95.3%，相较PCB+RPP分别提高11.4和1.5个百分点，证明了显著性特征图和多尺度特征协作融合方法的有效性。

从表 6可以看出，在DukeMTMC-reID数据集上，SMC-ReID的mAP精度达到88.4%，Rank-1命中率达到90.6%，相较先进的Pyramid分别提高9.4和1.6个百分点。通过对比可以看出，SMC-ReID在DukeMTMC-reID数据集上的性能提升幅度高于Market1501数据集，原因是图片像素清晰时显著性特征图起到的作用更加明显。

从表 7可以看出，SMC-ReID在CUHK03-labeled和CUHK03-detected上分别取得了84.0%、82.4%的mAP精度和81.8%、80.5%的Rank-1命中率，优于多数方法，进一步证明了SMC-ReID方法的有效性。

3.8 行人重识别结果的可视化分析

为更加直观地显示SMC-ReID在复杂情景下的重识别效果，本文在Market-1501、DukeMTMC-reID和CUHK03 3个数据集上展示部分查询结果的可视化效果，分别如图 9~图 12所示，其中，虚线框为错误预测结果。

	Download: JPG larger image
图 9 SMC-ReID方法在特殊情况下的部分查询结果可视化对比 Fig. 9 Visual comparison of some query results of SMC-ReID method in special cases

	Download: JPG larger image
图 10 SMC-ReID在Market1501数据集上的部分查询结果可视化对比 Fig. 10 Visual comparison of some query results of SMC-ReID on Market1501 dataset

	Download: JPG larger image
图 11 SMC-ReID在DukeMTMC-reID数据集上的部分查询结果可视化对比 Fig. 11 Visual comparison of some query results of SMC-ReID on DukeMTMC-reID dataset

	Download: JPG larger image
图 12 SMC-ReID在CUHK03数据集上的部分查询结果可视化对比 Fig. 12 Visual comparison of some query results of SMC-ReID on CUHK03 dataset

从图 9(a)的匹配结果可以看出，对于同一个人在图片中的不同尺度，SMC-ReID相较PCB方法匹配准确率较高，此外，PCB方法排名前6的正确结果均为相同尺度的图像，而本文方法将尺度变化较大的图像排在更前的位置，证明了多尺度特征协作融合方法的优越性。从图 9(b)的匹配结果可以看出，PCB方法匹配错误的直观原因是背景混杂对匹配结果造成了干扰，甚至难以区分行人的轮廓，而SMC-ReID方法能正确地匹配出同一行人的图像，证明了本文方法能有效减少背景冗余信息所带来的影响。从图 9(c)的匹配结果可以看出，由于给出的查询图片被车辆、行人严重遮挡，导致PCB方法难以提取鲁棒性的特征，使得其匹配正确率降低，而SMC-ReID能通过提取更细节的局部特征，从而正确地匹配出同一个人。在PCB和本文方法都只有一个图片未成功匹配的情况下，本文方法出错位置排在Rank-9，而PCB排在Rank-6。以上结果说明SMC-ReID在多数复杂情景下均有较好的识别性能。

从图 11可以看出，在姿态变化、行人相互遮挡、背景复杂的情况下，SMC-ReID仍能准确匹配到多数正确结果，在第2组查询结果中，Rank-7由于该图片的行人ID为后面几乎完全被遮挡的人，而被遮挡的行人图片信息较少，导致匹配错误。图 12中给出行人背面，SMC-ReID也能准确匹配到佩戴口罩的同一行人的ID身份。

4 结束语

本文提出一种基于显著性多尺度特征协作融合的行人重识别方法，通过显著性检测得到图片中具有区分力的特征图，对多尺度特征分块后的权重进行分配，以协作融合的方法解决特征块不连续的问题，从而提取更具显著性和鲁棒性的特征。实验结果表明，该方法能获得较高的mAP精度和Rank-1值，可有效提升行人重识别性能。下一步考虑将显著性特征图与原始特征图进行融合，以充分发挥显著性特征图的作用。

参考文献

[1]	LUO Hao, JIANG Wei, FAN Xing, et al. A survey on deep learning based person re-identification[J]. Acta Automatica Sinica, 2019, 45(11): 2032-2049. (in Chinese) 罗浩, 姜伟, 范星, 等. 基于深度学习的行人重识别研究进展[J]. 自动化学报, 2019, 45(11): 2032-2049.
[2]	GENG Mengyue, WANG Yaowei, XIANG Tao, et al. Deep transfer learning for person re-identification[EB/OL]. [2020-03-05]. https://arxiv.org/pdf/1611.05244.pdf.
[3]	LIN Yutian, ZHENG Liang, ZHENG Zhedong, et al. Improving person re-identification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161. DOI:10.1016/j.patcog.2019.06.006
[4]	JIANG Guoquan, XIAO Zhenzhen, HUO Zhanqiang. Person re-identification based on the fusion of RGB and grayscale information[J/OL]. Computer Engineering: 1-13[2020-04-01]. https://doi.org/10.19678/j.issn.1000-3428.00.57115. (in Chinese) 姜国权, 肖禛禛, 霍占强. 基于RGB与灰度信息融合的行人再识别方法[J/OL]. 计算机工程: 1-13[2020-04-01]. https://doi.org/10.19678/j.issn.1000-3428.00.57115.
[5]	VARIOR R R, HALOI M, WANG G. Gated siamese convolutional neural network architecture for human re-identification[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 791-808.
[6]	CHENG De, GONG Yihong, ZHOU Sanping, et al. Person re-identification by multichannel parts-based CNN with improved triplet loss function[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 1335-1344.
[7]	CHEN Weihua, CHEN Xiaotang, ZHANG Jianguo, et al. Beyond triplet loss: a deep quadruplet network for person re-identification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 403-412.
[8]	SUN Yifan, CHENG Changmao, ZHANG Yuhan, et al. Circle loss: a unified perspective of pair similarity optimization[EB/OL]. [2020-03-05]. https://ieeexplore.ieee.org/document/9156774.
[9]	QIAN Xuelin, FU Yanwei, WANG Wenxuan, et al. Pose-normalized image generation for person re-identification[C]//Proceedings of ECCV'18. Washington D.C., USA: IEEE Press, 2018: 661-678.
[10]	ZHENG Zhedong, YANG Xiaodong, YU Zhiding, et al. Joint discriminative and generative learning for person re-identification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 2138-2147.
[11]	SUN Yifan, ZHENG Liang, YANG Yi, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 480-496.
[12]	WEI Longhui, ZHANG Shiliang, YAO Hantao, et al. Glad: global-local-alignment descriptor for pedestrian retrieval[C]//Proceedings of the 25th ACM International Conference on Multimedia. New York, USA: ACM Press, 2017: 420-428.
[13]	ZHENG Liang, HUANG Yujia, LU Huchuan, et al. Pose invariant embedding for deep person re-identification[EB/OL]. [2020-03-05]. https://arxiv.org/pdf/1701.07732.pdf.
[14]	XU Longzhuang, PENG Li, ZHU Fengzeng. Pedestrian re-identification method based on multi-task pyramid overlapping matching[J]. Computer Engineering, 2021, 47(1): 239-245, 254. (in Chinese) 徐龙壮, 彭力, 朱凤增. 多任务金字塔重叠匹配的行人重识别方法[J]. 计算机工程, 2021, 47(1): 239-245, 254.
[15]	WANG Guanshuo, YUAN Yufeng, CHEN Xiong, et al. Learning discriminative features with multiple granularities for person re-identification[C]//Proceedings of the 26th ACM International Conference on Multimedia. New York, USA: ACM Press, 2018: 274-282.
[16]	ZHENG Liang, SHEN Liyue, TIAN Lu, et al. Scalable person re-identification: a benchmark[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2015: 1116-1124.
[17]	RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 17-35.
[18]	LI Wei, ZHAO Rui, XIAO Tian, et al. Deepreid: deep filter pairing neural network for person re-identification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2014: 152-159.
[19]	ZHAO Rui, OUYANG Wanli, WANG Xiaogang. Person re-identification by salience matching[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2013: 2528-2535.
[20]	CHEN Binghui, DENG Weihong, HU Jiani. Mixed high-order attention network for person re-identification[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 371-381.
[21]	WEI Jun, WANG Shuhui, HUANG Qingming. F3Net: fusion, feedback and focus for salient object detection[EB/OL]. [2020-03-05]. https://arxiv.org/pdf/1911.11445v1.pdf.
[22]	ZHAO Haiyu, TIAN Maoqing, SUN Shuyang, et al. Spindle net: person re-identification with human body region guided feature decomposition and fusion[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1077-1085.
[23]	SUN Yifan, ZHENG Liang, DENG Weijian, et al. SVDNet for pedestrian retrieval[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 3800-3808.
[24]	SU Chi, LI Jianning, ZHANG Shiliang, et al. Pose-driven deep convolutional model for person re-identification[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 3960-3969.
[25]	SAQUIB SARFRAZ M, SCHUMANN A, EBERLE A, et al. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 420-429.
[26]	LI Wei, ZHU Xiatian, GONG Shaogang. Harmonious attention network for person re-identification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 2285-2294.
[27]	WANG Cheng, ZHANG Qian, HUANG Chang, et al. Mancs: a multi-task attentional network with curriculum sampling for person re-identification[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 365-381.
[28]	FU Yang, WEI Yunchao, ZHOU Yuqian, et al. Horizontal pyramid matching for person re-identification[C]//Proceedings of the 23rd AAAI Conference on Artificial Intelligence. New York, USA: AAAI Press, 2019: 8295-8302.
[29]	ZHENG Feng, DENG Chen, SUN Xing, et al. Pyramidal person re-identification via multi-loss dynamic training[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 8514-8522.