行人再识别中基于无监督学习的粗细粒度特征提取

引用本文

唐佳敏, 韩华, 黄丽. 行人再识别中基于无监督学习的粗细粒度特征提取[J]. 计算机工程, 2022, 48(4), 269-275. DOI: 10.19678/j.issn.1000-3428.0060811.

TANG Jiamin, HAN Hua, HUANG Li. Coarse-grained and Fine-grained Features Extraction Based on Unsupervised Learning in Pedestrian Re-identification[J]. Computer Engineering, 2022, 48(4), 269-275. DOI: 10.19678/j.issn.1000-3428.0060811.

基金项目

国家自然科学基金（61305014）；上海市教育委员会和上海市教育发展基金会“晨光计划”（13CG60）

通信作者

韩华（通信作者），副教授、博士

作者简介

唐佳敏（1995—），女，硕士研究生，主研方向为目标识别与跟踪、行人再识别;
黄丽，讲师、博士

文章历史

收稿日期：2021-02-04
修回日期：2021-03-16

Contents Abstract Full text Figures/Tables PDF

行人再识别中基于无监督学习的粗细粒度特征提取

唐佳敏 , 韩华 , 黄丽

上海工程技术大学电子电气工程学院, 上海 201620

收稿日期：2021-02-04；修回日期：2021-03-16

基金项目：国家自然科学基金（61305014）；上海市教育委员会和上海市教育发展基金会“晨光计划”（13CG60）

作者简介：唐佳敏（1995—），女，硕士研究生，主研方向为目标识别与跟踪、行人再识别; 黄丽，讲师、博士.

通信作者：韩华（通信作者），副教授、博士.

E-mail: 1510667231@qq.com

摘要：行人再识别研究中存在特征判别信息不够丰富的情况，并且遮挡、光照等因素会干扰有效特征的准确提取，对后续相似性度量、度量结果排序等工作都有较大影响。此外，监督学习需要使用标签信息，在面对大型数据集时工作量很大。通过引入无监督学习框架，提出一种粗细粒度判别性特征提取方法。构建基于细粒度和粗粒度特征学习的模型框架，其中包含局部和全局2个分支。在局部分支中，对图像学习到的特征映射提取补丁块，并在未标记数据集上学习不同位置的细粒度补丁特征；在全局分支中，使用无标注数据集的相似度和多样性作为信息来学习粗粒度特征。在此基础上，利用相吸和相斥2个损失函数分别增加类别内相似度和类别间多样性，并结合最小距离准则计算特征之间的相似度，进行无监督的聚类合并。在Market-1501和DukeMTMC-reID数据集上的实验结果表明，该方法对于完成行人再识别任务具有较好的判别性能和鲁棒性，相比所有对比方法的最优结果，其Rank-1指标分别提高5.76%和5.07%，平均精度均值分别提高3.2%和5.6%。

Coarse-grained and Fine-grained Features Extraction Based on Unsupervised Learning in Pedestrian Re-identification

TANG Jiamin , HAN Hua , HUANG Li

School of Electronic and Electrical Engineering, Shanghai University of Engineering Science, Shanghai 201620, China

Abstract: In the research of pedestrian re-identification, there is not enough feature discrimination information, and factors such as occlusion and illumination will interfere with the accurate extraction of effective features, having a decisive impact on the subsequent similarity measurement and ranking of measurement results.In addition, supervised learning models need label information, imposing a heavy workload for large datasets.In view of this, a coarse-grained and fine-grained discriminant feature extraction method is proposed based on unsupervised learning.A model framework is built based on fine-grained and coarse-grained feature learning for local and global feature extraction.For local features, patch blocks are extracted from the feature map learned from the image, and fine-grained patch features at different locations are learned from the unlabeled data set.For global features, the similarity and diversity of unlabeled data sets provide the information for coarse-grained feature learning.On this basis, the two loss functions of attraction and repulsion are used to increase the similarity within categories and the diversity between categories respectively, and the similarity between features is calculated combined with the minimum distance criterion for unsupervised clustering.The experimental results on Market-1501 and DukeMTMC-reID datasets show that this method has good discrimination performance and robustness for solving the pedestrian re-indentification task, whereby the Rank-1 index is improved by 5.76% and 5.07%, respectively, and the mean Average Precision(mAP) is improved by 3.2% and 5.6%, respectively compared with the optimal results of all comparison methods.

开放科学（资源服务）标志码（OSID）：

0 概述

视频监控网络作为重要的基础安全公共设施已在全球范围内得到广泛运用。在智能监控普及的同时，需要对摄像头监控区域是否有重叠视域进行区分。在无重叠视域的多摄像机联合监控系统中，行人再识别^[1]是关键问题，其定义为在无重叠区域的视频监控网络中判别目标行人是否具有关联性身份。目前，行人再识别已成为研究热点，国内外学者们提出了很多优秀的技术和方法^[2-4]。在计算机视觉与机器学习相关的各大顶级国际会议上，也出现了很多关于行人再识别研究的成果^[5-7]。

目前，行人再识别方法主要可分为基于人工设计特征和基于深度学习两类。在基于深度学习的方法中，监督学习^[8-10]已被证明能够获得很好的性能，但存在需要利用目标行人图像数据标签的不足。因为手动打标签需要消耗很多的人力和时间资源，所以在任务执行过程中存在一定的限制性。无监督学习中常用到的算法有聚类、可视化与降维、关联学习等，与监督学习方法相比，无监督学习方法不需要对数据集的数据手动打标签，因此适用的数据集比较多，此类方法更具有可行性和扩展性。

在无监督学习中，三元组损失函数因能拉近样本和正样本间的距离而得到广泛应用，但其学习的仅仅是样本间的相对距离，只考虑了类间的差异性，没有学习绝对距离，忽视了类内的相似性。同时，不同摄像头下同一个人的不同图片外表特征差异较大，如果聚类合并时使用最大距离准则会放大差异性，导致不能合并来自不同摄像头下的同一人的图片。鉴于此，本文提出一种基于无监督学习的粗细粒度特征提取方法。分别通过相斥函数和相吸函数扩大类间差异和类内相似度，在此基础上进行特征学习和参数更新，同时使用最小距离准则将跨摄像头中差别较大拥有相同身份的人的图片聚类在一起，并对多个聚类进行逐步合并，解决特征差异性问题。

1 相关研究

行人再识别问题定义为在无重叠区域的视频监控网络中判别目标行人是否具有关联性身份的任务，如图 1所示。其中，第1列给定一个行人图或是行人视频作为查询目标，在大规模数据库中找出与其相近的同一身份的行人图或行人视频，由同一行为同一身份的行人在不同摄像头下所拍摄到的图片不难发现，哪怕是同一身份的行人，在不同摄像头下也会有差异比较大的外观展示，主要影响因素有视角、光照、远近、遮挡等，但是即使有较大差异，仍然要对行人的身份进行正确匹配。行人再识别方法的识别流程如图 2所示。

	Download: JPG larger image
图 1 行人再识别问题示意图 Fig. 1 Schematic diagram of pedestrian re-identification problem

	Download: JPG larger image
图 2 行人再识别流程 Fig. 2 Procedure of pedestrian re-identification

在基于深度学习的行人再识别方法中，基于监督学习的方法被证明具有很好的性能。ZHU等^[8]提出CycleGAN算法，对目标行人的图片进行一系列形变、图片增强等操作后，将其转换到目标行人的数据库候选图片中。WEI等^[9]提出行人重识别生成对抗网络，采用场景分割的思想，先确保图片中的目标行人不改变，再将图片所处的背景风格转变为人为所期望的数据库的风格样式，最后进行一系列操作实现重识别。QIAN等^[10]提出行人姿态归一化生成对抗网络，利用原始目标行人的图形生成含有同一身份并且姿势可以控制的归一化图像，通过目标行人的姿势迁移解决姿势偏差的问题。但监督学习存在需要利用目标行人图像的数据标签这一不足。因为手动打标签需要消耗很多的人力和时间资源，所以在任务执行过程中存在一定的限制性。

如果说监督学习的本质是告诉计算机怎么做的话，那么无监督学习的本质就是让计算机自己去学习怎么做，因此，无监督学习中常用到的算法有聚类、可视化与降维、关联学习等。在行人再识别中，基于无监督学习^[11-13]的方法已经有很多。WU等^[11]简化了无监督行人重识别问题，给每个目标行人一张图片作为训练集，通过动态取样的思想为每个身份的行人动态地分配没有标签的候选图片，并利用伪标签对模型进行训练学习。DENG等^[12]提出相似性保留生成对抗网络的思想，将目标行人的图片从源域替换到目标域，之后使用有监督的流程训练算法模型。ZHONG等^[13]提出异质学习的方法，通过三元组损失函数挖掘信息，对于相同相机域的正样本对和不同域的负样本对进行属性加强，增强相机的不变性和域的联结性。无监督的方法不需要对数据集的数据手动打标签，这样对于数据集的要求就不那么严格，扩大了可用数据集的范围，使得研究工作更具可行性和扩展性。

基于全局^[14]的粗粒度特征提取是针对每一个目标行人的每一张完整的图片进行特征提取。全局特征的显著优势是便于训练与处理，能对行人的外观有一个完整全面的表达，不会出现“盲人摸象”的问题。但是又存在明显缺点：对于目标行人的图片缺少细节的特征表示，对于艰难样本难以区分，细节特征的判别性不够。对于行人再识别中的遮挡等问题，基于局部^[15]的细粒度特征提取是行人再识别中常用的特征提取方法。在一张图片中，位于不同图像区域的特征包含不同的信息。在各个区域中提取细粒度特征可以更精确地提取到可能被忽略的判别性特征。因为相似的图片中很有可能会存在相似的区域，并且区域之中的相似度远大于行人整体间的相似度，但具有相似区域的行人不代表是相似的行人，所以，提取局部特征可以减小判断2张图片为同一行人的错误率。但是仅仅提取局部特征会造成空间细节特征信息的损失和非完整性。而此时全局特征便于训练，能整体地对行人的外观进行表达，所以，怎样有效地学习具有判别性的粗粒度特征和细粒度特征，在提取特征信息全面的同时又不缺细节，从而提高整个网络算法的判别力精度，是需要研究的问题。

2 本文方法

本文提出一种基于无监督学习的粗细粒度特征提取方法。构建一个基于细粒度和粗粒度特征学习的模型框架，如图 3所示，其中包括局部分支和全局分支，分别用于获取细粒度特征和粗粒度特征。首先，得到每个特征图的U个补丁，利用U个CNN对U个补丁分别提取其细粒度特征，从而可以得到U个损失，将其求和平均的结果视为细粒度损失。然后，为每张图片分配不同的簇中心，每个形状代表一张图片，相同的形状代表相似的身份。使用聚类算法将同一个身份的相似的样本逐渐合并，通过联合相斥损失函数和相吸损失函数得到总的粗粒度损失，从而将相似的图像特征拉到一起，将不相似的图像特征推远。

	Download: JPG larger image
图 3 基于粗细粒度特征学习的模型框架 Fig. 3 Model framework based on fine-grained and coarse-grained features learning

2.1 局部分支的细粒度特征学习

局部分支学习主要是为了指导补丁网络在未标记的数据集上学习细粒度特征。在一般的特征学习中，让同一类的特征在特征空间中更靠近，并且远离其他类，能够学习到更具判别性的特征。因此，补丁网络特征学习的作用是将特征空间中相似的补丁块拉近，同时将不相似的补丁块推远。

在这一过程中，首先需要一个存储体$ {w}^{u}=\{{w}_{j}^{u}{\}}_{j=1}^{N} $用来存放每张行人图片局部补丁块的特征。对于每一个$ {x}_{i}^{u} $，在无标签数据集里训练时，通过式（1）对存储体里的数据进行更新：

$ {w}_{i, t}^{u}=\left\{\begin{array}{l}(1-l)\times {w}_{i, t-1}^{u}+l\times {x}_{i, t}^{u}, t > 0\\ {x}_{i, t}^{u}, t=0\end{array}\right. $

(1)

其中：t是训练的次数；l是训练更新时的更新率；$ {x}_{i}^{u} $表示体量中第$ i $个图像的第$ u $个补丁的特征；$ {x}_{i, t}^{u} $是当前更新的局部块特征。当$ t=0 $时，在未标记的数据集上先进行初始化，再通过式（1）逐一更新。

基于无监督学习框架，本文使用一种基于补丁块的判别特征损失函数，将相似的特征拉到一起，并推远不相似补丁块，从而学习未标记数据集中的补丁特征。该函数计算公式如下：

$ {L}_{s}^{u}=-\mathrm{l}\mathrm{b}\frac{\sum\limits_{{w}_{j}^{u}\in {k}_{i}^{u}}^{}{\mathrm{e}}^{-\frac{s}{2}\left|\right|{x}_{i}^{u}-{w}_{j}^{u}|{|}_{2}^{2}}}{\sum\limits_{j=1, j\ne i}^{N}{\mathrm{e}}^{-\frac{s}{2}\left|\right|{x}_{i}^{u}-{w}_{j}^{u}|{|}_{2}^{2}}} $

(2)

其中：存储体$ {W}^{u}=\{{W}_{j}^{u}{\}}_{j=1}^{N} $用于存放补丁块的特征；$ N $是训练图像的数量；$ {k}_{i}^{u} $是$ {x}_{i}^{u} $的$ k $个最近补丁的合集，通过对每个$ {x}_{i}^{u} $计算$ {W}^{u} $的成对距离得到；$ s $是缩放参数。

2.2 全局分支的粗粒度特征学习

粗粒度特征学习在全局分支上进行。首先，使用这个和交叉熵损失类似的相斥损失函数来优化卷积模型，将不同人之间的特征差异性扩大。然后，根据一些相同身份的图片的相似性，将含有相似特征的行人图片当作是同一个目标人物，使用一个相吸损失函数来减少同一类内的差异性，并将相同类组合起来当作一个聚类，再由卷积网络算法最大化聚类中心的差异性来更新参数，联合相斥和相吸损失函数进行粗粒度特征学习。最后，通过将属于同一个聚类间的特征向中心聚集，使聚类内部的差异性最小化，增加属于同一个身份的图片的特征相似度，利用特征空间中的结构化信息，根据最小距离准则对数据进行聚类合并。

定义一张图片$ x $属于第$ c $个聚类中心的概率为：

$ p\left(c\right|{x}_{i}, V)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}({V}_{c}^{\mathrm{T}}{v}_{i}/\tau )}{\sum\limits_{j=1}^{C}\mathrm{e}\mathrm{x}\mathrm{p}({V}_{j}^{\mathrm{T}}{v}_{i}/\tau )} $

(3)

其中：$ C $表示当前状态下聚类的个数，在最初状态，$ C=N $，就是给每一个图片赋予一个人聚类身份，让聚类的个数等于图片的数量，当相似的图像被逐渐地进行合并，聚类$ C $的数量就会慢慢减少；$ v=\frac{\phi (\theta ;{x}_{i})}{\left|\right|\phi (\theta ;{x}_{i})\left|\right|} $用于计算数据$ {x}_{i} $特征空间中的$ {l}_{2} $范数，即$ \left|\right|{v}_{i}\left|\right|=1；V\in {\mathbb{R}}^{C\times {n}_{\varphi }} $是一个查询列表，用于存放每一个聚类的特征；$ {V}_{j} $表示$ V $的第$ j $列特征；$ \tau $是一个标量参数，其作用是便于对概率的取值区间进行控制。在本文后续的实验中，将$ \tau $设置为0.1。在之前的操作中，通过算式$ {V}^{\mathrm{T}}\cdot {v}_{i} $来计算数据$ {x}_{i} $和其他数据间的余弦相似度，而现在，使用$ {V}_{{\widehat{y}}_{i}}\leftarrow 1/2({V}_{{\widehat{y}}_{i}}+{v}_{i}) $来计算表$ V $的第$ {\widehat{y}}_{i} $列数据，将原来聚类的特征与新的数据特征进行求和并求平均。在此基础上，使用式（4）所示的损失函数优化卷积模型，将其作为相斥损失函数来放大不同身份图片的差异性：

$ {L}_{\mathrm{r}}=-\mathrm{l}\mathrm{b}\left(p\right(c|x, V)) $

(4)

对式（4）进行最小化操作的结果可以从式（3）的分式上明显显示。分母：计算每个图像特征$ {v}_{i} $与每一个聚类中心特征$ {V}_{j\ne {\widehat{y}}_{i}} $之间的余弦距离，然后将其最大化；分子：计算每个图像特征$ {v}_{i} $与相对应聚类中心特征$ {V}_{j={\widehat{y}}_{i}} $之间的余弦距离，并将它最小化。在后续优化的步骤中，$ {V}_{j} $列举了第$ j $个聚类中心中所包括的全部图片的特征，将其作为该聚类的“中心点”。在模型训练阶段，计算聚类中心的时间复杂度很高，通过查询表格$ V $的方法来节省冗余的计算过程，能够省去多余的反复提取特征并存储的过程。

在此基础上，本文提出在区分聚类中心、放大差异性的同时也可放大相同类间的相似性，将不同摄像头下相差明显但具有同一身份的行人图片聚集在一起。给出对应的相吸损失函数，如式（5）所示：

$ {L}_{\alpha }=\frac{1}{2}\sum\limits_{i=1}^{m}\left|\right|{v}_{i}-{c}_{{y}_{i}}|{|}_{2}^{2} $

(5)

其中：$ {c}_{{y}_{i}}\in {\mathbb{R}}^{d} $表示第$ {y}_{i} $个聚类中心的特征嵌入。在每次数据迭代时，前一步骤中的聚类中心通过计算聚类合并后所有属于该聚类的特征平均值作为当前步骤中所求的聚类中心特征。式（5）中的参数$ \alpha $是一个标量，用于控制聚类中心的特征学习率，这样就可以筛选一些不可避免的错误样本在聚类过程中造成的无法忽视的误差。然后通过联合相斥损失函数和相吸损失函数的粗粒度损失函数作为工具来训练算法的卷积模型，以便进行无监督的特征学习。

全局分支的粗粒度特征损失函数公式如下：

$ \begin{array}{l}{L}_{\mathrm{g}}={L}_{\mathrm{r}}+\beta {L}_{\mathrm{\alpha }}=\\ {}_{}{}_{}{}_{}{}_{}{}_{}-\sum\limits_{i=1}^{m}\frac{\mathrm{e}\mathrm{x}\mathrm{p}({V}_{c}^{\mathrm{T}}{v}_{i}/\tau )}{\sum\limits_{j=1}^{C}\mathrm{e}\mathrm{x}\mathrm{p}({V}_{j}^{\mathrm{T}}{v}_{i}/\tau )}+\frac{\beta }{2}\sum\limits_{i=1}^{m}\left|\right|{v}_{i}-{c}_{{y}_{i}}|{|}_{2}^{2}\end{array} $

(6)

其中：$ \beta $是被用来平衡相斥和相吸这两个损失函数的超参数；$ m $代表行人图片数的总和。通过联合损失函数的操作来对算法模型进行特征学习和参数更新。

在聚类不断生成的过程中，需要聚类合并策略的参与，将相似的样本归于同一类，将相异的样本归于不同的类。进行聚类合并的一个关键点在于每次迭代中形成的聚类之间以及它们和样本之间距离的计算。本文对于计算聚类$ A $和聚类$ B $之间的相似度值$ D(A, B) $使用最小距离准则。合并公式如下：

$ {D}_{\mathrm{d}\mathrm{i}\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{c}\mathrm{e}}(A, B)=\underset{{x}_{a}\in A, {x}_{b}\in B}{\mathrm{m}\mathrm{i}\mathrm{n}}d({x}_{a}, {x}_{b}) $

(7)

其中：$ d({x}_{a}, {x}_{b}) $表示行人图片在特征空间中的欧氏距离，即$ d({x}_{a}, {x}_{b})=\left|\right|{v}_{a}-{v}_{b}\left|\right| $。

在每一次的聚类合并过程中，定义$ n=N\times \gamma $，通过此公式来计算减少的聚类中心的个数，其中：$ \gamma \in （\mathrm{0, 1}） $表示聚类的速度。在合并的过程中，刚开始有$ N $个样本图片，每一个样本图片都被定义成单独的一个聚类，所以，聚类的个数初始化就是$ C=N $，通过每一次合并，所有聚类中距离最小的$ n $个聚类就被合并减少，在经历了$ t $次合并操作后，聚类的个数就会随之减少到$ C=N-t\times n $。

2.3 联合特征学习

基于以上无标签数据集框架中所使用的粗粒度特征学习损失函数和细粒度特征学习损失函数，最终每张目标行人图片所形成的总的联合损失函数可以表示如下：

$ L=\lambda \frac{1}{U}\sum\limits_{u=1}^{U}{L}_{s}^{u}+{L}_{g} $

(8)

其中：U表示一张图片的补丁块的个数；$ \lambda $是一个控制权重的参数。

3 实验结果与分析 3.1 参数设置

在Market-1501和DukeMTMC-reID这2个大型数据集上进行实验，使用ResNet-50卷积网络作为整个算法的骨干网络，并使用ImageNet数据库预训练权重来初始化模型。在实验操作中删除了最后一个完全连接层，并将最后一个残差块的步幅设置为1，将参数$ k $设置为15，参数$ s $也随不同数据集而设置不同的数值，在Market-1501中将其设置为15，在DukeMTMC-reID中将其设置为5，参数$ \beta $设置为0.5，将参数$ \tau $设置为0.1，聚类速度$ \gamma $设置为0.05，参数$ \lambda $设置为0.8，训练次数设为60，一次的体量大小设为32，使用动量为0.9的随机下降梯度方法训练模型。

3.2 与先进方法的比较

在Market-1501和DukeMTMC-reID数据集上进行测试，将本文方法与经典的先进方法进行性能对比，表 1、表 2列出了比较结果。可以看出：在Market-1501数据集上，本文方法Rank-1的性能结果比所有对比方法的最优结果提高了5.76%，平均精度均值（mean Average Precision，mAP）性能结果也提高了3.2%；在DukeMTMC-reID数据集上，Rank-1的性能结果比对比方法的最优结果提高了5.07%，mAP性能结果也提高了5.6%。

下载CSV 表 1 在Market-1501数据集上各算法的性能比较 Table 1 Performance comparison of each algorithm on Market-1501 dataset

下载CSV 表 2 在DukeMTMC-reID数据集上各算法的性能比较 Table 2 Performance comparison of each algorithm on DukeMTMC-reID dataset

对表 1、表 2数据的具体分析如下：

1）与基于手工特征表示模型的对比

与局部最大出现率（LOMO）^[16]、无监督多任务词典学习词袋（Bow）^[17]、无监督多任务字典学习（UMDL）^[18]等手工特征方法相比，本文方法具有性能优势，这是因为对手工特征的研究是在Re-ID研究的早期开始的，在大部分早期研究中没有太多可参考的学习方法，因此难以学习出色的区分特征。

2）与基于深度学习特征表示模型的对比

（1）伪标签学习。与跨视图非对称度量学习（CAMEL）^[19]、渐进无监督学习（PUL）^[20]等基于无监督模型的伪标签学习方法相比，本文方法具有性能优势。这是因为对比方法通过比较视觉特征直接分配伪造标签，并且忽略了潜在的歧视性信息，从而导致效果不理想。

（2）无监督域适应。与行人再识别的生成对抗网络GAN（PTGAN）^[9]、可转移的属性身份深度学习（TJ-AIDL）^[21]、保持相似性的对抗网络（SPGAN）^[12]、多任务中级特征对齐（MMFA）^[22]、CamStyle^[23]、异质学习（HHL）^[13]、多标签参考学习（MAR）^[24]等基于无监督域自适应的方法相比，本文方法具有性能优势。这是因为多数对比方法都仅仅考虑了源域中有判别性的特征信息，而忽视了在未标记的目标域中的具有有效判别性的潜在信息，并且源域中有判别性的特征信息会随着数据集的改变而有很大不同，所以在目标集中减少其本身的有效性与多样性。同时，由于图像块之间的相似度必定比图像的相似度大，因此本文方法的局部分支基于图像块来学习特征比基于图像的效果好。

3.3 进一步分析 3.3.1 全局分支中相吸损失函数分析

对全局分支中有无相吸损失函数的模型进行对比实验，结果如表 3所示，可以看出，相吸损失函数在2个数据集上对整体算法性能都有很大的提升作用。

下载CSV 表 3 无标签数据集中有无相吸损失函数的对比结果 Table 3 Comparison results whether or not have attracted loss on the unlabeled datasets

为更直观地验证相吸损失的效果，进行可视化效果展示，如图 4所示。在此分支中，如果没有相吸损失函数，那么在特征空间中的学习过程中就会有一个较大的类内差异的情况出现。相反，加入相吸损失函数就会将聚类中心聚拢。同时学习每个聚类中心，即可显著提升深度特征的判别力，来增加每个身份的相似性。

	Download: JPG larger image
图 4 有无相吸损失的可视化效果对比 Fig. 4 Visual effect comparison of whether or not have attracted loss

3.3.2 局部分支中细粒度损失函数分析

从表 4可以看出，加入细粒度损失函数之后，在2个数据集上，性能结果都好于未使用的时候，主要原因是该损失函数可以为模型提供有效的指导，其可视化展示如图 5所示，当没有细粒度损失函数时在Rank-5时，由于衣物与鞋子的相似度就误以为是目标行人，忽略了背包的差异性，导致识别错误，因此对于每一张行人图片，位于不同图像区域的特征具有不同的信息，使用不同的网络分支去细化的学习未标记数据集上不同的局部人体的补丁特征，可以更精确地提取到可能被忽略的特征，最终能够得到对行人不同的局部特征更有判别力的模型。

下载CSV 表 4 无标签数据集中有无细粒度损失函数对比结果 Table 4 Comparison results whether or not have fine-grained loss on the unlabeled datasets

	Download: JPG larger image
图 5 有无细粒度损失的可视化对比 Fig. 5 Visual comparison of whether or not have fine-grain loss

3.3.3 聚类合并准则的有效性分析

观察3种常见的聚类合并准则，通过比较在Market-1501数据集中的结果选择最小距离准则，如表 5所示。当使用最小距离准则时，Rank-1准确率最高，其次是中心距离准则，最低的则是最大距离准则。因为数据集有不同的摄像头的图片，而在不同的摄像头下，相同的人的不同图片会有较大的外表特征的差异，所以，使用最大距离准则会放大差异性，导致不能合并来自不同摄像头下的同一人的图片。

下载CSV 表 5 3种常见的聚类合并准则在Market-1501数据集上的结果 Table 5 Results of three common clustering and merging criterias on the Market-1501 dataset

3.3.4 粗粒度损失中参数$ \beta $的分析

在全局分支上，联合相斥和相吸2个损失函数，相斥损失放大不同身份的样本之间的差异性，相吸损失拉近相同身份之间的相似性。如图 6、图 7所示，评测准则Rank-1和mAP直到$ \beta $的值达到0.5时结果最优。由此可以得出以下结论：相斥损失相较于吸引损失贡献了相近的能量值。

	Download: JPG larger image
图 6 参数$ \mathit{\beta } $对评测准则Rank-1的性能影响 Fig. 6 Performance impact of parameter $ \mathit{\beta } $ for the evaluation criteria Rank-1

	Download: JPG larger image
图 7 参数$ \mathit{\beta } $对评测准则mAP的性能影响 Fig. 7 Performance impact of parameter $ \mathit{\beta } $ for the evaluation criteria mAP

3.3.5 损失函数中权重$ \lambda $的分析

总损失中参数$ \lambda $的影响如图 8、图 9所示，可以看出，将全局的粗粒度损失和局部的细粒度损失组合起来得到了更好的结果，细粒度损失学习到了具有判别性的细粒度特征，粗粒度损失指导了具有判别性的粗粒度特征学习，其中Rank-1和mAP随着权重$ \lambda $的增加一直持平稳上升的趋势，直到0.8时达到最高点，所以将设置$ \lambda =0.8 $。可以看出，细粒度损失贡献的性能略多。

	Download: JPG larger image
图 8 权重$ \mathit{\lambda } $对评测指标Rank-1的性能影响 Fig. 8 Performance impact of parameter $ \mathit{\lambda } $ for the evaluation criteria Rank-1

	Download: JPG larger image
图 9 权重$ \mathit{\lambda } $对评测指标mAP的性能影响 Fig. 9 Performance impact of parameter $ \mathit{\lambda } $ for the evaluation criteria mAP

4 结束语

本文提出的行人再识别无监督学习框架，通过基于相斥和相吸的特征学习联合损失指导未标记数据集中的粗粒度特征学习，使用最小距离准则增加不同相机下同一目标行人之间的相似性，并从全局和局部2个方向学习判别性特征，提高算法模型的性能。下一步将对判别特征与损失函数进行优化，提取出全面且极具判别性的特征，同时对损失函数加以改进，使算法模型能够较好地达到收敛状态，减小模型数据结果的误差，从而提高整个网络算法的判别精度。

参考文献

[1]	李幼蛟, 卓力, 张菁, 等. 行人再识别技术综述[J]. 自动化学报, 2018, 44(9): 1554-1568. LI Y J, ZHOU L, ZHANG J, et al. A survey of person re-identification[J]. Acta Automatica Sinica, 2018, 44(9): 1554-1568. (in Chinese)
[2]	JIN X, LAN C, ZENG W, et al. Style normalization and restitution for generalizable person re-identification[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 3140-3149. https://ieeexplore.ieee.org/document/9157711
[3]	ZHANG Z, LAN C, ZENG W, et al. Relation-aware global attention for person re-identification[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 3183-3192. https://ieeexplore.ieee.org/document/9157488
[4]	CHEN X, FU C, ZHAO Y, et al. Salience-guided cascaded suppression network for person re-identification[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 3297-3307. https://ieeexplore.ieee.org/document/9156982
[5]	ZHAO S, GAO C, ZHANG J, et al. Do not disturb me: person re-identification under the interference of other pedestrians[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 647-663. https://link.springer.com/chapter/10.1007/978-3-030-58539-6_39
[6]	FU Y, WEI Y, WANG G, et al. Self-similarity grouping: a simple unsupervised cross domain adaptation approach for person re-identification[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 6111-6120. https://ieeexplore.ieee.org/document/9008293
[7]	YAN Y, QIN J, CHEN J, et al. Learning multi-granular hypergraphs for video-based person re-identification[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 2896-2905. https://ieeexplore.ieee.org/document/9156659
[8]	ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 2242-2251. https://ieeexplore.ieee.org/document/8237506
[9]	WEI L, ZHANG S, GAO W, et al. Person transfer GAN to bridge domain gap for person re-identification[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 79-88. https://ieeexplore.ieee.org/document/8578114
[10]	QIAN X, FU Y, XIANG T, et al. Pose-normalized image generation for person re-identification[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 650-667. https://link.springer.com/chapter/10.1007/978-3-030-01240-3_40
[11]	WU Y, LIN Y, DONG X, et al. Progressive learning for person re-identification with one example[J]. IEEE Transactions on Image Processing, 2019, 28: 2872-2881. DOI:10.1109/TIP.2019.2891895
[12]	DENG W, ZHENG L, YE Q, et al. Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 994-1003. https://ieeexplore.ieee.org/document/8578208
[13]	ZHONG Z, ZHENG L, LI S, et al. Generalizing a person retrieval model hetero- and homogeneously[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 176-192. https://link.springer.com/chapter/10.1007/978-3-030-01261-8_11
[14]	李佳宾, 李学伟, 刘宏哲, 等. 基于局部特征关联与全局注意力机制的行人重识别[J]. 计算机工程, 2022, 48(1): 245-252. LI J B, LI X W, LIU H Z, et al. Person re-identification based on local feature relation and global attention mechanism[J]. Computer Engineering, 2022, 48(1): 245-252. (in Chinese)
[15]	库浩华, 周萍, 蔡晓东, 等. 基于区域特征对齐与k倒排编码的行人再识别方法[J]. 计算机工程, 2019, 45(3): 207-211. KU H H, ZHOU P, CAI X D, et al. Person re-identification method based on regional feature alignment and k-reciprocal encoding[J]. Computer Engineering, 2019, 45(3): 207-211. (in Chinese)
[16]	LIAO S, HU Y, ZHU X, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 2197-2206. https://ieeexplore.ieee.org/document/7298832
[17]	ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: a benchmark[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2015: 1116-1124. https://ieeexplore.ieee.org/document/7410490
[18]	PENG P, XIANG T, WANG Y, et al. Unsupervised cross-dataset transfer learning for person re-identification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 1306-1315. https://ieeexplore.ieee.org/document/7780515
[19]	YU H X, WU A, ZHENG W S. Cross-view asymmetric metric learning for unsupervised person re-identification[C]//Proceedings of ICCV'17. Washington D.C., USA: IEEE Press, 2017: 994-1002. https://ieeexplore.ieee.org/document/8237375
[20]	FAN H, ZHENG L, YAN C, et al. Unsupervised person re-identification: clustering and fine-tuning[EB/OL]. (2017-06-29)[2021-01-02]. https://arxiv.org/pdf/1705.10444v2.pdf.
[21]	WANG J, ZHU X, GONG S, et al. Transferable joint attribute-identity deep learning for unsupervised person re-identification[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 2275-2284. https://ieeexplore.ieee.org/document/8578340
[22]	LIN S, LI H, LI C T, et al. Multi-task mid-level feature alignment network for unsupervised cross-dataset person re-identification[EB/OL]. (2018-07-11)[2021-01-02]. https://arxiv.org/pdf/1807.01440.pdf.
[23]	ZHONG Z, ZHENG L, ZHENG Z D, et al. CamStyle: a novel data augmentation method for person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(3): 1176-1190.
[24]	YU H X, ZHENG W S, WU A C, et al. Unsupervised person re-identification by soft multilabel learning[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 2143-2152. https://ieeexplore.ieee.org/document/8953980