2. 战略支援部队信息工程大学 信息系统工程学院, 郑州 450001
2. School of Information System Engineering, Strategic Support Force Information Engineering University, Zhengzhou 450001, China
开放科学(资源服务)标志码(OSID):
行人重识别也称行人再识别,是指在没有交叉视域的多个摄像头监控系统中,给定一个摄像机拍摄的行人图像,利用深度学习、人工智能等技术从其他摄像机中重新识别出该行人。行人重识别作为智能图像处理的关键技术之一,在智能安防、智能追踪、智能管理等应用场景中得到广泛关注与应用[1-2]。
行人重识别系统通常由图像预处理、图像特征提取、网络损失优化、行人排序4个部分组成:图像预处理对输入图片大小、分辨率等进行处理;图像特征提取旨在提取显著性更强的行人特征,是系统中的关键步骤;网络损失优化是在损失函数最小化原则下通过某种优化算法来寻找最优参数;行人排序是对行人图像之间的相似度依次进行排序并得到排序结果。
在诸多行人特征提取方法中,全局特征提取[3]较早被应用到行人重识别网络中,其缺点是不易捕捉图片之间的细微区别。在这之后,很多研究人员提出全局特征与局部特征相结合的方法[4-6],使得行人重识别性能得到大幅提升。尽管行人重识别技术取得了很大的进展,但是受遮挡、姿态变化、光线变化、图像分辨率等因素影响,其识别精度仍难以满足现实需求[7-8]。为解决该问题,很多研究人员提出基于注意力机制的行人重识别网络[9-11],该类网络利用注意力机制、深度模型来关注行人图像的显著特征,从而降低各种环境变化和背景干扰所带来的负面影响[12-14]。
文献[15]提出包含非局部注意力模块(Non-Local Attention Module,A)、广义平均池化(Generalized-Mean Pooling,G)、加权三元组损失(Weighted Regularization Triplet,W)的AGW网络,该网络在提取某处特征时利用其周围点的信息,获得了更大的感受野以及更广泛的信息分布。然而,AGW网络是对当前卷积模块进行注意学习从而训练模型,在训练过程中,当前注意块没有前面的监督信息来进行指导。文献[16]提出连接注意力模块,其通过当前注意块来从前面注意块中收集信息,并将其传递给下一个注意块,使得注意块之间的信息可以相互配合,从而提高注意力模块的学习能力,最终大幅提升网络的特征学习效果。
针对真实环境下行人重识别网络识别精度低的问题,本文提出一种基于连接注意力机制的行人重识别特征提取方法,旨在提取显著性更强的行人图像特征以实现行人识别。使用自动增强技术[17]对图像进行预处理,获取关于平移、旋转、剪切等多种图像处理功能的融合策略,以实现有效的数据增强,进而提升模型的鲁棒性。采用基于连接注意力机制的行人重识别网络模型对行人图像进行特征提取,获得显著性更强的行人特征进行相似度度量。此外,利用三元组损失和圆损失进行损失优化,以获得更高的行人重识别精度。在Market1501[18]、DukeMTMC-reID[19]、MSMT17[20]这3个主流的行人重识别数据集上进行实验,以验证本文基于连接注意力的行人重识别网络的识别性能。
1 行人重识别特征提取网络如图 1所示,本文行人重识别特征提取网络分为4个步骤:
![]() |
Download:
|
图 1 行人重识别特征提取网络结构 Fig. 1 Person re-identification feature extraction network structure |
1)对输入的行人图片进行预处理。
2)将预处理后的图片输入以ResNet50作为主干网络、卷积块2~卷积块5分别结合连接注意力模块的整体网络结构中进行特征提取。
3)对提取的行人特征进行损失优化并完成相似度度量。
4)进行行人排序,得到行人重识别系统的识别结果。
1.1 基于自动增强的图像预处理在基于深度学习的网络模型训练过程中,网络模型由最初的浅层网络发展到目前更深、更宽的网络,因此,对数据量的需求也大幅提高,从而避免模型的过拟合问题。在真实环境中,由于数据标注成本等因素影响,导致训练数据欠缺,需要对数据集进行数据扩增。传统的数据增强方法包括尺寸变换、颜色增强等,随着深度学习中更深网络层的出现,简单的数据增强方法已经无法满足各类场景的应用需求。在行人重识别场景中,光照、角度、分辨率等因素的影响使得深度网络的学习更为困难。
自动增强是一种自动搜索合适数据进行标注数据拓展的算法,其包含2个部分:
1)搜索空间:确定图像变换增强的选择范围。
2)搜索算法:确定图像增强选择范围内的优选结果。
搜索空间中的一个图像增强策略包含5个子策略,在训练时为每个小批量中的每张图像选择1个子策略,因此,数据扩展为原始数据的2倍。在搜索空间中,共有16种图像运算方法,包括剪切(沿X轴或Y轴)、平移(沿X轴或Y轴)、旋转、最大化图像对比度、反色、均衡、像素点反转、像素点反转叠加、色调分离、对比度、饱和度、亮度、锐度以及随机擦除。每个子策略包含2种图像运算方法,图像运算包含该方法的应用概率和应用幅度,即以一定的概率选择使用该方法并在图像上采用一定的幅度使用该方法。图像运算方法选择具有随机性,导致图像增强后的图片存在多种结果,因此,确定多种结果中更为合适的一个结果尤为重要。为此,本文采用基于控制器RNN的搜索算法来采样数据增强策略,该策略具有关于图像变换方式、变换概率和变换幅度的信息。在实验过程中,利用文献[17]中基于ImageNet的增强策略来训练网络模型。综上,本文采用基于自动增强的方法对训练数据进行增强,增加数据量以避免模型过拟合,最终利用更深的网络来提取更细粒度的图片特征。
1.2 基于注意力机制的行人特征提取 1.2.1 连接注意力模块连接注意力模块是在通道注意力(Channel Attention,CA)[21]的基础上通过相邻注意块的信息互连而形成的。通道注意力模块结构如图 2所示,其通过学习通道注意力系数对卷积块进行加权,以获得最终的卷积输出。
![]() |
Download:
|
图 2 通道注意力模块结构 Fig. 2 Channel attention module structure |
对由卷积块产生的特征图
$ {\boldsymbol{A}}_{T}=T({\boldsymbol{X}}_{\mathrm{G}\mathrm{A}\mathrm{P}}, {\omega }_{t}) $ | (1) |
其中:
$ {\boldsymbol{X}}_{\mathrm{o}\mathrm{u}\mathrm{t}}={\boldsymbol{A}}_{T}\odot \boldsymbol{X} $ | (2) |
其中:
$ {\boldsymbol{X}}_{\mathrm{o}\mathrm{u}\mathrm{t}}=T({\boldsymbol{X}}_{\mathrm{G}\mathrm{A}\mathrm{P}}, {\omega }_{t})\odot \boldsymbol{X} $ | (3) |
连接注意力模块结构如图 3所示,其将前序通道注意块的通道注意力系数
![]() |
Download:
|
图 3 连接注意力模块结构 Fig. 3 Connected attention module structure |
在不同阶段由卷积块所产生的特征图通道数不同,与之相关联的注意力图通道数也不同,为了解决通道匹配问题,本文将先前注意块的输出
$ \begin{array}{l}{\boldsymbol{X}}_{\mathrm{o}\mathrm{u}\mathrm{t}}'={T}'\left(f\left(\alpha {\boldsymbol{X}}_{\mathrm{G}\mathrm{A}\mathrm{P}}', \beta {\boldsymbol{A}}_{T}''\right), {\omega }_{t}\right)\odot {\boldsymbol{X}}'=\\ {T}'\left(\alpha {\boldsymbol{X}}_{\mathrm{G}\mathrm{A}\mathrm{P}}'+\beta {\boldsymbol{A}}_{T}'', {\omega }_{t}\right)\odot {\boldsymbol{X}}'\end{array} $ | (4) |
其中:
从上文分析可以看出,通道注意力通过自主学习的方式得到每个特征通道的重要性程度,赋予重要的特征通道更大的权重,赋予作用较小的特征通道更小的权重,但其只考虑当前注意块通道的重要性程度,忽略了前序注意块的信息,存在特征显著性不强的问题。连接注意力模块在其基础上将之前注意块信息融入到当前注意块中,使得注意块之间的信息相互配合,从而提高了注意力模块的学习能力和网络的特征学习效果。
1.2.2 特征提取网络本文以ResNet50作为主干网络,分别在卷积块2~卷积块5中,在残差块引入连接注意力机制,让其在卷积块之间进行信息融合,最终构成特征提取网络,结构如图 4所示。
![]() |
Download:
|
图 4 特征提取网络结构 Fig. 4 Feature extraction network structure |
本文特征提取网络由5个卷积块构成,其中,卷积块1包括一个7×7卷积和最大池化层,其余卷积块均由残差块和瓶颈块组成,不同之处在于瓶颈块叠加的个数不同。以卷积块2为例,其结构如图 5所示,残差块包含1×1卷积、3×3卷积以及连接注意力模块,连接注意力模块在1×1卷积层之后,瓶颈块包含1×1卷积、3×3卷积以及通道注意力模块。为了避免网络层数过多带来的梯度消失问题,残差块采用1×1卷积进行残差连接,连接注意力模块和通道注意力模块对特征通道赋予不同的权重,以获得显著性更强的行人特征,从而得到识别精度更高的特征提取网络。
![]() |
Download:
|
图 5 卷积块2的结构 Fig. 5 Structure of convolution block 2 |
本文实验使用的损失函数为三元组损失函数[22]和圆损失函数[23],两者能够学习高判别力的行人特征。三元组损失旨在一定距离上将正负样本分开,即最小化正样本对之间的距离,同时最大化负样本对之间的距离,其目标函数如式(5)所示:
$ {L}_{\mathrm{T}\mathrm{r}\mathrm{i}}=\sum\limits _{i=1}^{P}{\sum\limits _{a=1}^{K}\left[\underset{p=\mathrm{1, 2}, \cdots , K}{\mathrm{m}\mathrm{a}\mathrm{x}}\left(\mathrm{ }\right|\left|F\right({x}_{i}^{a})-F({x}_{i}^{p}\left)\mathrm{ }\right|{|}_{2}^{2})-\underset{\underset{\underset{j\ne i}{n=\mathrm{1, 2}, \cdots , K}}{j=\mathrm{1, 2}, \cdots , P}}{\mathrm{m}\mathrm{i}\mathrm{n}}(\mathrm{ }\left|\right|F\left({x}_{i}^{a}\right)-F\left({x}_{i}^{n}\right)\mathrm{ }\left|{|}_{2}^{2}\right)+\alpha \right]}_{+} $ | (5) |
其中:
圆损失旨在学习类别区分性信息,即最大化类内相似度同时最小化类间相似度。假设与
$ \begin{array}{l}{L}_{\mathrm{c}\mathrm{i}\mathrm{r}\mathrm{c}\mathrm{l}\mathrm{e}}=\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left[1+\sum\limits _{j=1}^{L}\exp\left(\gamma {\alpha }_{n}^{j}\right({s}_{n}^{j}-{\Delta }_{n}\left)\right)\right.\\ \left.\sum\limits _{j=1}^{K}\exp(-\gamma {\alpha }_{p}^{j}({s}_{p}^{j}-{\Delta }_{p}\left)\right)\right]\end{array} $ | (6) |
其中:
为了最大化地发挥损失函数的作用,本文实验过程中采用总损失
$ {L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}}=m{L}_{\mathrm{T}\mathrm{r}\mathrm{i}}+n{L}_{\mathrm{c}\mathrm{i}\mathrm{r}\mathrm{c}\mathrm{l}\mathrm{e}} $ | (7) |
其中:
为了验证本文所提方法的有效性,分别在Market1501[18]、DukeMTMC-reID[19]、MSMT17[20]这3个公开数据集上进行测试。Market1501于2015年在清华大学内采集,图像来自6个不同的摄像头,其中1个摄像头为低分辨率,训练集包括751个人的12 936张图片,测试集包括750个人的19 732张图片。DukeMTMC-reID于2017年在杜克大学内采集,图像来自8个不同的摄像头,训练集包括702个人的16 522张图片,测试集包括702个人的19 889张图片。MSMT17在北京大学内采集,图像来自15个不同的摄像头,训练集包括1 041个人的30 248张图片,测试集包括3 060个人的93 820张图片,其中,11 659张图片被随机选出作为查询图片,剩下的82 161张图片作为图库。
本文采用目前行人重识别领域最常用的2种评价指标,即首位准确率(Rank-1)和平均精确均值(mean Average Precision,mAP)。Rank-1反映了待选行人图像中匹配值排在首位的图像是待查询行人的概率,mAP综合考虑精确率和召回率,能够反映图像库中所有正确的图片排在检索列表最前面的程度。
2.2 实验设置实验采用ResNet50作为主干网络,并利用ImageNet预训练参数进行初始化。为了保留图像的分辨率,ResNet50最后一个瓶颈层的步长设置为1,每个瓶颈层后均叠加一个注意力块。在训练期间,采用自动增强的数据增强策略,输入图片大小为384×128像素,批次大小是64,其包含16个行人类别,每个类别包含4个行人图像。采用随机梯度下降优化器进行网络优化,动量因子为0.9,权重衰减为0.000 5。初始学习率设置为0.01,采用预热学习策略,在训练40个回合后下降10倍。模型共训练80个回合,为了更好地初始化分类器的参数,在前10个回合只训练分类器参数,即用来计算损失的特征参数,同时冻结网络参数,经过10个回合迭代后释放网络参数,后70个回合训练整个网络模型。
2.3 结果分析本文采用Rank-1和mAP这2种性能指标来衡量所提方法的性能,Rank-1和mAP的值越高,说明模型性能越好,行人重识别精度越高。
2.3.1 本文方法与现有方法的性能比较在Market1501、DukeMTMC-reID、MSMT17这3个公开行人重识别数据集上进行测试,将本文方法与PCB[3]、MGN[4]、Pyramid[5]、OSNet[7]、MHN[9]、SONA[10]、AGW[15]、FastReID[24]等基于深度学习的经典行人重识别方法进行比较,结果如表 1所示。
![]() |
下载CSV 表 1 不同行人重识别方法的性能比较 Table 1 Performance comparison of different person re-identification methods |
从表 1可以看出:在Market1501数据集上,本文方法的Rank-1和mAP值较其他对比方法均最优;在DukeMTMC-reID、MSMT17数据集上,本文方法的Rank-1和mAP值同样取得了最优结果,超出其他方法1.5个百分点左右。此外,本文在测试阶段对重排序(Rerank)[25]和查询扩展(Query Expansion,QE)这2个测试技巧进行实验,从结果可以看出,在Market1501和DukeMTMC-reID这2个数据集上,本文方法的Rank-1和mAP值较对比方法均有明显提升。由此可以看出,在3个公开行人重识别数据集上,本文方法在行人重识别精度方面极具竞争力,这主要得益于连接注意力模块将上下文信息进行融合,提取显著性更强的行人特征进行距离度量,最终获得了较好的识别效果。
2.3.2 消融实验本文消融实验均以Market1501数据集为例进行测试。为了探索不同分支对实验结果的影响,将自动增强方法和连接注意力模块嵌入ResNet50网络中进行识别,其中,M1表示数据预处理中的自动增强,M2表示连接注意力机制。从表 2可以看出,2个分支对实验结果均有一定程度的提升,合并在一起对实验结果的提升更为明显,Rank-1值提升1个百分点左右,mAP值提升3个百分点左右,因此,增加数据集规模并提取显著性更强的行人特征有助于提升识别精度。
![]() |
下载CSV 表 2 消融实验结果 Table 2 Ablation experimental results |
在连接注意力模块中,为了匹配通道大小,引入了通道衰减r,为了探索r值对模型性能的影响,本文进行实验测试。从表 3可以看出:当r值为2时,实验结果最好;r值为4和直接采用一个全连接层(即对应表中第一行FC层)的实验结果相比r值为2时稍差。
![]() |
下载CSV 表 3 不同通道衰减r值下的实验结果 Table 3 Experimental results under different channel attenuation r values |
本文还测试了不同主干网络对实验结果的影响,ResNet18、ResNet34、ResNet50分别代表主干网络层数分别为18、34、50的典型网络,IBN(Instance Batch Normalization)网络是将ResNet50等典型网络中的BN层替换为IBN层之后形成的网络。从表 4可以看出,当主干网络为ResNet50时,更深的网络结构提取了更高层次的行人特征,识别效果更好。为了验证本文所采用损失函数的有效性,对
![]() |
下载CSV 表 4 不同主干网络下的实验结果 Table 4 Experimental results under different backbone networks |
![]() |
下载CSV 表 5 不同损失函数下的实验结果 Table 5 Experimental results under different loss functions |
为了更加清晰地呈现行人重识别系统的识别效果,在Market1501数据集上对识别结果进行可视化,如图 6所示,query为待查询图片,在图像库中寻找与其为同一个人的图片,显示结果为前10张相似度最高的行人图片,其中,虚线框内为错误的识别结果,其余为正确的识别结果。从图 6可以看出,错误的检索图片与待查询图片在外观方面非常相似,在提取行人外观特征时,网络模型捕获不到细微的差别,导致了错误的识别结果。因此,如何提取更加细粒度的行人特征,使得网络模型关注到行人图像的细小差别显得尤为重要,这也是本文下一步的研究重点。
![]() |
Download:
|
图 6 部分行人重识别结果 Fig. 6 Some person re-identification results |
在现实环境中,行人重识别容易受光照、姿态等外在变化和不同背景的影响,导致数据量欠缺以及行人重识别系统识别率低的问题。为此,本文提出一种基于连接注意力的行人重识别特征提取方法。将自动增强策略引入图像预处理过程中以提高模型的鲁棒性,将连接注意力模块嵌入ResNet50网络进行特征提取,从而增强行人特征的显著性,在此基础上,进行相似度度量以得到识别精度较高的行人重识别模型。在3个主流数据集上的实验结果表明,该方法的行人重识别性能评价指标优于PCB、MGN等方法。在本文方法的基础上,利用预训练模型和transformer网络来提取更加细粒度的特征以及提升跨域行人重识别模型的精度,将是下一步的研究方向。
[1] |
罗浩, 姜伟, 范星, 等. 基于深度学习的行人重识别研究进展[J]. 自动化学报, 2019, 45(11): 2032-2049. LUO H, JIANG W, FAN X, et al. A survey on deep learning based person re-identification[J]. Acta Automatica Sinica, 2019, 45(11): 2032-2049. (in Chinese) |
[2] |
李幼蛟, 卓力, 张菁, 等. 行人再识别技术综述[J]. 自动化学报, 2018, 44(9): 1554-1568. LI Y J, ZHUO L, ZHANG J, et al. A survey of person re-identification[J]. Acta Automatica Sinica, 2018, 44(9): 1554-1568. (in Chinese) |
[3] |
SUN Y F, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 480-496.
|
[4] |
董亚超, 刘宏哲, 徐成. 基于显著性多尺度特征协作融合的行人重识别方法[J]. 计算机工程, 2021, 47(6): 234-244, 252. DONG Y C, LIU H Z, XU C. Person re-identification method based on joint fusion of saliency multi-scale features[J]. Computer Engineering, 2021, 47(6): 234-244, 252. (in Chinese) |
[5] |
ZHENG F, DENG C, SUN X, et al. Pyramidal person re-identification via multi-loss dynamic training[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 8506-8514.
|
[6] |
FU Y, WEI Y C, ZHOU Y Q, et al. Horizontal pyramid matching for person re-identification[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33: 8295-8302. DOI:10.1609/aaai.v33i01.33018295 |
[7] |
ZHOU K Y, YANG Y X, CAVALLARO A, et al. Omni-scale feature learning for person re-identification[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 3701-3711.
|
[8] |
ZHUO J X, LAI J H, CHEN P J. A novel teacher-student learning framework for occluded person re-identification[EB/OL]. [2021-05-05]. https://arxiv.org/pdf/1907.03253.pdf.
|
[9] |
CHEN B H, DENG W H, HU J N. Mixed high-order attention network for person re-identification[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 371-381.
|
[10] |
BRYAN B, GONG Y, ZHANG Y Z, et al. Second-order non-local attention networks for person re-identification[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 3759-3768.
|
[11] |
HOU R B, MA B P, CHANG H, et al. Interaction-and-aggregation network for person re-identification[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 9309-9318.
|
[12] |
李佳宾, 李学伟, 刘宏哲, 等. 基于局部特征关联与全局注意力机制的行人重识别[J]. 计算机工程, 2022, 48(1): 245-252. LI J B, LI X W, LIU H Z, et al. Person re-identification based on local feature relation and global attention mechanism[J]. Computer Engineering, 2022, 48(1): 245-252. (in Chinese) |
[13] |
CHEN T L, DING S J, XIE J Y, et al. ABD-net: attentive but diverse person re-identification[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 8350-8360.
|
[14] |
QUAN R J, DONG X Y, WU Y, et al. Auto-ReID: searching for a part-aware ConvNet for person re-identification[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 3749-3758.
|
[15] |
YE M, SHEN J, LIN G, et al. Deep learning for person re-identification: a survey and outlook[EB/OL]. [2021-05-05]. https://arxiv.org/abs/2001.04193.
|
[16] |
MA X, GUO J D, TANG S H, et al. Learning connected attentions for convolutional neural networks[C]//Proceedings of IEEE International Conference on Multimedia and Expo. Washington D. C., USA: IEEE Press, 2021: 1-6.
|
[17] |
CUBUK E D, ZOPH B, MANE D, et al. AutoAugment: learning augmentation policies from data[EB/OL]. [2021-05-05]. https://arxiv.org/abs/1805.09501.
|
[18] |
ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1116-1124.
|
[19] |
RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 17-35.
|
[20] |
WEI L H, ZHANG S L, GAO W, et al. Person transfer GAN to bridge domain gap for person re-identification[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 79-88.
|
[21] |
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7132-7141.
|
[22] |
CHEN W H, CHEN X T, ZHANG J G, et al. Beyond triplet loss: a deep quadruplet network for person re-identification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1320-1329.
|
[23] |
SUN Y F, CHENG C M, ZHANG Y H, et al. Circle loss: a unified perspective of pair similarity optimization[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 6397-6406.
|
[24] |
HE L X, LIAO X Y, LIU W, et al. FastReID: a pytorch toolbox for general instance re-identification[EB/OL]. [2021-05-05]. https://arxiv.org/abs/2006.02631.
|
[25] |
ZHONG Z, ZHENG L, CAO D L, et al. Re-ranking person re-identification with k-reciprocal encoding[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 3652-3661.
|