2. 广州大学 机械与电气工程学院, 广州 510006
2. School of Mechanical and Electrical Engineering, Guangzhou University, Guangzhou 510006, China
开放科学(资源服务)标志码(OSID):
近年来,随着城市居住人口的不断增加,人口密集程度不断上升,导致拥挤踩踏风险也随之增加。为实时检测人群数量变化,避免拥挤踩踏对公共安全、交通控制、智能交通等造成破坏,精确地监测人群的数量变化成为一个十分重要的课题。
基于计数方式的不同,人群计数算法可以分为传统的人群计数算法和基于深度学习的人群计数算法。传统的人群计数算法首先提取图像中行人特征,然后通过检测或回归的方法确定人群数量。其中,基于检测的方法[1]是通过检测图像中人的头部信息计算出人数,这种方法随着目标分布密集程度的增加,检测难度也随之增加。而基于回归的方法[2-3]则是利用图像的纹理特征与人数的映射关系估计出人群数量,能够减小人群拥挤情况下的估计误差。然而由于回归方法无法从图像中提取有助于完成人群计数任务的语义信息,导致当存在严重的遮挡问题和背景干扰时,算法性能难以提升。随着深度学习的发展,卷积神经网络(Convolution Neural Network,CNN)在许多计算机视觉任务中都取得了良好的效果[4-5],在一定程度上突破了传统网络的限制,显著提升了计数性能。但图像存在的透视畸变问题和背景噪声不仅影响了网络的计算精度,而且约束了网络的泛化能力和鲁棒性。
为减少图像中多尺度问题对计数任务的影响,ZHANG等[6]利用端到端的深度卷积神经网络实现不同场景的人群计数,此网络虽然提高了计数的精确性,但网络的跨场景计数能力较差。文献[7]提出多列卷积神经网络(Multi-Column CNN,MCNN),通过不同尺度的卷积核提取不同尺度大小的头部特征,提高网络跨场景计数的能力,但该网络的结构复杂,泛化能力有待提高。SAM等[8]提出切换卷积神经网络(Switching CNN,SwitchCNN),该网络虽然提高了泛化能力,但冗余结构较多,计算量较大。为解决MCNN这一类多列结构网络存在的网络冗余问题,LI等[9]提出基于扩展卷积的密集场景识别网络(Congested Scene Recognition Network,CSRNet),通过去除冗余的多列卷积层,采用7层空洞卷积构成一个单通道端到端的人群计数网络,在减少网络冗余的情况下提高了模型对透视畸变的抗干扰能力。与CSRNet类似,LIU等[10]设计了一个上下文感知网络(Context-Aware Network,CAN)以自适应预测人群密度所需的上下文信息,进而减小图像多尺度问题造成的干扰。值得注意的是,虽然CSRNet和CAN均减少了此问题造成的影响,但图像本身存在的背景噪声对人群计数的精度仍然造成影响,并未得到改善。
为抑制图像背景对人群计数网络性能的干扰,文献[11]提出注意力尺度网络(Attention Scaling Network,ASNet),并利用二进制掩码对背景和人群进行分割,但该网络并不能实现端到端的计算,网络计算量较大。ZHU等[12]通过对称双路径多尺度融合网络(Dual Path Multi-scale Fusion Network,SFANet),利用空间注意力图过滤密度图的噪声以提高计数准确度,但其生成的空间注意力图精度有待提高,无法对噪声进行充分抑制,网络的泛化能力和鲁棒性有待增强。
本文对SFANet进行改进,提出基于背景抑制与上下文感知的人群计数网络。通过构建背景噪声抑制(Background Noise Suppression,BNS)模块提高网络对图像背景噪声的抑制能力,并设计上下文感知增强网络结构,减少图像透视畸变对计数任务的干扰。
1 本文网络 1.1 网络结构本文网络由VGG-16网络、密度图生成(Density Map Generation,DMG)模块、BNS模块以及上下文感知增强网络(Weight Enhancement-Context Aware Network,WE-CAN)4个部分组成,具体结构如图 1所示。
![]() |
Download:
|
图 1 本文网络结构 Fig. 1 Structure of network in this paper |
由图 1可知,该网络首先利用特征提取网络VGG-16提取输入图像不同层次的特征并分别输入DMG模块和BNS模块中进行处理,生成密度特征图和空间注意力图。然后,将生成的密度特征图和空间注意力图相乘,得到能有效抑制噪声的初级密度图。最后,利用WE-CAN模块提取初级密度图上下文信息并进行优化处理,减少透视畸变引起的问题,进而获得高质量的预测密度图。
1.2 密度图生成模块DMG模块的作用是生成高分辨率的初级密度图,其结构如图 1中DMG模块所示。由于低层特征包含更多的纹理信息,高层特征包含头部等位置信息[13],因此DMG模块采用特征金字塔的结构[14]能使输入的低层特征图和高层特征图的信息有效互补,从而得到高分辨率的初级密度图。
在DMG模块中,首先提取VGG-16网络中4个池化层的中间特征图,分别记为
生成高分辨率的密度特征图
$ {\boldsymbol{F}}_{\mathrm{r}\mathrm{e}\mathrm{f}\mathrm{i}\mathrm{n}\mathrm{e}}={\boldsymbol{F}}_{\mathrm{d}\mathrm{e}\mathrm{n}}\otimes {\boldsymbol{M}}_{\mathrm{a}\mathrm{t}\mathrm{t}} $ | (1) |
其中:
BNS模块旨在生成对图像背景噪声起抑制作用的空间注意力图
![]() |
Download:
|
图 2 ECA模块结构 Fig. 2 Structure of ECA module |
由图 2可知,ECA模块的引入不仅能增强低层特征图中细节边缘信息的表达,而且能提高高层特征图中用于区分头部和背景的语义信息权重。具体而言,ECA模块首先利用卷积核大小为K的一维卷积获取特征图中每个通道以及K个相邻通道之间的交互信息,从而计算出不同通道的权重,此过程用
$ \boldsymbol{y}=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(\mathrm{C}1{\mathrm{D}}_{K}\left(\mathrm{G}\mathrm{A}\mathrm{P}\left(\boldsymbol{x}\right)\right)\right)\otimes \boldsymbol{x} $ | (2) |
其中:
为进一步突出空间注意力图中前景和后景差异[12],BNS模块在输出空间注意力图前使用1×1×1卷积对特征图进行降维,并使用sigmoid函数将空间注意力图像素点的值映射为(0,1),从而区分图像中头部区域与背景区域,此过程的表达式如式(3)所示:
$ {\boldsymbol{M}}_{\mathrm{a}\mathrm{t}\mathrm{t}}=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(\boldsymbol{W}\mathrm{*}{\boldsymbol{f}}_{\mathrm{a}\mathrm{t}\mathrm{t}}+\boldsymbol{b}\right) $ | (3) |
其中:
为增强特征图中上下文信息的表达,减少图像透视畸变造成的影响,本文在CAN[10]模块的基础上结合特征权重增强模块(Feature Weight Enhance Module,WE)进行改进,提出WE-CAN模块。其中WE模块用于增强特征图中多尺度上下文信息的表达,其结构如图 3所示。由图 3可知,WE模块的功能是提取DMG模块所生成初级密度图
$ {\boldsymbol{F}}_{m}=\boldsymbol{W}*\left({\boldsymbol{F}}_{A}\otimes {\boldsymbol{F}}_{S}\right)+\boldsymbol{b} $ | (4) |
![]() |
Download:
|
图 3 WE-CAN模块结构 Fig. 3 Structure of WE-CAN module |
其中:
结合WE模块对CAN[10]模块进行改进,本文提出的WE-CAN模块能提取特征中更详细的空间信息和全局信息,增强网络自适应优化多级上下文信息的能力,其结构如图 3(a)所示。由图 3(a)可知,WE-CAN模块分为4个步骤:首先使用4个不同核大小的平均池化层对初级密度图
$ {\boldsymbol{C}}_{j}={\boldsymbol{S}}_{j}-{\boldsymbol{F}}_{m} $ | (5) |
$ {\boldsymbol{\omega }}_{j}=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(\boldsymbol{W}\mathrm{*}{\boldsymbol{C}}_{j}+\boldsymbol{b}\right) $ | (6) |
$ {\boldsymbol{D}}^{\mathrm{p}\mathrm{r}\mathrm{e}}=\boldsymbol{W}*\left(\left[{\boldsymbol{F}}_{\mathrm{r}\mathrm{e}\mathrm{f}\mathrm{i}\mathrm{n}\mathrm{e}}\left|\frac{\sum\limits _{j=1}^{4}{\boldsymbol{\omega }}_{j}\otimes {\boldsymbol{S}}_{j}}{\sum\limits _{j=1}^{4}{\boldsymbol{\omega }}_{j}}\right.\right]\right)+\boldsymbol{b} $ | (7) |
其中:
ShanghaiTech、UCF-CC-50以及UCF-QNRF数据集是目前人群计数研究中的主流数据集详情如下:
1)ShanghaiTech数据集是由ZHANG[8]等提出的大型开源数据集,该数据集由Part A和Part B 2个部分组成。Part A包含从互联网中随机收集的482张图片,其中300张用于训练,182张用于测试。Part B则包含716张拍摄于上海繁华街道的图片,其中400张用于训练,316张用于测试。
2)UCF-CC-50数据集[19]是一个包含拥挤人群图片的开源数据集,一共包括50张不同分辨率的人群图片。该数据集图片人数变化大,人群范围跨度大,从94人到4 543人,平均每张图片1 280人。为更好地验证模型的准确性,在实验过程中使用与文献[20]相同的5折交叉验证法:首先在不重复的前提下将数据集平均划分为5份,每份10张图像。然后每次选择不同的一份作为测试集,将余下的4份作为训练集进行训练,分别获得5组测试结果,最后取5组测试结果的平均值作为模型的性能指标,并与其他网络进行比较。
3)UCF-QNRF数据集[20]是一个复杂且拥挤的人群数据集,共包含1 251 642处人体标注。该数据集共有1 535张图像,训练集由1 201张图像组成,其余334张作为测试集。UCF-QNRF数据集不仅包含多种多样的环境背景,而且数据集中图像的分辨率差异较大,具有一定的挑战性。
本文采用的3个数据集对比结果如表 1所示。
![]() |
下载CSV 表 1 本文数据集信息 Table 1 Information of datasets in this paper |
由于现有的人群计数数据集只标注了图像中人头的位置,因此需要将人头位置转化为真实人群密度图以提供更多的监督信息。本文按照文献[8]中生成密度图的方法,对所有的目标均采用内核大小相同的高斯滤波器进行处理。首先使用
$ {\sigma }_{i}=\beta \overline{{d}_{i}} $ | (8) |
$ {\boldsymbol{D}}^{\mathrm{G}\mathrm{T}}\left(x\right)=\sum\limits _{i=1}^{C}\delta \left(x-{x}_{i}\right){G}_{{\sigma }_{i}}\left(x\right) $ | (9) |
其中:标准差
为使网络生成预测空间注意力图,实现对预测密度图的权重分配,本文根据文献[12]设定阈值的方式对真实人群密度图
$ \forall x\in {\boldsymbol{D}}^{\mathrm{G}\mathrm{T}}, {\boldsymbol{A}}_{i}^{\mathrm{G}\mathrm{T}}\left(x\right)=\left\{\begin{array}{c}0, x < t\\ 1, x\ge t\end{array}\right. $ | (10) |
其中:
本文基于Pytorch框架,在Ubuntu18.04系统和RTX 2080Ti GPU条件下进行实验。为提高训练速度和计数精度,本文导入VGG-16预训练模型并将其作为前端特征提取器,其余网络参数初始值由均值为0、标准差为0.01的高斯分布随机生成。同时,采用Adam优化器训练,学习率设为1×10-4,权重衰减设为5×10-3,迭代次数设为800次,批量化大小设为8。
2.4 多任务联合损失函数为获得精确的人群估计结果,本文根据文献[12]的方法,将多任务联合损失函数分别用于训练网络生成有效的预测空间注意力图和精准的预测密度图。此外,基于现有的研究,本文利用欧氏几何距离测量预测人群密度图和真实人群密度图之间的差值并将其作为损失函数,以用于训练网络模型生成预测密度图。损失函数的表达式如式(11)所示:
$ {L}_{\mathrm{d}\mathrm{e}\mathrm{n}}=\frac{1}{N}{‖F\left({X}_{i};\mathrm{\varTheta }\right)-{\boldsymbol{D}}_{i}^{\mathrm{G}\mathrm{T}}‖}^{2} $ | (11) |
其中:
为得到有效的空间注意力图,本文在训练过程中采用二进制交叉熵损失(Binary Cross Entropy Loss,BCELoss)作为损失函数,计算人群空间注意力图与真实人群空间注意力图之间的差值。损失函数的表达式如式(12)所示:
$ {L}_{\mathrm{a}\mathrm{t}\mathrm{t}}=-\frac{1}{N}\sum\limits _{i=1}^{N}‖{\boldsymbol{A}}_{i}^{\mathrm{G}\mathrm{T}}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left({P}_{i}\right)+\left(1-{\boldsymbol{A}}_{i}^{\mathrm{G}\mathrm{T}}\right){\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left(1-{P}_{i}\right)‖}_{1} $ | (12) |
其中:
在训练过程中使用多任务结合损失函数实现端到端的训练,多任务联合损失函数表达式如式(13)所示:
$ L={L}_{\mathrm{d}\mathrm{e}\mathrm{n}}+\alpha {L}_{\mathrm{a}\mathrm{t}\mathrm{t}} $ | (13) |
其中:
现有的研究主要使用平均绝对误差(Mean Absolute Error,MAE)和均方误差(Mean Square Error,MSE)对模型进行评估,MAE反映了网络的准确性,而MSE体现了网络的泛化能力。其计算过程分别如式(14)和式(15)所示:
$ {R}_{\mathrm{M}\mathrm{A}\mathrm{E}}=\frac{1}{N}\sum\limits _{i=1}^{N}\left|{C}_{i}-{C}_{i}^{\mathrm{G}\mathrm{T}}\right| $ | (14) |
$ {R}_{\mathrm{M}\mathrm{S}\mathrm{E}}=\sqrt{\frac{1}{N}\sum\limits _{i=1}^{N}{\left({C}_{i}-{C}_{i}^{\mathrm{G}\mathrm{T}}\right)}^{2}} $ | (15) |
其中:
为验证本文网络的有效性,在人群计数任务数据集ShanghaiTech、UCF-CC-50以及UCF-QNRF数据集上分别进行实验,并与现有的其他网络包括MCNN[7],SwitchCNN[8],CSRNet[9],多尺度聚合网络(Multi-Scale Aggregation Network,SANet)[21],CAN[10],关系注意力神经网络(Relational Attention Network,RANet)[22],SFANet[12],泛密度神经网络(Pan-Density Neural Network,PaDNet)[23],密度感知卷积神经网络(Density-Aware CNN,DensityCNN)[24]以及多尺度感知人群计数神经网络(Scale-Aware Crowd Counting Network,SACCN)[25]进行对比分析,实验结果如表 2所示。
![]() |
下载CSV 表 2 不同网络在公开数据集上的MAE与MSE结果比较 Table 2 Comparison on MAE and MSE of different networks on public datasets |
由表 2可知,对于ShanghaiTech数据集,本文网络模型在密集程度较高的Part A子集上的MAE和MSE分别为56.6和97.6,均达到了先进水平。同时在人群密度较低的Part B子集中,本文网络也取得了所有对比网络中最佳的MAE和MSE,分别为6.3和10.2,相比SFANet分别下降了8.7%和6.4%。在样本量较少,但视角丰富的UCF-CC-50数据集中,本文网络取得了对比网络中最低的MAE和MSE,分别为160.6和224.7,与SFANet相比分别下降了26.9%和28.9%。在场景丰富、图像视角多样的UCF-QNRF数据集中,本文网络的MAE和MSE分别为85.8和146.0,取得了对比网络中的最佳结果,与SFANet相比MAE下降了14.9%,MSE下降了16.3%。
表 2的实验数据说明本文网络在拥挤人群和稀疏人群场景中均具有较高的准确性,而且在图像畸变较为严重、背景环境复杂多样的拥挤人群场景中具有良好性能,体现了该网络良好的泛化能力和较强的鲁棒性。
2.7 消融性实验为验证BNS模块和WE-CAN模块的有效性,在ShanghaiTech数据集上进行实验,分析不同模块对网络性能的影响。
消融实验结果如表 3所示。首先以SFANet作为基线网络,并在其基础上增加BNS模块进行实验,从而验证BNS模块的有效性。此外,为验证WE-CAN模块的有效性,在基线网络添加了BNS模块的基础上分别添加CAN模块和WE-CAN模块进行对比实验。由表 3可知,SFANet增加BNS模块后在Part A数据集上的MAE下降1.5%,在Part B数据集的MAE下降2.9%,MSE下降4.6%。当SFANet依次增加BNS模块和CAN模块后,Part A数据集的MAE相比SFANet下降3.5%,Part B数据集的MAE下降4.3%,MSE下降4.6%。当网络增加了WE-CAN模块后,在Part A数据集的MAE下降5.3%,Part B数据集的MAE和MSE分别下降了8.7%和6.4%。上述消融性实验验证了本文设计的BNS模块和WE-CAN模块在人群计数任务中的有效性和合理性。
![]() |
下载CSV 表 3 消融实验结果 Table 3 Results of ablation experiment |
将本文网络和SFANet生成的密度图进行对比,结果如图 4所示(彩色效果见《计算机工程》官网HTML版)。
![]() |
Download:
|
图 4 本文网络与SFANet的预测密度图比较 Fig. 4 Comparison of predict density map between SFANet and network in this paper |
由图 4可知,当拥挤人群存在旗帜等遮挡物的时候,SFANet无法很好区分人群和背景区域,容易将旗帜上的图案判定为人体特征,导致最终预测结果误差较大。而本文网络能有效抑制噪声,使生成的预测密度图能准确突出人群区域,提高人群计数任务的计算精度。
此外,本文网络能生成较精确的预测空间注意力图和预测密度图,且能进行可视化,可视化结果如图 5所示(彩色效果见《计算机工程》官网HTML版)。
![]() |
Download:
|
图 5 本文网络的实验效果展示 Fig. 5 Experimental effect display of network in this paper |
由图 5左数第1列、第2列图可知,针对存在背景干扰较严重的拥挤人群场景的图像,本文网络能将图像中存在的汽车、树木等遮挡物识别为背景元素,减少遮挡物对预测结果的干扰。由图 5左数第3列图可知,针对目标尺度变化较大的图像,本文网络生成的预测空间注意力图和预测密度图均能较好地对图像中的多尺度目标进行检测。由图 5左数第4列图可知,针对稀疏人群场景的图像,本文网络也能生成精确的预测空间注意力图和预测密度图,体现了该网络良好的跨场景计数能力。
综上所述,本文网络能生成高质量的预测密度图,在有效抑制图像噪声干扰的同时,也能有效减少透视畸变引起的估计误差,展示了该网络在人群计数领域中优越的性能。
3 结束语本文提出基于背景抑制与上下文感知的人群计数网络,通过引入DMG模块有效提取不同层次特征的有效信息,生成高分辨率的特征图,并利用BNS模块充分抑制图像噪声干扰,提高模型的人群计数精度。此外,采用WE-CAN模块解决图像存在的透视畸变问题,在对网络模型进行训练时采用多任务的联合损失函数,以提高模型的计数精度。实验结果表明,本文网络在UCF-QNRF数据集上的平均绝对误差和均方误差分别为85.8、146.0,相较于MCNN、SwitchCNN、CSRNet等网络最高分别下降69.0%和67.2%,具有良好的泛化能力和较强的鲁棒性。下一步将引入雾霾、暴雨等复杂天气变化的数据样本和存在低光照、过曝等光照变化的数据样本对模型进行训练,提高网络在复杂环境下的计算精度。
[1] |
IDREES H, SOOMRO K, SHAH M. Detecting humans in dense crowds using locally-consistent scale prior and global occlusion reasoning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(10): 1986-1998. DOI:10.1109/TPAMI.2015.2396051 |
[2] |
OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987. DOI:10.1109/TPAMI.2002.1017623 |
[3] |
CHAN A B, VASCONCELOS N. Bayesian poisson regression for crowd counting[C]//Proceedings of the 12th International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2009: 545-551.
|
[4] |
冯兴杰, 张乐, 曾云泽. 基于多注意力CNN的问题相似度计算模型[J]. 计算机工程, 2019, 45(9): 284-290. FENG X J, ZHANG L, ZENG Y Z. Question similarity calculation model based on multi-attention CNN[J]. Computer Engineering, 2019, 45(9): 284-290. (in Chinese) |
[5] |
CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1800-1807.
|
[6] |
ZHANG C, LI H S, WANG X G, et al. Cross-scene crowd counting via deep convolutional neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 833-841.
|
[7] |
ZHANG Y Y, ZHOU D S, CHEN S Q, et al. Single-image crowd counting via multi-column convolutional neural network[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 589-597.
|
[8] |
SAM D B, SURYA S, BABU R V. Switching convolutional neural network for crowd counting[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 4031-4039.
|
[9] |
LI Y H, ZHANG X F, CHEN D M. CSRNet: dilated convolutional neural networks for understanding the highly congested scenes[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 1091-1100.
|
[10] |
LIU W Z, SALZMANN M, FUA P. Context-aware crowd counting[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 5094-5103.
|
[11] |
JIANG X H, ZHANG L, XU M L, et al. Attention scaling for crowd counting[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 4705-4714.
|
[12] |
ZHU L, ZHAO Z J, LU C, et al. Dual path multi-scale fusion networks with attention for crowd counting[EB/OL]. [2021-09-06]. https://arxiv.org/abs/1902.01115.
|
[13] |
马皓, 殷保群, 彭思凡. 基于特征金字塔网络的人群计数算法[J]. 计算机工程, 2019, 45(7): 203-207. MA H, YIN B Q, PENG S F. Crowd counting algorithm based on feature pyramid network[J]. Computer Engineering, 2019, 45(7): 203-207. (in Chinese) |
[14] |
LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 936-944.
|
[15] |
WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 11531-11539.
|
[16] |
CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. DOI:10.1109/TPAMI.2017.2699184 |
[17] |
翟强, 王陆洋, 殷保群, 等. 基于尺度自适应卷积神经网络的人群计数算法[J]. 计算机工程, 2020, 46(2): 250-254, 261. ZHAI Q, WANG L Y, YIN B Q, et al. Crowd counting algorithm based on scale adaptive convolutional neural network[J]. Computer Engineering, 2020, 46(2): 250-254, 261. (in Chinese) DOI:10.3969/j.issn.1007-130X.2020.02.009 |
[18] |
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 7132-7141.
|
[19] |
IDREES H, SALEEMI I, SEIBERT C, et al. Multi-source multi-scale counting in extremely dense crowd images[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2013: 2547-2554.
|
[20] |
IDREES H, TAYYAB M, ATHREY K, et al. Composition loss for counting, density map estimation and localization in dense crowds[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 544-559.
|
[21] |
CAO X K, WANG Z P, ZHAO Y Y, et al. Scale aggregation network for accurate and efficient crowd counting[C]//Proceedings of 2018 European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 757-773.
|
[22] |
ZHANG A R, SHEN J Y, XIAO Z H, et al. Relational attention network for crowd counting[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 6787-6796.
|
[23] |
TIAN Y K, LEI Y M, ZHANG J P, et al. PaDNet: pan-density crowd counting[J]. IEEE Transactions on Image Processing, 2020, 29: 2714-2727. DOI:10.1109/TIP.2019.2952083 |
[24] |
JIANG X H, ZHANG L, ZHANG T Z, et al. Density-aware multi-task learning for crowd counting[J]. IEEE Transactions on Multimedia, 2021, 23: 443-453. DOI:10.1109/TMM.2020.2980945 |
[25] |
YI Q S, LIU Y X, JIANG A W, et al. Scale-aware network with regional and semantic attentions for crowd counting under cluttered background[EB/OL]. [2021-08-01]. https://arxiv.org/abs/2101.01479.
|