2. 浙江华东工程数字技术有限公司, 杭州 310000
2. Zhejiang Huadong Engineering Digital Technology Co., Ltd., Hangzhou 310000, China
开放科学(资源服务)标志码(OSID):
目标检测任务被定义为前景分类与坐标定位任务的结合,作为一项基础的机器视觉任务,其目标是从背景信息中提取前景所属类别,并对每一个被判别为前景的目标给出其所在图像的具体位置。传统的目标检测方法采用滑动窗口的方式选取目标区域,通过人工提取的区域特征进行分类,这类方法大都依赖个人的先验知识来实现特征提取,无法利用大数据的优势生成多样性的图像特征,在模糊、截断、小目标等复杂场景下的鲁棒性较差。
随着计算机硬件以及人工智能前沿科技理论的飞速发展,基于深度学习的目标检测方法[1]应运而生。其中典型的方法是依靠卷积神经网络(Convolutional Neural Networks,CNN) [2]的级联过程抽象出图像的特征表征,这些表征信息相比传统方法[3-4]提取的特征更加丰富,且具有计算机视角下的语义性。该类方法通过学习无结构化数据,依靠神经网络强大的拟合能力,将底层学习到的局部特征整合为顶层具有强语义的全局特征,使模型在较复杂场景下进行预测时也能达到很好的效果。
目标检测作为目标跟踪、目标重识别、图像语义分割等高级计算机视觉任务的必备前提,不仅在理论研究方面意义重大,而且在医学成像、智能安防等应用领域也体现出重要价值,因此国内外的研究人员从未停止过对该任务的探索。早期基于CNN的目标检测方法大多只利用了网络级联最顶层的输出,典型方法有Fast RCNN[5]、Faster RCNN[6]、YOLO[7]以及YOLOv2[8]等,虽然这类方法能够精简网络结构,加快模型推理速度,但由于其仅使用了单一尺度的特征图,因此对多尺度目标检测的效果不太理想。基于此,有学者提出利用多层级特征图参与预测,典型方法有SSD[9]和DSSD[10],该类方法在一定程度上改善了多尺度检测效果,但因为直接参与预测的底层特征图语义信息过弱、顶层特征图分辨率太低,所以效果提升有限。
早期利用单一特征图进行预测的方法忽略了不同粒度特征间的互补性,且未对CNN级联路径上被稀释的细粒度信息做补充,对小目标检测时效果较差。近年来特征融合的检测方法成为了主流,该类方法在对网络历史特征进行复用的同时,还将顶层的抽象语义信息和底层的细节信息进行融合,提升了原始特征的表达力,常见的应用案例有FPN[11]、FSSD[12]、RSSD[13]、YOLOv3[14]等。融合后的特征图能同时具备多种强度的语义特征,使模型在后续预测时每一特征层级均有适用的特征信息,从而让整体的预测任务变得灵活。
虽然这些依赖融合建模的检测方法在CNN级联阶段利用通道拼接、逐像素相加等方式促使顶层强语义特征与底层弱语义特征进行交互,但由于该类方法将融合后的特征图直接用于分类和回归,忽略了图像通道建模对模型预测的影响,因此也遗留了一些显著性问题,如图像边缘被截断或遮挡目标的分类不准确,重叠目标的丢失或定位不精确等,导致错检、漏检现象普遍。
本文在级联网络的特征提取和融合后引入通道建模技术,通过对特征空间进行不同维度的压缩凝练,促使作用于最终预测的特征集可以最大限度地获取目标的上下文联系和空间分布,进而增强图像特征表达,使模型通过学习能聚焦目标的类别信息和位置信息,解决检测算法中分类出错、回归不准确的问题。
1 本文方法本文方法的网络结构如图 1所示。本文方法对任意尺寸的图像进行均值标准差归一化以及分辨率缩放预处理后,再利用ResNet-101[15]提取图像特征,将CNN级联得到的特征通过自顶向下链接进行融合,丰富特征金字塔各个层级的特征表达。最后对融合得到的各层级特征进行通道建模,生成对任务目标更有益的特征,并用于目标预测。
![]() |
Download:
|
图 1 本文方法的网络结构 Fig. 1 Network structure of method in this paper |
本文基于泛逼近原理[16],使用深度残差网络生成更抽象、更利于分类的特征图集合,并构建Top-Down自顶向下融合链接来促进顶层丰富抽象语义的传递,让偏底层的特征图能够获得顶层强语义的补充,增强对小目标进行预测的能力。此外,本文对融合后的特征空间进行通道建模,具体建模方式如图 2所示,该方法设计了2个平行的处理分支,分别是广度通道建模分支(Breadth Channel Modeling Branch,BCMB)与深度通道建模分支(Depth Channel Modeling Branch,DCMB),这让经过建模后的特征图能够忽略大多数的低质量特征,从而更关注目标感受野的空间和上下文信息,对图像中潜在目标的位置和类别信息敏感。
![]() |
Download:
|
图 2 特征通道建模 Fig. 2 Feature channel modeling |
单一CNN结构提取出的特征对于原始信息的描述会随着网络的加深变得越来越抽象,这对于目标类别的描述是有利的,但随着高层特征图的感受野逐渐变大,分辨率却逐渐变低,导致对小目标的位置预测产生偏差。基于此,本文设计了BCMB模块对多层级的感受野建立特征矩阵,通过对图像的各层级特征进行编码,进而丰富空间信息关联。BCMB的具体结构如图 3所示,该模块通过对特征空间的各个层级进行压缩来构建特征通道图,并将通道图的信息附加在原始特征图上,使建模后的特征能够利用层级间的关系互相增进各自描述的信息质量,进而让模型更聚焦于潜在目标的空间信息。
![]() |
Download:
|
图 3 广度通道建模分支的结构 Fig. 3 Structure of breadth channel modeling branch |
具体来说,BCMB模块的输入尺寸是自顶向下融合建模后各层级特征图按深度分割后尺寸的1/2,为
传统级联生成的特征图由于CNN的局部感知特性,需累积经过多层后才能对整幅图像的不同区域建立关联。本文方法中DCMB模块的提出利用global avg pooling与global max pooling在特征图的深度维度统计图像的全局特征,进而丰富特征空间对原图像上下文信息的表达,加强模型对目标类别的判断。本文将特征金字塔中各个特征层级的通道图均视作特定的场景描述,利用DCMB模块挖掘该类场景之间描述的关系,突出相互依赖的特征图,在提高特定语义表示的同时聚焦潜在目标的类别信息。DCMB模块的具体结构如图 4所示,本文在通道建模时使用全局的池化操作替代常规的卷积操作,从而保留各个通道之间的依赖信息,增强图像特征对各层级语义的响应能力。
![]() |
Download:
|
图 4 深度通道建模分支的结构 Fig. 4 Structure of depth channel modeling branch |
DCMB模块的具体实现过程与BCMB模块类似,其输入是特征融合后各层级特征图按深度分割后的另一半,不同之处在于经过全局池化运算后,DCMB模块得到的2个特征图在深度上的大小保持不变,而宽度和高度上的大小坍缩成了1个点。本文方法将全局池化后得到的通道向量输入2个全连接层进行运算,对其进行逐像素相加和sigmoid非线性激活以拟合通道间关联强度,并通过将通道图与最初的输入特征进行加权相乘,丰富输出特征中蕴含的各通道间相关性以及信息表达力。
1.3 网络预测本文方法采取一阶段的检测方式,在通道建模完成的特征图后添加了cls-subnet与reg-subnet两个平行的子网,进行最终的目标分类和边框回归,其预测模块的结构如图 5所示,2个分支的头部共享网络参数除了最后一层的输出维度之外,其他结构完全相同。
![]() |
Download:
|
图 5 分类与回归子网的结构 Fig. 5 Structure of classification and regression subnet |
分类与回归子网共享参数的头部由4个kernel size=3的卷积层组成,其中每个卷积层后紧跟的是ReLU非线性激活操作。2个分支的最后一个卷积层分别用于预测目标的类别分数和坐标偏移量。图 5中W、H表示当前层级中特征图的宽高尺度,A表示锚点框的数量,K表示待检测的类别总数。
2 实验结果与分析 2.1 实验环境本文实验所使用的软硬件环境为LINUX 64 bit操作系统Ubuntu 16.04,Intel ® Xeon ® Platinum 8163 CPU 2.5 GHz处理器,NVIDIA Tesla V100 32 GB GPU。实验程序在Pytorch[17]深度学习框架下使用Python编程语言实现。
2.2 实验细节 2.2.1 正负样本平衡策略对于目标检测任务而言,在锚点的筛选阶段,隶属于背景的锚点会占据样本空间的大半部分,这使得大量的负样本在训练过程中占据了主导地位,从而覆盖正样本的损失并压垮分类器性能。针对该问题,本文方法引入困难样本在线挖掘(Online Hard Example Mining,OHEM)技术[18]平衡正负样本数量,即先对负样本的损失按照从大到小排序,然后根据正样本数量选取一定比例负样本的损失进行反向传播。本文实验中选取的正负样本比例为1/3,通过实验证实,该策略的使用确实使分类器的训练变得稳定。
2.2.2 损失函数模型训练时的损失函数选取的是Multibox Loss,其计算式如式(1)所示:
$ L\left(p, c, l, g\right)=\left({L}_{\mathrm{c}\mathrm{l}\mathrm{s}}\left(p, c\right)+{L}_{\mathrm{r}\mathrm{e}\mathrm{g}}\left(p, l, g\right)\right)/N $ | (1) |
其中:
本文实验采用端到端的训练方法,对特征图进行严格的通道建模,使其能够对图像的位置信息和类别信息敏感。网络训练过程中Backbone的初始化采用了Image Net[19]的预训练参数,其他网络部分的初始化使用的是
1) 对PASCAL VOC 2007和PASCAL VOC 2012数据集的训练集图像进行均值和标准差归一化预处理,初始图像三通道所对应的均值参数为
2) 利用数据增强将网络读取的每个批次的训练图像以0.5的概率进行水平翻转处理。
3) 将预处理完成的图像分辨率大小进行标准化,Backbone的输入大小固定为600,经过CNN级联后Backbone每阶段的输出特征图尺度为
4) 采用k=3的kmeans算法对PASCAL VOC数据集的ground truth进行聚类,针对金字塔各个层级特征图的每个像素点生成单一尺度,将
5) 训练过程中对学习率的调整遵循衰减尺度,衰减因子为1/10。
6) 采用带动量机制的SGD[22]算法对损失函数进行优化,直到网络收敛获得最优的模型参数。
2.3 实验结果 2.3.1 消融实验对比本文设计消融实验来衡量算法所提出的BCMB与DCMB模块对最终检测结果的影响,使用公开数据集PASCAL VOC作为训练、测试样本,采用平均精度均值(mean Average Precision,mAP) [23]作为定量评估指标,测试时IOU阈值选取为0.5,实验结果如表 1所示,其中Baseline为未使用特征通道建模方法的链式融合结构,“✕”表示未使用,“√”表示使用。
![]() |
下载CSV 表 1 消融实验结果对比 Table 1 Comparison of ablation experimental results |
由表 1可知,本文所提特征通道建模方法对于目标检测任务而言是一个正面的改进,BCMB与DCMB的使用让最终检测算法取得了85.8%的mAP值,相比Baseline方法,本文方法的mAP值涨幅高达3.2个百分点。本文方法以特征通道建模为切入点,利用不同维度的全局池化来构建基于广度和深度的通道建模分支,从而让模型在通过训练之后能更加关注目标本身,对其位置和类别信息敏感。图 6所示为Baseline方法与本文改进后方法在PASCAL VOC 2007测试数据集中的检测样例对比(彩色效果见《计算机工程》官网HTML版本),由图 6可知本文方法在多种检测场景下均具一定优势。
![]() |
Download:
|
图 6 不同方法在VOC 2007测试数据集下的检测样例对比 Fig. 6 Comparison of detection examples of different methods under VOC 2007 test data set |
将本文方法与其他SOTA检测方法进行对比,实验中的训练集采用的是公开数据集PASCAL VOC 2007与PASCAL VOC 2012的混合数据集,测试集采用了PASCAL VOC 2007的公开测试集,实验结果如表 2所示。由表 2可知,本文方法具有最高的mAP值。其中SSD方法由于未使用融合建模,所以mAP偏低,而FPN、FSSD、RSSD方法利用了融合建模获得各层级丰富的特征语义,所以检测精度得到了一定提升。本文方法以图像通道的表达力为切入点,在通道建模的基础上引入不同维度的融合分支,通过设计BCMB和DCMB模块对图像特征进行广度和深度方向的信息增强,促使级联特征图能够更好地捕捉前景目标的空间及上下文信息,因此取得了最高mAP值。但由于模型选取的骨干网络是较深的ResNet-101,且采用了不同维度的通道建模融合,使得网络的计算量骤增,制约了模型推理速度的提高,在GPU下帧率为10.2 frame/s。
![]() |
下载CSV 表 2 不同方法的实验结果对比 Table 2 Comparison of experimental results of different methods |
本文方法利用新设计的BCMB与DCMB模块生成聚焦特定信息的图像通道特征图,并将该通道图与特征金字塔进行逐层级的加权融合,丰富特征空间的表达力。图 7给出了本文方法在PASCAL VOC 2007测试数据集中的检测样例(彩色效果见《计算机工程》官网HTML版本),可以看出,本文方法在截断、重叠、遮挡等场景下均取得了不错的检测效果。
![]() |
Download:
|
图 7 本文方法在PASCAL VOC 2007测试数据集下的检测样例 Fig. 7 Test sample of method in this paper under PASCAL VOC 2007 test data set |
直接利用多尺度融合特征图进行目标预测时鲁棒性较差,为此,本文提出一种基于特征通道建模的目标检测方法。对高维度图像特征进行通道层级的建模,通过设计BCMB和DCMB模块,分别构建聚焦目标位置信息的通道矩阵和聚焦目标类别信息的通道向量。将建模得到的通道权重与待预测特征进行加权融合,使最终的特征图对任务目标的预测信息更敏感,提高分类和回归子网的学习效果,从而在多数场景下达到较高的预测精度。在公开数据集PASCAL VOC 2007和PASCAL VOC 2012上的实验结果表明,本文方法的mAP值为85.8%,与未使用通道建模的Baseline方法相比,最高增长幅度为3.2个百分点。本文方法本质上是在深度神经网络的级联过程中引入特征通道建模方法,从而使模型学习到的特征聚焦于目标物体本身。但由于通道建模对象是整个特征空间的特征图,难免会使模型的推理速度受到影响,因此并不适合对实时性要求高的检测场景。下一步将引入不基于锚点框的检测方法,即不预先假设候选区域的长宽纵横比,而是直接对不同尺度特征图的目标中心点和宽高进行回归,从而在保证预测精度的同时,简化模型复杂度,提高预测速度。
[1] |
程旭, 宋晨, 史金钢, 等. 基于深度学习的通用目标检测研究综述[J]. 电子学报, 2021, 49(7): 1428-1438. CHENG X, SONG C, SHI J G, et al. A survey of generic object detection methods based on deep learning[J]. Acta Electronica Sinica, 2021, 49(7): 1428-1438. (in Chinese) |
[2] |
周飞燕, 金林鹏, 董军. 卷积神经网络研究综述[J]. 计算机学报, 2017, 40(6): 1229-1251. ZHOU F Y, JIN L P, DONG J. Review of convolutional neural network[J]. Chinese Journal of Computers, 2017, 40(6): 1229-1251. (in Chinese) |
[3] |
PRAMANIK A, SINGH H, DJEDDI C, et al. Region proposal and object detection using HoG-based CNN feature map[C]//Proceedings of International Conference on Data Analytics for Business and Industry: Way Towards a Sustainable Economy. Washington D. C., USA: IEEE Press, 2020: 1-5.
|
[4] |
GUPTA S, KUMAR M, GARG A. Improved object recognition results using SIFT and ORB feature detector[J]. Multimedia Tools and Applications, 2019, 78(23): 34157-34171. DOI:10.1007/s11042-019-08232-6 |
[5] |
GIRSHICK R. Fast R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1440-1448.
|
[6] |
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence. Washington D. C., USA: IEEE Press, 2015: 1137-1149.
|
[7] |
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 779-788.
|
[8] |
REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 6517-6525.
|
[9] |
LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
|
[10] |
FU C Y, LIU W, RANGA A, et al. DSSD: decon-volutional single shot detector. [EB/OL]. [2021-05-06]. https://www.researchgate.net/publication/312759848.
|
[11] |
LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 936-944.
|
[12] |
LI Z X, ZHOU F Q. FSSD: feature fusion single shot multibox detector[EB/OL]. [2021-05-06]. https://www.researchgate.net/publication/321511662_FSSD_Feature_ Fusion_Single_Shot_Multibox_Detector.
|
[13] |
JEONG J, PARK H, KWAK N. Enhancement of SSD by concatenating feature maps for object detection[EB/OL]. [2021-05-06]. https://arxiv.org/abs/1705.09587.
|
[14] |
REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-05-06]. https://arxiv.org/abs/1804.02767.
|
[15] |
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
|
[16] |
MHASKAR H N, POGGIO T. Deep vs. shallow networks: an approximation theory perspective[J]. Analysis and Applications, 2016, 14(6): 829-848. DOI:10.1142/S0219530516400042 |
[17] |
KETKAR N. Introduction to PyTorch[EB/OL]. [2021-05-06]. https://www.researchgate.net/publication/320201215_ Introduction_to_PyTorch.
|
[18] |
SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 761-769.
|
[19] |
RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. DOI:10.1007/s11263-015-0816-y |
[20] |
EVERINGHAM M, ESLAMI S M A, GOOL L, et al. The pascal visual object classes challenge: a retrospective[J]. International Journal of Computer Vision, 2015, 111(1): 98-136. DOI:10.1007/s11263-014-0733-5 |
[21] |
HOSANG J, BENENSON R, SCHIELE B. A convnet for non-maximum suppression[C]//Proceedings of Conference on Pattern Recognition. Berlin, Germany: Springer, 2016: 192-204.
|
[22] |
MONTAVON G, ORR G B, MÜLLER K R. Neural networks: tricks of the trade: second edition[EB/OL]. [2021-05-06]. https://www.researchgate.net/publication/321620746.
|
[23] |
ROBERTSON S. A new interpretation of average precision[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM Press, 2008: 689-690.
|