脱离预训练的多尺度目标检测网络模型

引用本文

包壮壮, 赵学军, 王明芳, 等. 脱离预训练的多尺度目标检测网络模型[J]. 计算机工程, 2020, 46(6), 248-255. DOI: 10.19678/j.issn.1000-3428.0056417.

BAO Zhuangzhuang, ZHAO Xuejun, WANG Mingfang, et al. Multi-Scale Target Detection Network Model Trained from Scratch[J]. Computer Engineering, 2020, 46(6), 248-255. DOI: 10.19678/j.issn.1000-3428.0056417.

基金项目

国家自然科学基金（61472443）

作者简介

包壮壮(1996-), 男, 硕士研究生, 主研方向为深度学习、目标检测;
赵学军, 副教授、博士;
王明芳, 副教授、博士;
董玉浩, 硕士研究生;
庞梦洋, 硕士研究生;
黄林, 硕士研究生;
贺刚, 博士

文章历史

收稿日期：2019-10-28
修回日期：2019-12-10

Contents Abstract Full text Figures/Tables PDF

脱离预训练的多尺度目标检测网络模型

包壮壮¹ , 赵学军¹ , 王明芳² , 董玉浩¹ , 庞梦洋¹ , 黄林¹ , 贺刚³

1. 空军工程大学基础部, 西安 710051;
2. 中国人民解放军 93861部队, 陕西咸阳 713800;
3. 中国人民解放军 32055部队, 南京 210046

收稿日期：2019-10-28；修回日期：2019-12-10

基金项目：国家自然科学基金（61472443）

作者简介：包壮壮(1996-), 男, 硕士研究生, 主研方向为深度学习、目标检测; 赵学军, 副教授、博士; 王明芳, 副教授、博士; 董玉浩, 硕士研究生; 庞梦洋, 硕士研究生; 黄林, 硕士研究生; 贺刚, 博士.

E-mail: kgdbzz@163.com

摘要：为提高卷积神经网络目标检测模型精度并增强检测器对小目标的检测能力，提出一种脱离预训练的多尺度目标检测网络模型。采用脱离预训练检测网络使其达到甚至超过预训练模型的精度，针对小目标特点设计新的Deformable-ScratchNet网络模型，调整网络结构并融合浅层信息以提高对小目标的检测性能。实验结果表明，与Faster-RCNN等经典网络模型相比，该模型在PASCAL VOC数据集和自制遥感军事目标数据集上的检测精度更高。

Multi-Scale Target Detection Network Model Trained from Scratch

BAO Zhuangzhuang¹ , ZHAO Xuejun¹ , WANG Mingfang² , DONG Yuhao¹ , PANG Mengyang¹ , HUANG Lin¹ , HE Gang³

1. Department of Basic Science, Air Force Engineering University, Xi'an 710051, China;
2. Unit 93861 of Chinese People's Liberation Army, Xiangyang, Shaanxi 713800, China;
3. Unit 32055 of Chinese People's Liberation Army, Nanjing 210046, China

Abstract: In order to improve the accuracy of the target detection model using convolutional neural network and enhance the detection ability of the detector for small targets, this paper proposes a multi-scale target detection network model trained from scratch.The detection network is trained from scratch to increase its accuracy to the level of pre-trained models or even higher.Then a new Deformable-ScratchNet network model is designed according to the characteristics of small targets.Its network structure is adjusted, and shallow information is integrated with the model to improve the detection performance of small targets.Experimental results show that compared with Faster-RCNN and other classic network models, the proposed model has higher detection accuracy on the PASCAL VOC data set and self-made remote sensing image of military target data set.

0 概述

基于深度卷积神经网络的目标检测器通过迁移学习, 以在ImageNet^[1]等分类任务数据集上训练好的分类网络主要部分为特征提取主干网络, 再通过检测任务数据集对主干网络的模型参数进行微调。经过上述处理(预训练)的模型比没有经过预训练的模型具有更好的训练效果, 但存在分类任务和检测任务对迁移学习的敏感程度有差异、设计空间有限和领域不匹配等缺陷^[2]。分类任务一般以整张图片为对象, 具有更多的迁移不变性, 通常使用下采样获得特征信息, 而对检测任务而言, 本地语义信息非常重要, 在网络底层通常会慎重使用大步长和大内核的下采样, 以避免影响检测精度。在微调过程中, 经过预训练的模型参数设置不便于对网络结构进行任意更改, 从而无法对不同场景下目标检测任务进行针对性设计。虽然通过微调可以减少由于类别分布导致的差异, 但在与预训练数据集完全不同的领域中, 如RGBD图像、医学CT图像、遥感图像等每两种数据间对象和场景均存在较大偏差, 从而导致模型在上述领域出现不收敛或训练效果差等问题。

如果直接在目标检测数据集上进行训练, 就可以避免上述缺陷, 但经过从头开始(Scratch)训练的模型(以下称为Scratch训练模型)的表现通常不如经过预训练的模型, 且检测精度不易收敛。文献[3]提出的深度监督目标检测器(Deeply Supervised Object Detector, DSOD)实现Scratch训练后的效果比经过预训练模型更优, 其大量使用了基于密集卷积网络(DenseNet)的深度监督机制(Deep Supervision)。但是DSOD仅在主干网络为DenseNet时表现优异, 更换网络后其精度会急剧下降甚至不收敛, 因此, 优化Scratch训练模型具有重要意义。文献[4]指出批标准化(Batch Normalization, BN)通过平滑网络每一层的输入量, 使Scratch训练模型保持正态分布减少内部变量转换, 这有利于梯度传播和模型收敛。在此基础上, 文献[2]提出BN可以帮助Scratch训练模型迅速收敛, 并在主网络和检测网络进行了BN的存在有效性实验。

除了使用BN提高Scratch训练模型的性能外, 增强模型对小目标的检测能力也可以提高该性能。特别是遥感图像中存在比自然场景更多的小目标, 因而对小目标的检测成为遥感图像检测的重点和难点。检测任务中待检测目标复杂多变, 通常基于候选区域(Region Proposal, RP)的两级(Two-stage)方法比直接回归的一级(One-stage)方法精度更高, 文献[5]认为造成这种差距的原因是类别失衡, 即在一级方法中, 易分类的背景和待检测目标间比例差距过大。此外, 通过观察以VGG16^[6]和ResNet101^[7]为主干网络的单发多盒检测器(Single Shot Multibox Detector, SSD)(300)对COCO数据集的检测结果^[8-10]后发现, ResNet101对大目标检测的准确率比VGG16的更高, 但ResNet101对小目标检测的准确率却比VGG16低0.4 %, 这是因为ResNet101在网络底层使用了大内核的卷积, 使得语义信息在网络底层丢失严重, 从而影响了对小目标的提取能力。

本文提出一种脱离预训练的多尺度目标检测网络模型，采用Scratch训练的网络，不受限于预训练模型结构，通过调整网络底层的卷积操作保留浅层信息，同时基于可变卷积概念提出新的可变块结构替换传统2D卷积，并定向地改变感受野的感兴趣区域，从而更好地提取特征信息，以提高对多尺度目标的检测能力。

1 相关工作 1.1 脱离预训练的目标检测器

DSOD是首个Scratch训练的一级目标检测器, 通过一系列准则可提高脱离预训练检测器的性能。文献[11]使用门控递归特征金字塔(Gated Recurrent Feature Pyramid, GRP)通过将GRP和DSOD相结合(GRP-DSOD)在一定程度上提高了DSOD的性能。DSOD和GRP-DSOD虽然使得Scratch训练模型达到与预训练模型相近的性能, 但由于使用了密集卷积网络的深度监督机制, 无法实现对任意网络的训练, 因而没有体现出Scratch训练模型灵活性的优势。

1.2 批标准化

文献[12]从梯度传递的角度认为在网络中每一层的输入量并不是一直满足独立同分布假设的, 这造成大量的内部变量转换, 因而BN将数据白化(Whiten, 即将输入量分布到均值为0、方差为1的正态分布上)的思想由输入层引入到所有隐藏层。此外, 该操作和Dropout的防止过拟合操作类似, 提高了模型的泛化能力。正确地使用BN, 可以在训练中平滑优化景观, 提升模型性能。

1.3 可变卷积

由于构造卷积神经网络所用的2D卷积几何结构固定, 因而其几何变换建模能力有限。通过卷积操作可对空间采样的空间偏移量进行调整, 该偏移可直接由梯度传播学习得到, 不需要额外的监督信号^[13]。

1.4 反卷积

反卷积等价于狭义的上采样, 是卷积的逆过程。用于将经过下采样信息蒸馏后分辨率降低、尺寸变小的特征图像扩大为和原图等大的特征图^[14]。

2 Deformable-ScratchNet网络框架

本文针对检测任务和分类任务的差异重新设计主干网络结构, 同时保留更多的浅层信息。在传统一级方法的基础上, 用可变块结构替代传统卷积进行下采样操作, 并将反卷积的每一层结果作为检测器的输入, 以提高模型对小目标的检测精度。

2.1 主干网络重新设计

文献[4]中BN通过引入一种可预测且更稳定的梯度传输方式, 在卷积网络中实现了更大的搜索空间和更快地收敛, 最终显著地平滑了优化景观。在模型中使用BN能实现Scratch训练并取得比预训练更高的精度, 该优势使得脱离在ImageNet上训练的各种分类模型结构Scratch训练检测器成为可能, 本文在此基础上进一步针对目标检测任务的特点重新设计主干网络。

SSD主干网络包括VGG和ResNet两种。在ImageNet上ResNet的网络深度更大且使用了残差网络, 因而表现比VGG16更好, 但是在反卷积单发检测器(Deconvolutional Single Shot Detector, DSSD)的VOC检测任务中, 尤其在小尺寸(300×300)输入时VGG16的表现更佳^[8]。将VGG和ResNet的网络结构对比后发现, 除了网络深度不同外, ResNet在第一步使用了步长为2的7×7卷积进行下采样操作, 这造成在目标检测任务特别是模糊小目标检测任务中本地语义信息丢失严重。

为解决以残差网络为主干网络时性能下降的问题, 本文针对目标检测任务重新设计了一系列新的残差深度网络为主干网络, 其中包括ResNet34的原始结构、ResNet34a(将第一次7×7卷积的步长改为1, 然后接步长为2的卷积)和ResNet34b(将7×7卷积替换为3个3×3卷积), 如图 1所示。分别选用ResNet34、ResNet34a和ResNet34b作为SSD的主干网络, 在VOC07+12数据集上进行Scratch训练, 在VOC 2007 test数据集上进行模型测试。针对ResNet, 首先使用步长为2的7×7卷积, 将卷积步长调整为1, 再接上3×3卷积保证前后的下采样率, 然后去掉最后一层卷积, 以减少本地信息丢失, 再将3个3×3卷积串接后替换7×7卷积, 保持下采样率和感受野不变, 并使用小卷积核减少小目标在浅层网络因卷积核过大导致的语义信息丢失。

	Download: JPG larger image
图 1 主干网络示意图 Fig. 1 Schematic diagram of backbone network

2.2 小目标检测精度

随着网络深度的加大, 特征图的感受野逐渐增大, 分辨率逐渐减小, 如果只使用深层的语义信息, 小目标会逐渐丢失。为了提高模型对小目标的检测精度, 文献[8]在SSD中通过反卷积将浅层的语义信息和深层的特征图进行融合, 既用粗糙的表层数据为小目标提供足够特征, 又用精细的深层信息减少了运算量。

SSD将Conv4、7、8、9、10和Pool 11层的输出特征用于检测器的输入, 本文为了增强特征图以在检测器中包含更多的语义信息, 采用全卷积网络(Fully Convolutional Network, FCN)^[14]中的跳跃连接将ResNetb的Conv3、4、5与经过反卷积上采样后的特征进行融合, 构造出新的端到端检测模型ScratchNet, 其结构如图 2所示。

	Download: JPG larger image
图 2 ScratchNet模型结构示意图 Fig. 2 Schematic diagram of ScratchNet model structure

2.3 可变块结构

除了通过反卷积获得浅层的语义信息提升网络性能, 针对文献[5]提到的前后景类别失衡问题, 本文通过可变形卷积^[13]设计出可变块结构, 以在下采样阶段获得更好的特征图。

传统的2D卷积核主要是尺寸为3×3、5×5的正方形, 对于分类任务中目标占图像主体部分具有较好的泛化能力, 但在目标检测中, 一幅图像的目标数量不唯一且目标尺寸不固定, 待测目标在整个背景中占比很小, 这造成前后景的类别极度不平衡。在该情况下, 采用传统的方形卷积不能很好地获得特征向量。为此, 本文设计了一种具有几何不变性的可变块结构(Deformable-Block), 如图 3所示。该结构首先使用1×1卷积压缩网络深度, 再分别使用3×3普通卷积和可变卷积以增强模型的几何变换能力和感受野, 每次卷积后均接一次BN操作以增强梯度的可传递性, 如图 4所示。

	Download: JPG larger image
图 3 可变块结构 Fig. 3 Variable block structure

	Download: JPG larger image
图 4 普通卷积和加入位置偏移量后可变卷积的感觉野 Fig. 4 Receptive fied of ordinary convolution and variabl convolution after adding position offset

二维卷积由两部分组成:1)在输入特征图x上用尺寸固定为κ的方块进行下采样; 2)与权重w相乘后求和得到一个卷积的输出。方块尺寸决定了卷积操作的感受野和膨胀率(本文中感受野为3×3, 膨胀率为1)。对于输出特征图y上的位置l₀而言, 以l_n表示κ中的位置:

$ y\left( {{l_0}} \right) = \sum\limits_{{l_n} \in \kappa } w \left( {{l_n}} \right) \cdot x\left( {{l_0} + {l_n}} \right) $

(1)

在式(1)基础上, 添加二维位置偏移量{Δl_n|n=1, 2, …, N}, N=‖κ‖, 得到式(2):

$ y\left( {{l_0}} \right) = \sum\limits_{{l_n} \in \kappa } w \left( {{l_n}} \right) \cdot x\left( {{l_0} + {l_n} + \Delta {l_n}} \right) $

(2)

下采样操作时会在不规则的偏移量l_n+Δl_n上进行。因为Δl_n数值较小, 所以式(2)中输入值还要将双线性差值变为:

$ x(l) = \sum\limits_m G (m,l) \cdot x(m) $

(3)

其中, l为任意位置量(l=l₀+l_n+Δl_n), m为特征图x中所有参与卷积运算的空间位置。G(m, l)为双线性差值操作, 是在x、y方向差值的乘积:

$ \begin{array}{*{20}{l}} {G(m,l) = g\left( {{m_x},{l_x}} \right) \cdot g\left( {{m_y},{l_y}} \right)}\\ {g(a,b) = \max (0,1 - |a - b|)} \end{array} $

(4)

图 5为3×3可变卷积示意图, 可见在同一输入特征图上使用卷积获得偏移量, 输出的带偏移量的感受野具有与输入特征图相同的空间分辨率, 通道数2N对应了N个2维偏移量, 在训练的同时学习了用于生成输出特征的卷积内核和偏移量。偏移量可通过式(3)和式(4)进行反向传播梯度得到。

	Download: JPG larger image
图 5 3×3可变卷积示意图 Fig. 5 Schematic diagram of 3×3 variable convolution

3 实验与结果分析 3.1 数据集和评价指标

本文实验所有数据集和评价指标如下:

1) 数据集。本文进行了验证性消融实验, 以目标检测基准数据集之一的PASCAL VOC2007+2012 train为数据集^[9-10], 以VOC2007 test为测试集, 待检测目标为20类尺寸为500×500的普通场景红绿蓝(Red Green Blue, RGB)图像。

实验采用自制军事目标遥感图像数据集作为高分辨率光学遥感图像。通过搜索引擎采集了欧、美、日、韩、中东等不同国家和地区以及不同地貌条件下的军事目标遥感图像(图像每个像素点实际的范围为0.5~10 m), 最终获得205张尺寸为4 800×2 934的原始图片, 包括107座机场、1 687架客机、592架军用大型飞机、598架歼击机、183架民用小型飞机、161架直升机、558艘水面舰艇、1 992艘民用船只、78艘潜艇和34艘航空母舰。为便于训练, 按照10 %的重叠率将每张图片裁剪出尺寸为10×6的小图, 从而获得较大的批大小。为避免过拟合, 本文通过旋转45°、90°、135°以及垂直水平翻转等方法进行数据增强, 最终获得包含246 00张图片的数据集, 并采用VOC2007格式封装^[15]。

2) mAP指标。实验使用平均检测精度(mean Average Precission, mAP)作为评价指标。通过计算召回率为0到1之间的mAP得到AP曲线, AP值即精度-召回率曲线与坐标轴围成的面积。AP值越高, 检测性能越好。检测精度(Precision)和召回率指标定义如式(5)所示:

$ {\rm{ Precision }} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}},{\rm{ recall }} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}} $

(5)

其中, TP表示对象本来为正例且网络识别为正例, FP为对象本来为负例且网络识别为正例, FN表示对象本来为正例且网络识别为负例, AP的积分公式定义如式(6)所示:

$ {\rm{AP}} = \int_0^1 P (r){\rm{d}}r $

(6)

其中, P(r)为精度关于召回率的函数, r为召回率。

3.2 实验过程

实验采用Ubuntu 16.04操作系统和TITAN RTX显卡, 采用Tensorflow及Keras作为深度学习框架构建算法模型(未特殊注明时, 均采用端到端的Scratch训练方式)。将输入图片尺寸调整为512×512, 共训练50 000次。初始学习率设定为0.01, 采用分段常数法对学习率进行衰减, 每隔10 000次学习率缩小5倍。采用Adam梯度优化方法, 参数β₁=0.9, β₂=0.999, ε=10e-8, 批大小为64。

3.3 VOC上的消融实验及结果分析 3.3.1 BN的作用

为验证BN在Scratch训练中的重要性, 文献[2]首先将BN应用在普通的SSD-VGG16一级框架上。为检验反卷积对尺度目标检测性能的影响, 使用DSSD-VGG16作为主干网络, 并在相同的条件下与文献[2]开展对照实验, 结果见表 1。

下载CSV 表 1 不同BN和学习率的SSD与DSSD在VOC 2007测试集上的mAP Table 1 mAP of SSD and DSSD with different BN and learning rate on VOC 2007 test set

由表 1可以看出, 在没有BN且批大小为64的条件下, 在VOC2007 test上训练SSD模型和DSSD模型得到的mAP分别为67.6 %和68.3 %, 比有预训练时的mAP降低约10 %。将BN分别应用于主干网络和检测端子网络后, SSD模型和DSSD模型的mAP均提升了3 % ~5 %。此外, 应用BN后模型在更大的学习率(0.05)下收敛, 从而在训练时可以加速收敛。随着学习率的提高, 出现未收敛(NAN)的现象, 这是因为在没有进行迁移学习和使用BN的情况下, 更大的学习率会使得梯度难以稳定。

综上可知, 在具有较大学习率、没有预训练以及在主干网络和检测端网络使用BN 3种情况下, SSD模型和DSSD模型均可得到最大的mAP(分别为78.7 %和79.6 %)。其中, DSSD模型的mAP比SSD更大, 这是因为DSSD模型使用了反卷积操作, 将融合了浅层信息的反卷积特征图作为检测子网络的输入, 这为在ScratchNet中引入跳跃连接提供实验依据。

3.3.2 小目标检测效果

通过观察不同SSD512主干网络发现, 在网络底层使用大内核的卷积进行下采样后, 在检测任务中会造成浅层信息的丢失。因而将ResNet34的底层7×7卷积替换为3个串联的3×3卷积, 并将所有卷积步长减小一个级别, 将得到的ResNet34b作为SSD的主干网络, 与SSD-VGG的小目标检测性能以及对VOC数据集的检测精度进行对比。由表 2可见, SSD-VGG和SSD-Res34b在测试集上的mAP分别为76.8 %和82.5 %, 整体检测精度得到提升, 特别对“瓶子”“椅子”“植物”以及真实框尺寸小于32×32的小目标的检测精度有显著地提升。这是因为使用ResNet34b作为主干网络的SSD在最初的特征提取时, 尽可能多地保留了语义信息, 这有效提升了目标检测性能, 特别是对“瓶子”“椅子”“植物”和小目标检测精度上, 比使用VGG作为主干网络的SSD的检测精度提升10 % ~25 %。

下载CSV 表 2 不同主干网络的SSD在PASCAL VOC2007测试集上的检测结果 Table 2 Detection results of SSDs in different backbone networks on the PASCAL VOC2007 test set

3.3.3 消融实验结果

上述实验说明使用ResNet34b作为主干网络的SSD具有更好的小目标检测性能, 同时使用DSSD通过跳跃连接、反卷积操作增强了多尺度检测能力。为解决类别失衡问题以提高网络性能, 通过分析单步法与两步法之间的差异采用Deformable-Block替换传统卷积。为验证Deformable-Block的有效性, 将ResNet34b的普通卷积替换为Deformable-Block, 仅增加少量参数就使Feature Map中的像素具有更丰富的特征信息。对上述各种结构和主干网络进行消融实验以验证不同方法的有效性, 结果如表 3所示。

下载CSV 表 3 消融实验结果 Table 3 Ablation experiment results

在使用原始ResNet34网络作为主干网络时, 由DSSD模型的实验结果可以看出, DSSD的检测精度和VGG16相比略有下降, 使用VGG16和ResNet34作为主干网络的SSD检测性能接近。使用BN后脱离了预训练数据Scratch训练, 改进ResNet后SSD的性能得到稳步提升, 使用ResNet34b作为主干网络的SSD的mAP提高82.5 %。当继续引入基于反卷积的跳跃连接后, ScratchNet能融合浅层和深层特征图的语义信息, 为检测小目标提供更加丰富的特征。Deformable-Block将卷积的形状变为学习的量, 从而实现更多待检测目标特征的自动检测。在将ResNet34b的普通二维卷积替换为可变块后, Deformable-ScratchNet检测精度继续提高, mAP值达到84.6 %, 在VOC07检测集上的部分检测结果如图 6所示。

	Download: JPG larger image
图 6 多网络在VOC 2007 test set上的部分结果对比 Fig. 6 Partial comparison results of several networks on VOC 2007 test set

由图 6可见, 采用Deformable-ScratchNet可以准确检测远处的牛羊和汽车, 这说明其对小目标具有良好的检测能力; 对于车和人较多遮挡严重的图片采用Deformable- ScratchNet同样可进行准确分辨, 且置信度高, 和DSSD(ResNetb)、SSD(VGG16)相比有更高的检测精度。

3.4 自制数据集上实验及结果分析

通过测试SSD-ResNet101(512)^[16]、Yolo V3^[17]、Faster-RCNN^[18]、Faster-RCNN-Deformable^[19]、RetinaNet^[5]以及Deformable-ScratchNet (前5种为预训练-微调模型)在自制数据集上的表现, 来评价各算法在军事目标遥感图像检测上的效果, 得到的结果如表 4所示。

下载CSV 表 4 军事目标遥感图像数据集上不同检测方法的检测结果 Table 4 Test results of different detection methods on military target remote sensing data sets

由表 4可以看出, 与其他典型目标检测算法相比, Deformable-ScratchNet在自制军事目标遥感图像数据集上对遥感图像中多尺度、多种类的复杂军事目标的检测精度更高。这是因为其他典型目标检测算法均是针对自然场景设计, 不具备旋转不变性, 且不能较好地解决遥感图像中的目标多尺度、图像分辨率低等问题, 因此检测精度较低。采用Deformable-ScratchNet在自制军事目标遥感图像数据集上得到的部分高质量检测结果如图 7所示。

	Download: JPG larger image
图 7 Deformable-ScratchNet在军事目标遥感数据集上的部分高质量检测结果 Fig. 7 Partial high-quality test results of Deformable-ScratchNet on military target remote sensing dataset

由上述对不同检测器检测精度的分析可知, 基于ResNet101的SSD512网络检测精度相对较低, 事实上, SSD网络虽然采取多尺度的结构设计, 且使用ResNet101作为特征提取层, 但小目标在高层经过多次卷积之后, 语义信息衰减严重, 这造成SSD在遥感图像类复杂背景下对多尺度目标的特征提取不足, 检测精度降低; YOLOV3和SSD各有优劣势, 这是因为YOLO系列更侧重于检测速度, 且其不使用Softmax对框进行分类, 只用多个logistics分类器进行替代, 在不同类的检测中精度会有较大浮动。

Faster-RCNN和RetinaNet的检测精度和SSD和YOLO相比有较大提升, 这表明FPN及类FPN结构能提升网络对多尺度目标特征提取能力, 从而提升多目标检测精度。RetinaNet和Faster-RCNN在特征提取网络方面接近, 但RetinaNet的mAP比Faster-RCNN的高2.9 %, 这是因为RetinaNet使用了Focal loss解决类别失衡问题。此外, 通过可变块结构也可在一定程度上解决该问题。将Faster-RCNN-Deform网络与原始Faster-RCNN网络进行对比可知, 带有可变形卷积结构的FRCN-Deform目标检测网络比基于传统的卷积和池化操作的检测网络具有更强的特征建模能力以及对多尺度和易形变目标的适应能力, 因此FRCN-Deform的检测精度更高。

采用Deformable-ScratchNet网络对于大部分检测目标都能得到最佳检测效果, 尤其是小目标, 如军用小飞机(比FRCN-Deformable的检测精度提高3 %)、直升机(比RetinaNet的检测精度提高7 %), 对于民用小飞机采用Deformable-ScratchNet网络虽然未取得最高检测精度, 但和RetinaNet的检测精度相比只低1 %。采用Deformable-ScratchNet网络能使大尺度目标的检测精度得到更有效地提升, 如机场(比用其他方法得到检测精度提高10 %)、军用大飞机(比用其他方法得到检测精度最少提高8 %, 最多提高30 %)。综上所述, 采用Deformable-ScratchNet网络在自制的军事目标遥感图像数据集上得到的mAP比其他主流目标检测方法平均提高15 %。实验结果表明, Deformable-ScratchNet具有优异的检测性能。

4 结束语

本文提出一种多尺度目标检测网络模型。通过重新设计主干网络，保留更多的浅层语义信息，并使用反卷积将深层信息与其融合提升模型对小目标的检测效果，在可变卷积基础上设计可变块的结构，避免了预训练模型的限制，有效解决了类别失衡问题。在PASCAL VOC数据集和自制的遥感军事目标数据集上的实验结果表明，该模型的检测精度优于Faster-RCNN等经典网络模型。下一步将在Scratch训练检测基础上研究更特殊的场景和网络轻量化问题，以将该模型尽快应用于终端设备。

参考文献

[1]	RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[2]	ZHU Rui, ZHANG Shifeng, WANG Xiaobo, et al.ScratchDet: exploring to train single-shot object detectors from scratch[EB/OL].(2018-10-19)[2019-09-01].https://arxiv.org/abs/1810.08425v3.
[3]	SHEN Zhiqiang, LIU Zhuang, LI Jianguo, et al.Dsod: Learning deeply supervised object detectors from scratch[C]//Proceedings of International Conference on Computer Vision.Venice, Italy: IEEE Press, 2017: 1937-1945.
[4]	SANTURKAR S, TSIPRAS D, ILYAS A, et al.How does batch normalization help optimization?[EB/OL].(2018-05-29)[2019-09-01].https://arxiv.org/abs/1805.11604.
[5]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327. DOI:10.1109/TPAMI.2018.2858826
[6]	SIMONYAN K, ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-09-04)[2019-09-01].https://arxiv.org/abs/1409.1556.
[7]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision & Pattern Recognition. Las Vegas, USA: IEEE Press, 2016: 2-8.
[8]	FU C Y, LIU W, RANGA A, et al.DSSD: deconvolutional single shot detector[EB/OL].(2017-01-23)[2019-09-01].https://arxiv.org/abs/1701.06659.
[9]	EVERINGHAM M, GOOL L V, WILLIAMS C, et al. Pascal visual object classes challenge results[J]. International Journal of Computer Vision, 2010, 88: 303-307. DOI:10.1007/s11263-009-0275-4
[10]	EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The Pascal Visual Object Classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338. DOI:10.1007/s11263-009-0275-4
[11]	SHEN Z Q, SHI H H, ROGERIO F, et al.Learning object detectors from scratch with gated recurrent feature pyramids[EB/OL].(2017-12-04)[2019-09-01].https://arxiv.org/abs/1712.00886v1.
[12]	IOFFE S, SZEGEDY C.Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of International Conference on International Conference on Machine Learning.Lille, France: [s.n.], 2015: 21-29.
[13]	DAI J F, QI H Z, XIONG Y W, et al.Deformable convolutional networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision.Venice, Italy: IEEE Press, 2017: 764-773.
[14]	SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. DOI:10.1109/TPAMI.2016.2572683
[15]	LI Hongyan, LI Chungeng, AN Jubai, et al. Attention mechanism improves CNN remote sensing image object detection[J]. Journal of Image and Graphics, 2019, 24(8): 1400-1408. 李红艳, 李春庚, 安居白, 等. 注意力机制改进卷积神经网络的遥感图像目标检测[J]. 中国图象图形学报, 2019, 24(8): 1400-1408.
[16]	LIU W, ANGUELOV D, ERHAN D, et al.SSD: single shot multibox detector[C]//Proceedings of ECCV'16.Amsterdam, Holland: Springer International Publishing, 2016: 21-37.
[17]	REDMON J, FARHADI A.YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu, USA: IEEE Press, 2017.
[18]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[19]	REN Yun, ZHU Changren, XIAO Shunping. Deformable faster R-CNN with aggregating multi-layer features for partially occluded object detection in optical remote sensing images[J]. Remote Sensing, 2018, 10(9): 1470-1478. DOI:10.3390/rs10091470