基于改进SSD算法的遥感图像目标检测

引用本文

张艳, 杜会娟, 孙叶美, 等. 基于改进SSD算法的遥感图像目标检测[J]. 计算机工程, 2021, 47(9), 252-258, 265. DOI: 10.19678/j.issn.1000-3428.0058660.

ZHANG Yan, DU Huijuan, SUN Yemei, et al. Object Detection in Remote Sensing Images Based on Improved SSD Algorithm[J]. Computer Engineering, 2021, 47(9), 252-258, 265. DOI: 10.19678/j.issn.1000-3428.0058660.

基金项目

天津市教委科研计划项目(2019KJ105);天津市光电检测技术与系统重点实验室2019年度开放课题(2019LODTS006)

作者简介

张艳(1982-), 女, 副教授、博士, 主研方向为机器学习、图像处理与分析;
杜会娟, 硕士;
孙叶美, 硕士;
李现国, 教授、博士

文章历史

收稿日期：2020-06-17
修回日期：2020-08-12

Contents Abstract Full text Figures/Tables PDF

基于改进SSD算法的遥感图像目标检测

张艳¹ , 杜会娟¹ , 孙叶美¹ , 李现国²

1. 天津城建大学计算机与信息工程学院, 天津 300384;
2. 天津市光电检测技术与系统重点实验室, 天津 300387

收稿日期：2020-06-17；修回日期：2020-08-12

基金项目：天津市教委科研计划项目(2019KJ105);天津市光电检测技术与系统重点实验室2019年度开放课题(2019LODTS006)

作者简介：张艳(1982-), 女, 副教授、博士, 主研方向为机器学习、图像处理与分析; 杜会娟, 硕士; 孙叶美, 硕士; 李现国, 教授、博士.

E-mail: 1436376176@qq.com

摘要：在遥感图像目标检测领域，多数目标检测算法针对小目标检测时效果不佳，为此，提出一种多尺度特征融合的遥感图像目标检测算法。利用SSD算法的基础网络进行特征提取，形成特征图金字塔。设计特征图融合模块，融合浅层特征图的位置信息和深层特征图的语义信息，从而保留丰富的上下文信息。设计冗余信息去除模块，通过卷积操作进一步提取特征图中的特征，并对特征信息进行筛选，以减少特征图融合时带来的混叠效应。在遥感图像数据集NWPU VHR-10上的实验结果表明，该算法的平均检测精度高达93.9%，其针对遥感图像小目标的检测性能优于Faster R-CNN和SSD等算法。

Object Detection in Remote Sensing Images Based on Improved SSD Algorithm

ZHANG Yan¹ , DU Huijuan¹ , SUN Yemei¹ , LI Xianguo²

1. School of Computer and Information Engineering, Tianjin Chengjian University, Tianjin 300384, China;
2. Tianjin Key Laboratory of Photoelectric Testing Technology and System, Tianjin 300387, China

Abstract: In the field of object detection in remote sensing images, most of the existing object detection algorithms perform poorly for small objects.This paper proposes an algorithm that fuses multi-scale features for object detection in remote sensing images.The features are first extracted by using the basic network of the SSD algorithm to form a feature map pyramid.Then the feature map fusion module is designed to fuse the position information of the shallow feature map and the semantic information of the deep feature map, retaining rich context information.Finally, a module to remove redundant information is designed, and the features in the feature map are further extracted through the convolution operation.The feature information is also screened to reduce the aliasing effect brought by the fusion of the feature maps.The experimental results on NWPU VHR-10, a dataset of remote sensing images, show that the proposed algorithm achieves an average detection accuracy of 93.9%, demonstrating that it outperforms Faster R-CNN, SSD and other algorithms in detection of small objects in remote sensing images.

开放科学（资源服务）标志码（OSID）：

0 概述

近年来，随着遥感技术的发展，遥感图像目标检测在军事和民用领域得到广泛应用^[1-3]。在实际环境中，遥感图像受光照、目标形态以及复杂背景的影响，使得其目标检测面临诸多挑战。传统目标检测方法，如基于统计的目标检测^[4]、基于知识的目标检测^[5]、基于模型的目标检测^[6]等需要手工定义特征，导致该类方法定义的特征鲁棒性差，很难取得较好的检测效果。

随着深度学习的快速发展，基于深度学习的神经网络在自然图像目标检测领域取得了较好的效果，目前基于深度学习的目标检测方法主要分为两类：一类是以Fast R-CNN^[7]、Faster R-CNN^[8]为代表的两阶段目标检测算法，此类算法首先生成候选区域，然后对候选区域进行进一步检测，检测精度较高，但是检测速度较慢；另一类是以YOLO（You Only Look Once）^[9]、SSD（Single Shot MultiBox Detector）^[10]为代表的一阶段目标检测算法，此类算法直接回归出目标类别，检测精度低于两阶段目标检测算法，但其检测速度快于两阶段目标检测算法。随着目标检测框架的改进，一阶段目标检测算法的检测精度接近于两阶段目标检测算法，因此，一阶段目标检测算法得到更多研究人员的关注。学者们通过对YOLO算法进行改进，提出YOLOv2^[11]、YOLOv3^[12]算法，通过对SSD算法进行改进，提出DSSD（Deconvolutional Single Shot Detector）^[13]、FFSSD（Feater-Fused SSD）^[14]算法。

自然图像目标检测的发展也推动了遥感图像目标检测的优化，不少学者将深度学习应用于遥感图像目标检测领域。文献[15-16]将Faster R-CNN引入遥感图像中，相比于传统算法，Faster R-CNN大幅提高了目标检测精度，但是其并没有充分利用卷积层的信息。文献[17]提出基于ResNet的遥感图像飞机目标检测方法，其能得到鲁棒性强的目标检测网络模型，但该方法会造成重复性检测，影响检测精度。文献[18]提出用全卷积网络与卷积网络进行遥感图像飞机目标检测的方法，但该方法对参数敏感。文献[19]在YOLO的基础上提出YOLT，将其应用于遥感图像目标检测，以应对遥感图像中目标过小的问题，但该方法会提高网络的计算量。文献[20]通过采用自上而下和跳跃链接的方式利用上下文信息，检测光学遥感图像中的小目标，但其只检测了船只与飞机，没有检测遥感图像中的其他物体。文献[21]提出一个统一的自我增强的网络，包括Tiny-Net骨干网、全局注意力块以及最终的分类器和检测器，以检测遥感图像中的目标，该网络对假正例具有鲁棒性，但最终平均精确度并未有大幅提升。文献[22]将小模糊图像上采样到精细图像中，并恢复详细信息进行小目标检测，但其RoI超分辨率无法考虑上下文信息。文献[23]用Sig-NMS代替传统NMS，以提高小物体的检测精度，但是由于其进行了额外计算，导致检测时间较长。文献[24]提出一种边缘增强超分辨率GAN以改善遥感图像质量，同时进行超分辨率和目标检测，提高遥感图像中小目标的检测性能，但其使用高分辨率图像会增加计算开销。文献[25]通过结合SSD算法和DenseNet^[26]网络，检测遥感图像中的小目标，其在无迁移学习支持下依然能够达到良好的效果，但是检测速度较低。

本文结合FPN（Feature Pyramid Networks）^[27]和HRNet（High-Resolution Net）^[28]对SSD算法进行改进，提出一种多尺度特征融合的遥感图像目标检测（Multi-scale Feature Fuse SSD，MFFSSD）算法。该算法通过融合浅层特征图的位置信息和深层特征图的语义信息，丰富上下文信息，并对融合后的特征图进行卷积，以减少混叠效应、消除不同特征图的差异以及增强特征提取能力，从而提升遥感图像的目标检测精度。

1 相关工作 1.1 SSD算法

为了解决Faster R-CNN检测速度过慢、YOLO检测精度不高的问题，文献[10]提出SSD目标检测算法。SSD算法沿用了YOLO中回归的思想，直接回归出目标的边界框和分类概率，同时沿用了Faster R-CNN中基于候选框的策略，使用大量的anchor提升检测精度。

根据输入图片尺寸的不同，SSD算法分为SSD300和SSD512 2种结构，图 1所示为SSD300的结构。SSD算法在特征提取部分使用VGG16网络，并将VGG16网络中的最后2个全连接层（FC6、FC7）转换成2个卷积层（Conv6、Conv7），在VGG16网络后又连接了多个卷积层。在目标检测部分，采用多个网络层的特征图进行目标检测，使用Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2这6个网络层生成的特征图进行预测输出。虽然SSD算法使用不同网络层的特征图进行预测输出，提升了检测精度，但是各个特征图之间相互独立，没有很好地利用浅层特征图位置信息丰富、深层特征图语义信息丰富的特点，忽视了上下文之间的联系。

	Download: JPG larger image
图 1 SSD300结构 Fig. 1 Structure of SSD300

1.2 FPN算法

FPN算法采用SSD中特征图金字塔方法，并设计自底向上（bottom-up）、自顶向下（top-down）和横向连接（lateral connection）结构，融合了具有高分辨率的浅层特征图和具有丰富语义特征的深层特征图，在没有大幅降低检测速度的同时提升了检测精度，FPN算法框架如图 2所示。FPN算法将语义信息更强的深层特征图做2倍上采样，然后将该特征横向连接至较浅一层的特征，从而加强深层特征信息并提高检测精度。

	Download: JPG larger image
图 2 FPN算法结构 Fig. 2 FPN algorithm structure

2 多尺度特征融合的遥感图像目标检测算法

本文提出的MFFSSD算法对SSD算法进行了改进，设计多尺度特征融合模块，该模块包含特征图融合（Add）模块和冗余信息去除（Re）模块。Add模块对不同网络层的多尺度特征图进行融合，Re模块对融合后的特征图进行卷积操作。多尺度特征融合模块结构如图 3所示。

	Download: JPG larger image
图 3 多尺度特征融合模块 Fig. 3 Multi-scale feature fusion module

2.1 特征图融合模块

特征融合方法主要有向量拼接（Concatenate）和特征对应元素逐位相加（point-wise add）2种^[29]。向量拼接融合方法将需要融合的特征图的通道数合并，该方法会产生大量参数。特征对应元素逐位相加融合方法将需要融合的特征图的值相加，其参数量远小于向量拼接方式。考虑到实时性的需要，本文基于特征对应元素逐位相加融合方法，设计一种特征图融合模块。由于不同网络层输出的特征图尺寸维度不同，当在浅层特征图中引入深层特征时，需要将深层特征图进行反卷积操作，当在深层特征图中引入浅层特征时，需要将浅层特征图进行卷积操作，以保证融合时特征图的尺寸和通道数相同。根据需要融合的特征图的尺寸与通道数，本文设计3种不同的融合方式，如图 4所示。

	Download: JPG larger image
图 4 特征图融合模块 Fig. 4 Feature map fusion module

图 4（a）结构将第i层和第（i+1）层的特征图经过反卷积操作转换成与第（i-1）层特征图的尺寸维度相同，然后将3张尺寸维度相同的特征图进行融合；图 4（b）结构将第（i-1）层的特征图进行卷积操作转换成与第i层特征图的尺寸维度相同，将第（i+1）层的特征图经过反卷积操作转换成与第i层特征图的尺寸维度相同，然后将3张尺寸维度相同的特征图进行融合；图 4（c）结构将第（i-1）层和第i层的特征图经过卷积操作转换成与第（i+1）层特征图的尺寸维度相同，然后将3张尺寸维度相同的特征图进行融合。

在对不同尺寸的特征图进行融合时，为减少模型的参数量，较深层网络的特征图通过一次反卷积（Deconv）操作，较浅层网络的特征图通过一次卷积（Conv）操作，以实现不同网络层特征图尺寸和维度的变换。在进行反卷积与卷积操作之前，对每一层进行1×1卷积，保证不同网络层的特征图的通道数一致。特征图融合模块通过融合3个不同网络层的多尺度特征图，不仅可以将丰富的语义信息从较深的层融合到较浅的层，还可以将丰富的位置信息从较浅的层融合到较深的层，从而丰富了不同网络层的特征图特征，保留了更多的上下文信息。

2.2 冗余信息去除模块

融合不同网络层的特征图，虽然可以弥补浅层特征语义信息不强、深层特征位置信息不强的问题，但是，在特征图融合的过程中，不同网络层的特征图叠加会造成特征的不连续，从而形成混叠效应。因此，本文设计冗余信息去除模块，通过卷积操作提取特征图中的特征，同时对特征信息进行筛选，以保证特征的稳定性，减少特征图融合时带来的混叠效应。冗余信息去除模块结构如图 5所示。冗余信息去除模块的输入为特征图融合模块的输出，冗余信息去除模块包含1×1卷积层和3×3卷积层。第一个1×1卷积层用来减少通道数，通道数由N变为N/2，从而提升了冗余信息去除模块的速度。2个3×3卷积层用于特征提取。为了保证整个网络的特征提取能力，在冗余信息去除模块的最后添加一个1×1卷积层，使通道数由N/2变为N。

	Download: JPG larger image
图 5 冗余信息去除模块结构 Fig. 5 Structure of module for removing redundant information

2.3 损失函数

本文采用SSD算法的损失函数，包含用于分类的损失和用于定位的损失，如式（1）所示：

$ L\left(x, c, l, \mathrm{g}\right)=\frac{1}{N}\left({L}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{f}}\left(x, c\right)+\alpha {L}_{\mathrm{l}\mathrm{o}\mathrm{c}}\left(x, l, \mathrm{g}\right)\right) $

(1)

其中：$ x $为当前预测框的类别信息；$ c $为预测框类别信息的置信度；$ l $为预测框的位置信息；$ g $为真实框的位置信息；$ N $为与真实目标框相匹配的先验框的个数；$ \alpha $是权值系数，$ \alpha $为1，$ {L}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{f}}\left(x, c\right) $为类别损失，其采用交叉熵损失函数；$ {L}_{\mathrm{l}\mathrm{o}\mathrm{c}}\left(x, l, \mathrm{g}\right) $为位置损失，其采用Smooth_L1损失函数。

置信度损失$ {L}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{f}}\left(x, c\right) $是多类别置信度（c）的Softmax loss，采用交叉熵损失函数，如式（2）所示：

$ {L}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{f}}\left(x, c\right)=-\sum\limits _{i\in \mathrm{P}\mathrm{o}\mathrm{s}}^{N}{x}_{i, j}^{p}\mathrm{l}\mathrm{n}\left({\widehat{C}}_{i}^{P}\right)-\sum\limits _{i\in \mathrm{N}\mathrm{e}\mathrm{g}}\mathrm{l}\mathrm{n}\left({\widehat{C}}_{i}^{0}\right) $

(2)

其中：

$ {\widehat{C}}_{i}^{P}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({C}_{i}^{p}\right)}{\sum\limits _{p}\mathrm{e}\mathrm{x}\mathrm{p}\left({C}_{i}^{p}\right)} $

(3)

其中：$ {x}_{i, j}^{p}=\left\{\mathrm{0, 1}\right\} $用来表示第i个默认框与第j个真实框关于类别p是否匹配，0代表不匹配，1代表匹配；$ {\widehat{C}}_{i}^{0} $为正确且类别为背景预测框的概率；$ {\widehat{C}}_{i}^{P} $为利用Softmax函数计算的概率值。

位置损失$ {L}_{\mathrm{l}\mathrm{o}\mathrm{c}}\left(x, l, g\right) $是预测框（$ l $）与真实框（$ g $）之间的Smooth_L1损失，如式（4）所示：

$ {L}_{\mathrm{l}\mathrm{o}\mathrm{c}}\left(x, l, g\right)=\sum\limits _{i\in \mathrm{P}\mathrm{o}\mathrm{s}}^{N}\sum\limits _{m\in (cx, cy, w, h)}{x}_{i, j}^{p}\mathrm{S}\mathrm{m}\mathrm{o}\mathrm{o}\mathrm{t}{\mathrm{h}}_{\mathrm{L}1}\left({l}_{i}^{m}-{\widehat{g}}_{j}^{m}\right) $

(4)

其中：

$ \mathrm{S}\mathrm{m}\mathrm{o}\mathrm{o}\mathrm{t}{\mathrm{h}}_{\mathrm{L}1}=\left\{\begin{array}{c}0.5{x}^{2}, \left|x\right|<1\\ \left|x\right|-0.5, \mathrm{其}\mathrm{他}\end{array}\right. $

(5)

其中：$ {l}_{i}^{m} $表示第i个默认框的位置信息；$ {\widehat{g}}_{j}^{m} $表示第j个真实框的位置信息。

3 实验与结果分析

本文对所提模型进行消融实验，以验证其检测性能。实验环境为Intel^®Xeon^®CPU E5-1650 v4 @3.6 GHz×12，配置Tesla K20c GPU，Linux操作系统，Pytorch深度学习框架，开发环境为Python。利用在Image数据集上预训练好的VGG16模型，损失函数沿用SSD算法的损失函数，包含定位损失和分类损失，batch size为1，动量因子为0.9，权重衰减系数为0.000 5，学习率为0.000 01。

3.1 数据集与评价指标

本文所用数据集为NWPU VHR-10^[30]数据集，NWPU VHR-10是由西北工业大学标注的用于遥感图像目标检测的数据集，共有800张光学遥感图像，其中包含目标的有650张，每张照片最少包含一个目标，图像分辨率为0.5 m~2.0 m。该数据集共包含10个类别目标，手动注释了757个飞机、302艘船、655个油罐、390个棒球场、524个网球场、159个篮球场、163个田径场、224个港口、124座桥梁和477辆车。考虑到包含目标的图片较少，为了避免过拟合问题，本文采用翻转、图像尺寸缩放以及随机裁剪等操作进行数据扩充以扩大样本数量。考虑到遥感图像较大，将输入图像的尺寸都调整为$ 800\mathrm{像}\mathrm{素}\times 800\mathrm{像}\mathrm{素} $。在训练过程中，将数据集的60%用来训练，剩下的40%用于测试，将NWPU VHR-10数据集格式统一为pascal_voc。

本文采用平均检测精度（Mean Average Precision，MAP）作为评价指标。每一个类别都可以根据准确率（Precision）和召回率（Recall）得到P-R曲线，平均精确度（Average Precision，AP）就是P-R曲线的面积，AP值越高代表检测性能越好，MAP就是所有类AP的平均值。Precision和Recall可以根据TP、TN、FP、FN计算，Precision（P）、Recall（R）、AP（A_AP）计算公式分别如式（6）~式（8）所示：

$ P=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}} $

(6)

$ R=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}} $

(7)

$ {A}_{\mathrm{A}\mathrm{P}}={\int }_{0}^{1}P\left(R\right)\mathrm{d}R $

(8)

其中：$ {T}_{\mathrm{T}\mathrm{P}} $为真正例；$ {T}_{\mathrm{T}\mathrm{N}} $为真反例；$ {F}_{\mathrm{F}\mathrm{P}} $为假正例；$ {F}_{\mathrm{F}\mathrm{N}} $为假反例。

3.2 消融实验

为验证MFFSSD算法的性能，通过融合不同的网络层，本文设计2种结构，如表 1所示，结构（a）融合SSD算法中的conv4_3、conv7以及conv9_2，结构（b）融合SSD算法中的conv4_3、conv8_2以及conv10_2，2种结构在NWPU VHR-10数据集上的实验结果（检测精度）如表 2所示，√表示有该层。

下载CSV 表 1 2种融合结构 Table 1 Two fusion structures

下载CSV 表 2 不同结构模型的实验结果对比 Table 2 Comparison of experimental results of different structural models

由表 2可以看出，结构（a）的检测精度优于结构（b）。在NWPU VHR-10数据集中需要检测的目标相对较小，在较高层中，经过多层卷积之后小目标的信息丢失较为严重，而较低层中小目标的信息相对更加丰富，因此，在进行特征融合时，融合较低层的特征比融合较高层特征的检测效果更好，即本文后续实验采用结构（a）。

3.3 算法对比实验

将本文算法与Faster R-CNN^[8]、YOLOv1^[9]、YOLOv2^[11]、SSD^[10]、Mask R-CNN^[31]和Sig-NMS^[23]算法进行对比，实验结果如表 3所示，其中最优结果加粗表示，部分算法的目标检测结果如图 6所示，为进一步展示本文算法的效果，图 7给出本文MFFSSD算法的部分检测结果。Faster R-CNN采用VGG网络作为特征提取器，YOLOv1采用Darknet-24的检测网络，YOLOv2采用Darknet-19的检测网络，SSD采用VGG16网络作为基础网络，Mask R-CNN采用ResNet$ + $FPN网络进行特征提取，Sig-NMS沿用Faster R-CNN用VGG网络进行特征提取，MFFSSD算法沿用SSD用VGG16网络作为基础网络。

下载CSV 表 3 7种算法在NWPU VHR-10数据集上的实验结果对比 Table 3 Comparison of experimental results of seven algorithms on NWPU VHR-10 dataset

	Download: JPG larger image
图 6 4种算法的目标检测结果对比 Fig. 6 Comparison of target detection results of four algorithms

	Download: JPG larger image
图 7 本文MFFSSD算法目标检测结果 Fig. 7 Target detection results of MFFSSD algorithm in this paper

由表 3可以看出，基于候选框的Faster R-CNN的检测精度高于基于回归的YOLOv1，与基于回归的检测框架相比，基于候选框的检测框架能更好地区分正负样本，提高检测精度。YOLOv2对YOLOv1进行改进，检测精度略高于Faster R-CNN。Mask R-CNN在Faster R-CNN的基础上进行改进，检测精度高于YOLOv2。Sig-NMS算法用Sig-NMS代替Faster R-CNN中的NMS，检测精度与Mask R-CNN相近，高于YOLOv2。相较于YOLO系列与Faster R-CNN系列，SSD网络检测精度大幅提高，证明了多尺度特征金字塔结构能有效提高目标检测精度。本文在多尺度特征金字塔的基础上设计多尺度特征融合模块，提出了MFFSSD算法，该算法能够增强网络对多尺度对象特征的提取能力，其对大多数类别的检测精度较对比算法均有明显提升，特别是对小目标的检测精度。相对于SSD算法，MFFSSD算法在飞机目标上的检测精度高0.007，在船只目标上检测精度高0.048，在储油罐目标上检测精度高0.093，在车辆目标上检测精度高0.139，在NWPU VHR-10数据集上平均检测精度比SSD算法高0.045。

从图 6可以看出，在检测飞机目标时，4种算法均可全部检测出目标；在检测船只目标时，Faster R-CNN算法、SSD算法和Sig-NMS算法均存在目标漏检的情况，MFFSSD算法可检测出全部船只；在检测储油罐、车辆这种小又密集的目标时，Faster R-CNN算法、SSD算法和Sig-NMS算法均存在目标漏检、错检较多的情况，MFFSSD算法虽然也有漏检、错检现象，但整体效果优于其他3种算法。结合图 6、图 7可以看出，MFFSSD算法可以很好地检测出遥感图像中的小目标。

4 结束语

针对遥感图像中的小目标检测问题，本文对传统SSD算法进行改进，提出一种多尺度特征融合的遥感图像目标检测算法。在SSD算法的基础上设计特征融合模块和冗余信息去除模块，以增强网络的特征提取能力并提高小目标的检测精度。实验结果表明，该算法在遥感图像公开数据集NWPU VHR-10中取得了93.9%的平均检测精度，检测性能优于Faster R-CNN、SSD等算法。下一步将对网络结构进行优化，考虑在其中加入GAN网络以提升检测精度。

参考文献

[1]	CHENG G, HAN J W. A survey on object detection in optical remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 117: 11-28. DOI:10.1016/j.isprsjprs.2016.03.014
[2]	DENG A P, SUN H, ZHOU S L, et al. Multi-scale object detection in remote sensing imagery with convolutional neural networks[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 145: 3-22. DOI:10.1016/j.isprsjprs.2018.04.003
[3]	DONG C, LIU J H, XU F, et al. Fast ship detection in optical remote sensing images[J]. Journal of Jilin University(Engineering and Technology Edition), 2019, 49(4): 1369-1376. (in Chinese) 董超, 刘晶红, 徐芳, 等. 光学遥感图像舰船目标快速检测方法[J]. 吉林大学学报(工学版), 2019, 49(4): 1369-1376.
[4]	WANG G X, HUANG X T, ZHOU Z M. UWB SAR hidden object change detection based on analysis of neighborhood statistical distribution change[J]. Journal of Electronics and Information, 2011, 33(1): 49-54. (in Chinese) 王广学, 黄晓涛, 周智敏. 基于邻域统计分布变化分析的UWB SAR隐蔽目标变化检测[J]. 电子与信息学报, 2011, 33(1): 49-54.
[5]	WU W. Research on knowledge-based object recognition and tracking technology[D]. Harbin: Harbin Institute of Technology, 2017. (in Chinese) 吴畏. 基于知识的目标识别与跟踪技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2007.
[6]	CAO J X, SONG A G. Research on texture image segmentation method based on Markov random field[J]. Journal of Instrumentation, 2015, 36(4): 776-786. (in Chinese) 曹家梓, 宋爱国. 基于马尔科夫随机场的纹理图像分割方法研究[J]. 仪器仪表学报, 2015, 36(4): 776-786.
[7]	GIRSHICK R. Fast R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2015: 1440-1448.
[8]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of IEEE Conference on Neural Information Processing Systems. Washington D.C., USA: IEEE Press, 2015: 91-99.
[9]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 779-788.
[10]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multi box detector[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[11]	REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 6517-6525.
[12]	REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2020-05-05]. https://pjreddie.com/media/files/papers/YOLOv3.pdf.
[13]	FU C Y, LIU W, RANGA A, et al. DSSD: deconvolutional single shot detector[EB/OL]. [2020-05-05]. https://export.arxiv.org/pdf/1701.06659.
[14]	CAO G M, XIE X M, YANG W Z, et al. Feature-fused SSD: fast detection for small objects[EB/OL]. [2020-05-05]. https://export.arxiv.org/vc/arxiv/papers/1709/1709.05054v1.pdf.
[15]	YAO Y, JIANG Z G, ZHANG H P, et al. Ship detection in optical remote sensing images based on deep convolutional neural networks[J]. Journal of Applied Remote Sensing, 2017, 11(4): 042611.
[16]	XIN P, XU Y L, TANG H, et al. Fast aircraft detection based on multi-layer feature fusion of fully convolutional network[J]. Journal of Optics, 2018, 38(3): 337-343. (in Chinese) 辛鹏, 许悦雷, 唐红, 等. 全卷积网络多层特征融合的飞机快速检测[J]. 光学学报, 2018, 38(3): 337-343.
[17]	ZHAO D X. Research on deep learning method of aircraft object extraction in remote sensing images[D]. Shanghai: Shanghai Institute of Technical Physics, Chinese Academy of Sciences, 2018. (in Chinese) 赵丹新. 遥感图像中飞机目标提取的深度学习方法研究[D]. 上海: 中国科学院上海技术物理研究所, 2018.
[18]	LI W B, HE R. Aircraft target detection of remote sensing images based on deep neural network[J]. Computer Engineering, 2020, 46(7): 268-276. (in Chinese) 李文斌, 何冉. 基于深度神经网络的遥感图像飞机目标检测[J]. 计算机工程, 2020, 46(7): 268-276.
[19]	VAN E A. You only look twice: rapid multi-scale object detection in satellite imagery[EB/OL]. [2020-05-05]. http://arxiv-export-lb.library.cornell.edu/pdf/1805.09512.
[20]	REN Y, ZHU C R, XIAO S P. Small object detection in optical remote sensing images via modified Faster R-CNN[J]. Applied Sciences, 2018, 8(5): 813-824. DOI:10.3390/app8050813
[21]	PANG J M, LI C, SHI J P, et al. R2-CNN: fast tiny object detection in large-scale remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57: 5512-5524. DOI:10.1109/TGRS.2019.2899955
[22]	BAI Y C, ZHANG Y Q, DING M L, et al. SOD-MTGAN: small object detection via multi-task generative adversarial network[C]//Proceedings of European Conference on Computer Vision(ECCV). Berlin, Germany: Springer, 2018: 206-221.
[23]	DONG R C, XU D A, ZHAO J, et al. Sig-NMS-based Faster R-CNN combining transfer learning for small target detection in VHR optical remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57: 8534-8545. DOI:10.1109/TGRS.2019.2921396
[24]	JAKARIA R, NILANJAN R, SUBIR C, et al. Small-object detection in remote sensing images with end-to-end edge-enhanced GAN and object detector network[J]. Remote Sensing, 2020, 12(9): 1432-1435. DOI:10.3390/rs12091432
[25]	WANG J Q, LI J S, ZHOU X W, et al. Improved SSD algorithm and performance analysis of small object detection in remote sensing images[J]. Journal of Optics, 2019, 39(6): 373-382. (in Chinese) 王俊强, 李建胜, 周学文, 等. 改进的SSD算法及其对遥感影像小目标检测性能的分析[J]. 光学学报, 2019, 39(6): 373-382.
[26]	HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2261-2269.
[27]	LIN T, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 936-944.
[28]	SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 5693-5703.
[29]	LI K, ZOU C Q, BU S H, et al. Multi-modal feature fusion for geographic image annotation[J]. Pattern Recognition, 2018, 73: 1-14. DOI:10.1016/j.patcog.2017.06.036
[30]	CHENG G, ZHOU P C, HAN J W. Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(12): 7405-7415. DOI:10.1109/TGRS.2016.2601622
[31]	HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[EB/OL]. [2020-05-05]. https://web.cs.ucdavis.edu/~yjlee/teaching/ecs289g-winter2018/Mask_RCNN.pdf.