基于UNet++网络与多边输出融合策略的船舶检测模型

引用本文

李忠智, 尹航, 左剑凯, 等. 基于UNet++网络与多边输出融合策略的船舶检测模型[J]. 计算机工程, 2022, 48(4), 276-283. DOI: 10.19678/j.issn.1000-3428.0058696.

LI Zhongzhi, YIN Hang, ZUO Jiankai, et al. Ship Detection Model Based on UNet++ Network and Multiple Side-Output Fusion Strategy[J]. Computer Engineering, 2022, 48(4), 276-283. DOI: 10.19678/j.issn.1000-3428.0058696.

基金项目

国家航空基金(2015ZB54007)；辽宁省教育厅科技基金(L201627，L201704，L201750)

通信作者

尹航(通信作者)，副教授、博士

作者简介

李忠智(2000—)，男，本科生，主研方向为目标检测、深度学习、计算机视觉;
左剑凯，博士研究生;
孙一凡，本科生

文章历史

收稿日期：2020-06-22
修回日期：2020-07-23

Contents Abstract Full text Figures/Tables PDF

基于UNet++网络与多边输出融合策略的船舶检测模型

李忠智¹ , 尹航^1,2 , 左剑凯³ , 孙一凡⁴

1. 沈阳航空航天大学计算机学院, 沈阳 110136;
2. 仲恺农业工程学院信息技术学院, 广东广州 510230;
3. 同济大学计算机科学与技术系, 上海 201804;
4. 沈阳航空航天大学理学院, 沈阳 110136

收稿日期：2020-06-22；修回日期：2020-07-23

基金项目：国家航空基金(2015ZB54007)；辽宁省教育厅科技基金(L201627，L201704，L201750)

作者简介：李忠智(2000—)，男，本科生，主研方向为目标检测、深度学习、计算机视觉; 左剑凯，博士研究生; 孙一凡，本科生.

通信作者：尹航(通信作者)，副教授、博士.

E-mail: yinhang@sau.edu.cn

摘要：船舶检测与识别技术的发展对海上监视及服务工作起重要作用，目前卫星遥感图像船舶目标检测存在背景复杂、船舶尺度变化大等问题，妨碍了海上威胁事件的预测及海上工作效率的提高。提出一种融合多尺度特征信息的目标检测模型，采用UNet++网络进行目标检测提取卫星图像特征，并将全局信息和细粒度信息相融合生成具有高空间精度的中间特征图。在此基础上，使用MSOF策略融合不同语义层次的特征信息，生成最终的检测特征图，以提高船舶目标检测与识别的精度，并通过将二元交叉熵损失函数与Dice系数损失函数结合使用，降低数据集中样本不均衡对模型准确度的影响。基于空客船舶数据集的实验结果表明，该模型能够对遥感图像中的船舶目标进行精准的检测识别，其Dice系数、IOU系数评估值分别为97.3%、96.8%，优于ResNet-34、UNet++等模型。

Ship Detection Model Based on UNet++ Network and Multiple Side-Output Fusion Strategy

LI Zhongzhi¹ , YIN Hang^1,2 , ZUO Jiankai³ , SUN Yifan⁴

1. School of Science, Shenyang Aerospace University, Shenyang 110136, China;
2. School of Information Technology, Zhongkai University of Agriculture and Engineering, Guangzhou, Guangdong 510225, China;
3. Department of Computer Science and Technology, Tongji University, Shanghai 201804, China;
4. School of Science, Shenyang Aerospace University, Shenyang 110136, China

Abstract: The development of ship detection and recognition technology plays an important role in marine surveillance service.At present, there are some problems in ship target detection in satellite remote sensing images, such as complex background and large changes in ship scale, which hinder the prediction of threat events and the improvement of marine operation efficiency.To address the problems of complex background and large changes in ship scale in satellite remote-sensing image ship target detection, a target detection model integrating multiscale feature information is proposed, and the UNet++ network is used for target detection to extract the satellite image features, what's more, global and fine-grained information are fused to generate an intermediate feature map with high spatial accuracy.On this basis, Multiple Side-Output Fusion (MSOF)strategy is used to fuse the feature information of different semantic levels and generate the final detection feature map to improve the accuracy of ship target detection and recognition.Moreover, the influence of the sample imbalance in the dataset on the accuracy of the model is reduced by combining the binary cross-entropy loss function with the Dice coefficient loss function.The experimental results on the Airbus ship dataset show that the model can accurately detect and recognize ship targets in remote-sensing images, and the evaluation values of the Dice coefficient and Intersection Over Union (IOU) coefficient are 97.3% and 96.8%, respectively, which are better than those of ResNet-34, UNet++, and other models.

开放科学(资源服务)标志码(OSID)：

0 概述

海上运输业发展迅速，但随着船舶数量和运输量的快速增长，海上违法行为如非法货物运输等数量也不断增加^[1]。船舶检测与识别技术不断得到发展^[2-4]，目前可以通过自动化的船舶检测获得船舶的分布信息，这类信息能够帮助控制非法捕鱼和货物运输等活动^[5]。精细的海上监视服务有助于预测威胁事件的发生并提高海上作业的工作效率，在海上交通监视工作中起重要作用。根据所使用的特征提取方法不同，本文将卫星遥感图像中船舶检测方法分为传统方法和深度学习方法2类。

在传统方法中，文献[6]使用统计学方法，根据海洋聚类直方图构建了异常检测模型，并通过标识候选区域，从候选区域中删除非船舶对象。该方法仅在只有一个光谱波段的海域卫星图像中表现良好，而在港口区域中的表现欠佳。文献[7]提出一种基于统计分析和形状识别的模型，对海域内的船舶分布进行统计分析，并将近似的船舶目标与海、陆、岛或波浪区分，使用纵横比、圆度等形状特征来检测船舶。在提取图像特征中，通常使用Radon变换、小波变换、霍夫变换等变换方式。例如文献[8]提出使用小波分解来获得图像的高频和低频特征，并通过归一化和相加来组合特征，生成特征图。文献[9]提出一种在单通道SAR图像中基于复杂信号峰度(Complex Signal Kurtosis，CSK)的船舶检测新方法，该方法包括区域提取和目标识别2个主要部分，首先根据区域提取检测船舶的大致位置，然后在提取的区域内识别船舶。

近年来，研究人员提出了诸多基于深度学习的遥感图像船舶检测方法。根据所使用标记方法的不同，深度学习方法可以分为2类。第1类方法在像素级别上对船舶目标进行标记^[10-11]，如文献[10]提出一种基于全卷积神经网络的边缘检测网络，完成了对船舶目标的像素级检测，并取得了良好的检测结果。第2类方法使用边界框来标记船舶，如文献[12]提出一种基于Faster RCNN的密集连接多尺度神经网络，用于多尺度和多场景SAR船舶检测。文献[13]在提取网络中提出一个分层的选择性过滤层，将不同尺度的特征映射到同一尺度空间，从而有效检测不同比例的船舶。

上述文献对遥感图像目标检测领域进行了研究，但该领域仍存在带标签样本不足和复杂场景下的先验信息不足两大问题。由于对用于目标检测的大量数据进行标注的难度较大，卫星图像领域内的带标注样本缺乏，文献[14]分别采用数据增强和迁移学习2种策略，并应用单发多框检测(Single Shot MultiBox Detector，SSD)算法完成SAR目标检测任务，该方法可以获得更好的检测性能。文献[15]提出一种基于视觉注意模型的目标检测方法用于解决复杂场景下的先验信息不足等问题，实验结果表明，所提出的目标检测方法可以在高分辨率SAR图像中以高精度和快速度从复杂背景杂波中检测目标。但上述方法没有考虑提取SAR图像中目标的低阶和高阶信息，导致模型对目标特征的表达能力受限。

文献[16]提出一种有效结合图像低级纹理与图像深层特征的多尺度旋转不变Haar-Like特征集成卷积神经网络(Multi-Scale Rotation-Invariant Haar-Like feature integrated Convolutional Neural Network，MSRIHL-CNN)，并经过最佳融合以表示船舶目标，在中国高分-3图像数据集上验证了模型的优越性。文献[17]结合多尺度旋转不变性特征，提出有效的船舶分类模型。该方法采用Gabor滤波器获取不同方向的特征，并应用多尺度全局局部二进模式(Multi-Scale Completed Local Binary Patterns，MS-CLBP)获取船舶图像的局部纹理、空间和轮廓信息，弥补了深度CNN的不足。以上2种方法虽然有效地提高了模型在复杂环境下对船舶目标检测与识别的准确度，但两种模型均采用并行计算的方式，增加了计算的复杂度。

本文针对遥感卫星图像背景复杂、船舶目标变化尺度大等问题，提出一种结合UNet++和多边输出融合(Multiple Side-Output Fusion，MSOF)策略的船舶检测与识别模型。使用UNet++深度神经网络提取卫星图像特征，并结合图像的浅层和深层信息输出不同层级的图像特征。在此基础上，采用MSOF策略对来自不同语义层级的特征信息进行融合，以提升模型检测与识别的准确度。

1 目标检测模型

本文采用基于UNet++网络和多边输出融合策略的模型，完成船舶目标的检测与识别。

1.1 UNet++特征预提取

UNet++网络具有嵌套结构和密集的跳过路径，在从多级卷积路径中提取多尺度特征图方面具有很大的优势^[18]。其由卷积单元、下采样和上采样模块以及卷积单元之间的跳过连接组成，结构如图 1实线框部分所示。UNet++和UNet之间最大的区别是UNet++的结构中具有重新设计的跳过路径。以节点X^0，4为例，在UNet模型结构中，节点X^0，4仅与节点X^0，0构建了一个跳过连接，而在UNet++中，节点X^0，4连接处于同一层的X^0，0、X^0，1、X^0，2和X^0，3这4个卷积单元的输出。UNet++网络的这种结构，能使编码器内特征图的语义水平更接近对应解码器部分的语义水平。

	Download: JPG larger image
图 1 融合MSOF策略的UNet++目标检测框架 Fig. 1 UNet++ target detection framework combined with MSOF strategy

假设x^i，j代表节点X^i，j的输出，其中i代表沿着编码器方向的第i个下采样层，j代表沿着跳过路径的第j个卷积层，则x^i，j的特征映射可以表示为：

$ {x}^{i, j}=\left\{\begin{array}{l}\mu \left({x}^{i-1, j}\right), j=0\\ \mu \left(\right[[{x}^{i, k}{]}_{k=0}^{j=1}, ({x}^{i+1, j-1}\left)\right]), j > 0\end{array}\right. $

(1)

其中：μ(·)表示卷积运算，后面连接激活函数，(·)表示上采样层；[]表示级联运算。通常在j=0层的节点仅从上层的下采样层接收一个输入，而j > 0的节点则从跳过路径和上采样层均接收上一级节点的输入。

在网络的卷积单元中，本文采用了残差模块，这有助于增强深度网络的收敛能力，一个残差模块的结构如图 2所示。输入图像分别经过一个2D卷积层(2D Convolutional layer，Conv2D)、一个归一化层(Batch Normalization layer，BN)、一个Conv2D和BN层。接着，通过将第2个BN层和第1个Conv2D层的输出相加得到输出。本文模型采用缩放指数线性单元(Scaling exponent Linear Units，SeLUs)代替ReLU作为激活函数，其具有对抗扰动的能力更强、学习速度更快的特点^[19]。

	Download: JPG larger image
图 2 残差模块结构 Fig. 2 Residual block structure

UNet++网络优于UNet网络的另一个特点是多层特征图生成策略。在UNet结构中，仅通过如式(2)所示的路径生成单层特征图：

$ \begin{array}{l}\{{X}^{\mathrm{0, 0}}\to {X}^{\mathrm{1, 0}}\to {X}^{\mathrm{2, 0}}\to {X}^{\mathrm{3, 0}}\to {X}^{\mathrm{4, 0}}\to {X}^{\mathrm{3, 1}}\to \\ {X}^{\mathrm{2, 2}}\to {X}^{\mathrm{1, 3}}\to {X}^{\mathrm{0, 4}}\}\end{array} $

(2)

在UNet++结构中，另外3个特征图还可以分别通过以下3个路径获得：

$ \{{X}^{\mathrm{0, 0}}\to {X}^{\mathrm{1, 0}}\to {X}^{\mathrm{0, 1}}\} $

$ \{{X}^{\mathrm{0, 0}}\to {X}^{\mathrm{1, 0}}\to {X}^{\mathrm{2, 0}}\to {X}^{\mathrm{1, 1}}\to {X}^{\mathrm{0, 2}}\} $

$ \{{X}^{\mathrm{0, 0}}\to {X}^{\mathrm{1, 0}}\to {X}^{\mathrm{2, 0}}\to {X}^{\mathrm{3, 0}}\to {X}^{\mathrm{2, 1}}\to {X}^{\mathrm{1, 2}}\to {X}^{\mathrm{0, 3}}\} $

(3)

因此，将4个不同语义层级的特征图进行组合，可以提高模型的检测和识别精确度，并提升模型的泛化性和稳定性。

1.2 MSOF策略融合输出

深度监控一方面通过克服梯度消失问题改善深层网络训练过程；另一方面，可以学习从低语义到高语义的层次信息。文献[20]中的深度监控通过平均所有细分分支的输出来实现。本文使用了一种MSOF融合策略实现模型训练过程中的深度监控，其类似文献[21]中提出的策略。

如图 1中虚线框部分所示，4个输出节点{X^0，1，X^0，2，X^0，3，X^0，4}使用sigmoid函数后得到输出结果{Y^0，1，Y^0，2，Y^0，3，Y^0，4}，再通过合并4个节点的输出结果来生成新的输出节点X^0，5，表达式如式(4)所示：

$ {X}^{\mathrm{0, 5}}={Y}^{\mathrm{0, 1}} \oplus {Y}^{\mathrm{0, 2}} \oplus {Y}^{\mathrm{0, 3}} \oplus {Y}^{\mathrm{0, 4}} $

(4)

其中：$\oplus $表示合并操作，通过sigmoid层的X^0，5可以输出Y^0，5。在本文的深度网络中生成了{Y^0，1，Y^0，2，Y^0，3，Y^0，4，Y^0，5}5个不同语义层次的输出，其中{Y^0，1，Y^0，2，Y^0，3，Y^0，4}是侧面输出层的输出。通过MSOF操作，将来自所有侧面输出层的多尺度特征信息融合到最终输出Y^0，5中，从而可以捕获更精细的检测与识别细节。

1.3 损失函数优化 1.3.1 平衡二元交叉熵损失

对于空客船舶检测挑战数据集，数据集中有船舶的图像仅占整个数据集的1/4左右，这会导致在深度神经网络训练中出现严重的类别不平衡问题。因此，必须引入权衡参数以进行过采样。在本文的端到端训练方式中，采用一种简单的自动平衡策略，可以将类平衡的交叉熵损失函数定义为：

$ {L}_{\mathrm{b}\mathrm{c}\mathrm{e}}=-\beta \sum\limits_{j\in {Y}_{+}}\log_{a}{\rm{Pr}}({y}_{j}=\left.1\right)-\left(1\right.-\beta )\sum\limits_{j\in {Y}_{-}}\log_{a}{\rm{Pr}}({y}_{j}=\left.0\right) $

(5)

其中：$ \beta =\left|{Y}_{-}\right|/\left(\right|{Y}_{+}|+|{Y}_{-}\left|\right) $；$ 1-\beta =\left|{Y}_{+}\right|/\left(\right|{Y}_{+}|+|{Y}_{-}\left|\right) $；$ \left|{Y}_{+}\right| $和$ \left|{Y}_{-}\right| $分别代表一次迭代中有船舶的图像和无船舶的图像数目；Pr(·)是图像j处的sigmoid输出。

1.3.2 Dice损失函数

为提高检测性能、削弱类别不平衡问题的影响，Dice系数损失通常应用于语义分割任务中。一般来说，2个轮廓区域的相似性可以用Dice系数来定义。此外，损失可定义为：

$ {L}_{\mathrm{d}\mathrm{i}\mathrm{c}\mathrm{e}}=1-\frac{2\left(Y\times \widehat{Y}\right)}{Y+\widehat{Y}} $

(6)

其中：Y和$ \widehat{Y} $分别表示训练图像的预测输出和图像对应的标签。

1.3.3 改进损失函数

本文所提模型通过sigmoid层进行分类后会生成5个输出结果。假设相应的权重分别表示为$ {\omega }_{i}\left(i=\mathrm{1, 2}, \mathrm{3, 4}, 5\right) $，则总的损失函数L可定义为：

$ L=\sum\limits_{i=1}^{5}{\omega }_{i}{L}_{\mathrm{s}\mathrm{i}\mathrm{d}\mathrm{e}}^{i} $

(7)

其中：$ {L}_{\mathrm{s}\mathrm{i}\mathrm{d}\mathrm{e}}^{i} $表示来自第i侧输出的损失值，是平衡二元交叉熵损失函数和Dice系数损失函数的组合，其表达式为：

$ {L}_{\mathrm{s}\mathrm{i}\mathrm{d}\mathrm{e}}^{i}={L}_{\mathrm{b}\mathrm{c}\mathrm{e}}^{i}+\lambda {L}_{\mathrm{d}\mathrm{i}\mathrm{c}\mathrm{e}}^{i} $

(8)

其中：$ {L}_{\mathrm{b}\mathrm{c}\mathrm{e}}^{i} $表示平衡的二元交叉熵损失函数；$ {L}_{\mathrm{d}\mathrm{i}\mathrm{c}\mathrm{e}}^{i} $是Dice系数损失函数；$ \lambda $表示平衡这2个损失函数的权重。

1.4 模型训练

本文所提模型由Keras和TensorFlow端到端开源机器学习平台实现，由配备Intel i9-9900KF(3.6 GHz、8核、32 GB RAM)和单个NVIDIA GTX 2080 Ti GPU的工作站作为硬件平台。实验过程中批处理量大小设置为4，迭代次数设置为40，使用学习率为1×10^-4的Adam优化器对模型训练过程进行优化。模型中图像数据的输入尺寸为768×768×3像素，数据的输出尺寸为768×768×1像素。对于经过预处理后的任意大小的输入图像，均能以端到端的方式训练模型。

2 实验结果与分析

在实验部分，本文首先对损失函数中平衡因子的取值问题进行相关实验，接着证明多边输出策略对于本文所探究问题的有效性，最后通过与其他模型的对比，验证所提模型的优越性。

2.1 实验数据集

实验中采用的数据集是空客船舶检测挑战比赛中提供的公共数据集^[22]，该数据集包含的卫星图像总大小超过30 GB，并且有近1/4的图像数据中有船舶目标。另外，比赛提供了以CSV文件格式存储的图像标记信息，其中列出了所有图像的ID及其对应的像素坐标。这些坐标表示标记船舶的分割框，没有像素坐标意味着图片中没有任何船只。但由于计算资源的限制，本文从完整的数据集中随机抽样10 000张图像，并选择其中的5 000张图像作为训练集，2 000张图像作为验证集，3 000张图像作为测试集。数据集中的部分船舶图像与对应标签可视化图像如图 3所示。

	Download: JPG larger image
图 3 空客船舶数据集示例 Fig. 3 Examples of airbus ship data set

2.2 评估指标

本文选择图像语义分割领域常用的Dice Coefficient和IOU评测指标对所提模型进行评估，2个指标的含义如图 4所示。其中：Dice系数是一种集合相似度度量函数，通常用于计算2个样本的相似度。IOU相当于2个区域重叠的部分除以2个区域的集合部分得出的结果。

	Download: JPG larger image
图 4 模型评估指标 Fig. 4 Model evaluation indexes

2.3 实验结果 2.3.1 损失函数对比实验

损失函数在最终分割效果中起着重要作用。本文结合二元交叉熵损失函数和Dice系数损失函数作为模型在训练过程中改进的损失函数，2个函数的权重系数由平衡参数$ \lambda $决定。将$ \lambda $从0变化到1，并对相应的评测指标变化进行可视化，结果如图 5所示。

	Download: JPG larger image
图 5 平衡参数对比实验结果 Fig. 5 Comparison experimental results of balance parameter

从图 5中可以看出，当$ \lambda $设为0时，只使用二元交叉熵损失函数，此时Dice和IOU的得分较低。2个评价指标准确度值随着$ \lambda $的增加而增加，验证了结合二元交叉熵损失函数和Dice系数损失函数的有效性。然而，随着$ \lambda $的进一步增加，2个测评指标的值呈震荡下降趋势。其中Dice和IOU在$ \lambda $为0.5时达到最大值，这意味着当二元交叉熵损失函数和Dice系数损失函数的权重系数相等且为0.5时，对模型的参数更新作用最好。因此，后序实验将平衡参数$ \lambda $设置为0.5。

2.3.2 添加MSOF的对比实验

为改善所提深层网络的收敛性，并学习从低到高层次的多尺度特征信息，使用MSOF策略对UNet++网络输出的结果进行融合，得到最终的船舶检测分割图。表 1为以Dice和IOU作为评估指标，进行5次重复实验的结果。由表 1中可知，使用边输出融合策略后，Dice和IOU评估分数分别增加了6.1、3.5个百分点，验证了通过使用MSOF策略进一步提高船舶检测分割准确度的可行性。

下载CSV 表 1 多边输出融合策略对所提模型的DC和IOU的影响 Table 1 The influence of multilateral output fusion strategy on the DC and IOU of the proposed model

添加MSOF策略后，模型对船舶目标进行检测分割的结果如图 6所示。

	Download: JPG larger image
图 6 船舶目标分割图 Fig. 6 Segmentation maps of ship targets

从图 6中可以看出，模型在背景干扰较少的情况下，具有较高的检测与分割精度，随着背景干扰物体的增加，可能会影响UNet++网络提取正确的船舶目标区域，得到错误的目标检测结果。

2.3.3 模型的对比实验

为验证本文所提模型在船舶检测分割任务上性能的优越性，将所提模型与SCRDet^[23]、VGG-16^[24]、ResNet^[25]、UNet^[26]、Mask R-CNN^[27]、Mask Scoring R-CNN^[28]等先进的深度学习模型进行比较。

在SCRDet网络训练过程中将权重衰减系数设置为1×10^-4，动量参数设置为0.9，学习率设置为为1×10^-6。VGG-16模型包括13层卷积层及3层全连接层，通过卷积、池化操作进行图像特征提取，通过全连接层进行分类。ResNet-34模型包括34层卷积层、1层池化层、1层层全连接层，批处理量大小设置为64，全连接层后的dropout层的丢弃概率设置为0.5。Fine-tuning CNN模型使用在ImageNet数据集上预训练好的模型权重作为初始值开始训练，使用RMSProp算法作为优化器函数，并将学习率设置为1×10^-3。Mask R-CNN模型的权重衰减系数设置为1×10^-4，学习率设置为1×10^-3，模型的输入图像尺寸为768$ \times $768$ \times $3像素。Mask ScoringR-CNN的Maskiou分支的4个卷积层的卷积核大小设为3，数量设为256，对于3个全连接层，实验中将前2层的神经元设置为1 024，最后一层设置为2(真实的分类类别数)。UNet网络中的卷积核大小设置为3，使用ReLU和最大池化分别作为激活函数和池化函数，模型的输入图像尺寸为768$ \times $768$ \times $3像素。在UNet++网络中，批处理量大小设置为8，卷积核大小设置为3，卷积步长设置为2，且输入图像尺寸也为768$ \times $768$ \times $3像素。将本文所提模型的学习率设置为1×10^-4，使用Adam算法作为优化器函数，损失函数的平衡参数设置为0.5，dropout层的丢弃概率设置为0.2，训练迭代次数与上述对比模型统一设置为40次。不同模型的检测和识别的准确度结果如表 2所示。

下载CSV 表 2 不同模型的准确度对比 Table 2 Comparison of different model's accuracy

分析表 2可知，VGG-16、Mask R-CNN等传统深度学习模型存在目标区域提取偏差大、模型的计算冗余度高等问题，导致模型的分割准确度大幅降低。UNet与UNet++网络有效地结合低分辨率信息(提供物体类别识别依据)和高分辨率信息(提供精准分割定位依据)，在一定程度上提高了目标检测分割准确度。而本文所提UNet++with MSOF模型，在UNet++网络提取图像特征的基础上，采用MSOF策略对模型的训练过程进行深度监控，并融合不同语义层次的图像特征，进一步提高了船舶目标分割的精准度。

图 7所示为本文所提模型对船舶目标检测识别的结果(彩色效果见《计算机工程》官网HTML版)，其中标记框和船舶分割结果是检测实例图像的真实船舶的ground truth信息，而模型的预测结果由预测准确率表征。

	Download: JPG larger image
图 7 目标检测识别的结果 Fig. 7 Results of target detection and recognition

由图 7可知，在不同尺度、不同环境下的船舶目标均能被模型有效地识别并分类，表明通过与MSOF策略的结合，UNet++网络使用全局信息和细粒度信息生成具有高空间精度的特征图，完成了对船舶目标精准的检测识别。

为定量分析不同模型在训练过程中的收敛性和准确性等指标情况，对各个模型训练过程的准确度变化作可视化分析，评测指标IOU的变化如图 8所示。

	Download: JPG larger image
图 8 不同模型的准确度对比 Fig. 8 Accuracy comparison of different models

分析图 8可知，相比于其他模型，本文所提模型在迭代次数为10次时，准确度已超过90%；在迭代次数达30次后，模型训练的准确度变化较小。趋于收敛，表明其具有良好的稳定性和鲁棒性。对比最终的船舶目标检测准确度可知，本文所提模型具有更高的检测准确度。

3 结束语

本文提出一种新的船舶目标检测与识别模型，利用具有密集跳过连接结构的UNet++网络提取图像的多尺度特征，采用残差块策略促进深度神经网络的收敛并捕获更详细的图像特征信息。使用MSOF策略融合不同语义层次的多尺度图像输出特征，生成最终检测和分割结果。为降低数据集中样本不均衡对模型准确度的影响，将二元交叉熵损失函数与Dice系数损失函数结合使用。在空客船舶检测挑战数据集上的实验结果表明，该模型能够对遥感卫星图像中的船舶目标进行准确检测，测试的Dice系数和IOU系数分别达97.3%和96.8%，与ResNet-34、UNet++等模型相比，船舶目标检测和分割的准确度均有所提高。但目前仍存在卫星图像采集困难、标签制作难度大等问题，下一步将通过利用弱监督学习、样本生成等技术，提高对小样本船舶数据集的检测和分割精度。

参考文献

[1]	闫长健, 张艳艳. 基于贝叶斯网络的船舶碰撞事故态势分析[J]. 广州航海学院学报, 2020, 28(4): 5-9, 22. YAN C J, ZHANG Y Y. Situation analysis of ship collision accidents based on Bayesian network[J]. Journal of Guangzhou Institute of Navigation, 2020, 28(4): 5-9, 22. (in Chinese)
[2]	QU N, ZUO J, CHEN J, et al. Series arc fault detection of indoor power distribution system based on LVQ-NN and PSO-SVM[J]. IEEE Access, 2019, 7: 184020-184028. DOI:10.1109/ACCESS.2019.2960512
[3]	林封笑, 陈华杰, 姚勤炜, 等. 基于混合结构卷积神经网络的目标快速检测算法[J]. 计算机工程, 2018, 44(12): 222-227. LIN F X, CHEN H J, YAO Q W, et al. A fast target detection algorithm based on hybrid structure convolutional neural network[J]. Computer Engineering, 2018, 44(12): 222-227. (in Chinese)
[4]	段敬雅, 李彬, 董超, 等. 基于YOLOv2的船舶目标检测分类算法[J]. 计算机工程与设计, 2020, 41(6): 1701-1707. DUAN J Y, LI B, DONG C, et al. Ship target detection and classification algorithm based on YOLOv2[J]. Computer Engineering and Design, 2020, 41(6): 1701-1707. (in Chinese)
[5]	QU N, LI Z, ZUO J, et al. Fault detection on insulated overhead conductors based on DWT-LSTM and partial discharge[J]. IEEE Access, 2020, 8: 87060-87070. DOI:10.1109/ACCESS.2020.2992790
[6]	XIE X Y, XU Q Z, HU L. Fast ship detection from optical satellite images based on ship distribution probability analysis[C]//Proceedings of the 4th International Workshop on Earth Observation and Remote Sensing Applications. Washington D.C., USA: IEEE Press, 2016: 411-416.
[7]	YU J Y, DAN H, WANG L Y, et al. A real-time on-board ship targets detection method for optical remote sensing satellite[C]//Proceedings of the 13th International Conference on Signal Processing. Washington D.C., USA: IEEE Press, 2016: 243-250.
[8]	YU J Y, DAN H, WANG L Y, et al. On-board ship targets detection method based on multi-scale salience enhancement for remote sensing image[C]//Proceedings of the 13th International Conference on Signal Processing. Washington D.C., USA: IEEE Press, 2016: 123-129.
[9]	LENG X, JI K, ZHOU S, et al. Ship detection based on complex signal kurtosis in single-channel SAR imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(9): 6447-6461. DOI:10.1109/TGRS.2019.2906054
[10]	CHENG D, MENG G, XIANG S, et al. Fusionnet: edge aware deep convolutional networks for semantic segmentation of remote sensing harbor images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(12): 5769-5783. DOI:10.1109/JSTARS.2017.2747599
[11]	LIN H, SHI Z, ZOU Z. Fully convolutional network with task partitioning for inshore ship detection in optical remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(10): 1665-1669. DOI:10.1109/LGRS.2017.2727515
[12]	JIAO J, ZHANG Y, SUN H, et al. A densely connected end-to-end neural network for multiscale and multiscene SAR ship detection[J]. IEEE Access, 2018, 6: 20881-20892. DOI:10.1109/ACCESS.2018.2825376
[13]	LI Q, MOU L, LIU Q, et al. HSF-Net: multiscale deep feature embedding for ship detection in optical remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(12): 7147-7161. DOI:10.1109/TGRS.2018.2848901
[14]	WANG Z C, DU L, MAO J S, e t, a l. SAR target detection based on SSD with data augmentation and transfer learning[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(1): 150-154. DOI:10.1109/LGRS.2018.2867242
[15]	WANG Z C, DU L, ZHANG P, e t, a l. Visual attention-based target detection and discrimination for high-resolution SAR images in complex scenes[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(4): 1855-1872. DOI:10.1109/TGRS.2017.2769045
[16]	AI J Q, TIAN R T, LUO Q W, e t, a l. Multi-scale rotation-invariant haar-like feature integrated CNN based ship detection of multiple-target environment in SAR imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(12): 10070-10087. DOI:10.1109/TGRS.2019.2931308
[17]	SHI Q Q, LI W, ZHANG F, et al. Deep CNN with multi-scale rotation invariance features for ship classification[J]. IEEE Access, 2018, 6: 38656-38668. DOI:10.1109/ACCESS.2018.2853620
[18]	王磐, 强彦, 杨晓棠, 等. 双注意力3D-UNet肺结节分割网[J]. 计算机工程, 2021, 47(2): 307-313. WANG P, QIANG Y, YANG X T, et al. Dual attention 3D-UNet lung nodule segmentation network[J]. Computer Engineering, 2021, 47(2): 307-313. (in Chinese)
[19]	KLAMBAUER G, UNTERTHINER T, MAYR A, et al. Self-normalizing neural networks[C]//Proceedings of Advances in Neural Information Processing Systems. New York, USA: ACM Press, 2017: 971-980.
[20]	DEMIR B, BOVOLO F, BRUZZONE L. Updating land-cover maps by classification of image time series: a novel change-detection-driven transfer learning approach[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 51(1): 300-312.
[21]	JIN S, YANG L, DANIELSON P, et al. A comprehensive change detection method for updating the national land cover database to circa 2011[J]. Remote Sensing of Environment, 2013, 132(11): 159-175.
[22]	AIRBUS. Airbus ship detection challenge. [EB/OL]. [2020-05-10]. https://www.kaggle.com/c/airbus-ship-detection.
[23]	YANG X, FU K, SUN H, et al. R2CNN++: multi-dimensional attention based rotation invariant detector with robust anchor strategy[EB/OL]. [2020-05-10]. https://arxiv.org/abs/1811.07126.
[24]	FALQUETO L, SÁ A L, PAES R, et al. Oil rig recognition using convolutional neural network on sentinel-1 SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(8): 1329-1333. DOI:10.1109/LGRS.2019.2894845
[25]	YANG R, HU Z, LIU Y, et al. A novel polarimetric SAR classification method integrating pixel-based and patch-based classification[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 17(3): 431-435.
[26]	HORDⅡUK D, OLⅡNYK I, HNATUSHENKO V, et al. Semantic segmentation for ships detection from satellite imagery[C]//Proceedings of the 39th International Conference on Electronics and Nanotechnology. Washington D.C., USA: IEEE Press, 2019: 454-457.
[27]	HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN. CoRR[EB/OL]. [2020-05-10]. https://arxiv.org/abs/1703.06870.
[28]	HUANG Z, HUANG L, GONG Y, et al. Mask scoring R-CNN[C]//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 6409-6418.