基于无锚框分割网络改进的实例分割方法

引用本文

刘腾, 刘宏哲, 李学伟, 等. 基于无锚框分割网络改进的实例分割方法[J]. 计算机工程, 2022, 48(9), 239-247,253. DOI: 10.19678/j.issn.1000-3428.0062846.

LIU Teng, LIU Hongzhe, LI Xuewei, et al. Improved Instance Segmentation Method Based on Anchor-Free Segmentation Network[J]. Computer Engineering, 2022, 48(9), 239-247,253. DOI: 10.19678/j.issn.1000-3428.0062846.

基金项目

国家自然科学基金（61871039，62102033，62171042，61906017）；北京市教委项目（KM202111417001，KM201911417001）；视觉智能协同创新中心项目（CYXC2011）；北京联合大学学术研究项目（ZB10202003，ZK40202101，ZK120202104）；北京联合大学研究生科研创新项目（YZ2020K001）

通信作者

李学伟（通信作者），教授、博士生导师

作者简介

刘腾（1994—），男，硕士研究生，主研方向为计算机视觉、深度学习;
刘宏哲，教授、博士;
徐成，讲师、博士

文章历史

收稿日期：2021-09-30
修回日期：2021-11-25

Contents Abstract Full text Figures/Tables PDF

基于无锚框分割网络改进的实例分割方法

刘腾^1,2 , 刘宏哲^1,2 , 李学伟^1,2 , 徐成^1,2

1. 北京联合大学北京市信息服务工程重点实验室, 北京100101;
2. 北京联合大学机器人学院, 北京 100101

收稿日期：2021-09-30；修回日期：2021-11-25

基金项目：国家自然科学基金（61871039，62102033，62171042，61906017）；北京市教委项目（KM202111417001，KM201911417001）；视觉智能协同创新中心项目（CYXC2011）；北京联合大学学术研究项目（ZB10202003，ZK40202101，ZK120202104）；北京联合大学研究生科研创新项目（YZ2020K001）

作者简介：刘腾（1994—），男，硕士研究生，主研方向为计算机视觉、深度学习; 刘宏哲，教授、博士; 徐成，讲师、博士.

通信作者：李学伟（通信作者），教授、博士生导师.

E-mail: lixuewei@buu.edu.cn

摘要：在无人驾驶应用场景中，现有无锚框实例分割方法存在大目标特征覆盖小目标特征、缺少两阶段检测器中的感兴趣区域对齐操作、忽略类别分支对掩膜分支提供的位置和空间信息等问题，导致特征提取不充分且无法准确获取目标区域。提出一种改进的无锚框实例分割方法。结合可变形卷积，设计编码-解码特征提取网络提取高分辨率特征，以增强对小目标特征的提取能力，并采用空洞卷积和合并连接的方式，在不增加计算量的前提下有效融合多种分辨率的特征。在此基础上，将注意力机制引入到类别分支中，同时设计结合空间信息和通道信息的信息增强模块，以提高目标检测能力。实验结果表明，该方法在COCO 2017和Cityscapes数据集上平均精度和平均交并比分别为41.1% 和83.3%，相比Mask R-CNN、SOLO、Yolact等方法，能够有效改进实例分割效果并具有较优的鲁棒性。

Improved Instance Segmentation Method Based on Anchor-Free Segmentation Network

LIU Teng^1,2 , LIU Hongzhe^1,2 , LI Xuewei^1,2 , XU Cheng^1,2

1. Beijing Key Laboratory of Information Service Engineering, Beijing Union University, Beijing 100101, China;
2. College of Robotics, Beijing Union University, Beijing 100101, China

Abstract: In autonomous driving application scenarios, the existing anchor-free instance segmentation methods have problems such as large target features covering small target features, lack of a Region Of Interest (ROI)-Align operation in the two-stage detector, ignoring the position and spatial information provided by the regression branch to the mask branch, resulting in insufficient feature extraction and unable to accurately obtain the target region.An improved method for instance, anchor-free segmentation is proposed.Combined with deformable convolution, a encoder-decoder feature extraction network is designed to extract high-resolution features and enhance the extraction ability of small target features.The dilated convolution and merging connection method is adopted to effectively fuse the features of multiple resolutions without increasing the computation amount.On this basis, the attention mechanism is introduced into the regression branch, and an information enhancement module combining spatial and channel information is designed to improve the ability of target detection.The experimental results show that the Average Precision(AP) and mean Intersection over Union(mIoU) of the proposed method on the COCO 2017 and Cityscapes datasets are 41.1% and 83.3%, respectively.Compared with Mask R-CNN, SOLO, Yolact, and other methods, the proposed method can effectively improve the effect of instance segmentation and has better robustness.

开放科学（资源服务）标志码（OSID）：

0 概述

随着深度学习的发展，卷积神经网络受到人们越来越多的关注，并取得一定的进展，基于深度学习的实例分割方法被提出。与目标检测方法和语义分割方法相比，实例分割方法不仅能预测每个实例的位置，而且可以对目标进行像素级分割，并适用于自动驾驶场景中，为自动驾驶决策提供预处理信息。

实例分割方法主要有两阶段范式、单阶段范式、自上向下和自底向上范式。Mask R-CNN^[1]及其改进网络根据自上向下的两阶段范式，通过候选框来检测目标区域并微调候选框，在每个候选框中进行分类以生成边界框和目标掩膜。两阶段范式能提高分割准确性，但依赖于多个分支和较大的参数计算，导致实时分割困难。基于锚框的单阶段目标检测方法主要有YOLO^[2]和RetinaNet^[3]，无锚框的检测方法有FCOS^[4]和CenterNet^[5]等。单阶段实例分割主要在目标检测网络的基础上增加分割分支来实现实例分割，在保证分割速度的同时具有较高的分割精度。

单阶段、无锚框的分割方法具有检测器架构简单且无需预先生成锚框的特点，大幅加快算法的运行速度。但是该方法存在尺度不对齐、区域不对齐和任务不对齐的问题。许多无锚框实例分割方法多采用ResNet与特征金字塔（Feature Pyramid Network，FPN）相结合的结构来学习多尺度特征，以实现特征提取的尺度不变性，然而不同尺度的层级特征也有所区别，造成大目标特征覆盖小目标特征，导致特征提取不充分。无锚框方法缺少两阶段检测器中的ROI-Align操作，因此，无法准确获取目标区域，需要从特征图上直接学习到目标的位置信息和轮廓特征。大多数无锚框实例分割方法并行通过类别分支和掩膜分支进行图像分割，分割结果需要平衡两个分支的任务，容易忽略类别分支对掩膜分支的指导作用。

本文提出基于无锚框分割网络改进的实例分割方法。通过构建编码-解码特征提取网络，提取高分辨率特征，利用空洞卷积代替普通卷积以扩大感受野，同时采用合并连接方式融合特征。在此基础上，将注意力机制引入到类别分支中，设计信息增强模块，并将信息共享给掩膜分支，从而改进网络的分割效果。

1 相关工作

现有实例分割方法多基于目标检测方法进行改进，传统的特征提取网络结构如图 1所示。

	Download: JPG larger image
图 1 传统的特征提取网络结构 Fig. 1 Structure of traditional feature extraction network

1.1 单阶段目标检测方法

主流目标检测方法包括单阶段和两阶段目标检测。

两阶段目标检测方法主要有Fast R-CNN^[6]、Faster R-CNN^[7]、YOLO^[8-9]、SSD^[10]等。该方法多基于区域建议网络提取感兴趣的区域，这种处理限制模型的推理速度。而单阶段目标检测方法直接通过主干网络提取目标的类别和位置信息，推理速度相较于两阶段目标检测方法更快。在此基础上，无锚框目标检测方法被提出。在YOLO检测方法中，图像被分成S×S的网格，同时预测包围框和物体的中心，并直接对每一个网格中的潜在目标进行分类和回归。文献[11]将YOLO网络结构用于行人检测，通过聚类分析选取初始候选框，利用重组特征图和扩展横向候选框数量构建基于YOLO网络的行人检测器YOLO-P。CenterNet^[5]基于关键点估计原理对中心点进行预测，并直接回归出目标的宽、高（W，H）向量来构建目标的边界框，从而避免在训练过程中处理大量的候选区域和计算真值框与预测框的交并比（IoU）所带来的计算开销。在此基础上，通过最大池化提取中心热图上的峰值点，以避免采用非最大抑制（NMS）进行后处理。FCOS是一种基于全卷积网络（FCN）^[12]的逐像素目标检测方法，并提出以中心点位置来进行检测的方法。该方法通过一个四维向量定义边界框，并计算预测中心以及从中心到边界框左、上、右、下的距离，不仅有助于确定物体的大小，还可以区分两个或多个物体之间的重叠部分。

1.2 两阶段实例分割方法

全卷积分割网络的提出促进了语义分割和实例分割方法的发展，并基于编码-解码特征提取网络结构，大幅提高网络的卷积效率。

Mask R-CNN采用自上而下的方法，在一个建议区域内确定像素与物体之间的关系，利用Fast R-CNN进行目标检测，并通过添加额外的分割分支进行实例分割任务。因此，Mask R-CNN有分类、坐标回归和分割三个输出分支。该方法在目标检测结果的基础上对候选区域的目标进行像素级分割，以提高实例分割的准确性，但采用复杂的特征金字塔结构进行特征提取，增加了网络的复杂度。FCIS^[13]是第一个端到端的实例分割网络，通过对目标实例的分数进行映射，以自上而下的方式引入上下文信息，并在分割任务中充分共享上下文信息，提高实例分割的准确性。BlendMask^[14]通过FCOS目标检测网络获得目标的位置后，在对应每一个建议区域上基于特征注意力机制，将顶层信息和底层信息相结合，最终输出一个高分辨率的掩膜。该方法在提高分割精度的同时增加了计算复杂度。文献[15]在Mask R-CNN的基础上，采用轻量级骨干网络减少网络参数并压缩模型体积，通过优化FPN与骨干网络的卷积结构，使得高层和低层结构之间的特征信息能够完整传递。文献[16]在Mask R-CNN基础上引入自下而上路径和注意力机制进行目标检测和分割。

两阶段实例分割方法具有较优的分割精度，但是分割速度难以满足现阶段的应用场景要求。

1.3 单阶段实例分割方法

两阶段实例分割方法主要是在一个边界框中进行实例分割，属于典型的自上而下范式。自上向下和自下向上方法都是在寻找对象与像素之间的关系，即语义与像素之间的关系。近年来，实例分割方法的整体结构趋向于简单化，在不增加复杂计算量的情况下提高目标分割性能。因此，自底向上的方法应运而生，通过将像素分组到图像中的一组候选掩膜中，再通过嵌入、聚集和组合来生成最终的实例掩膜。其中特征提取结构采用ResNet与特征金字塔相结合的传统结构，如图 1所示。

Yolact^[17]是第一个可以实时进行实例分割的网络，其结构如图 1（c）所示。该方法在RetinaNet的基础上进行改进，通过质子网络生成每幅图片的原型掩膜，同时预测每个目标实例和包围框得到k个线性系数（掩模系数），并结合生成的线性系数，采用线性组合的方式生成实例掩膜。但是其特征提取部分仍采用ResNet与FPN相结合的结构，容易造成小目标特征提取不充分，并且类别分支和掩膜分支的预测结果需要按照系数进行叠加，存在两个任务不匹配的问题。

单阶段、无锚框实例分割网络SOLO^[18]通过一种新颖的方式表示语义与像素之间的关系。该方法认为实例分割是检测目标中心点和目标大小的过程，将图像分成S×S个格子，每个格子表示目标在图像上的位置，将每个像素的位置信息投影到特征图的通道维度上，通过对应的通道特征图预测属于该类别的实例掩膜。因此，该方法保留了目标的结构化几何信息，有助于对目标像素进行有效分割。

上述方法将目标的位置预测由回归问题转化为分类问题。其意义在于它是一种直观、简单的分类方法，并且不依赖于后处理方法，仅通过固定数量的卷积对不确定数量的目标实例进行建模，提高分割效率。但是特征提取部分同样采用简单的ResNet与FPN相结合的结构，存在小目标特征提取不充分的问题。TensorMask^[19]采用复杂的滑动窗方法生成目标掩膜，虽然具有较高的掩膜质量，但是产生较大的计算开支。PolarMask/PolarMask++^[20-21]把实例分割问题转化为实例中心点分类问题和密集距离回归问题，采用极坐标方式把目标中心向左、右、上、下辐射出36个固定方向的线，将预测的目标边界作为终点以得到36个预测点，从而获得目标的轮廓表示，同时将这些预测点连接起来得到最终的目标轮廓和掩膜。由于目标形状具有多样性的特点，并且PolarMask/PolarMask++的类别分支、极坐标中心分支和掩膜生成分支没有很好的关联，造成任务不对齐，因此无法解决个别不规则目标的分割问题。文献[22]在双流网络的基础上，通过引入先验知识和改进特征融合模块，自适应融合来自不同流的特征并送入分割模块中，达到单阶段实例分割的目的。文献[23]在单阶段实例分割网络的基础上，通过改进特征提取网络并引入可变形卷积等方法，提高番茄叶部病害区域的分割效率。文献[24]在单阶段实例分割网络的基础上提出注意力残差多尺度特征增强网络，分别从通道和空间角度对特征进行选择增强，并在特征金字塔基础上进一步增强尺度跨度较大的特征融合信息，以解决任务不对齐的问题。

因此，单阶段实例分割方法具有结构简单、推理速度快，分割质量可以与传统两阶段分割方法相媲美的优点。但是，此类方法通常使用ResNet及引入FPN的方式提取特征，难以有效提取多尺度目标，尤其是小尺度目标的特征。大多数网络忽略了类别分支能指导掩膜分支进行目标分割。因此，本文通过引入新的编码-解码特征提取网络，信息增强模块和增加类别分支、掩膜分支信息共享的方法来解决上述问题。

2 本文方法

单阶段实例分割方法通常采用ResNet和FPN结构相结合的方式提取特征，容易造成小目标特征丢失，导致特征提取不充分。像素级的分割（对像素进行分类预测）对卷积的感受野要求较高，但大多数网络采用简单的卷积操作，无法提供更广泛的感受野。在处理目标检测和掩膜生成任务时采用并行的两个分支，由于未优先处理目标检测任务且没有进行有效的信息共享，因此忽略了目标检测任务对整体分割任务的影响。

针对上述问题，本文使用改进的具有编码-解码^[25]结构的网络作为特征提取结构，其后有目标类别分支和掩膜分支，并且在类别分支中使用注意力机制增加空间信息和通道信息，并构建信息增强模块，同时在两个分支之间进行信息共享。在交通场景下的小目标主要有交通标志牌、远处的行人和车辆等，具有目标重叠、尺度多样的特点。改进的编码-解码特征提取网络通过并行的四种尺度提取路径提取多尺度目标的特征。在该结构中使用可变形卷积^[26]、空洞卷积^[27]等方法增大卷积时的感受野。在类别分支中利用信息增强模块来优先提高网络的目标检测能力，并且与掩膜分支进行信息共享，以指导掩膜分支，从而提高交通场景中目标的掩膜生成能力。本文网络整体架构如图 2所示。

	Download: JPG larger image
图 2 本文网络整体架构 Fig. 2 Overall framework of the proposed network

2.1 编码-解码特征提取网络

HRNet^[28]用于人体姿态识别，主要输出可靠的高分辨率特征。针对人体姿态检测和目标检测问题，传统的目标检测方法仅采用高分辨率到低分辨率的特征，再从低分辨率特征中恢复出高分辨率特征的方式，例如特征金字塔结构。特征金字塔可以提取多尺度的特征，但是特征分辨率的降低会导致小尺度目标信息丢失，例如，在人体姿态识别中，需要定位出人体的解剖关键点，如肘部、手腕、各关节等，都属于小尺度的目标。传统方法使用简单的ResNet进行特征提取，难以回归出关键点的位置，最终导致特征提取不充分。因此，特征提取结构提取出更高分辨率的特征能够推进后续任务的有效进行。

在实例分割任务中需要同时对目标进行检测、识别和分割，并提取更高分辨率的特征。传统的实例分割方法采用基于FPN结构的特征提取方式，难以满足输出高分辨率特征的要求，存在尺度不对齐的问题，不能很好地适应小目标分割的场景需求。编码-解码特征提取网络结构常用于实例分割网络中的特征提取。因此，本文采用新的特征提取方法，融合编码-解码特征提取结构并提取高分辨率特征，以解决小尺度目标的分割问题，在精度和速度之间实现最佳平衡。

本文采用编码-解码的方式，并行连接组成骨干网络，通过重复融合高到低子网络产生的高分辨率特征来生成可靠的高分辨率特征。该编码-解码特征提取网络上逐渐增加高分辨率到低分辨率的子网络，并将多分辨率子网并行连接，包含4个并行子网的网络结构，在高分辨率特征中逐渐并行加入低分辨率特征图的子网络，实现在不同网络之间的多尺度融合与特征提取。编码-解码特征提取网络结构如图 3所示，横向表示模型深度变化，纵向表示特征图尺度变化。第一行为主干网络（特征图为高分辨率），逐渐并行加入分辨率低的子网络，将高分辨率特征和低分辨率特征相融合，在各并行网络之间相互交换信息，实现多尺度特征融合与特征提取。图 3中向上的箭头表示上采样操作，向下的箭头表示下采样。在上采样操作中，本文通过可变形卷积代替双线性插值算法，根据目标尺度动态地调整、扩大感受野，有助于提高对小目标特征的提取能力，从而解决多尺度目标分割中尺度不对齐问题。

	Download: JPG larger image
图 3 编码-解码特征提取网络结构 Fig. 3 Structure of encoder-decoder feature extraction network

2.2 空洞卷积融合与特征改进

感受野的扩大使得输出特征图中包含图片的全局信息，但是无锚框模型缺少类似Faster-RCNN中的ROI-Align操作，因此无法根据边界框获取到更精准的小尺度特征，导致内部细节信息和空间层级化信息丢失。本文将上述问题称为区域不对齐问题。这些问题使得分割任务处在瓶颈期，无法继续提高分割精度，但是空洞卷积的设计能够解决上述问题。

卷积核为3×3的空洞卷积，在不增加计算量的情况下可将卷积的感受野增大到7×7，相当于一个卷积核为7×7普通卷积。其目的是在没有池化操作和信息损失的情况下扩大感受野，使得每个卷积的输出都包含较大范围的信息。因此，本文使用3×3空洞卷积，空洞率为2进行下采样操作，在不降低卷积速度的同时减少信息的损耗。空洞卷积示意图如图 4所示。图 4（a）表示空洞率为1的3×3空洞卷积。图 4（b）表示空洞率为2的3×3空洞卷积，实际的卷积核还是3×3，感受野相当于7×7卷积的感受野。图 4（c）表示空洞率为4的空洞卷积，感受野相当于15×15的卷积。在编码-解码特征提取网络结构中采用空洞卷积和合并连接的方式，以获得更精准的多尺度目标特征，从而解决区域不对齐问题。文献[29]同样基于此原理提出基于空洞卷积的分割方法。

	Download: JPG larger image
图 4 空洞卷积示意图 Fig. 4 Schematic diagram of dilated convolution

2.3 空间信息与通道信息增强

无锚框实例分割网络（SOLO）仅通过类别分支和掩膜分支进行实例分割。其中，类别分支将图像分成S×S个网格进行处理，物体的中心（质心）落在某个网格中，该网格主要预测该物体的语义类别和实例掩膜。掩膜分支预测物体的语义类别，每个网格预测类别维度为S×S×C，其中，C为目标物体类别的个数。当每个网格与物体的中心区域存在大于阈值的重叠时，则认为是正样本。每个正样本都会有对应类别的实例掩膜。实验结果表明，采用这种简单的两类分支分别进行目标检测和图像分割任务，类别分支能够对多尺度目标进行检测。检测效率的提升能改进整体网络对多尺度目标的分割效果，尤其是小目标的分割效果。因此，本文在该分支中增加信息增强模块，提高该分支对目标的回归能力。

信息增强模块结构如图 5所示，包含通道增强模块（Channel Enhancement Module，CEM）和空间增强模块（Spatial Enhancement Module，SEM），分别进行通道与空间上的信息增强。该模块添加在类别分支中，输出回归结果。

	Download: JPG larger image
图 5 信息增强模块结构 Fig. 5 Structure of information enhancement module

通道增强模块结构如图 6所示。通道增强模块将输入的特征图F^H×W×C分别经过基于宽度、高度的全局最大池化和全局平均池化，生成两个1×1×C的特征图，并将其分别送入一个两层的多层感知机（Multilayer Perceptron，MLP）中，将MLP输出的特征进行加和操作，再经过Sigmoid激活操作，生成增强后的通道特征。

	Download: JPG larger image
图 6 通道增强模块结构 Fig. 6 Structure of channel enhancement module

通道增强模块的计算如式（1）所示：

$ \begin{array}{l}{M}_{c}\left(F\right)=\sigma (\mathrm{M}\mathrm{L}\mathrm{P}\left(\mathrm{A}\mathrm{v}\mathrm{g}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\right(F\left)\right))+\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \omega \left(\mathrm{M}\mathrm{L}\mathrm{P}\right(\mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\left(F\right)\left)\right)\end{array} $

(1)

其中：$ F $为输入特征图；$ \mathrm{A}\mathrm{v}\mathrm{g}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l} $、$ \mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l} $分别为平均池化和最大池化；$ \sigma $、$ \omega $为两个操作的权重，分别取1和0.5。

空间增强模块结构如图 7所示。

	Download: JPG larger image
图 7 空间增强模块结构 Fig. 7 Structure of spatial enhancement module

空间增强模块将通道增强模块输出的特征图作为输入的特征图，首先进行基于通道的全局最大池化和全局平均池化，得到两个H×W×C的特征图，然后将这两个特征图基于通道信息进行通道拼接操作，经过一个7×7卷积降维为一个通道，即H×W×1，再经过Sigmoid激活函数得到空间增强特征，最后将通道增强和空间增强这两个模块以图 5所示的方式串行连接在一起，达到增强信息的目的。空间增强模块的计算如式（2）所示：

$ {M}_{s}\left(F\right)=\partial \left({f}^{3\times 3}\right(\left(\mathrm{A}\mathrm{v}\mathrm{g}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\right(F);\mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}(F\left)\right))·F) $

(2)

其中：$ \partial $为Sigmoid激活函数；$ F $为输入特征图；$ \mathrm{A}\mathrm{v}\mathrm{g}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l} $和$ \mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l} $分别为平均池化和最大池化。

2.4 损失函数

本文的损失函数如式（3）所示：

$ L={L}_{\mathrm{c}\mathrm{a}\mathrm{t}\mathrm{e}}+\delta {L}_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}} $

(3)

其中：$ {L}_{\mathrm{c}\mathrm{a}\mathrm{t}\mathrm{e}} $为语义类别分类中常用的Focal Loss；$ {L}_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}} $为本文使用的Dice Loss。Dice Loss如式（4）所示：

$ D=1-\frac{2\left|A\bigcap B\right|}{\left|A\right|+\left|B\right|} $

(4)

其中：$ A $为预测出的所有前景像素集合；$ B $为真值的前景像素集合。

3 实验与结果分析 3.1 实验设置

本文实验设置：Intel^®Xeon E5@1.5 GHz，32 GB内存，Ubuntu 18系统，显卡英伟达GTX Titan V，程序运行python环境为python3.6，使用pytorch 1.6，CUDA 10.1。

在训练过程中，本文使用随机裁剪（从1 024×2 048到512×1 024），并且在[0.5，2]范围内通过随机缩放和随机水平翻转进行数据增强。本文使用SGD优化器的学习率为0.01，动量为0.9，重量衰减因子为0.000 5，采用幂为0.9的poly学习速率策略降低学习速率。

本文在COCO 2017和Cityscapes数据集上进行训练与评估。Cityscapes数据集包含5 000张高质量像素级精细注释的场景图像，用于训练、验证和测试，共有30个类别，其中，19个类别用于评估。COCO 2017数据集是一个大型且丰富的物体检测、分割和字幕数据集。这个数据集以scene understanding为目标，主要从复杂的日常场景中截取得到，图像中的目标通过精确的语义标注进行位置标定，提供80个类别，超过330 000张图片，其中，200 000张有标注，整个数据集中个体的数目超过1 500 000个，是目前语义分割最大的数据集。

3.2 实验结果

不同方法的分割结果对比如图 8所示（彩色效果见《计算机工程》HTML版）。从图 8可以看出，本文对比同样是无锚框实例分割方法的Yolact和基准Mask R-CNN方法。从图 8可以看出，在第1行、第3行和第4行中Yolact方法出现分割错误，并且未分割出棒球、行人、摩托车、汽车等目标，在第2行中Mask R-CNN方法存在明显的漏分割和分割错误问题，并且出现检测错误，在4行中Yolact方法未分割出远处的三辆小车。因此，本文方法对小目标的分割有显著的提升，在分割质量、分割数量上明显优于Yolact方法和Mask R-CNN方法。

	Download: JPG larger image
图 8 不同方法的分割结果对比 Fig. 8 Segmentation results comparison among different methods

本文在Cityscapes数据集上使用mIoU（mean Intersection over Union）指标表示，不同方法的mIoU对比如表 1所示。

下载CSV 表 1 在Cityscapes数据集上不同方法的mIoU对比 Table 1 mIoU comparison among different methods on Cityscapes dataset

从表 1可以看出，相比使用Res-101-FPN结构的Mask R-CNN和SOLO方法，本文方法的mIoU分别增加了3.2和1.9个百分点。

本文在COCO 2017数据集上使用相同的训练策略和AP（Average Precision）指标表示。不同方法的评价指标对比如表 2所示。与两阶段Mask R-CNN方法相比，本文方法的AP值提升了5.4个百分点。与单阶段BlendMask方法相比，本文方法的AP值提升了2.7个百分点，相比使用Res-101-FPN的SOLO方法提升了3.3个百分点。因此，本文方法能够有效提升实例分割的准确率。

下载CSV 表 2 在COCO 2017数据集上不同方法的评价指标对比 Table 2 Evaluation indexs comparison among different methods on COCO 2017 dataset

在COCO 2017数据集上，不同方法对交通场景中行人、自行车、车辆等类别的分割AP值对比如图 9所示。从图 9可以看出，在以上场景类别中本文方法的分割AP值均高于单阶段的SOLO方法和两阶段的Mask R-CNN方法。

	Download: JPG larger image
图 9 不同方法的分割AP值对比 Fig. 9 Segmentation AP values comparison among different methods

3.3 消融实验 3.3.1 尺度对齐消融实验

为验证编码-解码特征提取网络的有效性，在不同的单阶段实例分割方法上引入Res-101-FPN和编码-解码特征提取网络的评价指标对比如表 3所示。从表 3可以看出，使用编码-解码多尺度特征提取、融合的方式能显著提升交通场景中小目标的分割性能，能有效地解决单阶段网络中尺度不对齐的问题。

下载CSV 表 3 不同方法使用和未使用编码-解码特征提取网络结构的评价指标对比 Table 3 Evaluation indexs comparison among different methods with and without encoder-decoder feature exaction network structure

3.3.2 区域对齐消融实验

在无锚框方法的特征提取过程中，利用简单的双线性插值方法进行上采样，容易丢失部分信息，造成区域不对齐。在特征提取模块中使用普通卷积和空洞卷积进行下采样的评价指标对比如表 4所示。空洞卷积在基本不增加计算量的情况下，能够有效扩大感受野，从而优化分割效果。在SOLO方法和本文方法中，相比使用普通卷积的特征提取结果，仅用空洞卷积的AP值分别提升了0.3和0.2个百分点。实验结果表明，空洞卷积代替双线性插值的方式进行上采样，不仅适用于本文模型，还可以用于类似的网络结构中。

下载CSV 表 4 不同方法使用普通卷积和空洞卷积的评价指标对比 Table 4 Evaluation indexs comparison among different methods with ordinary convolution and dilated convolution

为充分提取多尺度特征，不同特征提取连接方式对比如图 10所示，其中，图 10（a）为仅使用特征提取后的最上层特征，图 10（b）为将四层特征进行简单加和得到融合后的特征，图 10（c）为将四层特征进行合并以得到最终的多尺度特征，即为本文所采用的连接方式。

	Download: JPG larger image
图 10 不同特征提取连接方式对比 Fig. 10 Comparison among different connection methods for feature extraction

不同特征提取连接方式的AP值对比如表 5所示。本文所提的合并连接方式AP值为41%，相比只取一层特征的方式，提高了4.2个百分点，相比加和连接方式，提高了1.4个百分点。因此，该方式能够更充分地利用多层特征进行多尺度特征融合，改进分割效果，以解决区域不对齐的问题。

下载CSV 表 5 不同特征提取连接方式的AP值对比 Table 5 AP values comparison among different connection methods for feature extraction

3.3.3 任务对齐消融实验

本文采用两个分支分别进行目标回归、检测和掩膜生成，在减少计算开销的同时进行目标分割任务，但是此类方法需要类别分支对掩膜分支进行指导，即提供相应的位置、空间信息。而一般网络忽略了类别分支的指导作用，存在任务不对齐的问题。本文引入注意力机制，结合通道增强模块和空间增强模块，并将其融合到类别分支中，以构建信息增强模块。本文优先提高类别分支的目标检测能力，并将信息共享给掩膜分支，以提高整体网络的图像分割性能。

不同方法使用和未使用信息增强模块的评价指标对比如表 6所示。其中*表示该方法使用信息增强模块。

下载CSV 表 6 不同方法使用和未使用信息增强模块的评价指标对比 Table 6 Evaluation indexs comparison among different methods with and without information enhancement module

从表 6可以看出，信息增强模块能够有效提升原方法和其他同类方法的分割效果。相比原方法，引入信息增强模块方法的AP值最高提升1个百分点。本文对信息增强模块的输出结果进行可视化，不同方法的可视化结果如图 11所示（彩色效果见《计算机工程》官网HTML版）。

	Download: JPG larger image
图 11 不同方法的可视化结果 Fig. 11 Visualization results of different methods

图中红色越深表示网络的注意力越强，蓝色越深表示注意力越弱。从图 11可以看出，在第1行中，引入信息增强模块的方法对交通信号灯的注意力强于原方法，在第2行中原方法的注意力出现偏移，改进方法则将注意力更多地关注在摩托车，在最后一行中，原方法对车辆的注意力明显少于引入信息增强模块的方法。因此，信息增强模块能够解决任务不对齐的问题。

4 结束语

本文提出基于无锚框分割网络改进的实例分割方法。通过编码-解码特征提取网络提取高分辨率特征，以解决尺度不对齐的问题，采用空洞卷积和合并连接的方式在增大感受野的同时有效融合高分辨率和低分辨率特征。在类别分支中引入注意力机制，设计结合空间信息和通道信息的信息增强模块，提高目标检测能力。实验结果表明，相比Mask R-CNN、SOLO、Yolact等方法，本文方法能够有效改进无锚框实例分割效果。下一步将结合自注意力机制，研究类别分支与掩膜分支之间的关系，以提高在遮挡场景下实例分割的准确度。

参考文献

[1]	HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 2961-2969.
[2]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 779-788.
[3]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2014: 580-587.
[4]	TIAN Z, SHEN C H, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 9626-9635.
[5]	ZHOU X Y, WANG D Q, KRÄHENBÜHL P. Objects as points[EB/OL]. [2021-08-25]. https://arxiv.org/abs/1904.07850.
[6]	GIRSHICK R. Fast R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1440-1448.
[7]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[8]	REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 6517-6525.
[9]	REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [ 2021-08-25]. https://arxiv.org/pdf/1804.02767.pdf.
[10]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[11]	高宗, 李少波, 陈济楠, 等. 基于YOLO网络的行人检测方法[J]. 计算机工程, 2018, 44(5): 215-219, 226. GAO Z, LI S B, CHEN J N, et al. Pedestrian detection method based on YOLO network[J]. Computer Engineering, 2018, 44(5): 215-219, 226. (in Chinese)
[12]	NEUBECK A, VAN GOOL L. Efficient non-maximum suppression[C]//Proceedings of the 18th International Conference on Pattern Recognition. Washington D. C., USA: IEEE Press, 2006: 850-855.
[13]	LI Y, QI H Z, DAI J F, et al. Fully convolutional instance-aware semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 4438-4446.
[14]	CHEN H, SUN K Y, TIAN Z, et al. BlendMask: top-down meets bottom-up for instance segmentation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 8570-8578.
[15]	伍锡如, 邱涛涛, 王耀南. 改进Mask R-CNN的交通场景多目标快速检测与分割[J]. 仪器仪表学报, 2021, 42(7): 242-249.42(7): 242-249. (in Chinese). WU X R, QIU T T, WANG Y N. Multi-object detection and segmentation for traffic scene based on improved Mask R-CNN[J]. Chinese Journal of Scientific Instrument, 2021,
[16]	闫天冉, 马晓静, 饶颖露, 等. 基于改进Mask R-CNN的建筑钢筋尺寸检测算法[J]. 计算机工程, 2021, 47(9): 274-281. YAN T R, MA X J, RAO Y L, et al. Rebar size detection algorithm for intelligent construction supervision based on improved Mask R-CNN[J]. Computer Engineering, 2021, 47(9): 274-281. (in Chinese)
[17]	BOLYA D, ZHOU C, XIAO F Y, et al. YOLACT: real-time instance segmentation[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 9156-9165.
[18]	WANG X L, KONG T, SHEN C H, et al. SOLO: segmenting objects by locations[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 649-665.
[19]	CHEN X L, GIRSHICK R, HE K M, et al. TensorMask: a foundation for dense object segmentation[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 2061-2069.
[20]	XIE E Z, SUN P Z, SONG X G, et al. PolarMask: single shot instance segmentation with polar representation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 12190-12199.
[21]	XIE E Z, WANG W H, DING M Y, et al. PolarMask++: enhanced polar representation for single-shot instance segmentation and beyond[EB/OL]. [2021-08-25]. https://arxiv.org/abs/2105.02184.
[22]	马子彤, 王国栋. 基于双流卷积神经网络的人体实例分割[J/OL]. 激光与光电子学进展: 1-12[2021-09-08]. http://kns.cnki.net/kcms/detail/31.1690.tn.20210712.1628.030.html. MA Z T, WANG G D. Human instance segmentation based on two-stream convolutional neural network[J/OL]. Laser & Optoelectronics Progress: 1-12[2021-09-08]. http://kns.cnki.net/kcms/detail/31.1690.tn.20210712.1628.030.html. (in Chinese)
[23]	刘文波, 叶涛, 李颀. 基于改进SOLO v2的番茄叶部病害检测方法[J]. 农业机械学报, 2021, 52(8): 213-220. LIU W B, YE T, LI Q. Tomato leaf disease detection method based on improved SOLO v2[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(8): 213-220. (in Chinese)
[24]	史彩娟, 陈厚儒, 葛录录, 等. 注意力残差多尺度特征增强的显著性实例分割[J]. 图学学报, 2021, 42(6): 883-890. SHI C J, CHEN H R, GE L L, et al. Salient instance segmentation via attention residual multi-scale feature enhancement[J]. Journal of Graphics, 2021, 42(6): 883-890. (in Chinese)
[25]	CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-Decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 833-851.
[26]	DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 764-773.
[27]	YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[EB/OL]. [2021-08-25]. https://arxiv.org/pdf/1511.07122.pdf.
[28]	HUANG J J, ZHU Z, HUANG G. Multi-stage HRNet: multiple stage high-resolution network for human pose estimation[EB/OL]. [2021-08-25]. https://arxiv.org/abs/1910.05901.
[29]	王冲, 赵志刚, 潘振宽, 等. 基于空洞卷积的人体实例分割算法[J]. 青岛大学学报(自然科学版), 2021, 34(2): 53-58. WANG C, ZHAO Z G, PAN Z K, et al. Person instance segmentation algorithm based on dilated convolution[J]. Journal of Qingdao University (Natural Science Edition), 2021, 34(2): 53-58. (in Chinese)