基于注意力机制和辅助任务的语义分割算法

引用本文

叶剑锋, 徐轲, 熊峻峰, 等. 基于注意力机制和辅助任务的语义分割算法[J]. 计算机工程, 2021, 47(9), 203-209, 216. DOI: 10.19678/j.issn.1000-3428.0058447.

YE Jianfeng, XU Ke, XIONG Junfeng, et al. Semantic Segmentation Algorithm Based on Attention Mechanism and Auxiliary Task[J]. Computer Engineering, 2021, 47(9), 203-209, 216. DOI: 10.19678/j.issn.1000-3428.0058447.

基金项目

国家自然科学基金（61363066）

通信作者

王化明(通信作者), 教授、博士生导师

作者简介

叶剑锋(1984-), 男, 副教授、博士研究生, 主研方向为图像识别;
徐轲, 本科生;
熊峻峰, 硕士研究生

文章历史

收稿日期：2020-05-27
修回日期：2020-08-27

Contents Abstract Full text Figures/Tables PDF

基于注意力机制和辅助任务的语义分割算法

叶剑锋 , 徐轲 , 熊峻峰 , 王化明

南京航空航天大学机电工程学院, 南京 210008

收稿日期：2020-05-27；修回日期：2020-08-27

基金项目：国家自然科学基金（61363066）

作者简介：叶剑锋(1984-), 男, 副教授、博士研究生, 主研方向为图像识别; 徐轲, 本科生; 熊峻峰, 硕士研究生.

通信作者：王化明(通信作者), 教授、博士生导师.

E-mail: jfye@nuaa.edu.cn

摘要：为提高网络模型低层特征的离散度和语义分割算法的性能，以全卷积神经网络作为基础模型，提出一种基于辅助损失、边缘检测辅助任务和注意力机制的语义分割算法。通过重新设计网络模型的辅助损失分支，使网络低层特征编码更多语义信息。在多任务学习中，选择边缘检测作为辅助任务，基于注意力机制设计边缘检测的辅助任务分支，使网络模型更关注物体的形状和边缘信息。在此基础上，将基础模型、辅助损失分支、辅助任务分支集成构造为语义分割模型。在VOC2012数据集上的实验结果表明，该算法的平均交并比为71.5%，相比基础模型算法提高了6个百分点。

Semantic Segmentation Algorithm Based on Attention Mechanism and Auxiliary Task

YE Jianfeng , XU Ke , XIONG Junfeng , WANG Huaming

College of Mechanical and Electrical Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 210008, China

Abstract: When applied to semantic segmentation, the existing convolutional neural network models suffer from the low dispersion of low-level features, and thus reduce the performance of semantic segmentation algorithms.To address the problem, a basic fully convolutional neural network model is redesigned.On this basis, a novel semantic segmentation algorithm based on auxiliary loss, auxiliary edge detection tasks and attention mechanism is proposed.The auxiliary loss branch of the neural network model is redesigned to allow the low-level features to encode more semantic information.Then in multi-task learning, edge detection is chosen as the auxiliary task.The auxiliary task branch is designed based on the attention mechanism for edge detection to allow the network model pay more attention to the shape and edge information of objects.Finally, the basic model, auxiliary loss branch and auxiliary task branch are integrated into the semantic segmentation model.The experimental results on the VOC2012 dataset show that the proposed algorithm improves the mean intersection-over-union to 71.5%, outperforming the basic model algorithm by 6 percentage point.

开放科学（资源服务）标志码（OSID）：

0 概述

语义分割是计算机视觉的基础任务之一，其目的是将输入图像划分为不同语义可解释的类别，即像素级别的多类别分类任务^[1]。目前，语义分割广泛应用于自动驾驶、虚拟现实、城市交通规划等领域。

传统的图像分割算法主要包括基于阈值的分割算法^[2]、基于边缘的分割算法^[3]、基于区域的分割算法^[4]等，这些算法通常采用图像特征分类器来完成图像分割，针对分割目标设计多个特征，分别对每个特征设计一个结构复杂的特征提取器，最后构建一个分类器对所获取的特征进行识别和分类。

近年来，卷积神经网络^[5-7]在图像分类任务上取得了显著成果。相比传统图像处理算法，基于深度学习的图像处理算法采用通用的学习过程，从数据中主动学习得到特征，并不需要手工设计特征^[1]。

深度学习方法成功应用在图像分类、目标检测、自然语言处理等领域，其被改进、迁移到语义分割领域，图像的语义分割技术也逐渐取得突破。例如LONG等^[8]提出的全卷积神经网络（Fully Convolutional Network，FCN）在图像分类网络视觉几何组（Visual Geometry Group，VGG）网络的基础上去除全连接层，加入多级上采样还原分辨率，实现端到端的语义分割，何凯明等^[9-10]在此基础上进一步加以改进。CHEN等^[11]在网络模型中引入自然语言处理中的注意力机制以实现多尺寸特征图像的加权融合，提高算法的尺寸不变性。为了增大感受野、降低特征维度、减少计算量，现有算法对输入图像做多次下采样，但在此过程中损失函数对特征的约束力越来越低，造成低层特征的离散度低，丢失大量空间细节信息。为提升网络模型低层特征的离散度^[12]和语义分割算法的性能，YANG等^[13]提出一种区域级别的基于纹理基元块识别与合并的图像语义分割算法，该算法采用纹理基元等特征，考虑到相邻像素点间的相互关系，保留物体间的棱角和边缘信息，分割出轮廓清晰的对象，但其仍然存在对目标形状、边缘细节分割欠缺等问题。

本文提出一种基于辅助损失、边缘检测辅助任务和注意力机制^[14]的语义分割算法。通过图像分类中的辅助损失并为其重新设计网络模型，使网络低层特征编码更多语义信息。利用机器学习领域中的多任务学习，选择边缘检测作为辅助任务，基于自然语言处理中的注意力机制为其设计辅助任务分支，使网络模型更关注物体的形状和边缘信息。

1 相关工作 1.1 语义分割

语义分割是计算机视觉应用（如自动驾驶、场景理解等）的关键技术。近年来，卷积神经网络迅猛发展，像素级语义分割也取得显著进展。语义分割如图 1所示。

	Download: JPG larger image
图 1 语义分割 Fig. 1 Semantic segmentation

语义分割的研究主要集中在以下两方面：

1）编码器-解码器结构，将神经网络设计为编码器-解码器结构，通过在编码阶段保留更多的图像信息，同时在解码阶段恢复图像损失的信息来生成更好的语义分割结果。例如，SegNet^[15]利用在编码阶段保存的池化索引来恢复图像池化时丢失的空间信息；U-Net^[16]设计跳跃连接结构，通过直接在解码阶段引入低层特征图来恢复图像所丢失的信息。

2）上下文信息，使神经网络聚合更多的图像上下文信息，连接不同采样率的特征图像，解决尺度多样性问题，得到更精准的语义分割结果。例如，DeepLab^[17]通过空洞空间金字塔池化结构在多尺寸图像上捕捉上下文信息；ParseNet^[18]通过添加全局池化分支，在解码阶段引入全局上下文信息。

本文结合以上两种方法：一方面采用FCN作为基础模型，且可以更换为其他任意具有编码器-解码器结构的网络模型；另一方面采用注意力机制聚合更多上下文信息，采用跳跃连接结构连接不同采样率上的特征图像。

1.2 辅助损失

网络深度是神经网络的主要特征之一，但神经网络过深会存在梯度消失、收敛困难等问题，使得神经网络训练失败或达不到理想的效果^[7]。因此研究人员设计了多种训练方法和网络结构来解决这个难题，如Dropout^[19]、批归一化^[20]、残差结构^[7]等。辅助损失（又称中间监督）通过直接在网络中间加入辅助损失分支，降低梯度消失、网络难以收敛的概率，使深度网络更加容易训练。

本文将辅助损失引入语义分割网络中的主要目的并不是解决收敛困难等问题，而是使低层特征编码更多语义信息，提升低层特征的离散度。

1.3 多任务学习

多任务学习是指模型同时学习多个具有相关表征的任务，提高学习效率和预测准确率、改善泛化性能。多任务学习普遍应用在机器学习、自然语言处理、计算机视觉等领域^[21-24]。MultiNet^[21]设计了一种能够同时进行图像分割、目标检测、语义分割等视觉任务的网络结构，十字绣网络^[22]针对性研究多任务网络中神经元共享的方法，提出通过端对端的学习来自动决定共享层的十字绣网络结构。多任务学习过程如图 2所示。

	Download: JPG larger image
图 2 多任务学习过程 Fig. 2 Multi-task learning process

多任务学习神经网络专注于计算机视觉任务的并行学习，需要在多个任务结果之间权衡，不能保证单个任务取得最优结果。本文提出的辅助任务是在多任务学习中区分主任务与辅助任务，只专注于主任务的训练效果，使用辅助任务的训练信号中所拥有的特定领域信息来提升主任务的泛化效果，使主任务取得最优结果。

1.4 注意力机制

注意力机制在自然语言处理领域中广泛应用^[23-24]。近年来，如何将注意力机制引入到计算机视觉中也成为研究热点。HU等^[25]提出目标关系模组来建模一系列目标间的关系从而提升目标检测效果。CHEN等^[11]提出多尺寸注意力机制来自适应融合多尺寸图像，提升语义分割效果。

本文将自注意力机制和残差模块相结合，设计针对边缘检测任务的辅助任务分支。自注意力机制可以根据通道间的依赖关系自适应增强相关语义的通道图，提升残差模块相关语义的表达能力。

2 网络结构 2.1 辅助损失分支

深度神经网络中加入辅助损失的目的是降低梯度消失、网络难以收敛的概率，便于深度网络训练。最近研究^{[4, 26-28]}发现，在精心设计的网络结构及采用其他训练方法的情况下，超过100层的深度神经网络不采用辅助损失也不会出现无法收敛的问题，甚至在部分浅层的图像分类网络上使用辅助损失会降低分类准确率。

在语义分割网络中引入辅助损失的主要目的是提高低层特征的质量。为了在辅助损失分支中输出语义信息，低层特征需要编码更多语义信息，提高低层特征的离散度，有利于其后的特征融合。因此对于浅层网络，加入辅助损失后，虽然其分类准确率变化不大甚至降低，但仍然可以提高其分割的准确度，即平均交并比。

辅助损失分支结构如图 3所示，图像分类只有一维输出如图 3（a）所示，而语义分割输出是二维图像，因此辅助损失分支的结构设计也不一样，针对语义分割的辅助损失分支结构如图 3（b）所示。最上方为通过基础模型中间某层所得到的特征图，经过多层卷积处理降维后，再通过双线性插值进行拉伸，得到与原图像尺寸一致的特征图，最后计算特征图与目标图像的二维交叉熵损失。算法的总损失函数为基础模型损失和所有辅助损失的加权和。训练完成后，将移除所有辅助损失分支，仅使用基础模型进行推断，避免辅助损失分支带来额外的内存及时间消耗。

	Download: JPG larger image
图 3 辅助损失分支结构 Fig. 3 Branch structure of auxiliary loss

2.2 辅助任务分支 2.2.1 辅助任务

虽然同样是多个任务并行训练，相比多任务学习，本文算法专注于提升主任务的训练效果，其余任务均为辅助任务。对于辅助任务，其本身的训练效果并不重要，重要的是提升主任务的训练效果。

辅助任务能提升模型分割效果的原因主要有以下三方面：1）辅助任务能为模型提供归纳偏置，提高模型的泛化能力；2）辅助任务提供额外的数据信息，可以视作一种数据增广算法；3）辅助任务所提供的信息也有可能成为噪声，HOLMSTROM等^[29]的研究表明偶尔在训练过程中加入噪声，能够增强网络模型的泛化能力。因此，辅助任务的选择应满足以下要求：1）主任务的概念层次应高于辅助任务，且主任务的目标域应与辅助任务的目标域存在交集；2）主任务和辅助任务的训练图像应一致或辅助任务的标注图像应便于从主任务的标注图像中获得。

本文研究的主任务为语义分割，根据上述原则，选择的辅助任务为边缘检测。边缘检测是传统图像处理中的基本问题之一，目的是提取图像中对象与背景间的交界线，使低层共享网络更关注于物体的形状和边缘信息，获取更多关于物体类内差异的特征^[30]。而边缘检测所需的标注图可以从语义分割的标注图中获取，语义分割和边缘检测标注如图 4所示。

	Download: JPG larger image
图 4 语义分割标注和边缘检测标注 Fig. 4 Label of semantic segmentation and edge detection

2.2.2 注意力残差模块

本文结合自注意力机制与残差模块设计注意力残差模块（Attention Residual Module，ARM）结构，将注意力残差模块堆叠得到辅助任务分支，注意力残差模块构建如图 5所示。原始残差模块如图 5（a）所示，模块输入和输出如式（1）、式（2）所示：

$ {y}_{l}=F({x}_{l}, {W}_{l}) $

(1)

$ {x}_{l+1}=h\left({x}_{l}\right)+f\left({y}_{l}\right) $

(2)

	Download: JPG larger image
图 5 残差模块构建 Fig. 5 Construction of residual module

其中：$ {x}_{l} $和$ {x}_{l+1} $分别为第l层输入和输出；$ F $为残差函数；$ h $为恒等映射函数；$ f $为整流线性激活函数。虽然残差模块内恒等映射函数可以保证信息流无损流动，但由于激活函数的存在，整个网络的信息流并不能无损流动。因此为保证信息流无损地在各层间流动，将$ f $变为恒等映射函数，得到改进后的残差模块，即恒等残差模块^[31]，如图 5（b）所示。

残差模块构建如式（3）、式（4）所示：

$ {x}_{l+1}={x}_{l}+F({x}_{l}, {W}_{l}) $

(3)

$ {x}_{L}={x}_{1}+\sum\limits _{i=1}^{L-1}F({x}_{i}, {W}_{i}) $

(4)

根据反向传播链式法则有：

$ \frac{{\partial }_{L}}{\partial {x}_{1}}=\frac{\partial \epsilon }{\partial {x}_{L}}\frac{\partial {x}_{L}}{\partial {x}_{1}}=\frac{\partial \epsilon }{\partial {x}_{L}}\left(1+\frac{\partial \sum\limits _{i=1}^{L-1}F({x}_{i}, {W}_{i})}{\partial {x}_{L}}\right) $

(5)

从式（5）可以看出，损失梯度可以无损地传递到任意残差模块，甚至任意残差模块的损失梯度都可以无损地传递其余任意残差模块，因此减小了梯度消失的概率。

但是特征图的每个通道可以被视为特定于某种语义特征的响应图，并且不同的语义特征彼此相关联。显然残差模块中$ {x}_{l} $与$ {y}_{l} $语义特征并不一致，不能直接相加。因此在恒等残差模块$ {x}_{l} $与$ {y}_{l} $的融合中引入自注意力机制，用于显式建模$ {x}_{l} $与$ {y}_{l} $各语义特征之间的相互依赖关系。利用通道之间的相互依赖性，增强相互依赖的特征并改进特定语义的特征表示，如式（6）、式（7）所示：

$ {y}_{l}=F({x}_{l}, {W}_{l}) $

(6)

$ {x}_{l+1}={x}_{l}+{y}_{l}P({x}_{l}, {y}_{l}) $

(7)

输入特征图为$ \boldsymbol{X}\in {\mathbb{R}}^{C\times H\times W} $，经过两轮批归一化、激活函数和卷积后可得到新特征图$ \boldsymbol{Y}\in {\mathbb{R}}^{C\times H\times W} $，然后将$ \boldsymbol{X} $和$ \boldsymbol{Y} $分别重排为$ {\boldsymbol{X}}^{'}\in {\mathbb{R}}^{C\times N} $和$ {\boldsymbol{Y}}^{'}\in {\mathbb{R}}^{C\times N} $，对$ {\boldsymbol{X}}^{'} $和$ {\boldsymbol{Y}}^{'} $的转置作矩阵乘法，再经过归一化指数函数后得到通道注意力图$ \boldsymbol{A}\in {\mathbb{R}}^{C\times C} $，X的第i个通道对Y的第j个通道的影响因子如式（8）所示：

$ {a}_{i, j}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}({x}_{i}, {y}_{j})}{\sum\limits _{i=1}^{C}\mathrm{e}\mathrm{x}\mathrm{p}({x}_{i}, {y}_{j})} $

(8)

对$ \boldsymbol{A} $和$ {\boldsymbol{Y}}^{'} $作矩阵乘法，再重排$ \boldsymbol{E}\in {\mathbb{R}}^{C\times H\times W} $为增强后的特征图。将$ \boldsymbol{E} $与$ \boldsymbol{X} $作元素加操作得到最终输出特征图$ \boldsymbol{O}\in {\mathbb{R}}^{C\times H\times W} $。注意力残差模块结构如图 6所示。

	Download: JPG larger image
图 6 注意力残差模块结构 Fig. 6 Structure of attention residual module

与辅助损失分支一样，训练完成后将移除所有辅助任务分支，仅使用基础模型进行推断，避免辅助任务分支带来额外内存及时间消耗。

2.3 整体结构

FCN在深度图像分类神经网络VGG的基础上去除全连接层，大幅降低网络的参数量，提高计算速度。由于FCN只剩卷积层和激活函数，因此可以看作一个大型卷积核，能接受任意尺寸图像作为输入图像。最后，加入多级上采样还原分辨率，实现端到端的语义分割。网络模型整体结构如图 7所示。

	Download: JPG larger image
图 7 网络模型整体结构 Fig. 7 Overall structure of network model

由于FCN具有轻量化、高精度、结构简单且能接受任意尺寸图像作为输入图像的特点，便于实现复杂算法并快速验证的同时依旧保持高精度，故本文采用FCN作为基础模型。

辅助任务分支中所有注意力残差模块后都加入双线性上采样层还原分辨率。网络模型损失函数如式（9）所示：

$ {L}_{\mathrm{总}}={L}_{\mathrm{主}\mathrm{任}\mathrm{务}}+\alpha {L}_{\mathrm{辅}\mathrm{助}\mathrm{任}\mathrm{务}\mathrm{分}\mathrm{支}}+\beta {L}_{\mathrm{辅}\mathrm{助}\mathrm{损}\mathrm{失}\mathrm{分}\mathrm{支}} $

(9)

总损失能量为主任务、辅助任务分支和辅助损失分支的损失能量加权和，主任务、辅助任务分支和辅助损失分支的损失函数均为交叉熵损失函数，并取$ \alpha =0.1 $、$ \beta =1 $。

3 实验与分析

为验证所提出算法的有效性，本文在PASCAL VOC2012大型数据集上进行测试，采用像素准确率和平均交并比来衡量分割真值（Groud Truth，GT）与实际分割结果的差异。PASCAL VOC2012拥有1 464张训练集图像，14 449张验证集图像和1 456张测试集图像。本文实验环境采用操作系统Ubuntu 16.04 LTS，算法框架Pytorch，CPU为Intel i7-4710MQ，GPU为NVIDIA GTX950m，显存2 GB，内存8 GB，CUDA版本10.0。

3.1 辅助损失分支实验及分析

首先在浅层网络模型ResNet50上进行实验以验证2.1节中的理论。在CIFAR-10验证集上测试分类准确率，在VOC2012验证集上测试平均交并比。ResNet18加入辅助损失前后的性能对比如表 1所示。加入辅助损失后，虽然其分类准确率变化不大，但其平均交并比提升0.78个百分点。浅层网络模型加入辅助损失后，分割的准确度即平均交并比确实得到提升。低层特征需要编码更多的语义信息来提升其质量，最终提高分割的准确度。

下载CSV 表 1 ResNet18加入辅助损失前后的性能对比 Table 1 Performance comparison of ResNet18 before and after adding auxiliary loss

在FCN中加入辅助损失分支来提升其低层特征的质量。FCN不同层加入辅助损失的验证集性能对比如表 2所示，FCN加入辅助损失分支后取得66.2%的平均交并比，相比于基准模型提升了0.7个百分点，验证了辅助损失算法的有效性。从表 2可以看出，随着辅助损失在网络模型中位置变深，网络模型性能反而降低，这可能是随着辅助损失的层数在网络模型中位置越来越深，其对低层特征的约束力越来越弱，因此提升效果越来越差。

下载CSV 表 2 FCN不同层加入辅助损失的验证集性能对比 Table 2 Performance comparison of validation sets with auxiliary losses between different FCN layers

3.2 辅助任务分支实验及分析

辅助任务进一步加强网络低层特征的离散度，本文采用图像分类与语义分割多任务作为对比。多任务和辅助任务验证集性能对比如表 3所示，加入辅助任务后网络模型的平均交并比从65.5%提升到70.7%，而多任务产生了负面的影响，使网络性能降低了5.7个百分点，验证了辅助任务算法的有效性。

下载CSV 表 3 多任务和辅助任务验证集性能对比 Table 3 Performance comparison of multi-task and secondary task validation set

边缘检测辅助网络的分割结果如图 8所示。边缘检测辅助任务分支正常学习到语义边界特征。

	Download: JPG larger image
图 8 边缘检测结果对比 Fig. 8 Results comparison of edge detection

3.3 实验结果及分析

为测试本文算法性能，在VOC2012测试集上对加入辅助任务分支和辅助损失分支后的完整算法进行实验，同时与基于相同基础模型FCN的主流语义分割算法进行对比。在VOC2012测试集上不同算法性能对比如表 4所示。从表 4可以看出，FCN-A为本文算法模型，基础模型为FCN。将辅助任务分支与辅助损失分支应用到SegNet上，即SegNet-A。最终FCN-A的平均交并比为71.5%。相比基础模型，FCN-A模型提高了6个百分点，推断时间仅增加30 ms，验证了本文算法的有效性。同时，SegNet-A的平均交并比为72.2%，比之前ParseNet高了2.4个百分点，推断时间仅增加5 ms，验证了本文算法的可扩展性。

下载CSV 表 4 在VOC2012测试集上不同算法性能对比 Table 4 Performance comparison of different algorithms on VOC2012 test set

网络模型的预测结果对比如图 9所示。从图 9可以看出，加入边缘检测辅助任务分支的网络模型对于物体的形状、语义边界的分割效果更好。说明边缘检测辅助任务分支使网络模型更关注物体的形状和边缘信息，获取更多关于物体类内差异特征，提升网络模型低层特征的离散度，优化了基础模型分割结果的语义边缘。但是从图 9第4行的分割结果中可以看出，本文模型对物体与背景纹理、颜色近似度高的情况分割结果并不理想。这可能是因为网络模型特征的类间差异度较低，需要学习更多关于纹理、颜色的特征，后续可以尝试加入最大化类间差异度的损失函数或结构等。

	Download: JPG larger image
图 9 不同网络模型的预测结果对比 Fig. 9 Prediction results comparison between different network models

4 结束语

本文提出一种基于辅助损失、边缘检测辅助任务和注意力机制的语义分割算法。重新设计网络模型的辅助损失分支，基于自然语言处理中的注意力机制设计辅助任务分支，将基础模型、重新设计网络模型的辅助损失分支和辅助任务分支集成构造为语义分割模型。实验结果表明，本文算法在VOC2012测试集上的平均交并比达到了71.5%，将基础模型更换为SegNet后，平均交并比达到72.2%，验证了该算法的有效性和可扩展性。下一步将利用辅助任务机制的内在数学机理，并结合新的特征提取网络研究成果进行注意力机制和辅助任务的泛化性研究。

参考文献

[1]	LECUN Y, BENGIO Y, HINTON G E, et al. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539
[2]	OSTU N. A threshold selection method from Gray-Level histograms[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62-66. DOI:10.1109/TSMC.1979.4310076
[3]	CANNY J F. A computational approach to edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, 8(6): 679-698.
[4]	XU X W, ESTER M, KRIEGEL H P, et al. A distribution-based clustering algorithm for mining in large spatial databases[C]//Proceedings of the 14th International Conference on Data Engineering. Washington D.C., USA: IEEE Press, 1998: 324-331.
[5]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60: 84-90. DOI:10.1145/3065386
[6]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-04-15]. http://arxiv.org/abs/1409.1556.
[7]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
[8]	SHELHAMER E, LONG J, DARRELL T, et al. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. DOI:10.1109/TPAMI.2016.2572683
[9]	HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 2980-2988.
[10]	REN S Q, HE K M, GIRSHICK R B, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[11]	CHEN L C, YANG Y, WANG J, et al. Attention to scale: scale-aware semantic image segmentation[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 3640-3649.
[12]	SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 1-9.
[13]	YANG X, FAN Y, GAO L, et al. Image semantic segmentation based on texture element block recognition and merging[J]. Computer Engineering, 2015, 41(3): 253-257. (in Chinese) 杨雪, 范勇, 高琳, 等. 基于纹理基元块识别与合并的图像语义分割[J]. 计算机工程, 2015, 41(3): 253-257. DOI:10.3969/j.issn.1000-3428.2015.03.047
[14]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2017: 5998-6008.
[15]	BADRINARAYANAN V, KENDALL A, CIPOLLA R, et al. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615
[16]	RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of the Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[17]	CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. DOI:10.1109/TPAMI.2017.2699184
[18]	LIU W, RABINOVICH A, BERG A C, et al. ParseNet: looking wider to see better[EB/OL]. [2020-04-13]. http://arxiv.org/abs/1506.04579v2.
[19]	SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[20]	ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 6230-6239.
[21]	MARVIN T, MICHAEL W, ZÖLLNER M, et al. MultiNet: real-time joint semantic reasoning for autonomous driving[C]//Proceedings of 2018 IEEE Intelligent Vehicles Symposium. Washington D.C., USA: IEEE Press, 2018: 1013-1020.
[22]	ISHAN M, ABHINAV S, GUPTA A, et al. Cross-Stitch networks for multi-task learning[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 3994-4003.
[23]	MCCANN B, KESKAR N S, XIONG C, et al. The natural language decathlon: multitask learning as question answering[EB/OL]. [2020-04-13]. http://arxiv.org/abs/1806.08730.
[24]	ZHANG Z P, LUO P, LOY C C, et al. Facial landmark detection by deep multi-task learning[C]//Proceedings of the European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 94-108.
[25]	HU H, GU J Y, ZHANG Z, et al. Relation networks for object detection[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 3588-3597.
[26]	HU J, LI S, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 7132-7141.
[27]	XIE S, ROSS G, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 5987-5995.
[28]	OYEDOTUN O K, SHABAYEK A R, AOUADA D, et al. Improved highway network block with gates constraints for training very deep networks[J]. IEEE Access, 2020, 8: 176758-176773. DOI:10.1109/ACCESS.2020.3026423
[29]	HOLMSTROM L, KOISTINEN P. Using additive noise in back-propagation training[J]. IEEE Transactions on Neural Networks, 1992, 3(1): 24-38. DOI:10.1109/72.105415
[30]	WANG N, HOU Z Q, ZHAO M Q, et al. Semantic segmentation algorithm combined with edge detection[J]. Computer Engineering, 2021, 47(7): 257-265. (in Chinese) 王囡, 侯志强, 赵梦琦, 等. 结合边缘检测的语义分割算法[J]. 计算机工程, 2021, 47(7): 257-265.
[31]	HE K M, ZHANG X Y, REN S Q, et al. Identity mappings in deep residual networks[EB/OL]. [2020-04-05]. https://arxiv.org/pdf/1603.05027.pdf.