2. 上海交通大学 电子信息与电气工程学院, 上海 200240
2. School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China
开放科学(资源服务)标志码(OSID):
遥感图像中包含非常丰富的地物信息,遥感图像的利用价值在于可对其进行重要信息的提取,但处理过程也非常复杂。遥感图像语义分割是提取遥感图像重要信息的前提,也是学术界和工业界的研究难点。遥感图像覆盖范围广,地物信息复杂多样,存在很多的小地物类别,使得分割难度加大,并且存在类间相似性和类内差异性问题,进一步加大了分割难度。
全卷积神经网络是目前实现图像语义分割的主流方法。基于全卷积神经网络提出的FCN[1]是深度学习应用在图像语义分割的代表方法,其为一种端到端的分割方法,应用于图像语义分割领域时得到了很好的效果。SegNet[2]和U-Net[3]是对FCN的改进,SegNet引入了更多的跨层连接,U-Net在上采样阶段依然保留有大量的通道,使得网络可以将上下文信息向更高层分辨率传播。ERFNet[4]使用残差连接来加速特征学习以及消除梯度消失的现象,并使用深度可分离卷积来减少网络的参数数量,提高模型推算速度。SKASNet[5]构建了一个新的残差模块,通过调节感受野的大小获得多尺度信息。DeepLabv3+[6]引入语义分割常用的编解码结构并使用可任意控制编码器提取特征的分辨率,通过空洞卷积平衡精度和耗时。现有的遥感图像语义分割方法主要对上述模型进行微调与改进。文献[7-8]将基于U-Net改进的网络结构用于遥感图像上进行语义分割时获得了可观的效果。RWSNet[9]将SegNet和随机游走相结合,缓解了分割对象边界模糊的问题。
近年来,研究者设计了很多用于提高语义分割网络性能的模块,如受到广泛关注的注意力机制。注意力机制可以在网络训练过程中加强对一些重要特征区域或者重要特征通道的注意力,提升网络对特征的表达能力。在SENet[10]中,压缩、激励和重标定三个部分组成注意力机制,使网络利用全局信息有选择地增强有用特征通道并抑制无用特征通道,实现特征通道自适应校准。CBAM[11]将注意力机制同时运用在通道和空间两个维度上来提升网络模型的特征提取能力。卷积神经网络中的卷积单元每次只关注邻域卷积核大小的区域,是局部区域的运算。文献[12]提出了Non-local Neural Networks用于捕获长距离关系。文献[13]在特征提取网络中加入注意力模块来减少分割精度损失。文献[14]基于U-Net改进通过注意力机制以提高模型的灵敏度,并抑制无关特征区域的背景影响。文献[15]通过全局注意力金字塔与通道注意力解码器来解决地物小和类内尺度存在差异的问题。
特征融合也是一种提高分割性能的流行方法。高层语义特征具有大的语义结构,但对小结构丢失严重,低层细节特征保留了丰富的细节信息,但语义类别信息很差。文献[16-17]通过设计一个优秀的特征融合方法进一步提高了网络的分割性能。FPN[16]最初用于目标检测任务,但是也可以应用于语义分割,通过按元素相加的方式来融合全局和局部特征,而PSPNet[17]特征融合更强调全局特征,文献[18]则提出了一种增强特征融合的解码器来提高语义分割模型的性能。遥感图像语义分割网络需要设计优异的特征融合方法来加强高低层特征的融合,对此,文献[19]通过高层语义特征和低层细节特征融合来提高模型的分割准确率,文献[20]设计了自适应融合模块(AFM)。一些通过结合边缘检测[21]和融入深度信息[22-23]的网络模型也能一定程度上提升语义分割的性能。此外,光照不足的条件也会导致RGB图像质量下降。红外图像可以很好地弥补光照不足等问题,捕捉到更多RGB图像所缺失的信息。基于RGB-IR(RGB图像和相对应的Infrared图像按通道维度叠加后得到RGB-Infrared图像)的语义分割模型MFNet[24]、RTFNet[25]通过融合RGB和红外信息来克服光照不足以及天气条件恶劣等问题,提高了语义分割的性能。
现有基于RGB-IR的语义分割模型没有很好地将RGB和红外信息充分融合,也较少提取到RGB图像相对于红外图像所缺失的信息。本文提出一个细节特征抽取模块来提取RGB图像和红外图像的细节特征信息同时进行融合,生成更具区分性的特征表示并弥补RGB图像相对于红外图像所缺失的信息。此外,提出一种特征融合注意力模块来有效融合细节特征和高层语义特征,得到具有更准确语义信息的优化特征图。基于以上模块,构建增强细节的RGB-IR多通道特征融合语义分割网络MFFNet,通过融合RGB图像和红外图像,解决现有方法地物边缘分割不准确、小地物分割效果差的问题,同时提升光照不足、恶劣天气条件情况下的分割效果。
1 RGB-IR多通道特征融合语义分割网络 1.1 细节特征抽取模块为了解决上文提到的遥感图像语义分割存在的难题,并提高模型的分割性能,需要提取更多的图像细节特征,以便后续融合到高层语义特征中来进一步丰富细节信息。此外,需要将抽取到的RGB和红外图像的细节特征进行深层次融合,生成更具分辨性的特征表示,弥补RGB图像相对于红外图像所缺失的信息,提高模型的特征表达能力,进而提升模型的分割性能。本文提出由注意力模块构成的细节特征抽取模块,如图 1所示。
![]() |
Download:
|
图 1 细节特征抽取模块 Fig. 1 Detail feature extraction module |
细节特征抽取模块首先对某一阶段的特征图
$ Y=\frac{1}{1+\mathrm{e}\mathrm{x}\mathrm{p}(-({\boldsymbol{W}}_{\mathrm{\alpha }}\left(\right[\mathrm{A}\mathrm{v}\mathrm{g}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\left(X\right)\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ };\mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\left(X\right)\left]\right)\left)\right)}\cdot X $ | (1) |
其中:
分别对同一阶段RGB和红外图像中提取到的特征图
$ \begin{array}{l}Z=\sigma \left({f}_{c\to c/r}^{1\times 1}\right({f}_{c/r\to c}^{1\times 1}\left(\mathrm{A}\mathrm{v}\mathrm{g}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\right([{Y}_{\mathrm{r}\mathrm{g}\mathrm{b}};{Y}_{\mathrm{i}\mathrm{r}}]\left)\right))+\\ {}_{}{}_{}{}_{}{}_{}{f}_{c\to c/r}^{1\times 1}\left({f}_{c/r\to c}^{1\times 1}\right(\mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\left(\right[{Y}_{\mathrm{r}\mathrm{g}\mathrm{b}};{Y}_{\mathrm{i}\mathrm{r}}\left]\right)\left)\right))\end{array} $ | (2) |
其中:
至此,已经从RGB图像和红外图像中抽取到了细节特征信息,并且得到了融合后的细节特征图。然后需要把这些融合后的细节特征图整合到高级语义特征中来增加丰富细节信息,以优化网络的特征表达能力,从而提高模型的灵敏度。
1.2 特征融合注意力模块本文提出的特征融合注意力模块不像其他网络那样简单地将低层细节特征和高层语义特征进行相加或者拼接,这样做会把干扰或者无关信息同时也融合到高层语义特征中,并且不能很好地融合高低层特征。本文把通过细节特征抽取模块得到的RGB和红外图像融合后的细节特征通过特征融合注意力模块来融合进高层语义特征,从而在和高层语义特征进行融合时抑制干扰或者避免无关细节信息的影响,突出重要关键细节特征。此外,本文在特征融合注意力模块中嵌入通道注意力模块,产生更具分辨性的特征表示,以提高网络的灵敏度。
特征融合注意力模块如图 2所示。融合高低层特征的操作一般有拼接操作和相加操作。首先采用拼接操作来结合高低层特征,并通过一个卷积核大小为
![]() |
Download:
|
图 2 特征融合注意力模块 Fig. 2 Feature fusion attention module |
特征融合注意力模块的计算公式如下:
$ {X}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}}=\\{M}_{c}\left({f}^{3\times 3}\right({f}_{c\to c/r}^{1\times 1}\left(\right[{X}_{1};{X}_{2}\left]\right)\left)\right){f}^{3\times 3}\left({f}_{c\to c/r}^{1\times 1}\right([{X}_{1};{X}_{2}]\left)\right) $ | (3) |
$ \begin{array}{l}{M}_{c}\left(X\right)=\sigma \left({f}_{c\to c/r}^{1\times 1}\right({f}_{c/r\to c}^{1\times 1}\left(\mathrm{A}\mathrm{v}\mathrm{g}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\right(X\left)\right))+\\ \;\;\;\;\;\;{f}_{c\to c/r}^{1\times 1}\left({f}_{c\to c/r}^{1\times 1}\right(\mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\left(X\right)\left)\right))\end{array} $ | (4) |
其中:
特征融合注意力模块融合细节特征抽取模块得到的RGB和红外图像融合后的细节特征和高层语义特征,在每一次上采样阶段前都采用特征融合注意力模块进行特征融合来丰富细节信息和上下文信息,保证像素语义分类准确,同时优化小地物的分割效果,进一步提高模型的分割准确率,使网络模型更好地定位到边界。
1.3 多通道特征融合网络本文基于细节特征抽取模块和特征融合注意力模块,提出一种增强细节的RGB-IR多通道特征融合语义分割网络MFFNet,如图 3所示。
![]() |
Download:
|
图 3 MFFNet网络结构 Fig. 3 Network structure of MFFNet |
MFFNet包括细节分支和语义分支这两个分支。细节分支通过细节特征抽取模块从RGB图像和红外图像中抽取到细节特征信息,并且得到融合后的细节特征。语义分支使用轻量级的残差网络ResNet18作为主干网络,从而进行快速下采样以提取高层语义特征。得益于BiSeNet[26]的启发,本文在语义分支中还利用了一个注意力优化模块来优化输出特征,注意力优化模块结构如图 4所示。最后,在MFFNet的上采样阶段把融合后的细节特征通过特征融合注意力模块整合到高级语义特征中来增加丰富细节信息,以优化网络的特征表达能力,从而提高模型的灵敏度。
![]() |
Download:
|
图 4 注意力优化模块 Fig. 4 Attention optimization module |
为了更好地指导模型训练进而提高地物边界的分割效果以及模型整体的分割性能,受文献[27]的启发,本文在遥感图像语义分割常用的交叉熵损失函数基础上加权边界损失[27]和Jaccard损失。在损失函数中,加权边界损失可以指导模型训练进一步生成更好的地物边界分割效果。通过在损失函数中加权Jaccard损失直接指导模型训练,能够有效提高模型整体的分割性能。
交叉熵损失函数是目前流行的语义分割任务中使用的损失函数,用于指导模型进行训练。交叉熵损失函数
$ {E}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}=-\frac{1}{N}\sum \limits_{n=1}^{N}\sum \limits_{c=1}^{C}{q}_{c}^{\left(n\right)}\cdot \mathrm{l}\mathrm{b}{p}_{c}^{\left(n\right)} $ | (5) |
其中:
交叉熵损失函数通过对所有像素的求和计算得出,不能很好地反映不平衡类。中位数频率平衡加权交叉熵损失函数考虑到了不平衡类问题,通过在训练集中统计类别的中位数频率和实际类别频率的比率来进行加权损失。中位数频率平衡加权交叉熵损失函数的定义如下:
$ {M}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}=-\frac{1}{N}\sum \limits_{n=1}^{N}\sum \limits_{c=1}^{C}{w}_{c}\cdot {q}_{c}^{\left(n\right)}\cdot \mathrm{l}\mathrm{b}{p}_{c}^{\left(n\right)} $ | (6) |
$ {w}_{c}=\frac{\mathrm{m}\mathrm{e}\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{n}\left({f}_{c}\right|c\in C)}{{f}_{c}} $ | (7) |
其中:
边界损失函数建立在边界度量边界
$ P=\frac{1}{\left|{B}_{\mathrm{p}}\right|}\sum \limits_{x\in {B}_{{\rm{p}}}}\left[\right[d(x, {B}_{\rm{g}}) < \theta \left]\right] $ | (8) |
$ R=\frac{1}{\left|{B}_{\mathrm{g}}\right|}\sum \limits_{x\in {B}_{{\rm{g}}}}\left[\right[d(x, {B}_{{\rm{p}}}) < \theta \left]\right] $ | (9) |
其中:
边界度量边界
$ {F}_{1}=\frac{2PR}{P+R} $ | (10) |
$ {B}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}=1-{F}_{1} $ | (11) |
Jaccard损失函数
$ {J}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}=1-\frac{\left|{y}_{\mathrm{p}}\bigcap {y}_{\mathrm{g}}\right|}{\left|{y}_{\mathrm{p}}\bigcup {y}_{\mathrm{g}}\right|} $ | (12) |
其中:
总的损失函数
$ {L}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}=a{M}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}+b{B}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}+c{J}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}} $ | (13) |
其中:
实验使用的测试基准数据集是由国际摄影测量与遥感协会(ISPRS)组织发布的Postdam数据集。摄影测量学的研究方向之一是从机载传感器获取的数据中自动提取城市物体。这项任务的挑战性在于,在高分辨率的图像数据中,诸如建筑物、道路、树木和汽车之类的地面物体,同类对象有着非常不同的外观,这导致了较大的组内差异,而组间差异却很小。Postdam数据集包括6种地面物体:不透水地面(例如道路),建筑物,低矮植被、树木,汽车,杂物。Potsdam数据集包含38张高分辨率的RGB和IR遥感图像,图像分辨率大小均为
![]() |
Download:
|
图 5 Postdam数据集的部分示例图 Fig. 5 Part of sample images in Postdam data set |
平均交并比(Mean Intersection over Union,MIoU)是语义分割的标准评价指标,整体准确率、精确率、召回率和F1分数是遥感图像语义分割最常用的评价指标。本文使用平均交并比、整体准确率、精确率、召回率和F1分数来度量本文提出的模型。平均交并比是对每一类预测的结果和真实值的交集与并集的比值求和平均的结果,交并比(Intersection over Union,IoU)利用混淆矩阵得到,计算公式如下:
$ {I}_{\mathrm{I}\mathrm{o}\mathrm{U}}=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{P}}+{F}_{\mathrm{N}}} $ | (14) |
其中:
整体准确率是正确标记的像素总数除以像素总数。精确率
$ {P}_{\mathrm{P}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{P}}} $ | (15) |
$ {R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{N}}} $ | (16) |
$ {F}_{1}=2\times \frac{{P}_{\mathrm{P}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}\times {R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}}{{P}_{\mathrm{P}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}+{R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}} $ | (17) |
本文模型使用开源库PyTorch 1.7.1和torchvision 0.8.2实现,实验使用NVIDIA公司的GeForce RTX 090 GPU,24 GB的内存,CUDA的版本是11.2。本文提出的模型是轻量级的,在训练时设置mini-batch大小为48,使用Adam作为优化算法应对梯度下降问题,学习率大小设置为
为了验证本文提出的MFFNet模型对RGB遥感图像和红外遥感图像融合的有效性,以及是否能够提高小地物和边界的分割效果,在公开的Potsdam数据集上进行实验。Potsdam数据集被广泛用于评估遥感图像语义分割模型的性能,包含38张高分辨率的RGB遥感图像和相对应红外遥感图像,每张图像分辨率大小为
本文使用平均交并比、整体准确率、精确率、召回率和F1分数来评估MFFNet,实验结果如表 1所示,其中,加粗数据表示最优值,3c表示网络是三通道,输入只有RGB图像,4c是将RBG和IR通道叠加作为输入,对比实验的网络模型中RTFNet采用残差网络ResNet50作为主干网络,DeepLabv3+和PSPNet采用残差网络ResNet101作为主干网络。对比表 1所有RGB-IR四通道作为输入的网络模型实验结果可以看出,本文提出的MFFNet模型在上述的各个评价指标上都是最优的,对于语义分割的标准评价指标平均交并比,MFFNet较对比模型中最优的模型提升了
![]() |
下载CSV 表 1 Potsdam数据集上不同模型的性能对比 Table 1 Performance comparison of different models in Potsdam data set |
从表 1中还可以看到,在对比模型中,除PSPNet和UNet外,其他模型直接把RGB三通道(3c)图像改为RGB-IR四通道(4c)图像作为网络输入,不仅不能改善反而还降低了网络模型的分割效果,PSPNet和UNet直接把RGB三通道(3c)图像改为RGB-IR四通道(4c)图像作为网络输入,在整体分割性能上虽然有略微的一点提升,但对于小地物类别车的分割效果却受到大幅影响。
图 6和图 7为在Potsdam数据集上的部分实验结果图,从中可以清楚地看到,对比模型不能很好地分割小地物类别车,小地物的边缘分割也是不准确的,并且小区域的分割效果也很差。本文提出的MFFNet模型对小地物的分割效果明显优于对比模型,小地物的分割效果很好,不存在边缘分割不准确的情况,并且对于小区域的分割效果要好很多。由此可以证明,本文模型不仅可使遥感图像整体的分割效果有很大的提升,对于图像中小地物的分割,效果的提升也是非常明显的。
![]() |
Download:
|
图 6 Potsdam数据集上的实验的结果图 1 Fig. 6 Experimental result images 1 in Potsdam dataset |
![]() |
Download:
|
图 7 Potsdam数据集上的实验的结果图 2 Fig. 7 Experimental result images 2 in Potsdam dataset |
为了进一步说明本文提出的模型能够有效地整合RGB图像和红外图像的信息,在Postdam数据集上进行消融实验,将RGB和RGB-IR分别作为MFFNet网络输入。将RGB作为网络输入时,微调MFFNet网络,去掉IR细节分支,整体分割性能对比如图 8所示,小地物车类别分割性能对比如图 9所示,其中无填充的柱状图是RGB图像作为网络输入的实验结果,有填充的柱状图是RGB-IR图像作为网络输入的实验结果。在表 2中,3c表示网络是三通道输入只有RGB图像,4c是将RGB和IR通道叠加作为输入。从表 2中数据的比较可以清楚地看出,本文提出的模型对红外图像融合具有有效性,对于整体的分割效果和小地物的分割性能均较优。
![]() |
Download:
|
图 8 RGB和RGB-IR分别作为MFFNet网络输入的整体分割性能 Fig. 8 Overall segmentation performance when RGB and RGB-IR as input to the MFFNet network respectively |
![]() |
Download:
|
图 9 RGB和RGB-IR分别作为MFFNet网络输入的车类别分割性能 Fig. 9 Car category segmentation performance when RGB and RGB-IR as input to the MFFNet network respectively |
![]() |
下载CSV 表 2 RGB和RGB-IR分别作为MFFNet网络输入的具体性能对比 Table 2 Spectific performance comparison when RGB and RGB-IR as input to the MFFNet network |
本文构建增强细节的RGB-IR多通道特征融合语义分割网络MFFNet,以解决遥感图像语义分割中存在的问题。提出一种能够有效融合RGB图像和红外图像的细节特征抽取模块,从而获取丰富的融合细节信息,并提出一种新的特征融合方法——特征融合注意力模块,将细节特征抽取模块提取到的融合细节特征充分融合进高级语义特征中,以优化网络的表达能力,提高模型的灵敏度。在Postdam数据集上的实验结果证明了该模型的有效性。下一步将结合神经架构搜索(Neural Architecture Search,NAS)技术优化细节特征融合模块的结构,加强RGB图像和红外图像细节特征信息的整合,提高模型的分割性能,同时降低模型的复杂度。
[1] |
LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 3431-3440.
|
[2] |
BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615 |
[3] |
RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
|
[4] |
ROMERA E, ÁLVAREZ J M, BERGASA L M, et al. ERFNet: efficient residual factorized ConvNet for real-time semantic segmentation[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(1): 263-272. DOI:10.1109/TITS.2017.2750080 |
[5] |
谭镭, 孙怀江. SKASNet: 用于语义分割的轻量级卷积神经网络[J]. 计算机工程, 2020, 46(9): 261-267. TAN L, SUN H J. SKASNet: lightweight convolutional neural network for semantic segmentation[J]. Computer Engineering, 2020, 46(9): 261-267. (in Chinese) |
[6] |
CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 833-851.
|
[7] |
DONG R S, PAN X Q, LI F Y. DenseU-net-based semantic segmentation of small objects in urban remote sensing images[J]. IEEE Access, 2019, 7: 65347-65356. DOI:10.1109/ACCESS.2019.2917952 |
[8] |
CUI B E, CHEN X, LU Y. Semantic segmentation of remote sensing images using transfer learning and deep convolutional neural network with dense connection[J]. IEEE Access, 2020, 8: 116744-116755. DOI:10.1109/ACCESS.2020.3003914 |
[9] |
JIANG J, LYU C J, LIU S Y, et al. RWSNet: a semantic segmentation network based on SegNet combined with random walk for remote sensing[J]. International Journal of Remote Sensing, 2020, 41(2): 487-505. DOI:10.1080/01431161.2019.1643937 |
[10] |
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7132-7141.
|
[11] |
WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19.
|
[12] |
WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7794-7803.
|
[13] |
程晓悦, 赵龙章, 胡穹, 等. 基于密集层和注意力机制的快速语义分割[J]. 计算机工程, 2020, 46(4): 247-252, 259. CHENG X Y, ZHAO L Z, HU Q, et al. Fast semantic segmentation based on dense layer and attention mechanism[J]. Computer Engineering, 2020, 46(4): 247-252, 259. (in Chinese) |
[14] |
GUO M Q, LIU H, XU Y Y, et al. Building extraction based on U-Net with an attention block and multiple losses[J]. Remote Sensing, 2020, 12(9): 1400. DOI:10.3390/rs12091400 |
[15] |
WANG S Q, ZHANG C, WU M. Accurate semantic segmentation in remote sensing image[C]//Proceedings of International Conference on Computing and Pattern Recognition. New York, USA: ACM Press, 2019: 173-178.
|
[16] |
LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 936-944.
|
[17] |
ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 2881-2890.
|
[18] |
马震环, 高洪举, 雷涛. 基于增强特征融合解码器的语义分割算法[J]. 计算机工程, 2020, 46(5): 254-258, 266. MA Z H, GAO H J, LEI T. Semantic segmentation algorithm based on enhanced feature fusion decoder[J]. Computer Engineering, 2020, 46(5): 254-258, 266. (in Chinese) |
[19] |
WANG E D, JIANG Y M, LI Y, et al. MFCSNet: multi-scale deep features fusion and cost-sensitive loss function based segmentation network for remote sensing images[J]. Applied Sciences, 2019, 9(19): 4043. DOI:10.3390/app9194043 |
[20] |
SHANG R H, ZHANG J Y, JIAO L C, et al. Multi-scale adaptive feature fusion network for semantic segmentation in remote sensing images[J]. Remote Sensing, 2020, 12(5): 872. DOI:10.3390/rs12050872 |
[21] |
王囡, 侯志强, 赵梦琦, 等. 结合边缘检测的语义分割算法[J]. 计算机工程, 2021, 47(7): 257-265. WANG N, HOU Z Q, ZHAO M Q, et al. Semantic segmentation algorithm combined with edge detection[J]. Computer Engineering, 2021, 47(7): 257-265. (in Chinese) |
[22] |
张娣, 陆建峰. 基于双目图像与跨级特征引导的语义分割模型[J]. 计算机工程, 2020, 46(10): 275-281, 288. ZHANG D, LU J F. Semantic segmentation model based on binocular images and guidance of cross-level features[J]. Computer Engineering, 2020, 46(10): 275-281, 288. (in Chinese) |
[23] |
HAZIRBAS C, MA L, DOMOKOS C, et al. FuseNet: incorporating depth into semantic segmentation via fusion-based CNN architecture[C]//Proceedings of Asian Conference on Computer Vision. Berlin, Germany: Springer, 2017: 213-228.
|
[24] |
HA Q S, WATANABE K, KARASAWA T, et al. MFNet: towards realtime semantic segmentation for autonomous vehicles with multi-spectral scenes[C]//Proceedings of International Conference on Intelligent Robots and Systems. Washington D. C., USA: IEEE Press, 2017: 5108-5115.
|
[25] |
SUN Y X, ZUO W X, LIU M. RTFNet: RGB-thermal fusion network for semantic segmentation of urban scenes[J]. IEEE Robotics and Automation Letters, 2019, 4(3): 2576-2583. |
[26] |
YU C Q, WANG J B, PENG C, et al. BiSeNet: bilateral segmentation network for real-time semantic segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 334-349.
|
[27] |
BOKHOVKIN A, BURNAEV E. Boundary loss for remote sensing imagery semantic segmentation[C]//Proceedings of International Symposium on Neural Networks. Berlin, Germany: Springer, 2019: 388-401.
|