«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (9): 297-303, 312  DOI: 10.19678/j.issn.1000-3428.0058876
0

引用本文  

赫晓慧, 李代栋, 李盼乐, 等. 基于EDRNet模型的高分辨率遥感影像道路提取[J]. 计算机工程, 2021, 47(9), 297-303, 312. DOI: 10.19678/j.issn.1000-3428.0058876.
HE Xiaohui, LI Daidong, LI Panle, et al. Road Extraction from High-Resolution Remote Sensing Images Based on EDRNet Model[J]. Computer Engineering, 2021, 47(9), 297-303, 312. DOI: 10.19678/j.issn.1000-3428.0058876.

基金项目

第二次青藏高原综合科学考察研究项目(2019QZKK0106)

作者简介

赫晓慧(1978-), 女, 教授, 主研方向为遥感影像处理、数据挖掘;
李代栋, 硕士研究生;
李盼乐, 博士;
胡绍凯, 硕士;
陈明扬, 硕士;
田智慧, 教授、博士;
周广胜, 教授、博士

文章历史

收稿日期:2020-07-08
修回日期:2020-08-18
基于EDRNet模型的高分辨率遥感影像道路提取
赫晓慧1 , 李代栋2 , 李盼乐2 , 胡绍凯2 , 陈明扬2 , 田智慧1 , 周广胜3     
1. 郑州大学 地球科学与技术学院, 郑州 450001;
2. 郑州大学 信息工程学院, 郑州 450001;
3. 中国气象科学研究院郑州大学生态气象联合实验室, 郑州 450052
摘要:针对高分辨率遥感影像道路提取结果不完整、边界质量差的问题,提出基于EDRNet模型的遥感影像道路提取方法。利用残差网络构建道路提取模型EDR1,保留道路的细节信息并加速网络收敛。通过融合多尺度、多层次的道路特征信息,设计道路提取结果优化模型EDR2。在此基础上,利用混合损失函数,提高道路提取的完整度。实验结果表明,EDRNet道路提取方法在马萨诸塞州道路数据集上的召回率、精确率和F1-score指标分别达到了84.4%、81.7%及83.0%,其结果完整且准确。
关键词遥感影像    道路提取    U-Net模型    深度学习    EDRNet模型    
Road Extraction from High-Resolution Remote Sensing Images Based on EDRNet Model
HE Xiaohui1 , LI Daidong2 , LI Panle2 , HU Shaokai2 , CHEN Mingyang2 , TIAN Zhihui1 , ZHOU Guangsheng3     
1. School of Geo-Science and Technology, Zhengzhou University, Zhengzhou 450001, China;
2. School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China;
3. Joint Laboratory of Eco-Meteorology, Chinese Academy of Meteorological Sciences, Zhengzhou University, Zhengzhou 450052, China
Abstract: The existing methods for extracting the road parts from high-resolution remote sensing images are limited by the incomplete extraction results and poor boundary quality.To address the problem, a new method based on the EDRNet model is proposed for extracting road parts from remote sensing images.The residual network is used to build the road extraction model, EDR1, which retains the detailed information of the road and accelerates the network convergence.Then multi-scale and multi-level road feature information is fused to design a model, EDR2, for optimizing the road extraction results.On this basis, the mixed loss function is designed to make the road extraction results more complete.Experimental results on the Maschusetts Roads dataset show that the recall rate, precision and F1-score of the proposed methods reach 84.4%, 81.7%, and 82.9% respectively.The proposed method can provide complete and accurate extraction results.
Key words: remote sensing image    road extraction    U-Net model    Deep Learning(DL)    EDRNet model    

开放科学(资源服务)标志码(OSID):

0 概述

随着遥感技术的飞速发展,高分辨率遥感影像为地表地物分析提供了更庞大的信息量。道路信息作为典型的地物要素,在城市规划、数字地图、构建实时地理信息系统等方面具有广泛的应用价值。通过人工方式对遥感影像进行标注,需要耗费大量的人力和物力[1-2],而传统的道路提取算法通过捕获道路的颜色、纹理和边界等[3-5]信息,再利用阈值或机器学习分类器[6]等进行分类,但该类算法仅在有限的应用场合下发挥积极作用。因此,如何利用大量的高分辨率遥感影像完整且准确地提取道路信息,成为该领域的研究热点。

深度学习(Deep Learning,DL)作为人工智能领域的新兴技术,能够通过其深度多层次的结构来分析和处理数据,在道路提取领域得到了快速发展和广泛应用。文献[7-9]利用深度卷积神经网络(Convolutional Netural Network,CNN)[10]对马萨诸塞州道路和建筑物的标注和分割进行了大量研究。相比传统CNN,全卷积网络(Fully Convolutional Network,FCN)[11]将全连接层替换为卷积层,通过仅一次正向传播就能完成整个图像的语义分割,从而大幅提高了效率。ZHONG等[12]将FCN应用于道路提取任务中,并在结构化输出中探索道路提取的二维空间相关性。如U-Net[13]和SegNet[14]的编码器-解码器(Encoder-Decoder)网络通过连接不同级别的特征图,解决FCN在分割细节方面表现不佳的问题,且具有易改造性强、训练速度快、提取精度高等优点。MOSINSKA等[15]在U-Net的基础上提出深度学习分割框架,并通过预训练的VGG19 [16]来捕获线性结构的高阶拓扑特征,减少出现断裂或空洞现象。PANBOONYUEN等[17]利用SegNet的网络结构和指数线性单元(Exponential Linear Unit,ELU)激活单元,通过有效的数据扩增,进一步提升道路提取的完整度。QIN等[18]针对提取边界质量差的问题,构建由两个编码器-解码器模型组成的分割框架,分别负责显著性预测和特征优化,能够用准确且清晰的边界预测其结构,在局部的细节分割效果更加优异。但遥感影像中各种信息复杂多样,且道路区域所占比例较低,通过显著性预测进行道路提取质量较差。尽管已经提出许多基于深度学习的道路提取方法,但现有方法大多采用交叉熵作为损失函数[11-14, 17],往往会错过精细的道路结构或在其边界存在大量模棱两可的预测。

为进一步提高道路提取质量,本文设计了基于编码器-解码器道路网络(Encoder-Decoder Road Network,EDRNet)的道路提取方法。采用编码器-解码器的网络结构,结合残差网络和跳跃连接,构建EDR1道路提取模型。为保留道路主体结构以及进一步精细目标边界,EDR2模型利用已提取到的道路拓扑特征,增加侧向输出融合浅层空间信息与深层语义信息。在此基础上,引入混合损失函数,对模型进行监督训练,分别提高道路提取的完整度与精确度。

1 EDRNet模型

本文提出的EDRNet道路提取模型由EDR1道路提取模型和EDR2优化模型构成,其提取流程如图 1所示。在EDRNet模型的训练过程中,先对EDR1模型进行训练,训练完成后对原训练数据和验证数据进行预测。筛选数据制作EDR2模型所需的数据集,并利用新数据集训练EDR2模型。测试图像则通过EDR1模型预测道路区域,利用EDR2模型优化道路整体轮廓,得到最终道路提取结果。

Download:
图 1 EDRNet模型提取流程 Fig. 1 Extraction procedure of EDRNet model
1.1 EDR1模型提取 1.1.1 ResNet编码器

在编码器-解码器的网络结构中,编码器对输入影像进行多阶段的卷积和池化操作,从抽象的高维特征图中捕捉影像的上下文信息;与之相对应的解码器则利用反卷积进行相同次数的上采样,生成相应尺寸的特征图,对影像中道路目标区域进行精准定位。编码器对道路的细节特征进行提取,但小面积、线形且呈网状分布的道路结构细节信息丰富且提取困难。简单的加深网络易导致梯度分散或梯度爆炸,深层的网络权重参数过多,在训练集较小的情况下,训练过深的特征提取网络容易过拟合。文献[19]通过构建残差神经网络(Residual Neural Network,ResNet)解决了退化问题,能够保护信息的完整性并简化训练难度,其性能优于VGG网络。ResNet网络结构如图 2所示,主要由残差块组成。

Download:
图 2 ResNet网络结构 Fig. 2 Structure of ResNet network

图 2(a)中,$ x $为残差块输入,经过第一次激活函数后输出为$ F\left(x\right) $,如式(1)所示:

$ F={W}_{2}\sigma \left({W}_{1}x\right) $ (1)

其中:$ \sigma $为Relu非线性函数;$ {W}_{1} $$ {W}_{2} $分别为各层的权值。残差块将$ F\left(x, \left\{{W}_{i}\right\}\right) $与输入$ x $相加,得到最终的输出y,如式(2)所示:

$ y=F\left(x, \left\{{W}_{i}\right\}\right)+x $ (2)

基于以上研究,EDR1模型采用图 2(b)中的残差模块加深网络,构建ResNet-34残差网络编码器。该编码器能提取更丰富的道路特征,保留细节信息并减少网络训练时间。

1.1.2 EDR1模型设计

U-Net网络由捕获上下文的编码器、对称的解码器和跳跃连接组成。其中丰富的跳跃连接允许信息直接从低级到高级特征映射流动,能同时获取高等级的全局信息和低等级的细节信息,无需进行替换,进一步提高了定位精确度并加快收敛速度[20]

EDR1模型是基于残差网络构建的特征编码器,并借鉴U-Net网络跳跃连接设计道路提取模型。该模型包含4个编码器块和4个解码器块,将ResNet-34的4个卷积块作为其编码器部分,通过跳跃连接分别与相应的解码器块相连。该网络设计充分利用ResNet-34的特征提取能力、编码器-解码器结构和跳跃连接的优势,不仅能够获取更加丰富的道路特征信息,而且更容易训练,大幅提升了模型的训练速度。

1.2 EDR2模型优化

道路提取结果的优化与普通提取任务有明显区别。首先道路轮廓优化与已提取的道路区域具有明显的相关性,且需优化区域占比小、背景单一,特征提取难度较低,过于复杂的模型易陷入过拟合。其次为保留道路主体结构,需要充分利用多尺度、多层次的特征,获取从低层次到高层次的道路结构信息。最后为引导模型学习正确的道路信息、优化道路提取结果,需要对优化结果进行深度监控。

因此,为充分利用EDR1模型的提取结果,保留已提取到的道路主体结构,同时消除道路边缘的噪声干扰,EDR2模型设计主要是:1)在编码器部分放弃较EDR1模型中复杂的Res模块,采用原U-Net网络的特征编码器;2)在每个解码器块增加侧向输出,每个解码器的最后都使用卷积核大小为1×1,窗口滑动步距为1的卷积层,降低特征图的维度为1;由于不同解码器块上降维后的特征图大小不一致,分别通过反卷积(deconvolutional)的方式,将其恢复至原始影像尺寸;3)不同于EDR1模型仅利用最后一层预测道路,EDR2模型对所有解码块的采样特征图进行融合,经过3×3卷积和1×1卷积,输出单通道的优化结果。EDR2模型结构如图 3所示。

Download:
图 3 EDR2模型结构 Fig. 3 Structure of EDR2 model
1.3 损失函数

道路提取是区分道路及背景的二分类问题,采用二分类交叉熵损失函数[21]对深度学习模型进行训练,如式(3)所示:

$ L=-\frac{1}{n}\sum \limits_{i}^{n}\left({y}_{i} \ \mathrm{l}\mathrm{b} \ {a}_{i}+\left(1-{y}_{i}\right) \ \mathrm{l}\mathrm{b} \ \left(1-{a}_{i}\right)\right) $ (3)

其中:$ n $为像素个数;$ {y}_{i} $为第i个像素的标签真实值,该值为0时代表该像素属于背景区域,为1则代表该像素属于道路区域;$ {a}_{i} $为第i个像素的预测值,其值为0~1,$ {a}_{i} $值越高则属于道路的概率越大。由式(3)中$ L $的定义可知,交叉熵损失没有考虑精细的道路结构,对不同像素的损失分配了相同的权重,因此交叉熵损失不适合分割小面积、线性结构的道路区域。

本文提出的EDRNet道路提取模型中,EDR1模型进行道路提取,EDR2模型基于EDR1模型的提取结果进行优化。若EDR1模型提取结果召回率较低,则道路结构缺损严重。EDR2模型能够有效利用道路结构信息的不足,影响优化结果。因此,EDR1模型得到道路结构较为完整的提取结果,并通过EDR2模型保留道路结构并消除噪声影响。

在对模型改进的基础上,根据各模型特点,本文利用Tversky系数[22]和Focal损失函数[23],构建EDR1损失函数$ {L}_{1} $和EDR2模型损失函数$ {L}_{2} $。利用$ {L}_{1} $损失函数提升道路提取的完整度,利用$ {L}_{2} $损失函数进一步优化整体提取结果。

1.3.1 EDR1损失函数$ {L}_{1} $

Tversky系数是Dice系数和Jaccard系数的一种广义系数,其定义如式(4)所示:

$ T\left(A, B\right)=\frac{|A\bigcap B|}{\left|A\bigcap B\right|+\alpha \left|A-B\right|+\beta |B-A|} $ (4)

其中:A为预测值;B为真实标签;$ \alpha $$ \beta $为0~1的系数。由式(4)可知,设置$ \alpha =\beta =0.5 $时,Tversky系数为Dice系数;设置$ \alpha =\beta =1 $时,为Jaccard系数。其中|A-B|代表FP(标签为负,预测为正),而|B-A|代表FN(标签为正,预测为负)。因此,在EDR1模型的训练过程中,利用Tversky系数作为损失函数,通过调整αβ值,能够调节提取结果中精确度与召回率所占权重。根据遥感影像道路提取二分类的特点,EDR1损失函数$ {L}_{1} $如式(5)所示:

$ {L}_{1}=1-T\left(\alpha , \beta \right)=1-\\ \frac{\sum \limits_{i=1}^{n}{a}_{i}{y}_{i}+\varepsilon }{\sum \limits_{i=1}^{n}{a}_{i}{y}_{i}+\alpha \sum \limits_{i=1}^{n}(1-{a}_{i}){y}_{i}+\beta \sum \limits_{i=1}^{n}{a}_{i}(1-{y}_{i})+\varepsilon } $ (5)

其中:$ \varepsilon $为固定值。本文设计了特征提取能力更强的EDR1模型,并利用$ {L}_{1} $损失函数对其进行训练。通过调节$ {L}_{1} $损失函数的相关参数,使模型在训练过程中能获取完整的道路结构,得到召回率较高但精确度较低的提取结果。更完整的道路提取结果有利于EDR2模型的优化。

1.3.2 EDR2损失函数$ {L}_{2} $

由于EDR2模型的输入是EDR1的预测结果,其中绝大部分都是背景,而在整张遥感影像中道路所占比例较低,且能优化道路轮廓或噪声信息部分所占比例更低。若利用交叉熵损失函数训练EDR2模型,很难从中学习到有用信息。而Focal损失函数利用$ \gamma $权重减少了易分类样本的损失,更关注于错分的样本,并通过增加$ \theta $权重来平衡正负样本比例不均的问题,更适应于道路提取结果的优化。其定义如式(6)所示:

$ {L}_{\mathrm{F}}=-\frac{1}{n}\sum \limits_{i=1}^{n}(\theta {y}_{i}(1-{a}_{i}{)}^{\mathrm{\gamma }} \ \mathrm{l}\mathrm{b} \ {a}_{i}+(1-\theta \left)\right(1-{y}_{i}\left){{a}_{i}}^{\gamma } \ \mathrm{l}\mathrm{b} \ \mathrm{ }\right(1-{a}_{i}\left)\right) $ (6)

其中:$ \theta $为0~1的系数;$ \gamma $为大于0的权重系数。$ {L}_{\mathrm{F}} $损失函数能逐渐降低背景及主体道路结构的权重,专注于道路边缘及离散斑点等需要优化的部分,有效提升EDR2模型的优化能力。而通过改变$ {L}_{1} $损失函数相关系数,也能够增加精确度所占权重,利于提升EDR2模型的优化能力。因此,设计EDR2模型的损失函数$ {L}_{2} $$ {L}_{1} $$ {L}_{\mathrm{F}} $构成,如式(7)所示:

$ {L}_{2}=\varphi {L}_{1}+\omega {L}_{\mathrm{F}} $ (7)

其中:$ \varphi $$ \omega $的值为0~1的系数,能调节各损失函数所占权重。通过调节$ {L}_{1} $$ {\mathrm{L}}_{\mathrm{F}} $损失函数所占权重,在EDR2模型训练过程中减少已提取的道路主体结构与背景的损失,专注于优化道路提取结果。

2 实验分析

为验证算法对遥感影像道路提取的有效性,使用EDR1和EDR2数据集对网络进行训练、测试与验证。实验基于Tensorflow深度学习框架设计,运行环境为CPU Inter Core i7-8700 4.6 GHz,GPU NVIDIA Tesla P100 16 GB。

2.1 实验数据

采用马萨诸塞州道路数据集作为实验数据。该数据集为美国马萨诸塞州的卫星影像,共涵盖1 171张3通道影像和对应分割标签。影像空间分辨率为1 m,尺寸为1 500像素×1 500像素。分割标签为二值化图像,道路像素值为1,背景像素值为0。在EDRNet提取方法中共需要2个数据集,分别为EDR1数据集和EDR2数据集,其中EDR1数据集由马萨诸塞州道路中获得,EDR2数据集在实验中通过EDR1模型得到。

2.1.1 EDR1数据

由于构建的EDR1网络输入影像尺寸为128像素×128像素,为了避免归一化带来的影响,首先将马萨诸塞州道路每张影像及标签裁剪成121张尺寸为128像素×128像素的图像,裁剪后的图像没有重叠区域,并采用多种方法数据集进行增强。然后通过人工筛选方式去除数据集中不对应的影像和标签,共获取12 003张影像与标签。最后将道路数据集按7∶2∶1划分为训练集、测试集和验证集。

2.1.2 EDR2数据

利用训练完成的EDR1模型对EDR1数据的训练集和验证集进行预测,经过数据筛选,剔除部分提取完整度较差的影像,并将其提取结果和对应的标签裁剪为128像素×128像素尺寸的图像,符合要求的训练集和验证集及其相对应的标签制成EDR2数据集。EDR2部分数据如图 4所示。

Download:
图 4 EDR2部分数据 Fig. 4 EDR2 partial datas
2.1.3 数据扩增

深度学习是一种数据驱动技术,充足的数据量是训练深度网络的基础,但目前标准的遥感影像道路数据还不能满足需求。在数据不足的情况下,通过对影像进行旋转和变换来扩充训练数据容量。本文借鉴文献[24]中数据扩增的方法,在其基础上增加两种映射方式。对原始影像及标签随机进行旋转或水平、垂直的镜像映射,将训练数据量扩充为原来的8倍,基本能满足EDRNet网络训练的需求。数据扩增结果如图 5所示。

Download:
图 5 数据扩增结果 Fig. 5 Results of data amplification
2.2 实验参数

在模型的训练过程中,根据实际情况,设置迭代批量batch_size为2,动量参数Momentum为0.9,配置基础学习率在前20 000次迭代中为$ {10}^{-6} $,随后迭代逐步降为$ 5\times {10}^{-7} $。EDR1模型训练过程中,$ {L}_{1} $损失函数相关系数设置为$ \alpha =0.7 $$ \beta =0.3 $;EDR2模型训练时,$ {L}_{2} $损失函数中相关系数分别为$ \alpha =0.5 $$ \beta =0.5 $$ \gamma =2 $$ \theta =0.25 $

2.3 评价指标

为实现对遥感影像道路提取方法的客观评价,道路提取结果采用语义分割常用的评价方法,即精确率(P),召回率(R)和F1-score等。其定义分别为式(8)~式(10)所示:

$ P=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{P}}} $ (8)
$ R=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{N}}} $ (9)
$ \mathrm{F}1=\frac{2\times P\times R}{P+R}=\frac{2{T}_{\mathrm{P}}}{2{T}_{\mathrm{P}}+{F}_{\mathrm{N}}+{F}_{\mathrm{P}}} $ (10)

其中:TP(true-positive)代表标签为正,预测也为正;FP(false-positive)代表标签为负,预测为正;FN(false-negative)代表标签为正,预测为负。

2.4 实验结果与分析

为验证本文所提出方法的有效性,选取了特征提取能力较强、道路网结构提取比较完整的模型进行对比实验。分别将U-Net模型、文献[17, 19]模型、EDR1模型和EDR1($ {L}_{1} $)模型,在马萨诸塞州道路数据集下进行验证测试,提取结果如表 1所示。

下载CSV 表 1 不同模型道路提取结果对比 Table 1 Comparison of road extraction results between different models

表 1可以看出,U-Net虽然可用于遥感影像道路目标的分割,但测试精确率较差,影响整体的测试结果,其模型结构设计并不能完全适应复杂的遥感影像道路提取任务。文献[17]在U-Net基础上,利用预训练的VGG19来捕获线性结构的高阶拓扑特征,F1-score提高了约7个百分点;但在训练过程中将所有提取结果未加筛选进行训练,导致模型保留了部分类似道路区域的特征,其结果中存在一些被误检测为道路的区域。文献[19]中的ELU-SegNet-R采用更先进的网络结构和激活函数,召回率、F1-score分别为84.7%和81.2%,但其直接利用了适合于街景分割的SegNet基本架构,设计损失函数时没有考虑道路边缘噪声影响,因而限制其提取道路网络的性能。本文基于U-Net改进的EDR1模型,将原编码部分替换为特征提取能力更强的Res模块,提高了对道路目标特征的提取能力,相比原始U-Net的召回率提升了约11个百分点。利用$ {L}_{1} $损失函数进行训练的EDR1模型,在此基础上进一步提升了道路提取的完整度,其召回率值达到了93.1%,绝大多数的目标道路区域能够被提取到。由于侧重提升对道路目标特征信息提取,其精确率与F1-score指标略低。不同模型提取结果如图 6所示。

Download:
图 6 不同模型提取结果 Fig. 6 Extraction results of different models

图 6可以看出,相比U-Net、文献[17, 19]模型,EDR1模型提取到了更多的道路目标区域,但仍存在部分道路中断以及未检测到的情况,不利于EDR2模型进行优化。相比其他模型,利用$ {L}_{1} $损失函数进行训练的EDR1模型,道路提取完整程度高,但同时道路边缘及背景也存在部分噪声干扰等问题,影响整体的提取效果。

为验证本文所提EDR2模型的改进效果,分别选取对特征提取能力强、道路网结构提取完整的模型U-Net、文献[17, 19]模型、EDR1模型和EDR1(L1)模型,并结合EDR2模型进行验证测试,实验结果如表 2所示。

下载CSV 表 2 EDR2模型优化结果 Table 2 Optimization results of EDR2 model

表 2可以看出,利用EDR2模型对上述方法进行优化的结果中,精确率指标分别提升了1.0、1.6、2.9和8.6个百分点,而召回率仅下降了0.8、1.1、1.9和5.9个百分点,最终在指标F1-score有所提升。通过调节$ {L}_{1} $损失函数的相关参数,EDR1模型在训练过程中更关注获取完整的道路结构,得到一个召回率较高但精确率较低的提取结果。实验对比表明,召回率较高的提取结果经过EDR2模型改进优化,最终道路提取结果能更好地实现召回率和精确率均衡。利用$ {L}_{1} $损失函数进行训练的EDR1模型,经过EDR2模型优化后精确度和F1-score指标提升效果显著,但其精确率和召回率相差较大,仍存在一定的优化空间。因此,为了使EDR2模型获得更充足的道路结构信息,本文设计了特征提取能力更强的EDR1模型,并利用$ {L}_{1} $损失函数对其进行训练。EDR2($ {L}_{2} $)模型的优化结果如表 3所示。

下载CSV 表 3 EDR2($ {\mathit{L}}_{2} $)模型优化结果 Table 3 Optimization results of EDR2($ {\mathit{L}}_{2} $) model

表 3可以看出,利用EDR2模型+$ {L}_{2} $损失函数对上述方法的提取结果进行优化后,召回率降低幅度较低,而精确率得到了有效提升,召回率和精确度之间的差也进一步缩小。在实验结果中,EDR1(L1)+EDR2(L2)与其他原始或改进后方法的结果相比,其精确率、召回率以及F1-score都取得更加优异的表现,尤其是精确率提升方面。各模型优化结果如图 7所示。从图 7可以看出,经过EDR2模型+$ {L}_{2} $损失函数的优化,文献[17, 19]模型的提取结果,在保留主体道路结构的同时提升了其精确率,能够消除部分噪声的影响;但由于上述网络的特征提取能力较弱,部分道路未被提取到,通过EDR2模型进行优化提升的空间有限,限制其最终提取完整度的表现。EDR2模型+L2损失函数对EDR1模型的优化结果较明显,但仅通过改进模型结构,仍然有部分道路未被有效提取,影响了整体的优化效果。而本文方法通过优化EDR1模型+$ {L}_{1} $损失函数的道路提取结果,能够较完整保留道路主体结构,同时消除大部分毛刺或离散斑点的噪声干扰。最终提取结果与标签图像达到更高的相似度,整体道路提取结果更优异。

Download:
图 7 不同模型优化结果 Fig. 7 Optimization results of different models
3 结束语

本文提出基于EDRNet模型的遥感影像道路提取方法。EDR1模型通过替换性能更优异的残差模块,提取完整的目标道路区域。在特征解码阶段,EDR2模型对多层次、多尺度的道路结构特征进行融合。在此基础上,利用混合损失函数和数据增强的方法,提升各模型特性。实验结果表明,EDRNet道路提取方法的各项性能指标表现优异,能够从复杂的遥感影像中获得完整且准确的路网结构。下一步工作是扩大EDRNet方法的适用范围,使其能更广泛地应用在建筑物、河流和车辆等影像提取任务中。

参考文献
[1]
SHI W Z, ZHU C Q, WANG Y. Road feature extraction from remotely sensed image: review and prospects[J]. Acta Geodaetica et Cartographica Sinica, 2001, 30(3): 257-262. (in Chinese)
史文中, 朱长青, 王昱. 从遥感影像提取道路特征的方法综述与展望[J]. 测绘学报, 2001, 30(3): 257-262. DOI:10.3321/j.issn:1001-1595.2001.03.014
[2]
JIN X, DAVIS C. An integrated system for automatic road mapping from high-resolution multi-spectral satellite imagery by information fusion[J]. Elsevier Science Information Fusion, 2005, 6(4): 257-273. DOI:10.1016/j.inffus.2004.06.003
[3]
MIAO Z, WANG B, SHI W, et al. A semi-automatic method for road centerline extraction from VHR images[J]. IEEE Geoscience & Remote Sensing Letters, 2014, 11(11): 1856-1860.
[4]
UNSALAN C, SIRMACEK B. Road network detection using probabilistic and graph theoretical methods[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(11): 4441-4453. DOI:10.1109/TGRS.2012.2190078
[5]
MA R G, WANG W X, LIU S, et al. Extracting roads based on retinex and improved Canny operator with shape criteria in vague and unevenly illuminated aerial images[J]. Journal of Applied Remote Sensing, 2012, 6(1): 63610-63624. DOI:10.1117/1.JRS.6.063610
[6]
SHOTTON J, JOHNSON M, CIPOLLA R. Semantic texton forests for image categorization and segmentation[C]//Proceedings of 2008 IEEE Conference on Computer Vision & Pattern Recognition. Washington D.C., USA: IEEE Press, 2008: 1-8.
[7]
MNIH V, HINTON G E. Learning to detect roads in high-resolution aerial images[C]//Proceedings of the 11th European Conference on Computer Vision. Berlin, Germany: Springer, 2010: 1-10.
[8]
MNIH V. Machine learning for aerial image labeling[D]. Toronto, Canada: University of Toronto, 2013.
[9]
LI P, HE X, CHENG X, et al. Object extraction from very high-resolution images using a convolutional neural network based on a noisy large-scale dataset[J]. IEEE Access, 2019, 7: 122784-122795. DOI:10.1109/ACCESS.2019.2938215
[10]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E, et al. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386
[11]
LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[12]
ZHONG Z, LI J, CUI W, et al. Fully convolutional networks for building and road extraction: preliminary results[C]//Proceedings of IEEE International Geoscience and Remote Sensing Symposium. Washington D.C., USA: IEEE Press, 2016: 1591-1594.
[13]
RONNEBERGER O, FISCHER P, BROX T, et al. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[14]
BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 39(12): 2481-2495.
[15]
MOSINSKA A, MARQUEZNEILA P, KOZINSKI M, et al. Beyond the pixel-wise loss for topology-aware delineation[EB/OL]. [2020-06-01]. https://arxiv.org/abs/1712.02190v1.
[16]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-06-05]. https://arxiv.org/abs/1409.1556.
[17]
PANBOONYUEN T, JITKAJORNWANICH K, LAWAWIROJWONG S, et al. Road segmentation of remotely-sensed images using deep convolutional neural networks with landscape metrics and conditional random fields[J]. Remote Sensing, 2017, 9(7): 1-10.
[18]
QIN X, ZHANG Z, HUANG C, et al. BASNet: boundary-aware salient object detection[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 1-9.
[19]
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
[20]
ZHANG Z X, LIU Q J, WANG Y H. Road extraction by deep residual U-Net[J]. IEEE Geoence and Remote Sensing Letters, 2018, 15(5): 1-5. DOI:10.1109/LGRS.2018.2825738
[21]
GOODFELLOW I, BENGIO Y, COURVILLE A. Deep Learning[M]. Cambridge, USA: The MIT Press, 2016.
[22]
TVERSKY A. Features of similarity[J]. Psychological Review, 1977, 84(4): 327-352. DOI:10.1037/0033-295X.84.4.327
[23]
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 2999-3007.
[24]
IGLOVIKOV V I, SEFERBEKOV S, BUSLAEV A V, et al. TernausNetV2: fully convolutional network for instance segmentation[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington D.C., USA: IEEE Press, 2018: 228-2284.