2. 郑州大学 信息工程学院, 郑州 450001;
3. 中国气象科学研究院郑州大学生态气象联合实验室, 郑州 450052
2. School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China;
3. Joint Laboratory of Eco-Meteorology, Chinese Academy of Meteorological Sciences, Zhengzhou University, Zhengzhou 450052, China
开放科学(资源服务)标志码(OSID):
随着遥感技术的飞速发展,高分辨率遥感影像为地表地物分析提供了更庞大的信息量。道路信息作为典型的地物要素,在城市规划、数字地图、构建实时地理信息系统等方面具有广泛的应用价值。通过人工方式对遥感影像进行标注,需要耗费大量的人力和物力[1-2],而传统的道路提取算法通过捕获道路的颜色、纹理和边界等[3-5]信息,再利用阈值或机器学习分类器[6]等进行分类,但该类算法仅在有限的应用场合下发挥积极作用。因此,如何利用大量的高分辨率遥感影像完整且准确地提取道路信息,成为该领域的研究热点。
深度学习(Deep Learning,DL)作为人工智能领域的新兴技术,能够通过其深度多层次的结构来分析和处理数据,在道路提取领域得到了快速发展和广泛应用。文献[7-9]利用深度卷积神经网络(Convolutional Netural Network,CNN)[10]对马萨诸塞州道路和建筑物的标注和分割进行了大量研究。相比传统CNN,全卷积网络(Fully Convolutional Network,FCN)[11]将全连接层替换为卷积层,通过仅一次正向传播就能完成整个图像的语义分割,从而大幅提高了效率。ZHONG等[12]将FCN应用于道路提取任务中,并在结构化输出中探索道路提取的二维空间相关性。如U-Net[13]和SegNet[14]的编码器-解码器(Encoder-Decoder)网络通过连接不同级别的特征图,解决FCN在分割细节方面表现不佳的问题,且具有易改造性强、训练速度快、提取精度高等优点。MOSINSKA等[15]在U-Net的基础上提出深度学习分割框架,并通过预训练的VGG19 [16]来捕获线性结构的高阶拓扑特征,减少出现断裂或空洞现象。PANBOONYUEN等[17]利用SegNet的网络结构和指数线性单元(Exponential Linear Unit,ELU)激活单元,通过有效的数据扩增,进一步提升道路提取的完整度。QIN等[18]针对提取边界质量差的问题,构建由两个编码器-解码器模型组成的分割框架,分别负责显著性预测和特征优化,能够用准确且清晰的边界预测其结构,在局部的细节分割效果更加优异。但遥感影像中各种信息复杂多样,且道路区域所占比例较低,通过显著性预测进行道路提取质量较差。尽管已经提出许多基于深度学习的道路提取方法,但现有方法大多采用交叉熵作为损失函数[11-14, 17],往往会错过精细的道路结构或在其边界存在大量模棱两可的预测。
为进一步提高道路提取质量,本文设计了基于编码器-解码器道路网络(Encoder-Decoder Road Network,EDRNet)的道路提取方法。采用编码器-解码器的网络结构,结合残差网络和跳跃连接,构建EDR1道路提取模型。为保留道路主体结构以及进一步精细目标边界,EDR2模型利用已提取到的道路拓扑特征,增加侧向输出融合浅层空间信息与深层语义信息。在此基础上,引入混合损失函数,对模型进行监督训练,分别提高道路提取的完整度与精确度。
1 EDRNet模型本文提出的EDRNet道路提取模型由EDR1道路提取模型和EDR2优化模型构成,其提取流程如图 1所示。在EDRNet模型的训练过程中,先对EDR1模型进行训练,训练完成后对原训练数据和验证数据进行预测。筛选数据制作EDR2模型所需的数据集,并利用新数据集训练EDR2模型。测试图像则通过EDR1模型预测道路区域,利用EDR2模型优化道路整体轮廓,得到最终道路提取结果。
![]() |
Download:
|
图 1 EDRNet模型提取流程 Fig. 1 Extraction procedure of EDRNet model |
在编码器-解码器的网络结构中,编码器对输入影像进行多阶段的卷积和池化操作,从抽象的高维特征图中捕捉影像的上下文信息;与之相对应的解码器则利用反卷积进行相同次数的上采样,生成相应尺寸的特征图,对影像中道路目标区域进行精准定位。编码器对道路的细节特征进行提取,但小面积、线形且呈网状分布的道路结构细节信息丰富且提取困难。简单的加深网络易导致梯度分散或梯度爆炸,深层的网络权重参数过多,在训练集较小的情况下,训练过深的特征提取网络容易过拟合。文献[19]通过构建残差神经网络(Residual Neural Network,ResNet)解决了退化问题,能够保护信息的完整性并简化训练难度,其性能优于VGG网络。ResNet网络结构如图 2所示,主要由残差块组成。
![]() |
Download:
|
图 2 ResNet网络结构 Fig. 2 Structure of ResNet network |
在图 2(a)中,
$ F={W}_{2}\sigma \left({W}_{1}x\right) $ | (1) |
其中:
$ y=F\left(x, \left\{{W}_{i}\right\}\right)+x $ | (2) |
基于以上研究,EDR1模型采用图 2(b)中的残差模块加深网络,构建ResNet-34残差网络编码器。该编码器能提取更丰富的道路特征,保留细节信息并减少网络训练时间。
1.1.2 EDR1模型设计U-Net网络由捕获上下文的编码器、对称的解码器和跳跃连接组成。其中丰富的跳跃连接允许信息直接从低级到高级特征映射流动,能同时获取高等级的全局信息和低等级的细节信息,无需进行替换,进一步提高了定位精确度并加快收敛速度[20]。
EDR1模型是基于残差网络构建的特征编码器,并借鉴U-Net网络跳跃连接设计道路提取模型。该模型包含4个编码器块和4个解码器块,将ResNet-34的4个卷积块作为其编码器部分,通过跳跃连接分别与相应的解码器块相连。该网络设计充分利用ResNet-34的特征提取能力、编码器-解码器结构和跳跃连接的优势,不仅能够获取更加丰富的道路特征信息,而且更容易训练,大幅提升了模型的训练速度。
1.2 EDR2模型优化道路提取结果的优化与普通提取任务有明显区别。首先道路轮廓优化与已提取的道路区域具有明显的相关性,且需优化区域占比小、背景单一,特征提取难度较低,过于复杂的模型易陷入过拟合。其次为保留道路主体结构,需要充分利用多尺度、多层次的特征,获取从低层次到高层次的道路结构信息。最后为引导模型学习正确的道路信息、优化道路提取结果,需要对优化结果进行深度监控。
因此,为充分利用EDR1模型的提取结果,保留已提取到的道路主体结构,同时消除道路边缘的噪声干扰,EDR2模型设计主要是:1)在编码器部分放弃较EDR1模型中复杂的Res模块,采用原U-Net网络的特征编码器;2)在每个解码器块增加侧向输出,每个解码器的最后都使用卷积核大小为1×1,窗口滑动步距为1的卷积层,降低特征图的维度为1;由于不同解码器块上降维后的特征图大小不一致,分别通过反卷积(deconvolutional)的方式,将其恢复至原始影像尺寸;3)不同于EDR1模型仅利用最后一层预测道路,EDR2模型对所有解码块的采样特征图进行融合,经过3×3卷积和1×1卷积,输出单通道的优化结果。EDR2模型结构如图 3所示。
![]() |
Download:
|
图 3 EDR2模型结构 Fig. 3 Structure of EDR2 model |
道路提取是区分道路及背景的二分类问题,采用二分类交叉熵损失函数[21]对深度学习模型进行训练,如式(3)所示:
$ L=-\frac{1}{n}\sum \limits_{i}^{n}\left({y}_{i} \ \mathrm{l}\mathrm{b} \ {a}_{i}+\left(1-{y}_{i}\right) \ \mathrm{l}\mathrm{b} \ \left(1-{a}_{i}\right)\right) $ | (3) |
其中:
本文提出的EDRNet道路提取模型中,EDR1模型进行道路提取,EDR2模型基于EDR1模型的提取结果进行优化。若EDR1模型提取结果召回率较低,则道路结构缺损严重。EDR2模型能够有效利用道路结构信息的不足,影响优化结果。因此,EDR1模型得到道路结构较为完整的提取结果,并通过EDR2模型保留道路结构并消除噪声影响。
在对模型改进的基础上,根据各模型特点,本文利用Tversky系数[22]和Focal损失函数[23],构建EDR1损失函数
Tversky系数是Dice系数和Jaccard系数的一种广义系数,其定义如式(4)所示:
$ T\left(A, B\right)=\frac{|A\bigcap B|}{\left|A\bigcap B\right|+\alpha \left|A-B\right|+\beta |B-A|} $ | (4) |
其中:A为预测值;B为真实标签;
$ {L}_{1}=1-T\left(\alpha , \beta \right)=1-\\ \frac{\sum \limits_{i=1}^{n}{a}_{i}{y}_{i}+\varepsilon }{\sum \limits_{i=1}^{n}{a}_{i}{y}_{i}+\alpha \sum \limits_{i=1}^{n}(1-{a}_{i}){y}_{i}+\beta \sum \limits_{i=1}^{n}{a}_{i}(1-{y}_{i})+\varepsilon } $ | (5) |
其中:
由于EDR2模型的输入是EDR1的预测结果,其中绝大部分都是背景,而在整张遥感影像中道路所占比例较低,且能优化道路轮廓或噪声信息部分所占比例更低。若利用交叉熵损失函数训练EDR2模型,很难从中学习到有用信息。而Focal损失函数利用
$ {L}_{\mathrm{F}}=-\frac{1}{n}\sum \limits_{i=1}^{n}(\theta {y}_{i}(1-{a}_{i}{)}^{\mathrm{\gamma }} \ \mathrm{l}\mathrm{b} \ {a}_{i}+(1-\theta \left)\right(1-{y}_{i}\left){{a}_{i}}^{\gamma } \ \mathrm{l}\mathrm{b} \ \mathrm{ }\right(1-{a}_{i}\left)\right) $ | (6) |
其中:
$ {L}_{2}=\varphi {L}_{1}+\omega {L}_{\mathrm{F}} $ | (7) |
其中:
为验证算法对遥感影像道路提取的有效性,使用EDR1和EDR2数据集对网络进行训练、测试与验证。实验基于Tensorflow深度学习框架设计,运行环境为CPU Inter Core i7-8700 4.6 GHz,GPU NVIDIA Tesla P100 16 GB。
2.1 实验数据采用马萨诸塞州道路数据集作为实验数据。该数据集为美国马萨诸塞州的卫星影像,共涵盖1 171张3通道影像和对应分割标签。影像空间分辨率为1 m,尺寸为1 500像素×1 500像素。分割标签为二值化图像,道路像素值为1,背景像素值为0。在EDRNet提取方法中共需要2个数据集,分别为EDR1数据集和EDR2数据集,其中EDR1数据集由马萨诸塞州道路中获得,EDR2数据集在实验中通过EDR1模型得到。
2.1.1 EDR1数据由于构建的EDR1网络输入影像尺寸为128像素×128像素,为了避免归一化带来的影响,首先将马萨诸塞州道路每张影像及标签裁剪成121张尺寸为128像素×128像素的图像,裁剪后的图像没有重叠区域,并采用多种方法数据集进行增强。然后通过人工筛选方式去除数据集中不对应的影像和标签,共获取12 003张影像与标签。最后将道路数据集按7∶2∶1划分为训练集、测试集和验证集。
2.1.2 EDR2数据利用训练完成的EDR1模型对EDR1数据的训练集和验证集进行预测,经过数据筛选,剔除部分提取完整度较差的影像,并将其提取结果和对应的标签裁剪为128像素×128像素尺寸的图像,符合要求的训练集和验证集及其相对应的标签制成EDR2数据集。EDR2部分数据如图 4所示。
![]() |
Download:
|
图 4 EDR2部分数据 Fig. 4 EDR2 partial datas |
深度学习是一种数据驱动技术,充足的数据量是训练深度网络的基础,但目前标准的遥感影像道路数据还不能满足需求。在数据不足的情况下,通过对影像进行旋转和变换来扩充训练数据容量。本文借鉴文献[24]中数据扩增的方法,在其基础上增加两种映射方式。对原始影像及标签随机进行旋转或水平、垂直的镜像映射,将训练数据量扩充为原来的8倍,基本能满足EDRNet网络训练的需求。数据扩增结果如图 5所示。
![]() |
Download:
|
图 5 数据扩增结果 Fig. 5 Results of data amplification |
在模型的训练过程中,根据实际情况,设置迭代批量batch_size为2,动量参数Momentum为0.9,配置基础学习率在前20 000次迭代中为
为实现对遥感影像道路提取方法的客观评价,道路提取结果采用语义分割常用的评价方法,即精确率(P),召回率(R)和F1-score等。其定义分别为式(8)~式(10)所示:
$ P=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{P}}} $ | (8) |
$ R=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{N}}} $ | (9) |
$ \mathrm{F}1=\frac{2\times P\times R}{P+R}=\frac{2{T}_{\mathrm{P}}}{2{T}_{\mathrm{P}}+{F}_{\mathrm{N}}+{F}_{\mathrm{P}}} $ | (10) |
其中:TP(true-positive)代表标签为正,预测也为正;FP(false-positive)代表标签为负,预测为正;FN(false-negative)代表标签为正,预测为负。
2.4 实验结果与分析为验证本文所提出方法的有效性,选取了特征提取能力较强、道路网结构提取比较完整的模型进行对比实验。分别将U-Net模型、文献[17, 19]模型、EDR1模型和EDR1(
![]() |
下载CSV 表 1 不同模型道路提取结果对比 Table 1 Comparison of road extraction results between different models |
从表 1可以看出,U-Net虽然可用于遥感影像道路目标的分割,但测试精确率较差,影响整体的测试结果,其模型结构设计并不能完全适应复杂的遥感影像道路提取任务。文献[17]在U-Net基础上,利用预训练的VGG19来捕获线性结构的高阶拓扑特征,F1-score提高了约7个百分点;但在训练过程中将所有提取结果未加筛选进行训练,导致模型保留了部分类似道路区域的特征,其结果中存在一些被误检测为道路的区域。文献[19]中的ELU-SegNet-R采用更先进的网络结构和激活函数,召回率、F1-score分别为84.7%和81.2%,但其直接利用了适合于街景分割的SegNet基本架构,设计损失函数时没有考虑道路边缘噪声影响,因而限制其提取道路网络的性能。本文基于U-Net改进的EDR1模型,将原编码部分替换为特征提取能力更强的Res模块,提高了对道路目标特征的提取能力,相比原始U-Net的召回率提升了约11个百分点。利用
![]() |
Download:
|
图 6 不同模型提取结果 Fig. 6 Extraction results of different models |
从图 6可以看出,相比U-Net、文献[17, 19]模型,EDR1模型提取到了更多的道路目标区域,但仍存在部分道路中断以及未检测到的情况,不利于EDR2模型进行优化。相比其他模型,利用
为验证本文所提EDR2模型的改进效果,分别选取对特征提取能力强、道路网结构提取完整的模型U-Net、文献[17, 19]模型、EDR1模型和EDR1(L1)模型,并结合EDR2模型进行验证测试,实验结果如表 2所示。
![]() |
下载CSV 表 2 EDR2模型优化结果 Table 2 Optimization results of EDR2 model |
从表 2可以看出,利用EDR2模型对上述方法进行优化的结果中,精确率指标分别提升了1.0、1.6、2.9和8.6个百分点,而召回率仅下降了0.8、1.1、1.9和5.9个百分点,最终在指标F1-score有所提升。通过调节
![]() |
下载CSV
表 3 EDR2( |
从表 3可以看出,利用EDR2模型+
![]() |
Download:
|
图 7 不同模型优化结果 Fig. 7 Optimization results of different models |
本文提出基于EDRNet模型的遥感影像道路提取方法。EDR1模型通过替换性能更优异的残差模块,提取完整的目标道路区域。在特征解码阶段,EDR2模型对多层次、多尺度的道路结构特征进行融合。在此基础上,利用混合损失函数和数据增强的方法,提升各模型特性。实验结果表明,EDRNet道路提取方法的各项性能指标表现优异,能够从复杂的遥感影像中获得完整且准确的路网结构。下一步工作是扩大EDRNet方法的适用范围,使其能更广泛地应用在建筑物、河流和车辆等影像提取任务中。
[1] |
SHI W Z, ZHU C Q, WANG Y. Road feature extraction from remotely sensed image: review and prospects[J]. Acta Geodaetica et Cartographica Sinica, 2001, 30(3): 257-262. (in Chinese) 史文中, 朱长青, 王昱. 从遥感影像提取道路特征的方法综述与展望[J]. 测绘学报, 2001, 30(3): 257-262. DOI:10.3321/j.issn:1001-1595.2001.03.014 |
[2] |
JIN X, DAVIS C. An integrated system for automatic road mapping from high-resolution multi-spectral satellite imagery by information fusion[J]. Elsevier Science Information Fusion, 2005, 6(4): 257-273. DOI:10.1016/j.inffus.2004.06.003 |
[3] |
MIAO Z, WANG B, SHI W, et al. A semi-automatic method for road centerline extraction from VHR images[J]. IEEE Geoscience & Remote Sensing Letters, 2014, 11(11): 1856-1860. |
[4] |
UNSALAN C, SIRMACEK B. Road network detection using probabilistic and graph theoretical methods[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(11): 4441-4453. DOI:10.1109/TGRS.2012.2190078 |
[5] |
MA R G, WANG W X, LIU S, et al. Extracting roads based on retinex and improved Canny operator with shape criteria in vague and unevenly illuminated aerial images[J]. Journal of Applied Remote Sensing, 2012, 6(1): 63610-63624. DOI:10.1117/1.JRS.6.063610 |
[6] |
SHOTTON J, JOHNSON M, CIPOLLA R. Semantic texton forests for image categorization and segmentation[C]//Proceedings of 2008 IEEE Conference on Computer Vision & Pattern Recognition. Washington D.C., USA: IEEE Press, 2008: 1-8.
|
[7] |
MNIH V, HINTON G E. Learning to detect roads in high-resolution aerial images[C]//Proceedings of the 11th European Conference on Computer Vision. Berlin, Germany: Springer, 2010: 1-10.
|
[8] |
MNIH V. Machine learning for aerial image labeling[D]. Toronto, Canada: University of Toronto, 2013.
|
[9] |
LI P, HE X, CHENG X, et al. Object extraction from very high-resolution images using a convolutional neural network based on a noisy large-scale dataset[J]. IEEE Access, 2019, 7: 122784-122795. DOI:10.1109/ACCESS.2019.2938215 |
[10] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G E, et al. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386 |
[11] |
LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651. |
[12] |
ZHONG Z, LI J, CUI W, et al. Fully convolutional networks for building and road extraction: preliminary results[C]//Proceedings of IEEE International Geoscience and Remote Sensing Symposium. Washington D.C., USA: IEEE Press, 2016: 1591-1594.
|
[13] |
RONNEBERGER O, FISCHER P, BROX T, et al. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
|
[14] |
BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 39(12): 2481-2495. |
[15] |
MOSINSKA A, MARQUEZNEILA P, KOZINSKI M, et al. Beyond the pixel-wise loss for topology-aware delineation[EB/OL]. [2020-06-01]. https://arxiv.org/abs/1712.02190v1.
|
[16] |
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-06-05]. https://arxiv.org/abs/1409.1556.
|
[17] |
PANBOONYUEN T, JITKAJORNWANICH K, LAWAWIROJWONG S, et al. Road segmentation of remotely-sensed images using deep convolutional neural networks with landscape metrics and conditional random fields[J]. Remote Sensing, 2017, 9(7): 1-10. |
[18] |
QIN X, ZHANG Z, HUANG C, et al. BASNet: boundary-aware salient object detection[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 1-9.
|
[19] |
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
|
[20] |
ZHANG Z X, LIU Q J, WANG Y H. Road extraction by deep residual U-Net[J]. IEEE Geoence and Remote Sensing Letters, 2018, 15(5): 1-5. DOI:10.1109/LGRS.2018.2825738 |
[21] |
GOODFELLOW I, BENGIO Y, COURVILLE A. Deep Learning[M]. Cambridge, USA: The MIT Press, 2016.
|
[22] |
TVERSKY A. Features of similarity[J]. Psychological Review, 1977, 84(4): 327-352. DOI:10.1037/0033-295X.84.4.327 |
[23] |
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 2999-3007.
|
[24] |
IGLOVIKOV V I, SEFERBEKOV S, BUSLAEV A V, et al. TernausNetV2: fully convolutional network for instance segmentation[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington D.C., USA: IEEE Press, 2018: 228-2284.
|