2. 78123部队, 成都 610000
2. 78123 Troops, Chengdu 610000, China
随着对地观测遥感平台的增多, 对地观测周期缩短, 高分辨率遥感数据急剧增加。有效利用这些影像数据资源, 解译分割关注信息, 无论在民用还是军事领域都有着广泛的应用。传统基于像素的影像分割算法如SIFT方法[1]、分水岭算法[2]等易受“椒盐”噪声影响, 难以获得理想的分割结果。面向对象的影像分割方法可克服“椒盐”噪声的影响, 但需要调整分割尺度来获得合适的影像分割结果, 并且合适的尺度难以确定[3]。总而言之, 传统方式识别结果严重依赖于初始设定的特征, 很难充分挖掘影像中深层特征, 且特征提取鲁棒性差, 不适应多源遥感影像光照变化、分辨率不一致等情况, 无法满足大范围自动化应用的需求。
近年来, 随着计算机计算能力的增强, 深度学习得到广泛应用, 尤其是2012年AlexNet模型在ILSVRC2012数据集上以绝对优势赢得ImageNet挑战赛第一名后, 深度学习算法开始被广泛应用于计算机视觉领域, 在图像分类、自然语言处理、目标检测等方面取得较大的成果[4-6]。例如在图像语义分割领域, FCN[7]、SegNet[8]、Deeplabv2[9]、RefineNet[10]以及Deeplabv3+[11]等算法在公开自然场景数据集上的检测效果和性能都很出色, 尤其是Deeplabv3+算法在公开数据集PASCAL VOC 2012的平均交并比(Mean Intersection Over Union, MIoU)达到89%, 较之前算法大幅度提升。因此, 不少学者开始研究利用深度学习的方法进行遥感影像分割。文献[12]利用深度卷积神经网络实现建设用地的提取, 总体精度优于传统的面向对象方法。文献[13]建立了自适应池化模型, 更好地挖掘影像特征信息, 实现资源三号卫星遥感影像云的检测提取。文献[14]利用级联式端对端CNN网络, 实现道路网及其中心线的提取。然而, 上述研究忽略了对大范围的上下文信息捕获, 容易造成边界信息的模糊。Deeplabv3+通过引入空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模块, 可以在多尺度上捕获信息, 增大感受野, 提升边界分割效果。尽管Deeplabv3+在提取局部特征和利用较小感受野进行预测方面效果较好, 但其缺少利用全局上下文信息的能力。遥感影像相对常规自然场景图片具有分辨率低、幅面大、目标尺度小等特点, 仅利用Deeplabv3+进行影像分割, 无法满足高精度遥感影像要素轮廓提取需求。
本文提出一种结合Deeplabv3+深度学习与全连接条件随机场(Conditional Random Field, CRF)[15]的典型要素提取方法。以建筑物及道路为例, 利用Deeplabv3+方法获得分割图, 将分割信息及图像本身特征信息作为全连接CRF的输入, 进行分割要素的边界有效推断, 从而实现边界信息的完整生成。
1 基于Deeplabv3+的遥感影像分割 1.1 Deeplabv3+原理文献[11]提出的Deeplabv3+是Deeplab系列中的最新版本, 其采用编码器-解码器的方式, 原理如图 1所示。
|
Download:
|
| 图 1 Deeplabv3+原理图 | |
编码器以Xception网络[16]作为特征提取骨架网络, 该网络结构由一系列深度可分离卷积、类似ResNet[17]中的残差连接和一些其他常规的操作组成。相比于ResNet-101, Xception网络具有更强的鲁棒性, 在ImageNet数据集上Top-1和Top-5的分类精度分别提高了0.75%和0.29%。本文在Xception网络中引入ASPP模块, 解决物体鲁棒分割问题。将深度卷积网络得到的图像级特征图(为原图的1/16)输入到一个256通道的1*1卷积层中, 卷积后的特征图在解码器中使用。
解码器借鉴FCN的跳步连接方式, 连接低层次特征与高层次特征, 首先利用48通道1*1卷积对低层次特征图卷积, 减少特征图通道数, 再将其与经过4倍放大的双线性内插上采样的高层次特征图融合, 最后进行3*3卷积操作后经4倍放大的双线性内插恢复至原图分别率, 实现与原图等大的分割图。
1.2 精度评价指标用于评估语义分割算法性能的标准指标是MIoU。假设图像分割共有k+1个类, 其中包含一个背景类, pij表示本属于类i但被预测为类j的像素数量, 即pii表示真正例的数量而pij、pji分别假正例和假负例的数量, 则MIoU可表示为:
| $ {M_{{\rm{MIoU}}}} = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{p_{ii}}}}{{\sum\limits_{j = 0}^k {{p_{ij}}} + \sum\limits_{i = 0}^k {{p_{ji}}} - {p_{ii}}}}} $ | (1) |
通过式(1)可以判断目标的捕获程度(使预测标签与标注尽可能重合), 也可以判断模型的精确程度(使并集尽可能重合)。
1.3 训练策略利用数据增强方式能够提高训练样本的多样性, 防止在训练过程中样本不足带来的过拟合, 同时增强模型的鲁棒性。依据影像目标色彩、形状、纹理等特征, 本文采用5种数据增强方式, 分别为随机旋转变换0°~360°、噪声扰动、色彩抖动、随机非等比例缩放0.8倍~1.2倍以及翻转变换90°、180°或270°。
本文利用迁移学习加快训练速度, 并对公开数据集上的预训练模型初始化权值。由于遥感影像相对于自然场景数据特点不一样, 为获得最佳训练效果, 以马萨诸塞州建筑物数据集为训练集, 首先分析迭代步数对模型精度的影响, 如图 2所示。
|
Download:
|
| 图 2 模型精度随迭代步数的变化规律 | |
从图 2可知, 当训练一定步数后, 模型精度变化较缓慢。为此, 本文尝试双次迁移方式, 即先在预训练模型上迁移训练少量步数, 再在生成的模型上进行一次迁移。本文设计了4种训练方法分别进行训练, 其模型精度如表 1所示。显然, 方法4模型精度要优于其他方法, 达到81.2%。因此, 本文选择训练方法4作为遥感影像语义分割训练方法。
|
下载CSV 表 1 不同训练方法及参数对比 |
基于Deeplabv3+的编码器-解码器方式, 可实现要素的分割, 并且保持较高精度, 但其分割边缘信息细粒度依然不够完整。在图像物体分割领域, 本文采用CRF对像素类别进行判断。由于该模型考虑了像素与其相邻像素之间关系, 可高效区分不同类别间的界限[15]。
假设一幅图像包含N个像素, I=(I1, I2, …, IN)为观测量, X=(X1, X2, …, XN)为随机变量集合, X每个变量值域为l=(l1, l2, …, lk), 代表k个标记类别。(X, I)构成CRF, 其概率分布服从吉布斯分布, 可表示为:
| $ P(X|I) = \frac{1}{{Z(I)}}\exp ( - E(X|I)) $ | (2) |
其中, Z(I)为规范化因子, E(X|I)为能量函数。则CRF的最大后验概率问题转化为能量函数的最小化问题。能量函数可表示为:
| $ E(X|I) = \sum\limits_i {{\theta _i}} \left( {{x_i}} \right) + \sum\limits_{ij} {{\theta _{ij}}} \left( {{x_i}, {x_j}} \right) $ | (3) |
其中, θi(xi)为单个随机变量xi的一元能量函数项, 表示随机变量xi为某个类别的代价。本文以Deeplabv3+经过Softmax层输出的结果作为一元能量函数的输入, 其计算公式为:
| $ {\theta _i}\left( {{x_i}} \right) = - {\mathop{\rm lb}\nolimits} P\left( {{x_i}} \right) $ |
θij(xi, xj)为关于相互连接的2个随机变量(xi, xj)的二元成对能量函数项, 表示2个变量类别一致性代价, 可表示为高斯核函数的线性组合:
| $ {\theta _{ij}}\left( {{x_i}, {x_j}} \right) = \mu \left( {{x_i}, {x_j}} \right)\sum\limits_{m = 1}^K {{w^{(m)}}} {k^{(m)}}\left( {{{\mathit{\pmb{f}}}_i}, {{\mathit{\pmb{f}}}_j}} \right) $ | (4) |
其中, k(m)为一个高斯核函数, w(m)为线性组合权值, μ为类标一致性参数, fi和fj分别为变量xi和xj的特征向量。对于多类别分割任务, 文献[15]将颜色和位置2种特征组合构建核函数, 即:
| $ \begin{array}{l} k\left( {{{\mathit{\pmb{f}}}_i}, {{\mathit{\pmb{f}}}_j}} \right) = {w^{(1)}}\exp \left( { - \frac{{{{\left| {{{\mathit{\pmb{P}}}_i} - {{{\mathit{\pmb{P}}}}_j}} \right|}^2}}}{{2{\theta }_\alpha ^2}} - \frac{{{{\left| {{{\mathit{\pmb{I}}}_i} - {{\mathit{\pmb{I}}}_j}} \right|}^2}}}{{2{\theta }_\beta ^2}}} \right) + \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{w^{(2)}}\exp \left( { - \frac{{{{\left| {{{{\mathit{\pmb{P}}}}_i} - {{{\mathit{\pmb{P}}}}_j}} \right|}^2}}}{{2{\theta }_\gamma ^2}}} \right) \end{array} $ | (5) |
其中, I为3维颜色向量, P为2维像素点坐标向量, θα、θβ和θγ为尺度参数。
全连接CRF模型将概率图中的每个节点与其他任意节点相连, 图中边的数量远大于局部连接, 将带来巨大计算量。因此, 本文采用文献[15]基于平均场近似的方法处理全连接CRF模型的推理, 通过最小化平均场近似Q(X|I)与P(X|I)的K-L散度, 得到模型最优解。本文采用网格搜索法对式(5)涉及的尺度和权重参数进行搜索确定。式(5)中的w(2)和θγ作用于过滤小区域, 对分类精度影响较小, 但可提升可视效果。根据文献[15]的结论, 设w(2)=θγ=1, 因此, 只需要对θα、θβ和w(1)参数进行搜索。
通过全连接CRF方式推理得到影像像素最终类标之后, 使用形态学滤波方式过滤一些孤立的像素点, 得到最终要素提取分割结果。
3 实验与结果分析首先, 为验证Deeplabv3+对于噪声数据处理能力, 本文采用带噪声的马萨诸塞州航空影像建筑物数据集[18]进行训练, 并与其结果对比分析。其次, 本文基于公开矢量数据集Openstreetmap[19]及影像数据设计训练样本生成系统, 半自动采集2 000平方公里罗德岛典型要素(建筑物及道路)标记数据及影像数据用于训练, 验证本文模型对带有噪声的高分辨率卫星影像大规模数据集的学习能力。最后, 利用全连接CRF对分割数据进行处理分析。整个过程通过Python与TensorFlow深度学习库编程实现, 实验操作系统为Ubuntu16.04, 16 GB内存并配置GTX1080Ti显卡, 计算机分辨率为1 920像素×1 200像素。
3.1 噪声数据处理能力分析相比于人工手动采集标记, 依据现有遥感影像与其相对应区域矢量地图数据自动或半自动采集大规模遥感影像语义分割样本, 是一种高效方式。但由于遥感影像现势性与矢量地图数据可能不完全一致, 或者由于实际坐标的偏差导致遥感影像和矢量地图数据不完全套合, 势必会带来数据噪声, 因此, 将Deeplabv3+模型应用于遥感影像分割, 需要验证其基于噪声数据的学习能力。
文献[18]将真实标记数据误差分为遗漏噪声和配准噪声, 其表现形式如图 3所示。针对这些数据噪声, 文献[18]提出一种基于卷积神经网络的遥感影像分割模型TABN, 通过引入2个鲁棒性强的损失函数来降低2类噪声的影响, 并且利用马萨诸塞州建筑物数据集进行实验效果分析。
|
Download:
|
| 图 3 标记数据噪声情况 | |
马萨诸塞州建筑物数据集由151张1.5 km×1.5 km的影像及对应建筑物标记组成, 其每张图像代表 2.25 km2区域, 总数据量覆盖约340 km2, 数据噪声率不高于5%。本文利用Deeplabv3+模型对该数据集进行训练学习, 在测试集上进行评价, 获得MIoU值为83.1%, 将其与文献[18]的结果进行比较, 如图 4所示。表 2为2种方法的准确率和召回率统计。显然, 无论召回率还是准确率, Deeplabv3+方法均要优于文献[18]方法, 这说明Deeplabv3+具有更强的鲁棒性, 处理噪声数据能力更优。
|
Download:
|
| 图 4 Deeplabv3+与文献[18]方法分割结果对比 | |
|
下载CSV 表 2 2种方法准确率和召回率对比 |
通过上述分析, 验证了Deeplabv3+可适应带有少量噪声的数据集。Deeplabv3+模型需要大规模数据集作为训练基础, 而常规方法进行标注虽然标注精度高但耗时耗力。由于数据更新的时效性问题, 公开矢量数据集Openstreetmap和影像数据不完全套合, 存在噪声, 但这种噪声可通过人工筛选降低。因此, 为解决训练样本数据集获取问题, 本文设计大规模训练样本数据采集系统, 该系统基于WebGIS实现, 通过网格划分的方式实现大区域样本数据采集, 其算法流程如图 5所示。
|
Download:
|
| 图 5 训练样本数据采集算法流程 | |
由于数据集部分地区影像和矢量标记完全不匹配, 会带来较大数据误差, 因此本文将遍历网格改为半自动方式, 采集样本为500×500。如图 6所示, 共采集7 992张图像及相应标记, 标记分为3个类别(道路、建筑及背景), 采集影像层级为18层级。
|
Download:
|
| 图 6 训练样本数据采集效果 | |
将该数据集中7 000张图像作为训练验证集, 992张图像作为测试集, 采用二次迁移训练策略进行训练, 初始学习率设置为0.002, 每20 000步衰减0.1, 学习冲量为0.9, 设置训练图像最高维度为513, APPS模块采用[6, 12, 18]3种扩展率。以交叉熵损失函数[20]作为目标函数, 采用随机梯度下降法进行训练优化, 考虑道路、建筑及背景3种标记样本数量不平衡, 在训练时对道路、建筑赋予更大权值, 三者权值比设定为2:2:1。训练50 000步后, 在测试集上进行分割精度验证, 结果显示:建筑物IoU为82.9%, 道路IoU为77.5%, 两者MIoU为80.2%。建筑物识别精度优于道路, 其原因是区域内道路标记通过线要素缓冲获取, 并不能代表真实道路边界。图 7为模型在测试集上的典型要素提取效果图。
|
Download:
|
| 图 7 典型要素分割效果 | |
为保证清晰对比, 将道路及建筑物分开提取。从对道路的分割来看, 路网要素能够完整提取, 连通性较好, 尤其是图 7(a)中第2张输入图像, 中间路段有部分被植被遮挡, 但提取数据依然能够连通, 说明模型的感受野范围大, 全局特征好, 鲁棒性强, 能够适应少量遮挡情况下的要素完整提取。从对建筑物要素的分割来看, 大小建筑物均能在一定程度分割, 说明模型具备多尺度要素分割能力, 并且大型建筑物边缘分割效果要优于小型建筑物, 说明分割效果受影像提取要素分辨率影响较大。总的来说, Deeplabv3+能够较好识别典型要素, 具有较高精度, 但其边界提取效果依然无法满足对高精度边界轮廓要素提取的需求。
3.3 全连接CRF参数选择及效果分析本文利用网格搜索法对θα、θβ和w(1)参数进行比对实验。实验首先固定θβ=1、w(1)=1, 仅考虑θα取值对MIoU的影响, 结果如图 8(a)所示, 当θα=25时, MIoU达到最优。图 8(b)显示θα=25时单张图像推断平均耗时下降较慢, 综合考虑, 确定θα=25。其次固定θα=25、w(1)=1, 考虑θβ取值的影响, 图 8(a)显示, 当θβ=1时, MIoU为最优, 并且随着θβ增加下降较快, 图 8(b)显示θβ=1时单张图像推断平均耗时下降迅速, 综合考虑, 确定θβ=1。同理, 可比选参数w(1)=1时最优。最终, 确定θα=25、θβ=1及w(1)=1为最优参数组合, MIoU值达到80.32%, 较未加入CRF提升0.12%。
|
Download:
|
| 图 8 参数比选结果 | |
将Deeplabv3+模型经过Softmax函数处理的结果作为全连接CRF一元能量函数的输入, 二元能量函数由图像颜色和位置特征构建, 进行高分辨率遥感影像建筑物的边界有效推理。由于影像分辨率的问题, 本文只针对较大建筑物进行推理分析, 并过滤较小目标, 恢复完整边界信息。图 9为大型建筑物基于全连接CRF边界恢复效果。
|
Download:
|
| 图 9 基于全连接CRF的要素边界恢复效果 | |
从图 9可知, Deeplabv3+分割边界较粗糙, 经过全连接CRF推理后, 边界轮廓清晰, 经过形态学滤波及闭运算操作后, 可获得最终要素边界信息, 从而实现要素的高精度提取。
4 结束语本文针对高分辨率遥感影像典型要素(建筑物与道路)的提取, 提出一种结合深度学习与概率图模型的方法, 将深度学习得到的分割结果, 采用全连接CRF进行推理, 获取边界信息。通过大规模训练样本数据采集系统获取实验样本并进行实验验证, 结果表明, 本文方法能从高精度遥感图像中获得典型要素边界信息。由于全连接CRF受图像颜色及位置特征影响, 在颜色特征不明显或者要素分辨率较低的情况下, 其提取效果不理想, 因此下一步将引入HOG特征[21]定义的高斯核函数来避免阴影和环境光照对要素颜色的影响。
| [1] |
蔺海峰, 马宇峰, 宋涛. 基于SIFT特征目标跟踪算法研究[J]. 自动化学报, 2010, 36(8): 1204-1208. ( 0)
|
| [2] |
NG H P, ONG S H, FOONG K W C, et al.Medical image segmentation using k-means clustering and improved watershed algorithm[C]//Proceedings of Image Analysis and Interpretatio.Southwest Symposium.Washington D.C., USA: IEEE Press, 2006: 61-65.
( 0)
|
| [3] |
陶超, 谭毅华, 蔡华杰, 等. 面向对象的高分辨率遥感影像城区建筑物分级提取方法[J]. 测绘学报, 2010, 39(1): 39-45. ( 0)
|
| [4] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G E.Image net classification with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems.Lake Tahoe, USA: NIPS, 2012: 1097-1105.
( 0)
|
| [5] |
SIMONYAN K, ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].[2018-12-01].https://arxiv.org/abs/1409.1556.
( 0)
|
| [6] |
SZEGEDY C, LIU Wei, JIA Yangqing, et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 1-9.
( 0)
|
| [7] |
LONG J, SHELHAMER E, DARRELL T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 3431-3440.
( 0)
|
| [8] |
BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet:a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615 ( 0)
|
| [9] |
CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab:semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848. ( 0)
|
| [10] |
LIN Guosheng, MILAN A, SHEN Chuanhua, et al.RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 5168-5177.
( 0)
|
| [11] |
CHEN L C, ZHU Yunkun, PAPANDREOU G, et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of ECCV'18.Berlin, Germany: Springer, 2018: 801-818.
( 0)
|
| [12] |
冯丽英.基于深度学习技术的高分辨率遥感影像建设用地信息提取研究[D].杭州: 浙江大学, 2017.
( 0)
|
| [13] |
陈洋, 范荣双, 王竞雪, 等. 基于深度学习的资源三号卫星遥感影像云检测方法[J]. 光学学报, 2018, 38(1): 362-367. ( 0)
|
| [14] |
CHENG Guangliang, WANG Ying, XU Shibiao, et al. Automatic road detection and centerline extraction via cascaded end-to-end convolutional neural network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(6): 3322-3337. DOI:10.1109/TGRS.2017.2669341 ( 0)
|
| [15] |
KRAHENBUHL P, KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[J]. Advances in Neural Information Processing Systems, 2011, 24: 109-117. ( 0)
|
| [16] |
CHOLLET F.Xception: deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 1251-1258.
( 0)
|
| [17] |
HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 770-778.
( 0)
|
| [18] |
MNIH V.Machine learning for aerial image labeling[D].Toronto, Canada: University of Toronto, 2013.
( 0)
|
| [19] |
HAKLAY M, WEBER P. Openstreetmap:User-generated street maps[J]. IEEE Pervas Computing, 2008, 7(4): 12-18. DOI:10.1109/MPRV.2008.80 ( 0)
|
| [20] |
胡正平, 杨建秀. HOG特征混合模型结合隐SVM的感兴趣目标检测定位算法[J]. 信号处理, 2011, 27(8): 1206-1212. DOI:10.3969/j.issn.1003-0530.2011.08.015 ( 0)
|
| [21] |
DE BOER P T, KROESE D P, MANNOR S, et al. A tutorial on the cross-entropy method[J]. Annals of Operations Research, 2005, 134(1): 19-67. ( 0)
|
2019, Vol. 45

,
0)