基于深度感知特征提取的室内场景理解

引用本文

陈苏婷, 张良臣. 基于深度感知特征提取的室内场景理解[J]. 计算机工程, 2021, 47(6), 217-224. DOI: 10.19678/j.issn.1000-3428.0058091.

CHEN Suting, ZHANG Liangchen. Indoor Scene Understanding Based on Depth-Aware Feature Extraction[J]. Computer Engineering, 2021, 47(6), 217-224. DOI: 10.19678/j.issn.1000-3428.0058091.

基金项目

国家自然科学基金(61906097)

作者简介

陈苏婷(1980-), 女, 教授、博士, 主研方向为图像处理、机器学习;
张良臣, 硕士研究生

文章历史

收稿日期：2020-04-16
修回日期：2020-05-25

Contents Abstract Full text Figures/Tables PDF

基于深度感知特征提取的室内场景理解

陈苏婷 , 张良臣

南京信息工程大学江苏省气象探测与信息处理重点实验室, 南京 210044

收稿日期：2020-04-16；修回日期：2020-05-25

基金项目：国家自然科学基金(61906097)

作者简介：陈苏婷(1980-), 女, 教授、博士, 主研方向为图像处理、机器学习; 张良臣, 硕士研究生.

E-mail: sutingchen@nuist.edu.cn

摘要：从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割，然而传统分割方法通常需要精确的深度图作为输入，严重限制了其应用范围。提出一种新的室内场景理解网络框架，建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征，通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合，生成具有更强表达能力的特征表示，实现更准确的室内场景语义分割。实验结果表明，联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度，相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。

Indoor Scene Understanding Based on Depth-Aware Feature Extraction

CHEN Suting , ZHANG Liangchen

Jiangsu Key Laboratory of Meteorological Detection and Information Processing, Nanjing University of Information Science and Technology, Nanjing 210044, China

Abstract: The semantic segmentation for indoor scenes can be improved by the joint learning of RGB image features and 3D geometric information from RGB-D domain.However, the traditional segmentation methods require precise depth maps as the inputs, which seriously limits their application.To address the problem, this paper proposes a new network framework for indoor scene understanding.Based on the network for semantic feature and depth feature extraction, a joint learning network model is built to extract the depth-aware features.Additionally, the proposed model effectively combines learned depth features, multi-scale spatial information and the semantic features to generate more representative features, implementing more accurate semantic segmentation for indoor scenes.Experimental results show that the average segmentation accuracy of the proposed joint learning network model reaches 69.5% on NYU-Dv2 and 68.4% on SUN RGBD.The model provides better semantic segmentation performance and applicability for indoor scenes than traditional segmentation methods.

开放科学（资源服务）标志码（OSID）：

0 概述

由于深度卷积神经网络(Deep Convolutional Neural Network，DCNN)^[1-3]的快速发展，基于卷积神经网络(Convolutional Neural Network，CNN)的场景理解算法取得了巨大进步。室内场景理解视觉任务以室内场景语义分割为主，为图像中每个像素预测类别标签，是一个基本但具有挑战性的计算机视觉任务。取得准确的室内场景语义分割结果有利于机器人视觉、视觉即时定位与地图构建(Simultaneous Localization And Mapping，SLAM)及虚拟现实等应用的发展。与基于RGB图像的室内场景语义分割方法相比，基于RGB-D图像的室内场景语义分割方法可同时使用场景的2D RGB信息与3D几何信息，有效解决类别间由于相似特征而导致的分类错误问题，而场景语义分割方法^[4-6]通过结合深度信息获得了模型的性能提升。这些方法主要分为两种特征表示形式，即利用人工设置的特征与使用基于CNN学习的特征。早期的工作主要使用SIFT与HOG等人工设定的特征描述子表示RGB图像特征，然后利用表面法线特征^[7]或深度梯度特征^[8]辅助场景语义分割。对于CNN特征提取方法，全卷积网络^[9]可通过学习具有高度表达力的特征大幅度地提高场景语义分割能力。一般而言，基于CNN的RGB-D场景语义分割方法使用两个全卷积网络分别从RGB与深度通道提取特征，然后简单融合这两种特征作为最终输出特征，为每个像素预测语义标签。上述方法均要求关联深度标签与RGB图像，然而相比RGB图像，从场景中采集深度图更加困难，而且深度图与RGB图像的对准本身就是一个极具挑战性的问题。

文献[10]提出利用多任务网络预测深度信息并通过简单的特征融合提高模型的场景理解能力，然而未进一步挖掘并利用预测的深度特征。本文通过联合网络模型学习深度特征表示，并提取深度特征中的几何信息以指导深度特征与语义特征的融合，再将融合后的特征与共享网络中的多尺度空间上下文信息与纹理细节信息相结合，产生更鲁棒的语义特征。

1 深度信息感知特征提取

本节详细描述了利用深度信息感知特征提高室内场景语义分割性能的CNN框架，并且整个CNN模型由联合目标函数进行端到端训练。

1.1 深度信息感知特征学习

本文使用不带有显性深度图标签的深度信息感知特征辅助场景语义分割任务。直观的方法是首先从输入的RGB图像中预测深度图，然后将深度信息整合到传统的RGB-D分割网络中^{[5, 11]}。该方法将整个场景语义分割任务分为两个阶段，提高了模型的复杂度且不能实现端到端训练。因此，本文利用联合的网络框架，从RGB图像中同时提取深度特征与语义特征，并通过结合这两类特征提高场景语义分割性能。在此将深度感知特征定义为在语义层上同时编码深度信息与语义信息的特征表示。

具体地，给定一张RGB图像$ I $，$ I $中的像素表示为$ {I}_{p}\in {\mathbb{R}}^{3} $，深度信息感知特征通过一个可学习的映射方程将RGB像素编码为高维空间中的高语义特征。这些特征的学习过程可被建模为一个优化问题：

$ \underset{h}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits_{p=1}^{N}D\left(h\right({I}_{p});{L}_{p}^{\mathrm{*}})+S\left(h\text{'}\right({I}_{p});{g}_{p}^{\mathrm{*}}) $

(1)

其中：$ N $为$ I $的像素总数；$ D\left(h\right({I}_{p});{L}_{p}^{*}) $为学习RGB图像中的深度信息，$ h\left({I}_{p}\right) $为深度特征映射项，$ {L}_{p}^{*} $为编码RGB图像深度特征的样本标签；$ S\left({h}^{\text{'}}\right({I}_{p});{g}_{p}^{*}) $为语义信息编码项，且$ {h}^{\text{'}}\left(\cdot \right) $与$ h\left(\cdot \right) $共享部分参数。为了获得更具辨别力的映射特征$ h $，使用深度卷积神经网络参数化式(1)，并通过反向传播优化参数。因此，定义$ h $为$ {f}_{\theta } $，其中$ f $表示由参数$ \theta $构成的DCNN。那么，深度感知特征学习的优化方程可重新表示为：

$ \underset{\theta }{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits_{p=1}^{N}D\left({f}_{\theta }\right({I}_{p});{L}_{p}^{\mathrm{*}})+S\left({f}_{\theta }^{\mathrm{\text{'}}}\right({I}_{p});{g}_{p}^{\mathrm{*}}) $

(2)

其中，$ {f}_{\theta }\left(\cdot \right) $与$ {f}_{\theta }^{\text{'}}\left(\cdot \right) $使用相同的DCNN模型进行参数化。

1.2 基于几何信息的深度特征传输

在学习到深度特征后，利用这些特征提高室内场景语义分割模型的性能。基于像素类同方法提取深度特征中的几何信息，并利用其指导深度特征传输到语义特征中。给定深度感知特征空间中特征点位置$ i $与其邻近特征点位置$ j\in N\left(i\right) $，对于预测语义标签的得分图中对应位置$ j $的特征点$ {m}_{j} $，在位置$ i $上经过深度特征传输后的输出特征$ {n}_{i} $可表示为：

$ {n}_{i}=\frac{\sum\limits_{j}{w}_{ij}\left({f}_{\theta }\right({I}_{p}\left)\right){m}_{j}}{\sum\limits_{j}{w}_{ij}} $

(3)

其中，$ {f}_{\theta }\left({I}_{p}\right) $为学习到的深度特征表示且$ {w}_{ij} $来源于$ {f}_{\theta }\left({I}_{p}\right) $中的几何指导信息的传输权重。因为$ {w}_{ij} $表示深度特征空间中的几何信息类同，所以$ {w}_{ij} $由深度特征向量间的内积运算定义为：

$ {w}_{ij}=\varphi \left({f}_{\theta }^{i}\right({I}_{p}\left)\right)\cdot \psi \left({f}_{\theta }^{j}\right({I}_{p}\left)\right) $

(4)

其中，$ \varphi (\mathrm{ }\cdot \mathrm{ }) $与$ \psi (\mathrm{ }\cdot \mathrm{ }) $表示将原先学习到的深度特征通过两个不同的映射方程解耦到两个子特征空间中。为了解决深度信息传播过程中特征图维度的变化，通过另一个映射方程$ \phi (\mathrm{ }\cdot \mathrm{ }) $将语义特征$ {m}_{j} $映射到与$ \varphi \left({f}_{\theta }^{j}\right({I}_{p}\left)\right) $和$ \psi \left({f}_{\theta }^{j}\right({I}_{p}\left)\right) $相同维度的特征空间$ \phi \left({m}_{j}\right) $中。在具体的室内场景语义分割模型架构中，深度特征的映射由可通过反向传播自动学习的小卷积网络实现。特别地，原语义特征也被重新融合到传输后的特征图中以避免整个深度特征传输过程中语义特征信息的中断。综上所述，将最终的几何信息指导的深度特征传输模块定义为：

$ {n}_{i}=\frac{\sum\limits_{j}\varphi \left({f}_{\theta }^{i}\right({I}_{p}\left)\right)\cdot \psi \left({f}_{\theta }^{j}\right({I}_{p}\left)\right)\cdot \phi \left({m}_{j}\right)}{\sum\limits_{j}{w}_{ij}}+{m}_{i} $

(5)

1.3 室内场景语义分割网络框架 1.3.1 总体网络模型

本节详细描述了用于室内场景语义分割的DCNN框架。如图 1所示，DCNN框架主要包含5个部分：1)共享的DCNN基本框架；2)深度特征提取网络分支；3)语义特征提取网络分支；4)几何信息指导的深度特征传输(GIGT)模块；5)金字塔特征融合(PFF)模块。整个室内场景语义分割网络框架为带有多任务预测端的编码网络-解码网络结构。编码网络部分的卷积层提取一般性的场景特征。对于解码网络部分，在图 1中上方解码网络分支提取RGB图像的语义特征，而下方解码网络分支提取RGB图像对应的深度特征。深度图预测网络分支的特征信息以逐元素相加的形式，传输给对应的语义分割网络分支的特征，以提供多尺度深度信息。GIGT模块被运用于语义特征提取网络分支的最终输出特征图上，利用学习到的深度特征中的几何信息作为指导提高语义特征表示能力。为了进一步精调语义特征，将结合几何信息指导的深度特征的特征图通过金字塔特征融合模块与共享的DCNN网络的多尺度特征图相结合。PFF模块最下方的得分图(在图 1中PFF₄的输出)被用于最终的逐像素的语义类别预测。在语义特征提取网络分支的输出端与PFF模块每层的输出端实施对语义特征学习的监督，同时使用深度图标签监督网络学习RGB图像中的深度特征。整个场景理解网络由一个联合损失函数进行端到端训练。

	Download: JPG larger image
图 1 室内场景语义分割网络框架 Fig. 1 Network framework of indoor scene semantic segmentation

1.3.2 GIGT模块

在本文提出的室内场景语义分割网络框架中，图像深度特征的传输均由带有批量归一化操作的逐元素相乘的卷积层实现。图 2给出了几何信息指导的深度特征传输模块的结构。首先，将深度特征输入到两个特征映射卷积单元精调特征；接着，计算深度特征向量间的类同以获得几何信息；然后，将计算得到的深度特征类同结果作为指导以融合深度特征与语义特征；最后，结合原语义特征与融合后的特征作为语义特征提取网络分支的最终输出特征。整个深度特征传输过程中生成的特征图维持与输入的语义特征图相同的维度。

	Download: JPG larger image
图 2 GIGT模块结构 Fig. 2 Structure of GIGT module

1.3.3 PFF模块

由于DCNN在提取特征时会丢失图像中的细节信息，导致特征的表达能力降低，因此本文提出金字塔特征融合模块修复并丰富语义特征图中的细节信息。因为编码网络最终输出高语义但其中只含有极少细节信息的低分辨率特征图，所以基于高语义特征图的解码模块生成的特征图中仍然极少地包含有效的细节信息。受到目标检测任务中特征金字塔网络^[12]的启发，本文将编码网络输出的多级特征图与GIGT模块输出的特征图相融合提高语义特征的表达能力。PFF模块的结构如图 3所示。第一个PFF模块(PFF₁)以融合深度信息的语义特征图作为输入，该特征图经过一个1×1卷积核修正和尺度调整后与编码网络的特征图并置，再通过一个3×3卷积核调整后将特征图传输给下一个PFF模块，同时在每个PFF模块的输出端逐像素地预测语义类别标签并利用侧边监督调整网络权重。

	Download: JPG larger image
图 3 PFF模块结构 Fig. 3 Structure of PFF module

1.4 损失函数

多数室内场景语义分割方法使用交叉熵度量样本预测值与样本标签间的距离。然而，对于NYU-Dv2^[7]与SUN RGBD^[13]等场景理解数据集，语义类别标签的分布极端不平衡，即少数语义类别标签主导整个数据集，例如，wall、floor和chair等类别拥有比tv、toilet和bag等类别更多的样本。这将使场景语义分割网络模型偏向于学习这些主导的语义类别，导致模型在具有少数样本的语义类别上产生过拟合现象。为了缓解训练样本数据不平衡的问题，基于Focal Loss^[14]提出如下的语义分割损失函数：

$ {L}_{\mathrm{s}\mathrm{e}\mathrm{g}}=-\sum\limits_{p}\sum\limits_{c}{g}_{p}^{\mathrm{*}}\times (1-{s}_{p, c}{)}^{2}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}{s}_{p, c} $

(6)

其中，$ p $为训练图像中的像素索引，$ c $为训练集图像场景中的物体类别，$ {s}_{p, c} $为像素$ p $预测为类别$ c $的概率且$ {g}_{p}^{\mathrm{*}} $为其样本标签。通过该损失函数可提高难训练样本的损失贡献度而压制易训练样本的损失贡献度，例如：如果一个像素被预测正确且置信度为0.9，那么该像素损失值的权重为$ (1-{s}_{p, c}{)}^{2} $=0.01；如果一个像素被预测错误且置信度为0.1，那么该像素损失值的权重为0.81。此时，式(1)中语义特征优化数据项可表示为$ {L}_{\mathrm{s}\mathrm{e}\mathrm{g}} $。

除了语义特征学习的监督项外，学习深度感知特征需要受到深度领域的监督。本文借鉴深度估计算法^[15]的思想，使用berHu损失函数作为深度监督项，定义为：

$ {L}_{\mathrm{d}\mathrm{e}\mathrm{p}}=\left\{\begin{array}{l}\sum\limits_{p}|{d}_{p}-{L}_{p}^{\mathrm{*}}|, |{d}_{i}-{L}_{p}^{\mathrm{*}}|\le \epsilon \\ \sum\limits_{p}\frac{({d}_{p}-{L}_{p}^{\mathrm{*}}{)}^{2}+{\epsilon }^{2}}{2\epsilon }, |{d}_{i}-{L}_{p}^{\mathrm{*}}|>\epsilon \end{array}\right. $

(7)

其中，$ {d}_{p} $为由深度特征$ {f}_{\theta }\left({I}_{p}\right) $预测的深度图，$ \epsilon =0.2\mathrm{m}\mathrm{a}{\mathrm{x}}_{i}\left(\left|{d}_{i}-{L}_{p}^{*}\right|\right) $，$ {L}_{p}^{*} $为深度图样本标签。此时，式(1)中的$ S\left(h\text{'}\right({I}_{p});{g}_{p}^{\mathrm{*}}) $深度特征优化数据项可表示为$ {L}_{\mathrm{d}\mathrm{e}\mathrm{p}} $。

本文结合金字塔特征融合模块与多个特征层上输出的语义类别标签预测的损失函数(称为侧边监督)，提出的室内场景语义分割网络框架的最终联合损失函数表示为：

$ {L}_{\mathrm{j}\mathrm{o}\mathrm{i}\mathrm{n}\mathrm{t}}={L}_{\mathrm{s}\mathrm{e}\mathrm{g}}+{L}_{\mathrm{d}\mathrm{e}\mathrm{p}}+\sum\limits_{k=1}^{K}{L}_{\mathrm{s}\mathrm{e}\mathrm{g}}^{k} $

(8)

其中，$ \sum\limits_{k=1}^{K}{L}_{\mathrm{s}\mathrm{e}\mathrm{g}}^{k} $为所有金字塔特征融合模块预测端的损失之和，$ k $为第$ k $个金字塔特征融合模块的索引，即PFF_k。

2 实验与结果分析 2.1 实验数据集与评价标准

实验使用NYU-Dv2数据集^[7]与大规模的SUN RGBD数据集^[13]评估本文方法。NYU-Dv2数据集样本是由Microsoft Kinect从464个不同场景捕获而来，共包括1 449张同时含有语义标签与深度信息的训练图像样本，其中，来自249个不同场景的795张图像用于训练，来自215个不同场景的654张图像用于测试。NYU-Dv2数据集涵盖近900个不同的语义类别，实验选用40个类别标签^[16]。SUN RGBD数据集包含10 335张RGB-D图像，其中每张图像同样具有逐像素的语义标签，在实验中利用含有5 285张训练图像的训练集训练模型以及含有5 050张测试图像的测试集评估模型。基于SUN RGBD数据集的实验共涵盖37个语义类别标签。为了全面地评价本文方法，使用像素准确度(Pixel Accuracy，PixAcc)、平均准确度(mean Accuracy，mAcc)与平均交并比(mean IoU，mIoU)作为评价指标。

2.2 实验过程与参数设置

基于深度感知特征提取的室内场景语义分割网络模型以预训练的ResNet-50^[3]作为参数共享的编码网络，并由4个反卷积层构成解码网络分支。设置解码网络部分所有特征图的卷积通道数为256。整个分割模型的参数量为1.43×10⁶，计算能力为5.3×10⁹ FLOPS。除了预训练的ResNet-50外，所有卷积核参数使用文献[17]方法进行初始化。整个网络模型由β₁为0.9、β₂为0.999的Adam优化算法^[18]进行优化。对于NYU-Dv2训练集，设置总迭代次数为6×10⁴，初始学习率为$ {10}^{-2} $，30次迭代后学习率降至$ {10}^{-3} $，4.5×10⁴次迭代后降至$ {10}^{-4} $。对于SUN RGBD训练集，设置总迭代次数为1.2×10⁵，初始学习率为$ {10}^{-2} $，60次迭代后降至$ {10}^{-3} $，1.0×10⁵次迭代后降至$ {10}^{-4} $。本文提出的场景理解方法使用PyTorch v1.4搭建模型框架，并在配置有4块12 GB存储容量的NVIDIA Titan X GPU的工作站上训练，且设置输入的训练图像的batch size为4，整个训练过程持续22 h。此外，图像色彩增强与随机水平翻转的特征增强方法被用于丰富训练图像的特征。

2.3 与传统方法的性能比较 2.3.1 在NYU-Dv2数据集上的性能比较

表 1给出了本文方法与文献[4-5, 10-11, 15]方法、FCN^[9]、RefineNet^[19]、3DGNN^[20]、D-CNN^[21]、RDFNet^[22]和ZZNet^[23]在NYU-Dv2数据集上的性能比较结果，其中，"—"表示对应方法无此评价指标值。可以看出，本文算法获得85.2%的PixAcc、69.5%的mAcc与60.7%的mIoU，相比其他方法取得了显著的性能提升。值得注意的是，在NYU-Dv2数据集上训练的大部分方法都是基于RGB-D的方法，意味着这些方法在测试时也将深度图标签作为输入辅助模型预测。尽管本文方法仅输入RGB图像评估算法，但相比基于RGB-D的方法仍表现更好。与本文方法类似，RefineNet^[19]与RDFNet^[22]也利用了多尺度的特征图信息，但仅结合了编码网络部分的特征并且不带有侧边监督。由表 1结果可知，利用GIGT模块与带有侧边监督的PFF模块可显著提升模型性能。

下载CSV 表 1 12种分割方法在NYU-Dv2数据集上的性能比较结果 Table 1 Performance comparison results of twelve segmentation methods on the NYU-Dv2 dataset

为了评估类别样本数据分布不均衡情况下的模型表现，表 2针对不同语义类别给出了IoU比较结果。可以看出，相比文献[4-5]方法、FCN^[9]、RefineNet^[19]和RDFNet^[22]，本文方法在大部分语义类别上表现出更好的预测结果，尤其对于clothes、books、box与bag等一些难以预测准确的类别，仍可取得更高的IoU值。本文设计的GIGT模块、与其紧密连接的PFF模块和新引入的损失函数使得模型几乎在所有类别上均表现出较强的鲁棒性。然而，本文方法对person、wall与floor等类别的预测性能不佳，这是因为不同场景的深度图可能与其对应的2D外观存在较大差异。

表 2 6种分割方法在各语义类别上的IoU比较结果 Table 2 IoU comparison results of six segmentation methods in each semantic category

%
语义类别	文献[4]方法	文献[5]方法	FCN	RefineNet	RDFNet	本文方法
wall	78.5	68.0	69.9	65.6	79.7	70.8
floor	87.1	81.3	79.4	79.2	87.0	75.2
cabinet	56.6	44.9	50.3	51.9	60.9	71.6
bed	70.1	65.0	66.0	66.7	73.4	76.3
chair	65.2	47.9	47.5	41.0	64.6	53.3
table	46.9	29.9	32.8	36.5	50.7	52.5
door	35.9	20.3	22.1	20.3	39.9	61.9
window	47.1	32.6	39.0	33.2	49.6	58.4
bookshelf	48.9	18.1	36.1	32.6	44.9	55.7
picture	54.3	40.3	50.5	44.6	61.2	61.4
counter	66.3	51.3	54.2	53.6	67.1	55.8
desk	20.6	11.3	11.9	10.8	28.6	52.4
shelves	13.7	3.5	8.6	9.1	14.2	44.7
curtain	49.8	29.1	32.5	47.6	59.7	71.1
mirror	48.5	16.4	22.4	30.2	54.3	66.9
clothes	24.7	4.7	18.3	12.6	26.9	48.3
ceiling	62.0	60.5	59.1	56.7	69.1	58.1
books	34.2	6.4	27.3	8.9	35.0	42.9
fridge	45.3	14.5	27.0	21.6	58.9	67.3
tv	53.4	31.0	41.9	19.2	63.8	71.5
paper	27.7	14.3	15.9	28.0	34.1	40.8
towel	42.6	16.3	26.1	28.6	41.6	56.5
box	11.2	2.1	6.5	1.6	11.6	34.9
board	58.8	14.2	12.9	1.0	54.0	67.4
person	53.2	0.2	57.6	9.6	80.0	55.9
nightstand	54.1	27.2	30.1	30.6	45.3	53.0
toilet	80.4	55.1	61.3	48.4	65.7	72.5
bag	15.9	0.2	4.8	0.0	19.1	38.8
pillow	50.4	34.4	37.5	42.5	49.9	51.6
floormat	32.2	28.0	13.6	32.7	39.4	57.3

下载CSV 表 2 6种分割方法在各语义类别上的IoU比较结果 Table 2 IoU comparison results of six segmentation methods in each semantic category

2.3.2 在SUN RGBD数据集上的性能比较

表 3给出了在大规模的SUN RGBD数据集上本文方法与文献[4, 23]方法、FCN^[9]、RefineNet^[19]、3DGNN^[20]、D-CNN^[21]、RDFNet^[22]和Bayesian-SegNet^[24]的性能比较结果。可以看出，本文方法取得86.3%的PixAcc、68.4%的mAcc与52.7%的mIoU，在所有评价指标上均优于传统方法，验证了基于深度感知特征提取的室内场景理解方法的有效性。值得注意的是，SUN RGBD数据集内包含许多由场景捕获设备得到的低质量深度图，可能会影响GIGT模块的有效性。然而，从实验结果可看出，即使在未去除这些含有较多噪声样本的情况下，本文方法仍然可获得最佳的预测效果，这表明深度特征提取网络学习到的深度感知特征可有效地表达3D几何信息。

下载CSV 表 3 9种方法在SUN RGBD数据集上的性能比较结果 Table 3 Performance comparison results of nine methods on the SUN RGBD dataset

2.4 各模块的有效性验证

本节在NYU-Dv2数据集上研究本文模型中的各模块对模型性能的影响。实验使用单独的语义特征提取网络作为基本框架(由seg表示)，seg+GIGT表示在单独的语义特征提取网络基础上加入GIGT模块进行实验，seg+$ {L}_{\mathrm{s}\mathrm{e}\mathrm{g}} $+HHA表示在单独的语义特征提取网络基础上加入$ {L}_{\mathrm{s}\mathrm{e}\mathrm{g}} $损失和HHA模块，seg+$ {L}_{\mathrm{s}\mathrm{e}\mathrm{g}} $+多尺度深度特征表示结合语义特征提取网络、$ {L}_{\mathrm{s}\mathrm{e}\mathrm{g}} $损失和多尺度深度特征表示，seg+$ {L}_{\mathrm{s}\mathrm{e}\mathrm{g}} $+多尺度深度特征+GIGT+PFF表示结合语义特征提取网络、$ {L}_{\mathrm{s}\mathrm{e}\mathrm{g}} $损失、GIGT模块和PFF模块，实验结果如表 4所示。将损失函数$ {L}_{\mathrm{s}\mathrm{e}\mathrm{g}} $用于训练网络模型可增加4.2个百分点的mIoU，这主要是因为损失函数使网络偏向于学习仅含有少量样本且难训练的语义类别。尽管使用深度图标签作为输入的模型测试方法(由HHA^[16]编码)验证了利用深度信息的有效性，但本文通过简单结合多尺度深度特征的方法得到高于其2.3个百分点的mIoU。在结合多尺度深度特征方法的基础上引入GIGT模块可使模型提升10.3个百分点的mIoU。最终通过增加PFF模块以整合GIGT模块的输出信息与编码网络的多尺度空间上下文信息及纹理细节信息能使模型再次获得明显的性能提升。

下载CSV 表 4 本文分割模型中各模块的有效性分析结果 Table 4 The effectiveness analysis results of each module in the proposed segmentation model

2.5 深度信息监督方法分析

尽管本文模型在测试时无需输入任何深度信息，但深度信息监督对于网络训练而言仍然是十分必要的。本节分析模型基于部分深度信息实施半监督训练的结果，实验基于NYU-Dv2数据集，构建4个训练样本集，分别包含训练数据中20%、40%、60%与80%的深度图样本。所有深度图子集中的元素都是通过随机采样原数据集中的样本得到。对于使用不同深度图子集的训练样本中可能不存在深度信息标签的情况^[25]，在此固定深度特征提取网络的参数且模型的其他部分仍然使用与上述实验相同的训练策略。实验结果如表 5所示，在不使用深度信息训练模型的情况下，本文方法仅取得41.5%的mIoU，相比使用全部深度图样本训练的模型降低了19.2个百分点。值得注意的是，即使仅利用20%的深度信息作为监督，本文模型也可获得比未使用深度信息作为监督的情况下更好的模型性能，该结果表明深度信息对提高室内场景语义分割模型性能具有重要意义。

下载CSV 表 5 深度信息监督方法的分析结果 Table 5 The analysis results of supervision method with depth information

2.6 可视化结果分析

图 4在NYU-Dv2验证集上给出了本文方法的可视化输出结果，为进行详细对比，也给出了联合学习网络模型在移除GIGT模块或PFF模块后的室内场景语义分割可视图，如图 4(c)和图 4(d)所示。可以看出，通过学习深度感知特征可成功地提取RGB图像中的3D几何信息。例如，图 4(a)的第4行对应的RGB图像中的pillow类别与bed类别非常相似，很难直接通过2D外观区别这两类物体(图 4(c)的第4行对应的分割图存在该问题)，然而将语义特征与深度特征融合后，可以很好地区分这两个类别(图 4(d)与图 4(e)的第4行分割图验证了该方法的有效性)，并且图 4(a)的第3行对应的RGB图像中的desk类别和cabinet类别也为类似的情形。此外，PFF模块融合了编码网络框架中不同深度的RGB图像特征，有利于挖掘多尺度空间上下文信息和物体细节信息用于辅助模型学习。例如，图 4(a)的第4行对应的RGB图像中的picture类别与wall类别在空间和语义上通常是强相关的，并且图 4(a)的第5行对应的RGB图像中的desk类别与books类别也是强相关的。

	Download: JPG larger image
图 4 室内场景语义分割可视化结果 Fig. 4 The visualization results of indoor scene semantic segmentation

3 结束语

本文提出一种新的室内场景理解网络框架，建立结合语义特征提取网络与深度特征提取网络的联合学习网络模型，通过RGB图像学习更具表达力的深度信息感知特征，使其能够有效地指导与辅助场景语义分割任务的实施。联合学习网络模型主要包括几何信息指导的深度特征传输模块、金字塔特征融合模块与针对训练样本数据不平衡问题的损失函数。深度特征传输模块应用学习到的深度特征中的几何信息指导深度特征与语义特征的融合，金字塔特征融合模块充分挖掘编码网络中的多尺度空间上下文信息与纹理细节信息，并将这些信息与深度特征传输模块的输出特征相结合生成更鲁棒的语义特征。实验结果表明，该模型在输入单张RGB图像的情况下可同时捕获图像的2D外观与3D几何信息，并且在NYU-Dv2与SUN RGBD数据集上相比传统分割方法具有更好的室内场景语义分割性能。下一步尝试将注意力机制引入室内理解网络框架中提高联合学习网络模型的学习效率，同时通过网络轻量化设计加快模型运行速度。

参考文献

[1]	KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2012: 1097-1105.
[2]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-03-04]. https://arxiv.org/abs/1409.1556.
[3]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
[4]	CHENG Yanhua, CAI Rui, LI Zhiwei, et al. Locality-sensitive deconvolution networks with gated fusion for RGB-D indoor semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 712-727.
[5]	GUPTA S, GIRSHICK R, ARBELAEZ P, et al. Learning rich features from RGB-D images for object detection and segmentation[EB/OL]. [2020-03-04]. https://arxiv.org/abs/1407.5736.
[6]	LU Liangfeng, XIE Zhijun, YE Hongwu. Object recognition algorithm based on RGB feature and depth feature fusing[J]. Computer Engineering, 2016, 42(5): 186-193. (in Chinese) 卢良锋, 谢志军, 叶宏武. 基于RGB特征与深度特征融合的物体识别算法[J]. 计算机工程, 2016, 42(5): 186-193.
[7]	SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from RGB-D images[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2012: 192-206.
[8]	REN X F, BO L F, FOX D. RGB-D scene labeling: features and algorithms[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2012: 2759-2766.
[9]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 3203-3217.
[10]	WANG Peng, SHEN Xiaohui, LIN Zhe, et al. Towards unified depth and semantic prediction from a single image[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 512-517.
[11]	EIGEN D, FERGUS R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture[EB/OL]. [2020-03-04]. https://arxiv.org/abs/1411.4734.
[12]	LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 319-337.
[13]	SONG S R, LICHTENBERG S, XIAO J X. SUN RGBD: a RGB-D scene understanding benchmark suite[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 634-649.
[14]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for dense object detection[C]//Proceedings of International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 1178-1201.
[15]	LAINA I, RUPPRECHT C, BELAGIANNIS V, et al. Deeper depth prediction with fully convolutional residual networks[EB/OL]. [2020-03-04]. https://arxiv.org/abs/1606.00373.
[16]	GUPTA S, ARBELAEZ P, MALIK J. Perceptual organization and recognition of indoor scenes from RGB-D images[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2013: 429-447.
[17]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 2367-2382.
[18]	KINGMA D P, BA J. Adam: a method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations. New York, USA: ACM Press, 2014: 1387-1407.
[19]	LIN G S, MILAN A, SHEN C H, et al. RefineNet: multi-path refinement networks for high resolution semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 219-234.
[20]	QI Xiaojuan, LIAO Renjie, JIA Jiaya, et al. 3D graph neural networks for RGB-D semantic segmentation[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 826-844.
[21]	WANG W Y, NEUMANN U. Depth-aware CNN for RGB-D segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 538-552.
[22]	PARK S J, HONG K S, LEE S Y. RDFNet: RGB-D multi-level residual feature fusion for indoor semantic segmentation[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 1723-1738.
[23]	LIN Di, HUANG Hui. Zig-Zag network for semantic segmentation of RGB-D images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(10): 2642-2655. DOI:10.1109/TPAMI.2019.2923513
[24]	LIN G S, SHEN C H, REID I, et al. Efficient piece-wise training of deep structured models for semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 961-975.
[25]	KENDALL A, BADRINARAY V, CIPOLLA R.Bayesian SegNet: model uncertainty in deep convolutional encoder-decoder architectures for scene understanding[EB/OL].[2020-03-04].https://arxiv.org/abs/1511.02680.