基于场景模态深度理解网络的单目图像深度理解

引用本文

陈扬, 李大威. 基于场景模态深度理解网络的单目图像深度理解[J]. 计算机工程, 2021, 47(2), 268-278. DOI: 10.19678/j.issn.1000-3428.0059554.

CHEN Yang, LI Dawei. Monocular Image Depth Understanding Based on Scene Modality Depth Understanding Network[J]. Computer Engineering, 2021, 47(2), 268-278. DOI: 10.19678/j.issn.1000-3428.0059554.

基金项目

国家自然科学基金(61603089);上海市自然科学基金(20ZR1400800)

通信作者

李大威(通信作者), 副教授、博士

作者简介

陈扬(1994-), 男, 硕士研究生, 主研方向为计算机视觉、三维图像重建

文章历史

收稿日期：2020-09-25
修回日期：2020-10-28

Contents Abstract Full text Figures/Tables PDF

基于场景模态深度理解网络的单目图像深度理解

陈扬 , 李大威

东华大学信息科学与技术学院, 上海 201620

收稿日期：2020-09-25；修回日期：2020-10-28

基金项目：国家自然科学基金(61603089);上海市自然科学基金(20ZR1400800)

作者简介：陈扬(1994-), 男, 硕士研究生, 主研方向为计算机视觉、三维图像重建.

通信作者：李大威(通信作者), 副教授、博士.

E-mail: daweili@dhu.edu.cn

摘要：基于深度卷积神经网络的图像处理方法得到的单目深度图像质量远高于传统图像处理方法，但该方法对无用特征的训练易产生误差积累，且基于回归求解的连续深度距离预测精度较低，导致图像深度信息提取不精确、目标边缘模糊与图像细节缺失。提出一种应用于单目彩色图像的场景模态深度理解网络。建立以堆叠沙漏为主框架的网络模型，通过反复进行自下而上和自上而下的特征提取过程融合低层次纹理与高级语义特征，在每层网络训练中结合离散的深度标签和真实深度图像降低深度理解难度，插入误差修正子模块和极大似然译码优化子模块以准确提取深度特征。实验结果表明，该网络获取的深度信息更准确，其在NYUv2数据集上绝对相关误差较ACAN网络降低0.72%，在KITTI数据集上均方相关误差较GASDA网络降低41.28%，与DORN等深度网络相比，其预测的深度图像包含更多细节信息且目标轮廓更清晰。

Monocular Image Depth Understanding Based on Scene Modality Depth Understanding Network

CHEN Yang , LI Dawei

College of Information Sciences and Technology, Donghua University, Shanghai 201620, China

Abstract: The monocular depth image quality obtained by the image processing method based on Depth Convolution Neural Network (DCNN) is much higher than that of traditional image processing methods.However, this method is prone to error accumulation in the training of useless features, and the accuracy of continuous depth distance prediction based on regression solution is low, which leads to inaccurate image depth information extraction, blurred target edge and lack of image details.This paper proposes a Scene Modality Depth Understanding Network(SMDUN) for monocular color images.A network model based on stacked hourglass is established.Through repeated bottom-up and top-down processes, low-level texture and high-level semantic features are fused.In each layer of network training, discrete depth tags and real depth images are combined to reduce the difficulty of depth understanding.Error correction sub module and maximum likelihood decoding optimization sub module are inserted to accurately extract depth features.Experimental results show that the network can obtain more accurate depth information, the Absolute Relative Error(AbsRel) of NYUv2 dataset is 0.72% lower than that of ACAN network, and the Mean Squared Relative Error(MSqRel) of KITTI dataset is 41.28% lower than that of GASDA network.Compared with DORN and other depth networks, the predicted depth image contains more detail information and the target contour is clearer.

0 概述

随着信息技术的发展，视频场景深度（距离）信息的重要性日益显现。深度图像（也称距离图像）是一种常用的场景深度描述方式，其中每个像素值代表场景中某一点与传感器或扫描仪的距离。目前，深度图像已广泛应用于无人驾驶^[1-2]、智能机器人^[3]以及人脸识别^[4]等领域。例如在无人驾驶领域，车辆在行驶中需实时获取包含周围行人与车辆距离信息的深度图像。目前，Kinect、立体匹配以及激光雷达等现有深度图像获取方法所需设备昂贵且采集成本较高，捕获的深度图像存在分辨率低与大面积深度缺失等问题。基于单目彩色图像的深度理解技术是使用模式识别或机器学习算法从一幅RGB图像中理解出场景中每个像素与传感器的距离，由于其具有成本低廉、性能稳定等优势，因此成为研究人员关注的热点。而在单目彩色图像深度理解技术中，相机在成像时会不可逆地损失景物三维结构信息，造成一张彩色2D图像可与无数真实场景对应，且单幅图像也缺乏用于恢复场景深度的有效辅助线索^[5]。因此，单目彩色图像深度理解成为当前计算机视觉领域极具挑战性的研究课题之一。

早期关于单目彩色图像深度理解的研究主要基于图像中物体的几何结构特点以及物体与物体的相互关系进行计算，例如从阴影中恢复形状^[6]、从对焦^[7]或离焦信息^[8]获取深度等。上述方法仅适用于有限种类的场景，并需要额外的辅助信息，严重限制了模型的泛化能力。近年来，深度卷积神经网络（Deep Convolutional Neural Network，DCNN）在计算机视觉领域取得众多突破性进展，研究人员将深度学习^[9-11]引入单目彩色图像深度理解方法，虽然其形成的深度图像质量远高于传统图像处理方法，但是也存在局限性。例如：深度卷积网络从图像中提取大量特征，然而物体颜色、场景光照、墙壁纹理与图案等多种图像特征对深度理解任务无用处，并造成计算量过大，同时增加网络的不确定性和学习难度；大部分深度学习方法将深度理解视为回归问题，虽然这种思路能有效用于图像分类，但深度理解是一种比分类更复杂的连续距离预测问题^[12-13]，其用回归方法求解效果并不理想；现有深度神经元网络随着层数增加其错误信息会不断累积^[14]，导致深度理解结果质量较差。

针对上述问题，本文提出一种场景模态深度理解网络（Scene Modality Depth Understanding Network，SMDUN）以解决单目彩色图像深度理解问题。SMDUN以堆叠沙漏网络为主框架^[15]反复进行自下而上和自上而下的特征提取过程以融合低层次纹理与高级语义特征，在每一层级上使用独立损失函数去除无意义特征，采用不同分辨率的场景模态离散标签指导网络提取有效特征，引入有序回归码和极大似然译码^[16]减少误差积累，并优化离散标签的学习过程。

1 相关工作

从单幅彩色图像中理解深度是一项具有挑战性的任务。早期研究主要基于图像中物体的几何结构特点展开，其研究场景种类与模型泛化能力较有限。目前，随着深度卷积网络在计算机视觉领域的深入发展，基于深度学习的方法已成为研究单目彩色图像深度理解的主流方法。与使用人工定义特征进行深度理解的研究相比，基于深度卷积网络的方法能从彩色图像中提取更多有利于深度理解的线索，得到的深度预测图像质量更佳。文献[9]使用深度学习方法对图像深度理解进行研究，提出一种双栈卷积神经网络（Convolutional Neural Network，CNN），先得到粗略的全局预测结果，再使用局部特征对其进行优化。文献[17]采用双流CNN从单幅图像中恢复深度，在双流网络中，一条流产生深度特征，另外一条流产生深度梯度特征，将两种特征融合后得到精细的深度图像。文献[18]利用深度学习网络中间层的输出提供互补信息，采用连续CRF模型对网络中间层输出信息进行整合，以实现对单幅图像的有效深度估计。文献[19]提出一种无监督的单目彩色图像深度理解框架，使用立体图基于光度重建损失函数进行视差估计得到深度图像。文献[20]在文献[19]的基础上提出左右一致性检验方法，结合L1损失和结构相似性（Structural Similarity，SSIM）得到平滑的深度图像预测信息。文献[21]提出一种基于几何感知的对称域自适应框架，通过训练图像样式转换器和深度估计器，实现彩色图像与深度图像的样式转换。上述基于深度学习的方法大部分将深度理解问题视为回归问题来处理，此类方法能有效解决图像分类和语义分割问题，然而深度理解任务中表示深度的每个像素都是连续值，对其进行预测远比离散的分类问题复杂。对此，文献[13]基于有序回归思想，将连续的深度理解任务转换为具有前后关联性的离散深度标签分类问题，降低了深度理解的难度，但其在将深度图像离散化处理成训练标签的同时丢失大量深度信息，造成所得预测图像特征丢失。文献[22]基于图像级全局特征和像素级局部特征，通过有序回归概率信息将离散的有序回归结果转换为连续值处理，但其仅通过分类概率推测出一个连续的深度值，不能解决标签在离散化阶段信息丢失的问题。

此外，上述方法均基于图像的纹理信息进行深度理解，容易使网络学习到墙壁的纹理特征等大量无关特征，在增大计算量的同时提升了学习难度和网络不确定性。因此，文献[15]将不同层级的特征进行反复处理和融合以提取有效特征。文献[23]通过在每一层级单独计算损失函数来丢弃无用特征。但上述方法随着网络深度的增加易产生误差积累，造成在预测深度图中不合理的几何分布。文献[14]提出一种基于网络先前层级特征对当前层级特征进行补充和修正的策略，然而在该特征优化机制下，由于先前低层级特征远不如当前层级特征丰富，因此其对特征的优化能力有限。

2 场景模态深度理解网络

本文提出的场景模态深度理解网结构如图 1所示。该网络的特点为：1）网络采用多层次堆叠沙漏结构，并使用连续与离散两种标签进行训练；2）在SMDUN中逐次使用场景模态特征提取模块（Scene Modality Feature Extraction Module，SMFEM），并基于综合损失函数指导网络从低层级到高层级理解深度信息；3）通过误差修正模块（Error Correction Module，ECM）和极大似然译码优化模块（Maximum Likelihood Decoding Optimization Module，MLDOM）修正中间层的错误特征，以减少累计误差。

	Download: JPG larger image
图 1 场景模态深度理解网络结构 Fig. 1 Structure of scene modality depth understanding network

2.1 SMDUN框架

文献[15]使用堆叠沙漏结构网络成功解决图像中人体关节点检测问题，文献[24]证明了堆叠沙漏网络可用于双目立体视觉系统的深度估计，因此，本文提出的SMDUN采用堆叠沙漏结构提取和理解图像深度特征。SMDUN通过中间指导和反复自下而上与自上而下的过程，有效融合了低层次纹理与高级语义特征。RGB图像通过沙漏网络的第一个编码器提取图像底层特征，特征图的分辨率从$W \times H$降至$W/32 \times H/32$。特征图在解码器中通过跳链补充图像底层特征，并逐层级提高特征的分辨率至$W/2 \times H/2$。第二个编码器降低特征的分辨率至$W/32 \times H/32$，并将每一层级输出特征与第一个解码器相应层级的特征相加。特征图在第二个解码中通过跳链从第一个编码器和彩色图像中补充图像底层特征，并输出分辨率为$W \times H$的图像深度理解结果。

SMDUN采用逐层级优化的方式以降低网络不确定性与无效特征的影响，同时提高网络的收敛能力与预测精度。大多数深度理解网络^{[9, 14]}使用连续的深度值标签指导网络中间层级特征，这容易造成网络的不确定性，导致其难以学习到有效特征。文献[13]将有序回归的思想引入深度理解与估计任务，使连续的深度估计任务转换为具有前后关联性的离散深度标签分类问题，有效降低了深度理解难度。有序回归使得深度特征理解与编码译码方法相结合，为深度估计问题提供编译码理论支撑。

离散图像标签虽然可以降低计算量，但与连续的深度真实图相比，会造成较多的信息丢失，且在有序回归码的特征提取与计算中容易产生错误。为解决上述问题，本文提出场景模态特征提取模块SMFEM。在图 1中，在沙漏网络解码器各阶段输出后增加SMFEM以实现逐层级优化。在SMFEM中，输入特征图被分为split₁^s和split₂^s两部分，将split₁^s作为前馈残差的低层次特征，使用场景模态离散标签训练split₂^s并经MLDOM模块优化后得到特征MF^s，再将split₁^s和MF^s两部分特征进行拼接确保所获得特征的完整性，最后通过3×3卷积得到SMFEM的输出特征。

2.2 场景模态特征的提取

逐层级特征优化广泛应用于图像语义分割、深度估计和边缘检测^[25-27]等结构化的训练任务中。文献[23]采用多分辨率训练标签指导特征，并在每一层级后计算独立的损失函数，减少了对无用特征的学习。因此，通常将多次使用不同采样率进行降采样后所得真实深度图像作为多分辨率训练标签进行训练^{[9, 14]}。然而，真实深度图像中每个位置的值是连续的浮点值，这增加了训练难度与网络不确定性。实际上，深度图像中最重要的信息是远和近的相对概念，可利用离散的数字类别标签（离散的标签类似于语义分割中物体类的概念，可参照成熟语义分割网络的标签训练方式进行训练）对相对距离进行编码，再使用编码后的深度图像进行训练。基于相对距离关系进行离散化后所得真实深度图像称为场景模态。为了对场景模态标签进行训练，设计场景模态特征提取模块SMFEM。

针对上述问题，本文提出多分辨率的场景模态标签构建方式，从深度图像中提取M种场景模态标签，如图 2所示（彩色效果参见《计算机工程》官网HTML版）。多分辨率的场景模态标签Modality= $\left\{ {{\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}, s = 1, 2, \cdots , \mathit{\boldsymbol{M}}} \right\}$，其中M^s为SMDUN中第s种标签，M^s(x, y)表示标签M^s中位置(x, y)的值，W^s和H^s分别为标签的宽度和高度，M^s(x, y)标签取值区间为{0, 1, …, l^s-1}，l^s为本级场景模态的相对距离级数，本文中该值取2的幂次。

	Download: JPG larger image
图 2 深度图像与场景模态标签 Fig. 2 Depth image and scene modality labels

场景模态标签由相对距离计算生成，通过远、近、较远与较近等模糊概念描述图像的空间分布。相对距离场景模态标签的计算步骤如下：

1）采用式（1）中线性归一化算法计算得到每个位置的相对距离深度标签D_r：

$ {\mathit{\boldsymbol{D}}_\mathit{\boldsymbol{r}}}\left( {x, y} \right) = \frac{{\mathit{\boldsymbol{Depth}}\left( {x, y} \right) - {D_{{\rm{min}}}}}}{{{D_{{\rm{max}}}} - {D_{{\rm{min}}}}}} $

(1)

其中，Depth为当前深度图，D_min为当前深度图的最小深度值，D_max为当前深度图的最大深度值。

2）对相对距离标签进行非均匀离散化得到离散的相对距离编码标签D_d，离散化阈值为$t_i^s \in \left\{ {t_0^s, t_1^s, \ldots , t_{{l^s}}^s} \right\}$，其计算公式如下：

$ t_i^s = {\rm{exp}}\left\{ {{\rm{ln}}\left( \alpha \right) + i \cdot {\rm{ln}}\left( {\beta /\alpha } \right)/{l^s}} \right\} $

(2)

其中，α和β分别为本层场景模态中D_r标签的最小值和最大值，l^s为离散化区间数。为避免实际距离为0造成对数无法计算，对α和β添加偏移量1成为α^*和β^*，因此实际非均匀离散化取值区间为[α^*, β^*]。

3）在D_d中均匀划分${W^s} \times {H^s}$个区域（${W^s}$与${H^s}$的取值与这一级场景模态标签的长度和宽度相关），计算每个区域的平均值，得到粗略的场景模态标签。

4）针对粗略的场景模态标签，分别采用式（1）和式（2）计算其相对距离Depth_r和离散化过程，得到最终的场景模态标签M^s。

场景模态标签M^s由0~l^s-1构成，M^s与阈值t_i^s的关系如下：

$ \begin{array}{l} {\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}\left( {x, y{\rm{}}} \right) = i\\ {\rm{s}}.{\rm{t}}.\;\;\;t_i^s < \textbf{Dept}{{\textbf{h}}_\mathit{\boldsymbol{r}}}\left( {x, y} \right) \le t_{i + 1}^s \end{array} $

(3)

为提升网络容错能力并增加训练过程的稳定性，本文对场景模态离散标签未使用常见的one-hot型编码。例如，某个位置的真实相对深度为4，网络预测为5，对于one-hot型编码而言，其错误产生的损失与预测为8所产生的损失接近，然而实际上相对深度具有一定关联性（5与4的差值比8与4的差值更小），给予更小的损失更合理。因此，本文设计一种有序回归码。

有序回归方法是将一个复杂的多分类任务转换为l^s-1个简单的二分类任务，在网络的训练和推理过程中，将标签${\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}$转换为有序回归码${\mathit{\boldsymbol{O}}^\mathit{\boldsymbol{s}}}$，${\mathit{\boldsymbol{O}}^\mathit{\boldsymbol{s}}}$的分辨率为${W^s} \times {H^s} \times {L^s}$，其中L^s=l^s-1。${\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}$与${\mathit{\boldsymbol{O}}^\mathit{\boldsymbol{s}}}$在（x，y）位置存在以下关系式：

$ \left\{ {\begin{array}{*{20}{l}} {{\mathit{\boldsymbol{O}}^\mathit{\boldsymbol{s}}}\left( {x, y, 0:{\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}\left( {x, y{\rm{}}} \right) - 1} \right) = 1}\\ {{\mathit{\boldsymbol{O}}^\mathit{\boldsymbol{s}}}\left( {x, y, {\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}\left( {x, y{\rm{}}} \right):{L^s} - 1} \right) = 0}\\ {{\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}\left( {x, y{\rm{}}} \right) = \mathop \sum \limits_{i = 0}^{{L^s} - 1} {\mathit{\boldsymbol{O}}^\mathit{\boldsymbol{s}}}\left( {x, y, i{\rm{}}} \right)} \end{array}} \right. $

(4)

有序回归码${\mathit{\boldsymbol{O}}^\mathit{\boldsymbol{s}}}$在(x, y, i)的每一个维度值实际上是一个二分类任务，其值为0与1的训练过程，在训练中得到一个二分类标签的概率张量${\mathit{\boldsymbol{Y}}^\mathit{\boldsymbol{s}}}$，其分辨率为${W^s} \times {H^s} \times \left( {2 \times {L^s}} \right)$。${\mathit{\boldsymbol{Y}}^\mathit{\boldsymbol{s}}}$由两层大小为${W^s} \times {H^s} \times {L^s}$的特征层构成（在图 1中以“0”与“1”表示），其中“0”特征层表示经过网络得到的有序回归码中二分类结果为标签0的概率，“1”特征层是将有序回归码每位为1的概率按由大到小排序后得到的特征层。

在网络的推理阶段，通过预测的有序回归结果${\mathit{\boldsymbol{Y}}^\mathit{\boldsymbol{s}}}$结合argmax函数可得到预测有序回归码${\mathit{\boldsymbol{\hat O}}^\mathit{\boldsymbol{s}}}$，从而估计出${\mathit{\boldsymbol{\hat M}}^\mathit{\boldsymbol{s}}}$，该过程如下：

$ {{\mathit{\boldsymbol{\hat O}}}^\mathit{\boldsymbol{s}}}\left( {x, y, i{\rm{}}} \right) = \eta \left( {{\mathit{\boldsymbol{P}}^\mathit{\boldsymbol{s}}}\left( {"1"} \right) > {\mathit{\boldsymbol{P}}^\mathit{\boldsymbol{s}}}\left( {"0"} \right)} \right) $

(5)

其中，η(·)为指示函数，满足η(true)=1且η(false) = 1。P^s("0")为位置(x, y)处有序回归码第i位为0的概率，而P^s("1")为有序回归码第i位为1的概率，P^s("0")和P^s("1")中同一位置的值之和为1，满足以下关系式：

$ {\mathit{\boldsymbol{P}}^\mathit{\boldsymbol{s}}}\left( {"0"} \right) = \frac{{{\rm{exp}}\left( {{{\mathit{\boldsymbol{\hat Y}}}^\mathit{\boldsymbol{s}}}\left( {"0"} \right)} \right)}}{{{\rm{exp}}\left( {{{\mathit{\boldsymbol{\hat Y}}}^\mathit{\boldsymbol{s}}}\left( {"0"} \right)} \right) + {\rm{exp}}\left( {{{\mathit{\boldsymbol{\hat Y}}}^\mathit{\boldsymbol{s}}}\left( {"1"} \right)} \right)}} $

(6)

$ {\mathit{\boldsymbol{P}}^\mathit{\boldsymbol{s}}}\left( {"1"} \right) = 1 - {\mathit{\boldsymbol{P}}^\mathit{\boldsymbol{s}}}\left( {"0"} \right) $

(7)

${\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}\left( {x, y} \right)$与${\mathit{\boldsymbol{O}}^\mathit{\boldsymbol{s}}}\left( {x, y, i} \right)$满足以下关系式：

$ {\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}\left( {x, y} \right) = \mathop \sum \limits_{i = 0}^{{L^s} - 1} {\mathit{\boldsymbol{O}}^\mathit{\boldsymbol{s}}}\left( {x, y, i} \right) $

(8)

由场景模态可得到相对深度值，计算公式如下：

$ \mathit{\boldsymbol{D}}_\mathit{\boldsymbol{r}}^\mathit{\boldsymbol{s}}\left( {x, y} \right) = \frac{{t_{{\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}\left( {x, y{\rm{}}} \right)}^S + t_{{\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}\left( {x, y{\rm{}}} \right) + 1}^S}}{2} - 1 $

(9)

深度卷积神经网络通常存在欠拟合和过拟合现象，多层级的深度卷积神经网络在训练和推理阶段将当前层级的结果直接送入下一层模块的同时，也会将当前层级的误差与噪声传递到后续网络，造成误差不断积累并最终呈现在预测深度图像中，因此需及时对网络中的错误进行校正。在所估计的场景模态有序回归码${\mathit{\boldsymbol{\hat O}}^\mathit{\boldsymbol{s}}}$中，包含有序回归码的内在逻辑错误（以下称为逻辑错误）和有序回归码的二分类精度错误（以下称为精度错误），这两种有序回归码错误示例与误差修正模块中对应的卷积修正方式如图 3所示。图 3（a）为有序回归码的逻辑错误和使用1×1卷积修正的方式。在场景模态的某一个位置上出现逻辑错误，具体表现为：在值为4的场景模态上，本应是“1，1，1，1”的有序回归码在第2位（从第0位开始）发生错误变为“1，1，0，1”。从逻辑上来看这是错误的，因为本文定义的有序回归码不能出现0，1交替的情况。然而在实际网络训练过程中，难以避免此类错误，且无法在训练中直接对有序回归码的具体值进行赋值操作（例如将错误的0替换为1），只能以卷积和反向传播的形式进行纠错。图 3（b）为有序回归码的精度错误和使用3×3卷积与空洞卷积对其修正的方式。在场景模态的某一位置上出现精度错误，具体表现为：在值为4的场景模态上，本应是“1，1，1，1”的有序回归码发生错误变为“1，1，1，1，1”，导致该位置场景模态实际上变为5，由于场景模态反映相对距离，因此会影响后续深度理解的精确性。

	Download: JPG larger image
图 3 有序回归码的两种错误示例与卷积修正方式 Fig. 3 Two error examples and convolution correction methods of ordinal regression codes

为避免这两种训练中常见的有序回归码错误，本文设计一种包含多种基本卷积的误差修正模块，其结构如图 4所示。${\mathit{\boldsymbol{\hat O}}^\mathit{\boldsymbol{s}}}$中出现的两种有序回归错误源于在一系列二分类任务上产生的分类错误。对于内在逻辑错误，可通过1×1卷积学习有序回归码的规则。如图 3（a）所示，经过1×1卷积后，同一串有序回归码前后的正确码字经过卷积能对逻辑错误位产生影响，并在一定程度上消除错误；对于精度错误，只凭当前场景模态位置信息不足以修正，本文通过3×3卷积和多层空洞卷积，以类似于多层空洞池化模块的卷积连接方式^[28]（见图 3（b））充分提取场景模态中相邻位置的特征来克服当前的分类精度错误。将ECM每一阶段产生的多尺度特征进行拼接，最终得到修正后的场景模态特征E^s。

	Download: JPG larger image
图 4 误差修正模块结构 Fig. 4 Structure of error correction module

2.3 极大似然译码优化模块

本节设计一种极大似然译码优化模块，该模块将预测的有序回归码${\mathit{\boldsymbol{\hat O}}^s}$作为包含错误和噪声的接收码，将场景模态真实值的有序回归码${\mathit{\boldsymbol{O}}^s}$作为发送码，并使接收码最大限度地逼近发送码。MLDOM从预测结果${\mathit{\boldsymbol{\hat O}}^s}$中得到场景模态的优化特征，将其与MF^s相加得到优化的场景模态特征${\overline {\mathit{\boldsymbol{MF}}} ^s}$，再将${\overline {\mathit{\boldsymbol{MF}}} ^s}$与split₁^s拼接得到整个SMFEM的输出特征。

在信息论的译码任务中，发送码c=(c₁, c₂, …, c_N)∈X^N，接收码r=(r₁, r₂, …, r_N)。其中，c是由N个q进制码元组成的码字，X={x₁, x₂, …, x_q}为字符集。极大似然译码从可测的发送码c的q^N种可能性中找到后验概率最大的发送码$\mathit{\boldsymbol{\hat c}}$，其过程如下：

$ \mathit{\boldsymbol{\hat c}} = \mathop {{\rm{argmax}}}\limits_\mathit{\boldsymbol{c}} \left( {p\left( {\mathit{\boldsymbol{c}}|\mathit{\boldsymbol{r}}{\rm{}}} \right)} \right) $

(10)

在实际物理系统中，由于只存在信息从发送到接收的因果前向转移概率（先验概率）p(r|c)，信道中不存在后验概率p(c|r)，只能通过先验概率近似计算后验概率。根据贝叶斯公式得到先验概率和后验概率的关系式如下：

$ p\left( {\mathit{\boldsymbol{c}}|\mathit{\boldsymbol{r}}{\rm{}}} \right) = \frac{{p\left( {\mathit{\boldsymbol{c}}{\rm{}}} \right)p\left( {\mathit{\boldsymbol{r}}|\mathit{\boldsymbol{c}}{\rm{}}} \right)}}{{p\left( {\mathit{\boldsymbol{r}}{\rm{}}} \right)}} $

(11)

由于发送码和接收码为q^N种可能性中的一种，因此假设每种码的概率相同，则有p(c)=p(r)=1/q^N，此时后验概率与先验概率同时达到最大，式（10）转化为以下形式：

$ \mathit{\boldsymbol{\hat c}} = \mathop {{\rm{argmax}}}\limits_\mathit{\boldsymbol{c}} \left( {p\left( {\mathit{\boldsymbol{r}}|\mathit{\boldsymbol{c}}{\rm{}}} \right)} \right) = \mathop {{\rm{argmax}}}\limits_\mathit{\boldsymbol{c}} \mathop \prod \limits_{j = 1}^N p\left( {{\mathit{\boldsymbol{r}}_j}|{\mathit{\boldsymbol{c}}_j}} \right) $

(12)

若要在大小为${W^s} \times {W^s}$的场景模态层上计算极大似然译码，则采用计算公式如下：

$ \mathit{\boldsymbol{C}} = \mathop {{\rm{argmax}}}\limits_\mathit{\boldsymbol{C}} \mathop \prod \limits_{\begin{array}{*{20}{l}} {x = 1, }\\ {y = 1} \end{array}}^{{W^s}, {H^s}} \mathop \prod \limits_{j = 1}^N p\left( {{\mathit{\boldsymbol{r}}_j}\left( {x, y{\rm{}}} \right)|{\mathit{\boldsymbol{c}}_j}\left( {x, y{\rm{}}} \right)} \right) $

(13)

在式（13）计算过程中，不仅计算量过大，而且似然函数也难以确定，因此本文以卷积实现局部的极大似然译码，通过较少的计算量得到一个次优解。采用局部计算近似得到极大似然译码的原因如下：1）场景模态采用类似于深度图像的相对距离，由于目标表面为深度连续的^[24]，因此其中每个坐标的相对深度与邻域关联紧密；2）目标级信息描述了图像场景的整体结构和具体物体的粗略位置关系（全局特征）；3）像素级信息使物体表面在场景中的深度值（局部特征）更精确，可通过网络在训练阶段以卷积和池化的方式学习到。虽然在不同图像中场景会发生改变，但场景中同种物体特征不会发生变化。例如，在客厅学习到的桌子特征同样适用于厨房中的桌子。因此，局部特征不会随着场景的改变而失效，具有较高的鲁棒性。

基于上述分析，将输入MLDOM的特征转化成大小为${W^s} \times {H^s} \times {N^s}$的特征层，其中${N^s}$为当前极大似然译码相关的码长，再将极大似然译码转换为局部最优似然译码，该过程主要包括两步：1）将特征层均分为16层的子特征层，其中每层通道数为${N^s}$/16，再分别进行极大似然译码计算；2）在每个子特征层中，以对数似然的方式将概率连乘计算变为连加计算，再采用5×5的平均池化操作将连加限制在局部范围内进行，最后利用argmax函数获取局部最优的特征编码完成式（13）的近似计算。图 5为极大似然译码优化模块的结构，其中对译码过程的先验概率逼近过程进行展示，由场景模态标签带来的损失沿虚线传递给每个单独的译码过程，以保证最优译码方向的正确性。

	Download: JPG larger image
图 5 极大似然译码优化模块结构 Fig. 5 Structure of maximum likelihood decoding optimization module

2.4 损失函数

本文对SMDUN的总损失函数loss_total定义如下：

$ {\rm{los}}{{\rm{s}}_{{\rm{total}}}} = {\alpha _{{\rm{im}}}} \cdot {\rm{los}}{{\rm{s}}_{{\rm{img}}}} + {\alpha _{{\rm{mod}}}} \cdot {\rm{los}}{{\rm{s}}_{{\rm{mod}}}} $

(14)

总损失函数主要由预测得到的深度图像和真实深度图像标签之间的损失loss_img（深度图像预测误差）以及场景模态标签的损失loss_mod两部分构成，loss_img在整个堆叠沙漏网络的最后进行计算，loss_mod在每一层SMFEM内进行计算。

2.4.1 深度预测图和标签深度图之间的损失

深度图像预测误差loss_img主要由Inverse-Huber损失^[29]和SSIM指标值^[10]两部分组成，其表达式如下：

$ {\rm{los}}{{\rm{s}}_{{\rm{img}}}} = \alpha \cdot {\rm{B}}\left( {\mathit{\boldsymbol{D}} - \mathit{\boldsymbol{\hat D}}} \right) + \left( {1 - \alpha } \right) \cdot \frac{{1 - {\rm{SSIM}}\left( {\mathit{\boldsymbol{D}}, \mathit{\boldsymbol{\hat D}}} \right)}}{2} $

(15)

其中，$\mathit{\boldsymbol{\hat D}}$为网络的预测结果，D为深度图像标签，SSIM函数用来计算两幅图像之间的相似度，B(·)为Inverse-Huber损失，其计算公式如下：

$ {\rm{B}}\left( x \right) = \left\{ {\begin{array}{*{20}{l}} {\left| x \right|{\rm{}}\left| x \right| \le c}\\ {\frac{{{x^2} + {c^2}}}{{2 \cdot c}}, \left| x \right| > c} \end{array}} \right. $

(16)

其中，c为阈值。

2.4.2 场景模态损失

本文将场景模态标签损失loss_mod定义为全部SMFEM的有序回归损失之和，计算公式如下：

$ {\rm{los}}{{\rm{s}}_{{\rm{mod}}}} = \mathop \sum \limits_{s = 1}^\mathit{\boldsymbol{M}} {\rm{loss}}_{{\rm{mod}}}^s $

(17)

其中，M为SMFEM的个数，loss_mod^s为第s个SMFEM的损失，其由特征提取损失和特征优化损失两部分构成，计算公式如下：

$ {\rm{loss}}_{{\rm{mod}}}^s = {\beta _s} \cdot {\rm{loss}}_{{\rm{mod}}1}^s\left( {{{\mathit{\boldsymbol{\hat Y}}}^{\boldsymbol{s}}}, {\mathit{\boldsymbol{O}}^s}} \right) + {\gamma _s} \cdot {\rm{loss}}_{{\rm{mod}}2}^s\left( {{{\mathit{\boldsymbol{\dot Y}}}^{\boldsymbol{s}}}, {\mathit{\boldsymbol{O}}^s}} \right) $

(18)

其中，${\mathit{\boldsymbol{O}}^s}$为第s层场景模态的有序回归码标签，${\mathit{\boldsymbol{\hat Y}}^{\boldsymbol{s}}}$为场景模态的预测结果，${\mathit{\boldsymbol{\dot Y}}^{\boldsymbol{s}}}$为优化和修正后的场景模态预测结果，${\beta _s}$为约束第一项的权重，${\gamma _s}$为约束优化场景模态输出的权重。函数loss_mod1与loss_mod2计算方式相同，loss_mod1的计算公式如下：

$ {\rm{loss}}_{{\rm{mod}}1}^s\left( {{{\mathit{\boldsymbol{\hat Y}}}^\mathit{\boldsymbol{s}}}, {\mathit{\boldsymbol{O}}^s}} \right) =\\ - \frac{1}{{{W^s} \times {H^s}}}\left( {\mathop \sum \limits_{k = 0}^{{\mathit{\boldsymbol{M}}^\mathit{\boldsymbol{s}}}\left( {x, y} \right) - 1} {\rm{ln}}\left( {{\mathit{\boldsymbol{P}}^\mathit{\boldsymbol{s}}}\left( {"1"} \right)} \right)} \right. +\\ \left. {\mathop \sum \limits_{k = {\mathit{\boldsymbol{M}}^s}\left( {x, y} \right)}^{{L^s} - 1} {\rm{ln}}\left( {{\mathit{\boldsymbol{P}}^\mathit{\boldsymbol{s}}}\left( {"0"} \right)} \right)} \right) $

(19)

3 实验与结果分析

本文通过实验验证SMDUN的深度理解有效性。通过设计不同的剥离实验分析网络各部分的有效性，并将本文网络与当前流行的其他网络进行对比分析。

3.1 深度理解数据集

当前深度理解网络通常采用NYUv2数据集^[29]和KITTI数据集^[30]进行实验。

NYUv2数据集提供了由Kinect相机拍摄采集的464个室内场景RGB-D数据，包括12万对彩色图像与深度图像，图像分辨率为640像素×480像素。采用文献[9]定义的训练集与测试集划分方法，在NYUv2数据集的464个场景中选取249个场景用于训练，其余215个场景用于测试。从训练场景中抽取5万对彩色图像和深度图像作为训练集，在测试场景中抽取654对彩色图像和深度图像作为测试集，并对深度图像空缺的区域进行填补，深度值上限设定为10 m。在训练阶段，使用双线性降采样方法将NYUv2数据集中图像分辨率改为256像素×352像素，并将其作为SMDUN的输入和标签数据的默认分辨率。在测试阶段，将网络的预测深度图像恢复到原始图像大小，同时在文献[9]定义的指定区域计算预测结果的定量指标。

KITTI是一个包含双目立体图像和3D点云数据的室外场景数据集，涵盖市区、乡村、高速公路以及校园等56个不同场景，图像分辨率为1 241像素×376像素。采用文献[9]定义的训练集与测试集划分方法，从56个场景中选取28个场景用于训练，其余28个场景用于测试。从训练场景中抽取2.8万对彩色图像和深度图像作为训练集，对测试场景中抽取697对彩色图像和深度图像作为测试集，对稀疏的深度图像进行填补^[9]，深度值上限设定为80 m。在训练阶段，去掉深度图像上层区域中激光雷达扫描不到的部分，使用双线性降采样方法将KITTI数据集中图像分辨率改为256像素×512像素，并将其作为SMDUN的输入和标签数据的默认分辨率。在测试阶段，将网络的预测深度图像恢复到原始图像大小，同时在文献[9]定义的指定区域计算预测结果的定量指标。

3.2 实验设置

场景模态深度理解网络采用TensorFlow深度学习框架，使用NVIDIA RTX 2080Ti进行训练与测试。SMDUN的第一个编码器网络为ResNet-50，并使用ILSVRC^[31]中的预训练模型进行初始化。

场景模态深度理解网络的训练过程分为两步：第一步训练侧重于SMDUN的场景模态损失，计算时式（14）中参数α_im和α_mod分别设置为1.0×10^-4和1，网络参数更新使用Adam优化算法，设置Adam算法的学习率为1.0×10^-4，参数β₁=0.9，β₂=0.999；第二步训练侧重于连续标签损失，计算时式（14）中参数α_im和α_mod分别设置为1和1.0×10^-2。Adam优化算法的学习率在迭代中采用多项式衰减策略，初始学习率设置为1.0×10^-4，终止学习率设置为1.0×10^-5，多项式衰减参数Power=0.9。在NYUv2数据集中，第一步训练和第二步训练的epoch分别为6、35，网络的batch设置为6；在KITTI数据集中，第一步训练和第二步训练的epoch分别为3、35，网络的batch设置为4。

将本文提出的场景模态深度理解网络与DORN^[13]网络、GASDA^[21]网络、ACAN^[22]网络以及文献[9]、文献[11-12]、文献[14]、文献[17]、文献[20]以及文献[32-37]中其他流行的深度网络实验结果从定性和定量上进行比较。

3.3 定量评价指标

本文将SMDUN的实验结果与上述其他网络在以下6种定量指标上进行比较：

1）绝对相关误差（Absolute Relative Error，AbsRel），其计算公式为：

$ {\rm{AbsRel}} = \frac{1}{n}\mathop \sum \limits_{i = 1}^n \frac{{\left| {{{\hat y}_i} - {y_i}} \right|}}{{{y_i}}} $

(20)

2）均方相关误差（Mean Squared Relative Error，MSqRel），其计算公式为：

$ {\rm{MSqRel}} = \frac{1}{n}\mathop \sum \limits_{i = 1}^n \frac{{{{\left| {{{\hat y}_i} - {y_i}} \right|}^2}}}{{{y_i}}} $

(21)

3）均方根误差（Root Mean Squared Error，RMSE），其计算公式为：

$ {\rm{RMSE}} = \sqrt {\frac{1}{n}\mathop \sum \limits_{i = 1}^n {{\left| {{{\hat y}_i} - {y_i}} \right|}^2}} $

(22)

4）对数均方根误差（Root Mean Squared Error in log space，RMSElog），其计算公式为：

$ {\rm{RMSElog}} = \sqrt {\frac{1}{n}\mathop \sum \limits_{i = 1}^n {{\left| {{\rm{ln}}\left( {{{\hat y}_i}} \right) - {\rm{ln}}\left( {{y_i}} \right)} \right|}^2}} $

(23)

5）对数平均误差（Mean log10 Error，MLog10E），其计算公式为：

$ {\rm{MLog10E}} = \frac{1}{n}\mathop \sum \limits_{i = 1}^n \left| {{\rm{lg}}\left( {{{\hat y}_i}} \right) - {\rm{lg}}\left( {{y_i}} \right)} \right| $

(24)

6）阈值准确度δ₁、δ₂和δ₃，其中：

$ \left\{ {\begin{array}{*{20}{l}} {{\delta _1}:满足\;\max \left( {\frac{{{y_i}}}{{{{\hat y}_i}}}, \frac{{{{\hat y}_i}}}{{{y_i}}}} \right) < 1.25的{{\hat y}_i}数量占n的比例}\\ {{\delta _2}:满足\;\max \left( {\frac{{{y_i}}}{{{{\hat y}_i}}}, \frac{{{{\hat y}_i}}}{{{y_i}}}} \right) < {{1.25}^2}的{{\hat y}_i}数量占n的比例}\\ {{\delta _3}:满足\;\max \left( {\frac{{{y_i}}}{{{{\hat y}_i}}}, \frac{{{{\hat y}_i}}}{{{y_i}}}} \right) < {{1.25}^3}的{{\hat y}_i}数量占n的比例} \end{array}} \right. $

(25)

在式（20）~式（25）中，y_i是标签图像中的深度值，${\hat y_i}$为网络预测的深度图中的值，n为图像的像素个数。

3.4 结果分析 3.4.1 网络模块剥离实验

为验证本文提出的多个模块具备提升网络深度理解性能的能力，分别对各模块进行剥离得到3种不同的网络结构，在NYUv2数据集上分别进行定量实验并与SMDUN进行对比，结果如表 1所示。其中：Type-1为剥离所有SMFEM子模块后仅保留堆叠沙漏结构得到的网络；Type-2为在堆叠沙漏结构网络上仅保留图 1中SMFEM-3模块得到的网络；Type-3为在堆叠沙漏网络结构上保留相同SMFEM模块，并在SMFEM中去除ECM模块和局部极大似然译码模块得到的网络。可以看出：从Type-1到SMDUN，随着并入场景模态层数与网络子模块的逐渐增加，网络深度理解性能逐步提升；SMDUN全部指标值均为最优，其具有最佳深度估计性能，验证了本文所提出SMFEM模块、ECM子模块以及MLDOM子模块的有效性。

下载CSV 表 1 网络模块剥离实验的定量结果 Table 1 Quantitative results of network module stripping experiment

3.4.2 理解性能的对比

1）NYUv2数据集实验

表 2为本文SMDUN和其他深度网络在NYUv2数据集上的定量实验结果。可以看出，SMDUN属于性能最好的第一梯队网络，在最重要的Mlog10E和AbsRel这两项指标中均达到最优值，验证了其有效性（表 2中“-”表示该值不存在）。

下载CSV 表 2 不同网络在NYUv2数据集上定量结果的对比 Table 2 Comparison of quantitative results of different networks on NYUv2 dataset

图 6为不同网络在NYUv2数据集上的深度预测定性实验结果（彩色效果参见《计算机工程》官网HTML版）。可以看出：文献[9]网络能获得粗略的三维空间结构但误差较大，物体边缘较模糊；文献[29]网络所得深度图像总体误差相对较低，但其深度信息过于平滑，场景中较小物体难以分辨且物体轮廓存在不合理的形变；文献[13]网络所得深度图像整体上较模糊，丢失大量细节信息且存在明显的网格效应；SMDUN与真实图像更接近，所得深度图像包含更多细节信息且场景中物体轮廓更清晰。

	Download: JPG larger image
图 6 不同网络在NYUv2数据集上定性结果的对比 Fig. 6 Comparison of qualitative results of different networks on NYUv2 dataset

2）KITTI数据集实验

表 3为本文SMDUN和其他网络在KITTI数据集上的定量实验结果。可以看出，SMDUN有5个定量指标取得最优值，RMSE值为次优，表明SMDUN可有效解决单目RGB图像的深度理解问题。

下载CSV 表 3 不同网络在KITTI数据集上定量结果的对比 Table 3 Comparison of quantitative results of different networks on KITTI dataset

图 7为不同网络在KITTI数据集上的深度预测定性实验结果（彩色效果参见《计算机工程》官网HTML版）。可以看出：文献[20]网络所得深度图像中物体轮廓较清晰，但其与真实深度图像标签存在较大误差；文献[13]网络的定性结果整体模糊并存在明显的网格效应；SMDUN与真实深度图像在定性结果上更接近，所得深度图像包含更多细节信息且场景中物体轮廓更清晰。

	Download: JPG larger image
图 7 不同网络在KITTI数据集上定性结果的对比 Fig. 7 Comparison of qualitative results of different networks on KITTI dataset

4 结束语

本文提出一种用于单目图像深度理解的场景模态深度理解网络。以堆叠沙漏网络为主框架，使用不同分辨率的场景模态离散标签指导网络每一层级特征的有效提取，在堆叠沙漏网络中逐次利用场景模态获取特征，采用综合损失函数指导网络从低层级到高层级理解深度信息，并设计误差修正子模块和极大似然译码优化子模块修正网络中间层级的错误特征以减少误差累计，同时对离散深度标签进行有序回归编码，增加网络容错能力并提升训练的精确度和稳定性。实验结果表明，相较NYUv2、GASDA和DORN等深度网络，该网络在NYUv2数据集上绝对相关误差与对数平均误差均最小，在KITTI数据集上均方相关误差最小，其预测出的深度图像包含较多细节信息且目标轮廓更清晰。后续考虑将极大似然译码优化模块应用于其他深度学习任务，以协助解决语义分割与人体关节点检测等问题。

参考文献

[1]	FANG Y J, MASAKI I, HORN B. Depth-based target segmentation for intelligent vehicles:fusion of radar and binocular stereo[J]. IEEE Transactions on Intelligent Transportation Systems, 2002, 3(3): 196-202. DOI:10.1109/TITS.2002.802926
[2]	KAO J Y, TIAN D, MANSOUR H, VETRO A, et al.Moving object segmentation using depth and optical flow in car driving sequences[C]//Proceedings of 2016 IEEE International Conference on Image Processing.Washington D.C., USA: IEEE Press, 2016: 11-15.
[3]	BISWAS J, VELOSO M.Depth camera based indoor mobile robot localization and navigation[C]//Proceedings of 2012 IEEE International Conference on Robotics and Automation.Washington D.C., USA: IEEE Press, 2012: 1697-1702.
[4]	CUI Jiyun, ZHANG Hao, HAN Hu, et al.Improving 2D face recognition via discriminative face depth estimation[C]//Proceedings of 2018 International Conference on Biometrics.Washington D.C., USA: IEEE Press, 2018: 140-147.
[5]	SAXENA A, CHUNG S H, ANDREW N Y.Learning depth from single monocular images[C]//Proceedings of NIPS'05.Canada, USA: NIPS Foundation, 2005: 1161-1168.
[6]	ZHANG R, TSAI P S, CRYER J E, et al. Shape-from-shading:a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(8): 690-706. DOI:10.1109/34.784284
[7]	NAYAR S K, NAKAGAWA Y. Shape from focus[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994, 16(8): 824-831. DOI:10.1109/34.308479
[8]	FAVARO P, SOATTO S. A geometric approach to shape from defocus[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(3): 406-417. DOI:10.1109/TPAMI.2005.43
[9]	EIGEN D, PUHRSCH C, FERGUS R.Depth map prediction from a single image using a multi-scale deep network[C]//Proceedings of NIPS'14.Canada, USA: NIPS Foundation, 2014: 2366-2374.
[10]	XIE J Y, GIRSHICK R, FARHADI A.Deep3D: fully automatic 2D-to-3D video conversion with deep convolutional neural networks[C]//Proceedings of 2016 European Conference on Computer Vision.Berlin, Germany: Springer, 2016: 842-857.
[11]	LIU Fayao, SHEN Chunhua, LIN Guosheng, et al. Learning depth from single monocular images using deep convolutional neural fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(10): 2024-2039. DOI:10.1109/TPAMI.2015.2505283
[12]	CAO Yuanzhouhan, WU Zifeng, SHEN Chunhua. Estimating depth from monocular images as classification using deep fully convolutional residual networks[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 28(11): 3174-3182.
[13]	FU Huan, GONG Mingming, WANG Chaohui, et al.Deep ordinal regression network for monocular depth estimation[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2018: 2002-2011.
[14]	ZHANG Zhenyu, XU Chunyan, YANG Jian, et al. Progressive hard-mining network for monocular depth estimation[J]. IEEE Transactions on Image Processing, 2018, 27(8): 3691-3702. DOI:10.1109/TIP.2018.2821979
[15]	NEWELL A, YANG K Y, DENG J.Stacked hourglass networks for human pose estimation[C]//Proceedings of 2016 European Conference on Computer Vision.Berlin, Germany: Springer, 2016: 483-499.
[16]	COVER T M, THOMAS J A. Elements of information theory[J]. Publications of the American Statal Association, 2006, 103(481): 429-429. DOI:10.1198/jasa.2008.s218
[17]	LI J, KLEIN R, YAO A.A two-streamed network for estimating fine-scaled depth maps from single RGB images[C]//Proceedings of 2017 IEEE International Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2017: 3372-3380.
[18]	XU D, RICCI E, OUYANG W L, WANG X G, et al.Multi-scale continuous CRFs as sequential deep networks for monocular depth estimation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 5354-5362.
[19]	GARG R, KUMAR B V, CARNEIRO G, et al.Unsupervised CNN for single view depth estimation: geometry to the rescue[C]//Proceedings of 2016 European Conference on Computer Vision.Berlin, Germany: Springer, 2016: 740-756.
[20]	GODARD C, OISIN M A O, BROSTOW G J.Unsupervised monocular depth estimation with left-right consistency[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 270-279.
[21]	ZHAO Shanshan, FU Huan, GONG Mingming, et al.Geometry-aware symmetric domain adaptation for monocular depth estimation[C]//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2019: 9788-9798.
[22]	CHEN Yuru, ZHAO Haitao, HU Zhengwei.Attention-based context aggregation network for monocular depth estimation[EB/OL].[2020-08-10].https://www.researchgate.net/publication/330725950_Attention-based_Context_Aggrega-tion_Network_for_Monocular_Depth_Estimation.
[23]	ISLAM M A, NAHA S J, ROCHAN M, et al.Label refinement network for coarse-to-fine semantic segmentation[EB/OL].[2020-08-10].https://arxiv.org/abs/1703.00551v1.
[24]	ZHANG F H, PRISACARIU V, YANG R G, et al.Ga-Net: guided aggregation net for end-to-end stereo matching[C]//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2019: 185-194.
[25]	EIGEN D, FERGUS R.Predicting depth, surface normals and semantic labels with a common multi-scale convolu-tional architecture[C]//Proceedings of 2015 IEEE Interna-tional Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2015: 2650-2658.
[26]	XIE Saining, TU Zhuowen. Holistically-nested edge detection[J]. International Journal of Computer Vision, 2017, 125(5): 3-18. DOI:10.1007/s11263-017-1004-z
[27]	LIN G S, ANTON M, SHEN C H, et al.RefineNet: multi-path refinement networks for high-resolution semantic segmenta-tion[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 1925-1934.
[28]	LI Dawei, WANG Sifan, TANG Xuesong, et al. Double-stream atrous network for shadow detection[J]. Neurocomputing, 2020, 417(12): 167-175. DOI:10.1016/j.neucom.2020.07.038
[29]	NATHAN S, DEREK H, PUSHMEET K, et al.Indoor segmentation and support inference from RGBD images[C]//Proceedings of 2012 European Conference on Computer Vision.Berlin, Germany: Springer, 2012: 746-760.
[30]	GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics:the KITTI dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237. DOI:10.1177/0278364913491297
[31]	OLGA R, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. DOI:10.1007/s11263-015-0816-y
[32]	IRO L, CHRISTIAN R, VASILEIOS B, et al.Deeper depth prediction with fully convolutional residual networks[C]//Proceedings of 2016 International Conference on 3D Vision.Washington D.C., USA: IEEE Press, 2016: 239-248.
[33]	WANG Peng, SHEN Xiaohui, LIN Zhe, et al.Towards unified depth and semantic prediction from a single image[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 2800-2809.
[34]	LI Bo, DAI Yuchao, HE Mingyi. Monocular depth estimation with hierarchical fusion of dilated CNNs and soft-weighted-sum inference[J]. Pattern Recognition, 2018, 83(11): 328-339.
[35]	YEVHEN K, JRG S, BASTIAN L.Semi-supervised deep learning for monocular depth map prediction[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 6647-6655.
[36]	XU Dan, WANG Wei, TANG Hao, et al.Structured attention guided convolutional neural fields for monocular depth estimation[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2018: 3917-3925.
[37]	GAN Yukang, XU Xiangyu, SUN Wenxiu, et al.Monocular depth estimation with affinity, vertical pooling, and label enhancement[C]//Proceedings of 2018 European Conference on Computer Vision.Berlin, Germany: Springer, 2018: 224-239.