作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2020, Vol. 46 ›› Issue (12): 207-214. doi: 10.19678/j.issn.1000-3428.0056477

• 图形图像处理 • 上一篇    下一篇

多层级特征融合结构的单目图像深度估计网络

贾瑞明, 李阳, 李彤, 崔家礼, 王一丁   

  1. 北方工业大学 信息学院, 北京 100144
  • 收稿日期:2019-11-01 修回日期:2020-01-05 发布日期:2020-01-15
  • 作者简介:贾瑞明(1978-),男,助理研究员、博士,主研方向为计算机视觉、人工智能;李阳、李彤,硕士研究生;崔家礼,助理研究员、博士;王一丁,教授、博士。
  • 基金资助:
    国家自然科学基金面上项目(61673021);北方工业大学学生科技活动项目(110051360019XN140)。

Monocular Image Depth Estimation Network with Multiple Level Feature Fusion Structure

JIA Ruiming, LI Yang, LI Tong, CUI Jiali, WANG Yiding   

  1. School of Information Science and Technology, North China University of Technology, Beijing 100144, China
  • Received:2019-11-01 Revised:2020-01-05 Published:2020-01-15

摘要: 采用卷积神经网络对单目图像的深度进行估计时,存在深度信息不精确、边缘模糊以及细节缺失等问题。为此,提出一种多层级特征融合结构的深度卷积网络。该网络采用端到端的编-解码器结构,编码器使用ResNet101网络结构将图像转换为高维特征图,解码器使用上采样卷积模块从高维特征图中重建出深度图像,并对编码器与解码器中的不同层级特征进行融合。基于NYUv2数据集与KITTI数据集的实验结果表明,相比其他先进网络,该网络不仅能预测出更加准确的深度信息,而且能保持预测深度图像的边缘信息。

关键词: 单目图像, 深度估计, 编-解码器结构, 多层级融合, 亚像素卷积

Abstract: The monocular image depth estimation based on Convolutional Neural Network(CNN) is faced with inaccurate depth information,fuzzy edge and missing details.Therefore,this paper proposes a deep convolutional network with multiple level feature fusion structure.The network adopts the end-to-end encoder and decoder structure.The encoder uses ResNet101 network structure to convert the image into a high-dimensional feature map.The decoder uses an up-sampling convolution module to reconstruct a depth image from the high-dimensional feature map,and fuses the features of different levels in the encoder and decoder.The experimental results on the NYUv2 dataset and KITTI dataset show that compared with other advanced networks,the network can not only predict more accurate depth information,but also keep the edge information of the predicted depth image.

Key words: monocular image, depth estimation, encoder and decoder structure, multiple level fusion, sub-pixel convolution

中图分类号: