移动机器人中视觉里程计技术综述

引用本文

马科伟, 张锲石, 康宇航, 等. 移动机器人中视觉里程计技术综述[J]. 计算机工程, 2021, 47(11), 1-10. DOI: 10.19678/j.issn.1000-3428.0060829.

MA Kewei, ZHANG Qieshi, KANG Yuhang, et al. Overview of Visual Odometry Technology in Mobile Robots[J]. Computer Engineering, 2021, 47(11), 1-10. DOI: 10.19678/j.issn.1000-3428.0060829.

基金项目

国家自然科学基金(U1913202, U1813205);广东省重点领域研发计划项目(2019B090915001);深圳市科创委技术攻关项目(JSGG20191129094012321)

通信作者

张锲石(通信作者), 高级工程师、博士

作者简介

马科伟(1996-), 男, 硕士研究生, 主研方向为视觉里程计方法;
康宇航, 助理研究员、博士;
任子良, 工程师、博士;
程俊, 研究员、博士

文章历史

收稿日期：2021-02-07
修回日期：2021-05-08

Contents Abstract Full text Figures/Tables PDF

移动机器人中视觉里程计技术综述

马科伟^1,2 , 张锲石^1,2 , 康宇航^1,2 , 任子良^1,2 , 程俊^1,2

1. 中国科学院深圳先进技术研究院, 广东深圳 518055;
2. 中国科学院大学深圳先进技术学院, 北京 101408

收稿日期：2021-02-07；修回日期：2021-05-08

基金项目：国家自然科学基金(U1913202, U1813205);广东省重点领域研发计划项目(2019B090915001);深圳市科创委技术攻关项目(JSGG20191129094012321)

作者简介：马科伟(1996-), 男, 硕士研究生, 主研方向为视觉里程计方法; 康宇航, 助理研究员、博士; 任子良, 工程师、博士; 程俊, 研究员、博士.

通信作者：张锲石(通信作者), 高级工程师、博士.

E-mail: qs.zhang@siat.ac.cn

摘要：视觉里程计（VO）是实现移动机器人自主导航的主要技术之一，不同类型的VO技术在不同应用场景中受环境和硬件计算能力的影响，导致其性能各有优劣。概述VO技术的发展历程，对基于传统几何和基于深度学习的两类VO技术的性能进行对比与分析，重点介绍传统VO技术中特征点法的原理及其改进方法。在此基础上，归纳VO领域常用的公共数据集并对部分现有方法进行对比评测，为VO技术的实际应用提供参考和借鉴，并展望该领域未来的发展方向。

Overview of Visual Odometry Technology in Mobile Robots

MA Kewei^1,2 , ZHANG Qieshi^1,2 , KANG Yuhang^1,2 , REN Ziliang^1,2 , CHENG Jun^1,2

1. Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Shenzhen, Guangdong 518055, China;
2. Shenzhen College of Advanced Technology, University of Chinese Academy of Sciences, Beijing 101408, China

Abstract: Visual Odometry(VO)is one of the key technologies to realize autonomous navigation of mobile robots. Due to the influence of environment and hardware computing power, different VO technologies display varying performance in different application scenarios. This paper describes the development history of VO technologies, and compares the performance of traditional geometry-based VO technologies with deep learning-based technologies for analysis. Among all the traditional VO technologies, this paper focuses on the feature point method, describing its principles and improvement approaches.On this basis, the paper summarizes the commonly used public datasets for VO studies, and evaluates part of the existing methods in comparison to provide reference for VO applications.Finally, the paper discusses the future development directions of VO.

开放科学（资源服务）标志码（OSID）：

0 概述

视觉里程计（Visual Odometry，VO）^[1]主要用于移动机器人和智能车辆的自主导航任务，尤其是在未知环境下的目标检测和自身定位中发挥着重要作用。VO的主要工作原理是在刚体运动过程中，利用摄像头对周围环境采集图像数据，以连续图像序列作为输入信号，通过计算自身的位姿变化以得到运动估计。

早期的里程计技术多为机械式原理，如我国古代的记里鼓车利用齿轮传动机构实现路程计量，而近代出现的电子式里程计则利用电子传感器代替早期的机械部件，从而降低成本、提升可靠性并获取更加准确的里程信息和速度信息。VO相关研究起源于20世纪80年代，最早是由MATTHIES等^[2]设计一套包括特征提取、特征匹配、运动估计等模块的理论框架，并一直沿用至今。2004年，VO这一概念被DAVID等^[1]正式提出，同年，VO被NASA用于火星探测器，自此，VO被大众熟知并逐渐引起关注。近年来，VO的相关研究成果已广泛应用于无人驾驶、VR、AR、移动机器人等新兴技术领域。随着人工智能技术的发展，很多基于深度学习的VO方法不断被提出，并在某些性能表现上优于传统方法。

在实际应用中，通常采用实时定位与地图构建（Simultaneous Localization and Mapping，SLAM）^[3-4]技术来实现移动机器人的自主建图与导航等需求。SLAM是一种无需外界信号源就能在陌生环境中实现独立自主定位的技术，通过搭载特定的传感器来捕获环境信息，通常包括搭载激光雷达的SLAM系统和搭载相机的SLAM系统。其中，搭载相机的SLAM系统被称为视觉SLAM（Visual SLAM，VSLAM）^[5]。VSLAM注重全局轨迹和地图的一致性，其最终目的是获得一个全局且一致性的机器人运动路径估计，整个系统通常包括传感器数据、前端、后端、回环检测、建图等5个部分。而VO的研究主要集中在如何根据相邻帧图像定量估算帧间相机的运动，其仅关注局部运动，工作方式是一个位姿接一个位姿地增量式重构地图，且只优化前面若干个路径位姿，因此，VO通常作为VSLAM的前端来使用。

为了使得VO方法可以更好地应用于实际场景，研究人员进行了大量的研究，研究方法主要分为2类：一类是基于传统几何方法，另一类是基于深度学习方法。本文对VO方法的发展历程进行概述，分别介绍基于传统几何和基于深度学习的VO系统，在对VO进行数学表述的基础上汇总各类方法，并深入探讨直接法和间接法2类方法。同时归纳目前VO系统研究中常用的公共数据集，并对部分VO系统进行评价测试，最后对VO领域的未来发展方向进行展望。

1 传统VO方法 1.1 VO的数学表述

VO系统首先通过传感器采集视觉信息，在获取信息的过程中主要用到透视投影技术，透视投影的原理是将三维世界投影到二维平面，相机模型即基于透视投影，其几何关系如图 1所示。其中：$ {C}_{-xyz} $为相机坐标系；$ {O}_{-uv} $为二维投影成像平面；C点为摄像机的光心；$ C\mathrm{、}O $之间的距离为相机的焦距。考虑一个空间点P（X，Y，Z）经过投影映射到二维平面的p（u，v）点。

	Download: JPG larger image
图 1 相机几何模型 Fig. 1 Camera geometry model

从三维空间投影到二维平面的透视投影方程可以表示为：

$ \boldsymbol{Z}\left[\begin{array}{c}u\\ v\\ 1\end{array}\right]=\left[\begin{array}{ccc}{f}_{u}& 0& {c}_{u}\\ 0& {f}_{v}& {c}_{v}\\ 0& 0& 1\end{array}\right]\left[\begin{array}{c}X\\ Y\\ Z\end{array}\right]=\boldsymbol{K}P $

(1)

其中：$ {f}_{u} $、$ {f}_{v} $是u、v方向上的焦距；$ {c}_{u} $、$ {c}_{v} $为二维投影平面的像素从原点处向u、v方向的平移量。$ {f}_{u} $、$ {f}_{v} $、$ {c}_{u} $、$ {c}_{v} $都属于相机的内部参数，由它们共同组成式（1）中的矩阵，称为相机的内参数矩阵K，相机的内参在出厂后是固定的，不受外界环境影响。

相机在环境中以固定频率采集运动图像，假设在k时刻采集到的图像为$ {I}_{k} $，则在一段时间内采集到的图像序列可以表示为$ {I}_{0:n}=\left\{\begin{array}{c}{I}_{0}, {I}_{1}, \cdots , {I}_{n}\end{array}\right\} $，在k-1时刻至k时刻，相机的坐标变换矩阵T可表示为：

$ {\boldsymbol{T}}_{k, k-1}=\left[\begin{array}{cc}{\boldsymbol{R}}_{k, k-1}& {\boldsymbol{t}}_{k, k-1}\\ 0& 1\end{array}\right] $

(2)

其中：R为旋转矩阵，t为平移向量，它们又称为相机的外参数，均随着相机的运动而发生改变，由它们组成的矩阵$ {\boldsymbol{T}}_{\mathrm{ }} $称为变换矩阵（外参数矩阵），其代表着相机轨迹，同时也是VO中的待估计目标。设相机位姿集$ {C}_{0:n}=\{{C}_{0}, {C}_{1}, \cdots , {C}_{n}\} $，通过图像序列可以计算出一系列连续的变换矩阵$ {\boldsymbol{T}}_{k}(k=\mathrm{1, 2}, \cdots , n) $，就可以通过初始位姿$ {C}_{0} $得到相机的后续运动轨迹$ {C}_{n}={C}_{n-1}\times {\boldsymbol{T}}_{n}={C}_{0}\times {\boldsymbol{T}}_{1}\times \cdots \times {\boldsymbol{T}}_{n} $。由于VO是增量式重建轨迹，因此计算出的轨迹不可避免地会有误差积累，为了减少这种误差，通常使用捆绑调整优化（Bundle Adjustment，BA），通过迭代优化前m帧的重投影误差使得误差累计最小。

1.2 传统VO方法分类

传统VO方法是基于模型的系统，按照主流传感器类型可以分为单目（Monocular）、双目（Stereo）、深度相机（RGB-D）三大类，而按照对图像的处理方法可以分为特征点法和直接法两大类。

1.2.1 按传感器类型的分类

只使用一个摄像头的VO系统称为单目VO系统，单目相机具有结构简单、成本低的特点，受到众多研究人员的关注，常用的单目VO系统有PTAM^[6]、SVO^[7]、DSO^[8]等。但是，单目相机在采集数据时往往会丢失一个重要场景维度，即深度。为解决该问题，需要平移单目相机后才能估计深度信息，但通过这一过程仍然无法获得真实距离。

为得到更加准确的深度信息，研究人员尝试使用双目相机和深度相机，这两类相机可以测量物体与相机的距离，从而解决单目相机无法测量距离的缺点。在取得距离之后，场景的三维结构就可以通过图像恢复出来，也消除了尺度的不确定性。双目相机由2个单目相机组成，常用的双目VO系统有ORB-SLAM^[9]、RTAB-MAP^[10]。但是，双目相机的视差计算往往非常消耗资源，这也是双目相机存在的主要问题之一。深度相机主要利用红外结构光或者ToF（Time-of-Flight）原理，通过向目标物体发射光并接收返回的光来测出距离，与双目相机测距原理不同，深度相机是通过物理测量手段获取距离参数，相比于双目相机可节省计算资源，常用的深度VO系统有DVO^[11]、RGB-D-SLAM-V2^[12]等，但是深度相机存在易受光照影响、无法测量投射材质等不足，且主要用于室内测量，目前难以在室外广泛应用。

1.2.2 按图像处理方法的分类

根据是否直接对图像进行特征提取，传统VO方法可分为特征点法和直接法两大类。

特征点法首先从图像中选取比较有代表性的点，且这些点在相机视角发生少量改变后依然保持不变，即在各帧图像中尽可能找到相同位置的点，然后基于这些点计算位姿。早期提取的特征以灰度值的形式存在，但灰度值易受光照、形变、材质等影响，在不同图像中变化较大，鲁棒性较差。为了克服这一问题，研究人员设计出更加稳定的图像特征，如SIFT^[13]、SURF^[14]、ORB^[15]等，这些特征相对于早期的特征具有更稳定高效的优势，因此，基于这些特征描述子衍生出了很多算法，如MonoSLAM^[16]、PTAM^[6]、ORB-SLAM^[9]等。杨冬冬等^[17]基于SIFT特征提出一种基于局部和全局优化的双目VO，在满足实时性的基础上能够提高精度。但是，通常特征点法中的关键点提取和描述子计算过程都非常耗时，且只使用了图像的少量信息，如遇到某些特征缺失的场景，就难以找到足够多的匹配点来估计相机运动。

特征点法需要消耗大量的资源来计算特征点，直接法则不需要知道点与点之间的对应关系，其只提取关键点，跳过描述子计算，直接根据像素灰度信息来计算相机的运动。常用的基于直接法的VO系统有DTAM^[18]、DSO^[8]、DVO^[11]等。

由于基于特征点法的VO系统在SLAM中更适合回环检测与重定位，因此当前主流的VO方案更多基于特征点法。常用的基于传统方法的VO系统性能对比结果如表 1所示。

下载CSV 表 1 基于传统方法的VO系统性能对比结果 Table 1 Performance comparison results of VO systems based on traditional methods

1.3 特征点法

基于特征点法的VO系统主要包含特征模块和位姿估计两大部分。其中：特征模块主要包含特征检测、特征匹配、特征误匹配处理；位姿估计通常分为2D-2D、3D-3D、3D-2D。

1.3.1 特征模块

特征模块各部分具体如下：

1）特征检测。特征点由关键点和描述子2个部分组成。关键点是指特征点在图像中的位置，其具有尺度、方向等信息，在关键点周围的区域生成一个标示性的向量来表示这个区域的特征，这个向量被称为描述子，其作用是将自己与其他区域分开，通常作为匹配过程的基础。

在特征点检测中，角点检测是最早被提出的特征点检测方案之一，角点及其特征在视角发生较大变化时依然能够稳定存在，并且与邻域相差较大。Moravec角点检测算法^[24]以像素点为中心，检测该点与周围一定范围内信息的相似性，不相似则该点会被认为是角点，但该方法具有对噪声和边缘敏感的缺点，而且不具备旋转不变性。Harris算法^[25]在Moravec算法的基础上使用泰勒展开式，覆盖了所有方向的检测，克服了Moravec只检测45°倍角的缺点，不仅对噪声不敏感，而且在不同光照条件下均具有很好的稳定性，但该方法不适用于对尺度变化要求较高的场景。Shi-Tomasi算法^[26]进一步优化了Harris算法，提高了角点的稳定性。从本质上讲，Moravec算法^[24]、Harris算法^[25]、Shi-Tomasi算法^[26]都是基于梯度的检测算法。ROSTEN等^[27]于2006年提出了FAST算法，该算法将FAST角点定义为：若某像素与周围邻域内足够多的像素点差异较大，则该点可能是角点，其具有计算速度快、效率高的特点，在实时场景中可以被广泛应用。

LOWE等^[13]于1999年提出了尺度不变特征变换（Scale-Invariant Feature Transform，SIFT）算法，并在2004年对其进行改进。SIFT特征是图像的局部特征，其描述符具有尺度不变性，能够适应旋转、尺度缩放、亮度等变化，具有很强的稳定性和抗干扰性，但随之带来的是极大的计算量，因此，无法实时计算SIFT特征。BAY等^[14]于2006年提出了加速稳健特征（Speeded Up Robust Features，SURF）算法，该算法基于SIFT，但改变了其原有的特征点检测方式，并将描述子从128维降为64维，解决了SIFT特征计算量大的问题，提升了算法的执行效率。随后，BRIEF算法^[28]的提出大幅简化了描述子的计算过程，其利用局部图像邻域内随机点对的灰度值来建立特征，生成二值特征描述子，使得特征提取的过程大幅加速，算法实时性较好，但其缺点是不支持大角度的旋转。ETHAN等^[15]于2011年提出了ORB（Oriented FAST and Rotated BRIEF）算法，该算法在特征提取部分用改进的FAST算法，特征描述部分基于BRIEF算法进行改进，解决了其原先不适应大旋转角的问题，因此，ORB算法不仅具备FAST和BRIEF速度快的特点，还具有较好的尺度和旋转角度不变性。

2）特征匹配。在检测出了特征点之后，就可以通过匹配算法将图像之间的特征点一一对应起来，这个过程称为特征匹配。特征匹配是VO中极为关键的一步，它解决了VO中的数据关联问题，即确定当前看到的路标与之前看到的路标之间的对应关系。通常最简单的特征匹配方法是暴力匹配（Brute-Force Matcher），由于描述子距离代表了2个特征点之间的相似程度，该算法中将每一个特征点与其他待匹配的特征点进行描述子距离计算，然后在其中寻找最合适的特征点作为匹配点。在实际应用中，也会用到不同的距离度量范数，其中，欧氏距离适合浮点类型描述子，而对于二进制描述子，通常使用汉明距离。暴力匹配算法在特征点数量很多时会出现计算量很大的问题，难以满足实时性需求，因此，研究人员引入近似最邻近（Approximate Nearest Neighbor，ANN）搜索，其适用于匹配点数量极多的情况，在保证匹配精度的情况下大幅提升了匹配速度。MUJA等^[29]提出快速近似最邻近（Fast Library for Approximate Nearest Neighbors，FLANN）算法，该算法依据KD树实现，从已知数据集中的分布特点和其要求的空间资源消耗来给出合理的搜索参数，FLANN要求的特征空间通常是n维实数向量空间$ {R}^{n} $，其依据欧氏距离寻找实例点附近最近的点作为关键点。

3）特征误匹配处理。在实际特征匹配过程中，会遇到误匹配的情况，即将非对应的特征点作为匹配点。误匹配通常分为2种情况进行处理：

（1）对于几何约束是参数化的情况，随机抽样一致（RANSAC）算法^[30]是当前使用最广泛的误匹配点剔除算法，其具有随机性和假设性，可以从一组包含离群数据的数据集中通过迭代方式估算出数学模型参数，但该算法是一种不确定的算法，因此，为了提高结果的精确性，只能提高迭代次数。RANSAC算法具有结构简单、鲁棒性强的特点。

（2）对于几何约束是非参数化的情况，适合应用向量场一致（Vector Field Consensus，VFC）算法^[31]进行处理。该算法的原理是利用向量场的光滑先验，将外点从样本中区分出来，其具有鲁棒性强和匹配率高的特性，对于误匹配率较高的图像效果尤为显著。

1.3.2 位姿估计

位姿估计即计算2帧图像之间的运动估计，用数学模型表达可以理解为变换矩阵T的计算。在实际运用中，根据特征点类型的不同，位姿估计通常分为2D-2D、3D-3D、3D-2D这3类计算方法，具体如下：

1）2D-2D（对极几何）。在单目相机中，通常采集到的信息是以二维图像形式存在，在进行2帧之间运动估计时，由于图像上的二维点没有做三维测量，因此需要用到对极几何（Epipolar Geometry）。对极几何描述了同一场景在2幅图像之间的视觉几何关系，其模型如图 2所示。

	Download: JPG larger image
图 2 对极几何约束模型 Fig. 2 Epipolar geometry constraint model

在对极几何约束模型中，$ {I}_{1} $和$ {I}_{2} $代表相邻图像帧，$ {O}_{1} $、$ {O}_{2} $是相机中心，设$ {p}_{1} $、$ {p}_{2} $分别为$ {I}_{1} $和$ {I}_{2} $中已匹配成功的特征点，连线$ {O}_{1}{p}_{1} $和$ {O}_{2}{p}_{2} $在三维空间中相交于P点，$ {O}_{1}{O}_{2} $的连线与$ {I}_{1} $、$ {I}_{2} $相交于极点$ {e}_{1} $、$ {e}_{2} $，$ {p}_{1}{e}_{1} $、$ {p}_{2}{e}_{2} $被称为极线。根据代数几何关系，可以得到特征点之间满足以下约束关系：

$ {\boldsymbol{p}}_{2}^{\mathrm{T}}\boldsymbol{F}{\boldsymbol{p}}_{1}=0 $

(3)

其中：$ \boldsymbol{F} $是基础矩阵；$ {\boldsymbol{p}}_{1} $、$ {\boldsymbol{p}}_{2} $为特征点在图像中的像素位置。通过式（3）可以得出基础矩阵$ \boldsymbol{F} $，基础矩阵$ \boldsymbol{F} $与本质矩阵$ \boldsymbol{E} $存在如下关系：

$ \boldsymbol{F}={\boldsymbol{K}}^{-\mathrm{T}}\boldsymbol{E}{\boldsymbol{K}}^{-1} $

(4)

其中$ ：\boldsymbol{K} $为相机的内参矩阵。从式（4）可以得出本质矩阵$ \boldsymbol{E} $，而$ \boldsymbol{E}={\boldsymbol{t}}^{\wedge }\boldsymbol{R} $，根据式（5）可求得$ \boldsymbol{R}\mathrm{和}\boldsymbol{t} $，即求出了变化矩阵$ \boldsymbol{T} $。

$ {\boldsymbol{x}}_{2}^{\mathrm{T}}{\boldsymbol{t}}^{\wedge }{\boldsymbol{x}}_{2}={\boldsymbol{x}}_{2}^{\mathrm{T}}{\boldsymbol{t}}^{\wedge }\boldsymbol{R}{\boldsymbol{x}}_{1} $

(5)

其中$ ：{\boldsymbol{x}}_{1} $、$ {\boldsymbol{x}}_{2} $为特征点的归一化坐标。

在等式$ \boldsymbol{E}={\boldsymbol{t}}^{\wedge }\boldsymbol{R} $中，由于$ \boldsymbol{R}\mathrm{和}\boldsymbol{t} $各有3个自由度，故$ {\boldsymbol{t}}^{\wedge }\boldsymbol{R} $共有6个自由度。本质矩阵是由等式为零的对极约束定义的，因此，E在不同尺度下是等价的，即E实际上有5个自由度，这表明至少需要通过5对点才能求解相机的运动^[32-34]。除此之外，还有6点算法^[34]、8点算法^[35-36]，6点算法相比于5点解决方案更加简单，可以更加稳健地估计本质矩阵，且在平面场景中不会失效；8点算法是从8个或更多匹配点中通过对匹配点的坐标进行归一化处理来计算基本矩阵，具有简单易实现的优点。在特殊情况下，当相机只做平面运动时，运动模型就会降为3个自由度，这种情况下仅需要2对点就能计算出相机的运动参数^[37]。

2）3D-3D（ICP）。3D-3D是针对立体视觉，从三维图像信息中计算位姿估计。假设有一组已经匹配成功的3D特征点（已经对2个RGB-D图像进行了特征匹配）：$ P=\left\{{p}_{1}, {p}_{2}, \cdots , {p}_{n}\right\}，{P}^{\text{'}}=\left\{{p}_{1}^{\text{'}}, {p}_{2}^{\text{'}}, \cdots , {p}_{n}^{\text{'}}\right\} $，通过对应的特征点求其欧式变换的R和t时，通常用迭代最近点（Iterative Closest Point，ICP）算法^[38]求解，而ICP的求解方式分为2种，即利用线性代数的求解和利用非线性优化的求解。2种求解方式具体如下：

（1）在线性代数求解方法中，以奇异值分解（Singular Value Decomposition，SVD）法为代表。根据对匹配点的定义，设第i对点的误差项为：

$ {\boldsymbol{e}}_{\boldsymbol{i}}={\boldsymbol{p}}_{\boldsymbol{i}}-\left(\boldsymbol{R}{\boldsymbol{p}}_{\boldsymbol{i}}^{\text{'}}+\boldsymbol{t}\right) $

(6)

然后构建最小二乘问题，求出使得误差平方和达到最小的R和t：

$ \underset{\boldsymbol{R}, \boldsymbol{t}}{\mathrm{m}\mathrm{i}\mathrm{n}} \boldsymbol{J}=\frac{1}{2}\sum\limits_{i=1}^{n}{\left({\boldsymbol{p}}_{\boldsymbol{i}}-\left(\boldsymbol{R}{\boldsymbol{p}}_{\boldsymbol{i}}^{\text{'}}+\boldsymbol{t}\right)\right)}_{2}^{2} $

(7)

（2）在非线性优化求解方法中，通常使用迭代的方式求最优解。该类方法至少需要3对非共线的三维点，且与3D-2D的非线性解法类似，用李代数ξ表示相机位姿，如式（8）所示，通过多次迭代就可找到合适的ξ。

$ \underset{\boldsymbol{\xi }}{\mathrm{m}\mathrm{i}\mathrm{n}} =\frac{1}{2}\sum\limits_{i=1}^{n}{\left({\boldsymbol{p}}_{\boldsymbol{i}}-\mathrm{e}\mathrm{x}\mathrm{p}\left({\xi }^{\wedge }\right){\boldsymbol{p}}_{\boldsymbol{i}}^{\text{'}}\right)}_{2}^{2} $

(8)

3）3D-2D（PnP）。在求解从三维空间点到二维平面点对的运动估计时，通常使用n点透视投影（Perspective-n-Point，PnP）方法，该方法不需要对极约束，且在匹配点对很少的情况下仍可获得较好的运动估计。

求解PnP问题有很多方法，包括P3P^[39]、直接线性变换、非线性优化等。其中：P3P方法主要使用3对匹配点和1对验证点来估计变换矩阵；直接线性变换则要求最少有6对匹配点才可实现对变换矩阵T的线性求解，当匹配点大于6对时，还可以使用SVD方法对超定方程求最小二乘解；非线性优化法则将PnP问题构建成一个定义在李代数上的非线性最小二乘问题并进行求解。二维点坐标与空间点坐标的投影关系是求解PnP问题的关键，其计算过程如下：

$ {\boldsymbol{s}}_{i}{\boldsymbol{u}}_{i}=\boldsymbol{K}\cdot \mathrm{e}\mathrm{x}\mathrm{p}\left({\xi }^{\wedge }\right){\boldsymbol{P}}_{i} $

(9)

其中：P为空间坐标；u为投影的像素坐标。由于相机位姿未知，并且观测点存在噪声，故式（9）方程存在误差，因此需要构建一个最小二乘问题，使得误差最小，然后找出最合适的相机位姿：

$ {\xi }^{\boldsymbol{*}}=\underset{\xi }{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}} \frac{1}{2}\sum\limits_{i=1}^{n}{\left({\boldsymbol{u}}_{i}-\frac{1}{{\boldsymbol{s}}_{i}}\boldsymbol{K}\cdot \mathrm{e}\mathrm{x}\mathrm{p}\left({\xi }^{\wedge }\right){\boldsymbol{P}}_{i}\right)}_{2}^{2} $

(10)

式（10）的误差项是三维空间点根据当前估计投影到二维空间的坐标与观测到的二维真实坐标之间的误差，即PnP问题可以看作一个最小化重投影误差的问题。

1.4 直接法

在特征点法中，假设特征点是固定在三维空间中不动的点，通过最小化误差来优化相机运动，而在这个过程中，需要精准地知道2个对应的特征点在相机坐标系下的坐标，这也是进行特征匹配的原因，但由此带来了巨大的计算量。而在直接法中，并不需要知道点与点之间的对应关系，在图像有像素梯度的情况下，仅利用图像的像素灰度信息，通过最小化光度误差来计算运动变化，该方法不要求图像中有特征点，避免了特征点的提取和匹配，同时能够充分地使用图像信息，尤其是在特征缺失的场景中，直接法的效果优于特征点法。

相比于只可以构建稀疏地图的特征点法，直接法还可以构建稠密地图。通常根据像素的使用数量将直接法分为稀疏、稠密、半稠密3种方法。当P点来自于稀疏特征点时，称之为稀疏直接法，经典的稀疏法有SVO算法^[7]；当P点来自部分像素时，称之为半稠密直接法，如LSD-SLAM算法^[40]；当P点来自于所有像素时，称之为稠密直接法。

直接法是基于灰度不变假设而提出的方法，但是实际情况并不如此，比如相机的自动曝光可能会改变灰度差异，使算法失效。此外，直接法只适用于运动变化很小的情况，很难对较大变化的运动进行位姿估计，并且其在闭环检测过程中存在的累计漂移问题一直没有得到很好地解决^[8]。

1.5 直接法与特征点法的对比

目前，基于特征点法的VO系统依旧占领主流地位，但是在某些特定的场景中，使用直接法效果优于特征点法，如在特征点稀少且有像素梯度时更适合直接法。表 2所示为直接法和特征点法的性能对比结果。

下载CSV 表 2 直接法与特征点法性能对比结果 Table 2 Performance comparison results of direct method and feature point method

1.6 传统方法的不足

特征点法和直接法这2种VO方法已发展多年，但仍面临以下问题：

1）人工设计的特征会丢失图像中大部分信息，在某种程度上会导致VO效率低下。

2）特征提取计算复杂耗时。

3）在相机运动幅度较大时，特征跟踪容易丢失。

4）对于动态场景处理仍不理想，如视觉画面中有行人持续走动的情况。

5）对光照敏感，在光照条件恶劣的条件下鲁棒性差。

6）在图像特征不明显的情况下会导致精确度降低，并随之引发误差累积。

2 基于深度学习的VO方法 2.1 方法介绍

近年来，深度学习的发展极大促进了计算机视觉的相关科学研究，提高了视觉相关任务的准确率、鲁棒性以及执行效率。不同于传统VO系统通过严格几何理论方法来实现的方式，基于深度学习的VO则通过寻找数据规律与目标任务之间的函数关系来完成同样的工作。基于深度学习的VO主要分为有监督、无监督、半监督3种学习方法，其中具有代表性的VO方案有DeepVO^[41]、GeoNet^[42]、CNN-SLAM^[43]等。

2008年，ROBERTS等^[44]首次尝试将机器学习的方法用于VO系统，通过使用K-邻近（K-Nearest Neighbor，KNN）算法学习从稀疏光流到平台速度和旋转速率的映射，虽然在当时无法像传统几何方法那样准确地进行运动估计，但该方法可以在没有相机校准或场景结构模型的情况下，验证相机和环境的属性与运动估计之间映射的可能性。

基于特征点法和基于深度学习的VO方法在理论框架上具有一定程度的一致性。其中多数方法都更倾向于使用基于卷积神经网络（Convolutional Neural Networks，CNN）的特征提取网络，相比传统方法其稳定性和匹配准确率更高。2015年，KONDA等^[45]提出一种端到端的深度卷积神经网络模型来进行位姿估计，虽然在当时其性能与传统方法无法相提并论，但该模型进一步验证了基于深度学习的VO具有相当的潜力和可行性。2016年，COSTANTE等^[46]提出一种名为P-CNN VO的VO系统，该系统在模糊、亮度对比异常的情况下具有较强的鲁棒性。2017年，MULLER等^[47]提出了Flowdometry系统，该系统将原始光流直接作为预测网络的输入，再通过全连接层计算出位姿估计，其达到了同时期同类方法中的最佳性能。2018年，LIN等^[48]提出一种基于循环卷积神经网络（Recurrent Convolutional Neural Network，RCNN）的全局位姿估计网络模型，该模型主要解决VO的远距离漂移问题。同年，JIAO等^[49]提出一种端到端的双向循环卷积神经网络的单目VO系统Magic VO，该系统基于CNN和双向LSTM（Bi-SLTM），用于解决单目视觉测距问题。2018年，YU等^[50]提出DS-SLAM系统，该系统将语义分割网络与运动一致性检查方法相结合，减少了动态目标的影响，从而大幅提高了在动态环境中的定位精度。2019年，ALMALIOGLU等^[51]提出了基于生成式对抗网络（Generative Adversarial Network，GAN）的模型来学习图像特征，通过无监督学习得到一个名为GANVO的单目VO系统，该模型相比于监督学习不需要大量的标定数据，且相比于当时大多数的传统方法具有更好的性能。PANG等^[52]提出一种名为CLOCs（Camera-LiDAR Object Candidates）的多模态学习网络，该网络对图像数据集和雷达数据集进行双模态学习，相比于单模态的纯视觉学习，其在精度和鲁棒性上都有了显著提升，并且在KITTI数据集中达到了较好效果。2020年，YANG等^[53]提出了D3VO，该系统设计一个自监督单目深度估计网络，提高了前端追踪和后端非线性优化的性能，在单目VO中，其测试结果相对传统sota方法得到显著提升。表 3所示为部分基于深度学习的VO系统的性能对比结果。

下载CSV 表 3 基于深度学习的VO系统性能对比结果 Table 3 Performance comparison results of VO systems based on deep learning

2.2 基于深度学习的VO方法优点

基于深度学习的VO相比于传统VO的性能优势主要体现在以下5个方面：

1）基于深度学习的VO系统具有很强的泛化能力，可以在光线复杂的环境中工作。

2）对于动态场景的识别更加有效。

3）采用数据驱动的模型，更符合人类与环境的交互方式。

4）深度学习的方法可以更好地和其他传感器数据融合。

5）端到端的系统省去了中间的复杂流程，直接输出结果。

2.3 基于深度学习的VO方法缺点

虽然基于深度学习的VO在一定程度上展现出性能优势，但其依旧存在以下发展瓶颈：

1）模型训练时间长，且需要大量的计算资源。

2）网络层数多的模型容易出现梯度消失问题，使得梯度无法从输出层传到输入层，进而导致训练难度增大。

3）深度学习是典型的黑箱算法，没有理论依据，不像传统方法那样每个环节都有很强的解释性，其通过数据驱动的方式去学习，模型复杂，通常包含上亿个参数，若应用结果出现问题很难确定是哪个参数的原因，从而无法针对性地解决问题。

4）大部分模型依赖于大规模带有标签的训练数据，人工标注数据将消耗大量精力，并且实际场景更具复杂性，不可能收集到所有的标签信息。

5）对数据集要求较高，即使在某个数据集上取得了优秀的结果，换个场景可能导致精准度降低，只有当数据集足够大时，才可能展现出较强的适应性，因此，数据集的大小对于深度学习是一个非常重要的因素。

3 数据集

在测试VO系统性能时，通常通过公共数据集来对比不同方法的性能，当前在VO领域比较流行的公共数据集包括KITTI^[58]、TUM RGB-D ^[59]、EuRoC^[60]等。表 4所示为不同数据集之间的特性对比结果。

下载CSV 表 4 部分VO数据集对比结果 Table 4 Comparison results of some VO datasets

KITTI^[58]由卡尔斯鲁厄理工学院和丰田美国技术研究院共同创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集，其包含市区、乡村、高速公路等不同场景以及在不同车速和光照条件下的数据，主要面向室外，多用于评测立体图像、光流、视觉里程计、3D物体检测、3D跟踪等计算机视觉技术在车载环境下的性能。表 5所示为5种典型VO系统在KITTI上的测试结果。

下载CSV 表 5 5种VO系统在KITTI数据集上的性能测试结果 Table 5 Performance test results of five VO systems on KITTI dataset

TUM RGB-D^[59]是由德国慕尼黑工业大学Computer Vision Lab发布的针对深度相机的数据集，是业界很有名的RGB-D数据集，该数据集主要针对纹理丰富的室内场景，数据类型多样，包括帧数大小、相机运动快慢、场景结构以及不同的纹理类型。

EuRoC^[60]是由苏黎世联邦理工学院发布的一个专门针对室内场景的数据集，其通过小型无人机+双目相机+IMU的形式采集数据，该无人机运动比较剧烈，适宜于检测系统的鲁棒性。

4 VO领域未来的研究方向

VO技术已经发展多年，在很多方面都取得了重大进展，但目前仍旧有一些问题等待解决，本文在总结现有方案的基础上提出以下2个值得探索的研究方向：

1）提高VO在动态场景下的鲁棒性。动态场景中存在着不确定因素，如在分辨动态物体时还要处理被遮盖的静态场景，而且许多VO方法只能容忍在小尺度动态场景内发生的部分异常事件，在大尺度动态场景中并不能达到很好的效果。为了实现场景由小范围固定环境到大范围复杂动态环境的扩展，保证VO在动态场景中具有良好的环境适应能力，需要快速有效地处理动态场景，这也是VO未来的研究热点。

2）探索基于深度学习的多模态融合VO框架。机器人在移动过程中会面临诸多场景变化，如天气季节、光照角度、动态遮挡等，纯视觉的单模态系统易受噪声影响，从而降低轨迹估计的精确度。多模态融合的系统常使用多种传感器来补偿位姿估计，从而降低场景变化时所带来的噪声影响。如使用IMU提高高速运动下的定位效果，使用LiDAR提高不良照明条件下的鲁棒性。同时，深度学习模型能充分利用不同类型传感器的信息，提高对各类信息的利用率。因此，基于深度学习的多传感器融合VO框架是一个值得探索的课题。

5 结束语

VO方法在移动机器人领域应用越来越广泛，本文分别介绍基于传统几何和基于深度学习的2类VO方法，并对比分析各类经典方法的性能特点，总结当前在VO领域常用的公共数据集。分析结果表明，在VO领域，以特征点法为代表的传统几何方法依旧是当前较为可靠的解决方案，同时基于深度学习的VO也在不断地展现出新的成果，虽然后者在VO的部分环节表现出比传统方法效果更好的特点，但其整体性能和传统几何方法相比还有差距，依旧存在较大的发展空间。实际应用场景复杂多样，下一步将针对弱纹理环境中的特征提取问题进行研究，引入线特征策略来提高特征提取的精确度，同时尝试使用深度学习方法优化前期的图像数据，从而提高图像质量。

参考文献

[1]	NISTER D, NARODITSKY O, BERGEN J, et al. Visual odometry[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2004: 625-659.
[2]	MATTHIES L, SHAFER S. Error modeling in stereo navigation[J]. IEEE Journal on Robotics and Automation, 1987, 3(3): 239-248. DOI:10.1109/JRA.1987.1087097
[3]	DURRANT-WHYTE H, BAILEY T. Simultaneous localization and mapping: part I[J]. IEEE Robotics & Automation Magazine, 2006, 13(2): 99-110.
[4]	BAILEY T, DURRANT-WHYTE H. Simultaneous localization and mapping: part II[J]. IEEE Robotics & Automation Magazine, 2006, 13(3): 108-117.
[5]	KARLSSON N, DI BERNARDO E, OSTROWSKI J, et al. The SLAM algorithm for robust localization and mapping[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2005: 24-29.
[6]	KLEIN G, MURRAY D. Parallel tracking and mapping for small AR workspaces[C]//Proceedings of the 6th IEEE and ACM International Symposium on Mixed and Augmented Reality. Washington D.C., USA: IEEE Press, 2007: 225-234.
[7]	FORSTER C, PIZZOLI M, SCARAMUZZA D. SVO: fast semi-direct monocular visual odometry[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2014: 15-22.
[8]	ENGEL J, KOLTUN V, CREMERS D. Direct sparse odometry[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(3): 611-625.
[9]	MUR-ARTAL R, MONTIEL J M M, TARDOS J D. ORB-SLAM: a versatile and accurate monocular SLAM system[J]. IEEE Transactions on Robotics, 2015, 31(5): 1147-1163. DOI:10.1109/TRO.2015.2463671
[10]	LABBE M, MICHAUD F. Online global loop closure detection for large-scale multi-session graph-based SLAM[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Washington D.C., USA: IEEE Press, 2014: 2661-2666.
[11]	KERL C, STURM J, CREMERS D. Dense visual SLAM for RGB-D cameras[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Washington D.C., USA: IEEE Press, 2013: 2100-2106.
[12]	ENDRES F, HESS J, STURM J, et al. 3-D mapping with an RGB-D camera[J]. IEEE Transactions on Robotics, 2013, 30(1): 177-187.
[13]	LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94
[14]	BAY H, TUYTELAARS T, VAN GOOL L. SURF: speeded up robust features[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2006: 404-417.
[15]	RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//Proceedings of International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2011: 2564-2571.
[16]	DAVISON A J, REID I D, MOLTON N D, et al. MonoSLAM: real-time single camera SLAM[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1052-1067. DOI:10.1109/TPAMI.2007.1049
[17]	YANG D D, ZHANG X L, LI J M. Binocular visual odometry algorithm based on local and global optimization[J]. Computer Engineering, 2018, 44(1): 1-8. (in Chinese) 杨冬冬, 张晓林, 李嘉茂. 基于局部与全局优化的双目视觉里程计算法[J]. 计算机工程, 2018, 44(1): 1-8.
[18]	NEWCOMBE R A, LOVEGROVE S J, DAVISON A J. DTAM: dense tracking and mapping in real-time[C]//Proceedings of International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2011: 2320-2327.
[19]	LEUTENEGGER S, LYNEN S, BOSSE M, et al. Keyframe-based visual-inertial odometry using nonlinear optimization[J]. The International Journal of Robotics Research, 2015, 34(3): 314-334. DOI:10.1177/0278364914554813
[20]	QIN T, LI P, SHEN S. Vins-mono: a robust and versatile monocular visual-inertial state estimator[J]. IEEE Transactions on Robotics, 2018, 34(4): 1004-1020. DOI:10.1109/TRO.2018.2853729
[21]	MUR-ARTAL R, TARDÓS J D. ORB-SLAM2:an open-source SLAM system for monocular, stereo, and RGB-D cameras[J]. IEEE Transactions on Robotics, 2017, 33(5): 1255-1262. DOI:10.1109/TRO.2017.2705103
[22]	CAMPOS C, ELVIRA R, RODRíGUEZ J J G, et al. ORB-SLAM3: an accurate open-source library for visual, visual-inertial and multi-map SLAM[EB/OL]. [2021-01-01]. https://arxiv.org/pdf/2007.11898.pdf.
[23]	IZADI S, KIM D, HILLIGES O, et al. Kinect fusion: real-time 3D reconstruction and interaction using a moving depth camera[C]//Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology. New York, USA: ACM Press, 2011: 559-568.
[24]	MORAVEC H. Obstacle avoidance and navigation in the real world by a seeing robot rover[EB/OL]. [2021-01-01]. https://www.ri.cmu.edu/pub_files/pub4/moravec_hans_1980_1/moravec_hans_1980_1.pdf.
[25]	HARRIS C G, STEPHENS M. A combined corner and edge detector[EB/OL]. [2021-01-01]. https://home.cis.rit.edu/~cnspci/references/dip/feature_extraction/harris1988.pdf.
[26]	SHI J. Good features to track[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 1994: 593-600.
[27]	ROSTEN E, DRUMMOND T. Machine learning for high-speed corner detection[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2006: 430-443.
[28]	CALONDER M, LEPETIT V, STRECHA C, et al. BRIEF: binary robust independent elementary features[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2010: 778-792.
[29]	MUJA M, LOWE D G. Scalable nearest neighbor algorithms for high dimensional data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(11): 2227-2240. DOI:10.1109/TPAMI.2014.2321376
[30]	FISCHLER M A, BOLLES R C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography[J]. Communications of the ACM, 1981, 24(6): 381-395. DOI:10.1145/358669.358692
[31]	ZHAO J, MA J, TIAN J, et al. A robust method for vector field learning with application to mismatch removing[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2011: 2977-2984.
[32]	LI H, HARTLEY R. Five-point motion estimation made easy[C]//Proceedings of the 18th International Conference on Pattern Recognition. Washington D.C., USA: IEEE Press, 2006: 630-633.
[33]	NISTÉR D. An efficient solution to the five-point relative pose problem[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(6): 756-770. DOI:10.1109/TPAMI.2004.17
[34]	PIZARRO O, EUSTICE R M, SINGH H. Relative pose estimation for instrumented, calibrated imaging platforms[C]//Proceedings of DICTA'03. Washington D.C., USA: IEEE Press, 2003: 601-612.
[35]	HARTLEY R I. In defense of the eight-point algorithm[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(6): 580-593. DOI:10.1109/34.601246
[36]	LONGUET-HIGGINS H C. A computer algorithm for reconstructing a scene from two projections[J]. Nature, 1981, 293(5828): 133-135. DOI:10.1038/293133a0
[37]	FRAUNDORFER F, TANSKANEN P, POLLEFEYS M. A minimal case solution to the calibrated relative pose problem for the case of two known orientation angles[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2010: 269-282.
[38]	BESL P J, MCKAY H D. A method for registration of 3D shapes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1992, 14(2): 239-256. DOI:10.1109/34.121791
[39]	GAO X S, HOU X R, TANG J, et al. Complete solution classification for the perspective-three-point problem[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(8): 930-943. DOI:10.1109/TPAMI.2003.1217599
[40]	ENGEL J, SCHÖPS T, CREMERS D. LSD-SLAM: large-scale direct monocular SLAM[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 834-849.
[41]	WANG S, CLARK R, WEN H, et al. DeepVO: towards end-to-end visual odometry with deep recurrent convolutional neural networks[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2017: 2043-2050.
[42]	YIN Z, SHI J. GeoNet: unsupervised learning of dense depth, optical flow and camera pose[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 1983-1992.
[43]	TATENO K, TOMBARI F, LAINA I, et al. CNN-SLAM: real-time dense monocular SLAM with learned depth prediction[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 6243-6252.
[44]	ROBERTS R, NGUYEN H, KRISHNAMURTHI N, et al. Memory-based learning for visual odometry[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2008: 47-52.
[45]	KONDA K R, MEMISEVIC R. Learning visual odometry with a convolutional network[C]//Proceedings of International Conference on Computer Vision Theory and Applications. Washington D.C., USA: IEEE Press, 2015: 486-490.
[46]	COSTANTE G, MANCINI M, VALIGI P, et al. Exploring representation learning with CNNs for frame-to-frame ego-motion estimation[J]. IEEE Robotics and Automation Letters, 2015, 1(1): 18-25.
[47]	MULLER P, SAVAKIS A. Flowdometry: an optical flow and deep learning based approach to visual odometry[C]//Proceedings of IEEE Winter Conference on Applications of Computer Vision. Washington D.C., USA: IEEE Press, 2017: 624-631.
[48]	LIN Y, LIU Z, HUANG J, et al. Deep global-relative networks for end-to-end 6-dof visual localization and odometry[C]//Proceedings of Pacific Rim International Conference on Artificial Intelligence. Berlin, Germany: Springer, 2019: 454-467.
[49]	JIAO J, JIAO J, MO Y, et al. MagicVO: end-to-end monocular visual odometry through deep bi-directional recurrent convolutional neural network[EB/OL]. [2021-01-01]. https://arxiv.org/ftp/arxiv/papers/1811/1811.10964.pdf.
[50]	YU C, LIU Z, LIU X J, et al. DS-SLAM: a semantic visual SLAM towards dynamic environments[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Washington D.C., USA: IEEE Press, 2018: 1168-1174.
[51]	ALMALIOGLU Y, SAPUTRA M R U, DE GUSMAO P P, et al. GANVO: unsupervised deep monocular visual odometry and depth estimation with generative adversarial networks[C]//Proceedings of International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2019: 5474-5480.
[52]	PANG S, MORRIS D, RADHA H. CLOCs: camera-LiDAR object candidates fusion for 3D object detection[EB/OL]. [2021-01-01]. https://arxiv.org/pdf/2009.00784.pdf.
[53]	YANG N, STUMBERG L V, WANG R, et al. D3VO: deep depth, deep pose and deep uncertainty for monocular visual odometry[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 1281-1292.
[54]	LOO S Y, AMIRI A J, MASHOHOR S, et al. CNN-SVO: improving the mapping in semi-direct visual odometry using single-image depth prediction[C]//Proceedings of International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2019: 5218-5223.
[55]	LI R, WANG S, LONG Z, et al. UndeepVO: monocular visual odometry through unsupervised deep learning[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2018: 7286-7291.
[56]	COSTANTE G, MANCINI M. Uncertainty estimation for data-driven visual odometry[J]. IEEE Transactions on Robotics, 2020, 36(6): 1738-1757. DOI:10.1109/TRO.2020.3001674
[57]	ZHAN H, WEERASEKERA C S, BIAN J W, et al. Visual odometry revisited: what should be learnt?[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2020: 4203-4210.
[58]	GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2012: 3354-3361.
[59]	STURM J, ENGELHARD N, ENDRES F, et al. A benchmark for the evaluation of RGB-D SLAM systems[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Washington D.C., USA: IEEE Press, 2012: 573-580.
[60]	BURRI M, NIKOLIC J, GOHL P, et al. The EuRoC micro aerial vehicle datasets[J]. The International Journal of Robotics Research, 2016, 35(10): 1157-1163. DOI:10.1177/0278364915620033
[61]	MADDERN W, PASCOE G, LINEGAR C, et al. 1 year, 1000 km: the Oxford robotcar dataset[J]. The International Journal of Robotics Research, 2017, 36(1): 3-15. DOI:10.1177/0278364916679498
[62]	HODAN T, HALUZA P, OBDRŽÁLEK Š, et al. T-LESS: an RGB-D dataset for 6D pose estimation of texture-less objects[C]//Proceedings of IEEE Winter Conference on Applications of Computer Vision. Washington D.C., USA: IEEE Press, 2017: 880-888.
[63]	GASPAR A R, NUNES A, PINTO A M, et al. Urban@CRAS dataset: benchmarking of visual odometry and SLAM techniques[J]. Robotics and Autonomous Systems, 2018, 109: 59-67. DOI:10.1016/j.robot.2018.08.004
[64]	WENZEL P, WANG R, YANG N, et al. 4Seasons: a cross-season dataset for multi-weather SLAM in autonomous driving[EB/OL]. [2021-01-01]. https://vision.in.tum.de/_media/spezial/bib/wenzel2020fourseasons.pdf.
[65]	WANG W, ZHU D, WANG X, et al. TartanAir: a dataset to push the limits of visual SLAM[EB/OL]. [2021-01-01]. https://arxiv.org/pdf/2003.14338.pdf.
[66]	ZUÑIGA-NOËL D, JAENAL A, GOMEZ-OJEDA R, et al. The UMA-VI dataset: visual-inertial odometry in low-textured and dynamic illumination environments[J]. The International Journal of Robotics Research, 2020, 39(9): 1052-1060. DOI:10.1177/0278364920938439
[67]	PIRE T, FISCHER T, CIVERA J, et al. Stereo parallel tracking and mapping for robot localization[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Washington D.C., USA: IEEE Press, 2015: 1373-1378.