计算机工程

抛弃伪激光雷达，MIT和清华叉院团队提出下一代纯视觉3D检测框架DETR3D

在自动驾驶感知中，物体检测是其最重要的任务。所有下游跟踪、预测、规划、控制等任务都需要物体检测“打好基础”。因此，强大的 3D 检测能力是自动驾驶安全的保证。

但是，在实际应用中，纯视觉的自动驾驶方案面临着从 2D 推测 3D“少了一个维度” 的挑战，而模型需要通过强大场景的理解能力才能进行合理的推断。

过去几年，比较热门的方法叫做 “伪激光雷达”，即通过图像预测深度来得到 3D 环境，但预测深度本身就是一个及其困难的任务。那么，是否可以抛弃伪激光雷达？这在技术上提出了新的挑战。

近日，由麻省理工学院（MIT）和清华叉院团队领导，理想汽车和丰田研究所团队共同合作，提出了一种全新范式的纯视觉 3D 检测算法 DETR3D，是首个公开的 BEV 视觉检测方法，目前代码已经开源。

目前，该研究在著名的自动驾驶排行榜 NuScenes 3D 视觉检测上位居第一。相关论文以《DETR3D：3D物体检测从多视图图像通过 3D 到 2D 查询》（DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries）为题，被机器人顶会 CoRL（Conference on Robot Learning）接收1。

为传统 3D 检测算法 “减负、增效”

这种新的 3D 检测算法 DETR3D 同以往的算法有何不同？

首先，检测算法 DETR3D 极大地简化了传统的 3D 检测算法。“DETR3D 不依赖视觉深度预测，直接在 3D 中进行检测，是目前自动驾驶领域最火的 Bird-Eye View（BEV）方法之一。” 赵行表示。

其次，DETR3D 算法针对多个相机作为整体进行检测，无需进行后处理、相机间的跟踪、相机融合。而其他的视觉监测算法大多使用非极大值抑制算法去除冗余三维检测框，这给算法增加了复杂度。

视觉是 2D 的传感器，以往的方式是对于不同的视觉感知任务，在 2D 或 3D 会有不同的方案选择。王越表示，“BEV 方法让众多的视觉感知任务，聚合成了一个 3D 的模型，统一在 3D 空间中学习，进而提供了统一的 3D 场景理解能力。”

最后，对相机附近的超大、截断物体的检出率有显著、有效的提升。王轶伦举例说道：“比如自动驾驶车附近的货车，通常会在一个相机里面被截断，增加了检测的难度，而且这种超大物体往往容易造成危险。用 DETR3D 直接在 3D 中利用多个相机检测，相较于已有算法，整体检测效率提升至接近 3 倍。”

除此之外，DETR3D 取得了 NuScenes 视觉方向检测最好的效果。DETR3D 主要解决自动驾驶中的三维物体检测问题，同时，DETR3D 还可以应用于室内机器人、监控摄像头的物体检测。

作为首个公开的 BEV 视觉检测方法，DETR3D 在实际应用层面也将发挥其价值。

首先，多相机跟踪、融合是纯视觉方案中的难题，DETR3D 提出了一种新的思路，直接把多个相机整体做检测，给行业提供了一种新的思路。大物体被图像截断导致的“漏检”问题是纯视觉自动驾驶常见的一个问题，对整体安全影响很大，DETR3D 有效的提升了对该情况的检测效果。

另外，DETR3D 引领整个行业转向数据驱动，“端到端”且可解释的自动驾驶框架。

王越指出，在该研究的过程中主要面临两方面的挑战。“一方面，实现比较好的基线，由于三维视觉检测整个管道实现起来比较复杂，获得较好的基线是必备前提；另一方面，科研的未知性，很多我们认为比较好的想法实际过程中却不一定适用。”

双闭环数据驱动或成为下一代纯视觉自动驾驶发展方向

该团队认为，下一代的纯视觉自动驾驶会走向双闭环数据驱动。

系统输入依旧是传感器，输出仍然是控制信号，中间最主要的交互界面是语义空间，这代表了静态和动态障碍物的过去、现在和未来。在第一个闭环中，感知、融合、跟踪、预测、高精度地图、定位等模块被替换成了“端到端数据驱动”的方案；第二个闭环中，规划和控制成为了“端到端”的数据驱动。

这样的双闭环数据驱动，既通过数据驱动的方式提升了自动驾驶方案的上限，又通过中间的语义空间提升了整体方案的可解释性。

该研究的合作团队包括 MIT、清华叉院、理想汽车和丰田研究所。主要工作由王越在清华交叉信息院赵行老师组访问及在 MIT 就读期间完成。

王越是 MIT 计算机系五年级博士生，师从贾斯汀·所罗门（Justin Solomon）教授，主要研究方向是三维计算机视觉。王轶伦为理想汽车自动驾驶 AI 算法负责人、AI 首席科学家，毕业于斯坦福大学计算机专业，计算机视觉方向，毕业后在自动驾驶领域深耕。

赵行博士毕业于 MIT，现为清华叉院助理教授，后于谷歌无人车项目 Waymo 做自动驾驶方面研究，提出了运动预测领域的一系列框架性工作。去年年底回国后，组建了清华大学 MARS Lab，专注于自动驾驶和多模态学习等方面研究。

该团队表示，目前团队围绕着双闭环数据驱动已经做了系列工作，包括纯视觉物体检测的 DETR3D、实时感知高精度地图的 HDMapNet、动态场景深度预测、数据驱动的运动预测 VectorNet、TNT、DenseTNT 等。

赵行认为，直接在 3D 空间中学习是未来的研究方向。“我们下一步会将目前的框架应用于三维目标的跟踪和行为预测。”

发布日期：2021年11月3日

来源： DeepTech深科技

发布日期: 2021-11-10 访问总数: 200

模态框（Modal）标题

抛弃伪激光雷达，MIT和清华叉院团队提出下一代纯视觉3D检测框架DETR3D

在自动驾驶感知中，物体检测是其最重要的任务。所有下游跟踪、预测、规划、控制等任务都需要物体检测“打好基础”。因此，强大的 3D 检测能力是自动驾驶安全的保证。

但是，在实际应用中，纯视觉的自动驾驶方案面临着从 2D 推测 3D“少了一个维度” 的挑战，而模型需要通过强大场景的理解能力才能进行合理的推断。

过去几年，比较热门的方法叫做 “伪激光雷达”，即通过图像预测深度来得到 3D 环境，但预测深度本身就是一个及其困难的任务。那么，是否可以抛弃伪激光雷达？这在技术上提出了新的挑战。

近日，由麻省理工学院（MIT）和清华叉院团队领导，理想汽车和丰田研究所团队共同合作，提出了一种全新范式的纯视觉 3D 检测算法 DETR3D，是首个公开的 BEV 视觉检测方法，目前代码已经开源。

为传统 3D 检测算法 “减负、增效”

这种新的 3D 检测算法 DETR3D 同以往的算法有何不同？

首先，检测算法 DETR3D 极大地简化了传统的 3D 检测算法。“DETR3D 不依赖视觉深度预测，直接在 3D 中进行检测，是目前自动驾驶领域最火的 Bird-Eye View（BEV）方法之一。” 赵行表示。

其次，DETR3D 算法针对多个相机作为整体进行检测，无需进行后处理、相机间的跟踪、相机融合。而其他的视觉监测算法大多使用非极大值抑制算法去除冗余三维检测框，这给算法增加了复杂度。

除此之外，DETR3D 取得了 NuScenes 视觉方向检测最好的效果。DETR3D 主要解决自动驾驶中的三维物体检测问题，同时，DETR3D 还可以应用于室内机器人、监控摄像头的物体检测。

作为首个公开的 BEV 视觉检测方法，DETR3D 在实际应用层面也将发挥其价值。

另外，DETR3D 引领整个行业转向数据驱动，“端到端”且可解释的自动驾驶框架。

双闭环数据驱动或成为下一代纯视觉自动驾驶发展方向

该团队认为，下一代的纯视觉自动驾驶会走向双闭环数据驱动。

这样的双闭环数据驱动，既通过数据驱动的方式提升了自动驾驶方案的上限，又通过中间的语义空间提升了整体方案的可解释性。

该研究的合作团队包括 MIT、清华叉院、理想汽车和丰田研究所。主要工作由王越在清华交叉信息院赵行老师组访问及在 MIT 就读期间完成。

赵行博士毕业于 MIT，现为清华叉院助理教授，后于谷歌无人车项目 Waymo 做自动驾驶方面研究，提出了运动预测领域的一系列框架性工作。去年年底回国后，组建了清华大学 MARS Lab，专注于自动驾驶和多模态学习等方面研究。

该团队表示，目前团队围绕着双闭环数据驱动已经做了系列工作，包括纯视觉物体检测的 DETR3D、实时感知高精度地图的 HDMapNet、动态场景深度预测、数据驱动的运动预测 VectorNet、TNT、DenseTNT 等。

赵行认为，直接在 3D 空间中学习是未来的研究方向。“我们下一步会将目前的框架应用于三维目标的跟踪和行为预测。”