【论文原文】:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
推荐相关论文:
- 无
摘要:
文章介绍了一个用于多相机3D对象检测的框架。与直接从单目图像估计3D边界框或使用深度预测网络从 2D 信息生成 3D 对象检测输入的现有作品相比,DETR3D直接在3D空间中操作预测。DETR3D架构从多个相机图像中提取 2D 特征,然后使用一组稀疏的 3D 对象查询来索引这些 2D 特征,使用相机变换矩阵将 3D 位置链接到多视图图像。最后,DETR3D对每个对象查询进行边界框预测,使用 set-to-set 损失来衡量真实情况与预测之间的差异。这种自上而下的方法优于其自下而上的方法,其中对象边界框预测遵循每像素深度估计,因为它不会受到深度预测模型引入的复合误差的影响。此外,DETR3D不需要非极大值抑制等后处理,极大地提高了推理速度。在 nuScenes 自动驾驶基准测试中实现了最先进的性能。
简介:
从视觉信息中检测3D物体是低成本自动驾驶系统的长期挑战。虽然使用LiDAR等模式收集的点云的对象检测受益于可见对象的 3D 结构信息,但基于相机的设置更加不适定,因为我们必须仅根据 RGB 中包含的 2D 信息生成 3D 边界框预测。
现有方法通常完全从 2D 计算构建检测管道。也就是说,他们使用专为 2D 任务设计的对象检测管道(例如CenterNet、FCOS)来预测对象姿态和速度等 3D 信息,而不考虑 3D 场景结构或传感器配置。这些方法需要几个后处理步骤来融合跨摄像机的预测并删除冗余框,从而在效率和有效性之间产生急剧的权衡。作为这些基于 2D 的方法的替代方法,一些方法通过应用等 3D 重建方法将更多的 3D 计算结合到我们的对象检测管道中,以从相机图像创建场景的伪 LiDAR 或范围输入 . 然后,他们可以将 3D 对象检测方法应用于这些数据,就好像它是直接从 3D 传感器收集的一样。然而,这种策略会受到复合误差的影响:深度值估计不佳会对 3D 对象检测的性能产生强烈的负面影响,它也可能表现出自身的错误。
在本文中,提出了一种更优雅的自动驾驶 2D 观察和 3D 预测之间的过渡,它不依赖于密集深度预测的模块。框架称为 DETR3D(多视图 3D 检测),以自上而下的方式解决了这个问题。文章通过几何反投影与相机变换矩阵将 2D 特征提取和 3D 对象预测联系起来。DETR3D从一组稀疏的对象先验开始,跨数据集共享并端到端学习。为了收集特定于场景的信息,文章将一组从这些对象先验解码的参考点反向投影到每个相机,并获取由 ResNet 主干提取的相应图像特征。从参考点的图像特征中收集的特征然后通过多头自注意力层相互交互。在一系列自注意力层之后,DETR3D从每一层读取边界框参数,并使用受 DETR启发的 set-to-set 损失来评估性能.
DETR3D架构不执行点云重建或图像的显式深度预测,使其对深度估计中的错误具有鲁棒性。 此外,方法不需要任何后处理,例如非最大抑制 (NMS),提高了效率并减少了对手动设计的方法来清洁其输出的依赖。在nuScenes 数据集上,DETR3D方法(没有 NMS)与现有技术(有 NMS)相当。在相机重叠区域,明显优于其他方法。
贡献。我们将我们的主要贡献总结如下:
• 文章提出了一个基于RGB 图像的流线型3D 对象检测模型。与在最后阶段结合来自不同摄像机视图的对象预测的现有工作不同,我们的方法在每一层计算中融合了来自所有摄像机视图的信息。据我们所知,这是首次尝试将多摄像头检测作为 3D set-to-set 预测。
• 我们引入了一个模块,该模块通过后向几何投影连接 2D 特征提取和 3D 边界框预测。它不会受到来自辅助网络的不准确深度预测的影响,并且通过将 3D 信息反向投影到所有可用帧上来无缝地使用来自多个摄像头的信息。
• 与 Object DGCNN [11] 类似,我们的方法不需要像每幅图像或全局 NMS 这样的后处理,它与现有的基于 NMS 的方法不相上下。在相机重叠区域,我们的方法大大优于其他方法。