【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象

简介: 【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象

【论文原文】:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

推荐相关论文:

- 无


摘要:


文章介绍了一个用于多相机3D对象检测的框架。与直接从单目图像估计3D边界框或使用深度预测网络从 2D 信息生成 3D 对象检测输入的现有作品相比,DETR3D直接在3D空间中操作预测。DETR3D架构从多个相机图像中提取 2D 特征,然后使用一组稀疏的 3D 对象查询来索引这些 2D 特征,使用相机变换矩阵将 3D 位置链接到多视图图像。最后,DETR3D对每个对象查询进行边界框预测,使用 set-to-set 损失来衡量真实情况与预测之间的差异。这种自上而下的方法优于其自下而上的方法,其中对象边界框预测遵循每像素深度估计,因为它不会受到深度预测模型引入的复合误差的影响。此外,DETR3D不需要非极大值抑制等后处理,极大地提高了推理速度。在 nuScenes 自动驾驶基准测试中实现了最先进的性能。


简介:


从视觉信息中检测3D物体是低成本自动驾驶系统的长期挑战。虽然使用LiDAR等模式收集的点云的对象检测受益于可见对象的 3D 结构信息,但基于相机的设置更加不适定,因为我们必须仅根据 RGB 中包含的 2D 信息生成 3D 边界框预测。

现有方法通常完全从 2D 计算构建检测管道。也就是说,他们使用专为 2D 任务设计的对象检测管道(例如CenterNet、FCOS)来预测对象姿态和速度等 3D 信息,而不考虑 3D 场景结构或传感器配置。这些方法需要几个后处理步骤来融合跨摄像机的预测并删除冗余框,从而在效率和有效性之间产生急剧的权衡。作为这些基于 2D 的方法的替代方法,一些方法通过应用等 3D 重建方法将更多的 3D 计算结合到我们的对象检测管道中,以从相机图像创建场景的伪 LiDAR 或范围输入 . 然后,他们可以将 3D 对象检测方法应用于这些数据,就好像它是直接从 3D 传感器收集的一样。然而,这种策略会受到复合误差的影响:深度值估计不佳会对 3D 对象检测的性能产生强烈的负面影响,它也可能表现出自身的错误。

在本文中,提出了一种更优雅的自动驾驶 2D 观察和 3D 预测之间的过渡,它不依赖于密集深度预测的模块。框架称为 DETR3D(多视图 3D 检测),以自上而下的方式解决了这个问题。文章通过几何反投影与相机变换矩阵将 2D 特征提取和 3D 对象预测联系起来。DETR3D从一组稀疏的对象先验开始,跨数据集共享并端到端学习。为了收集特定于场景的信息,文章将一组从这些对象先验解码的参考点反向投影到每个相机,并获取由 ResNet 主干提取的相应图像特征。从参考点的图像特征中收集的特征然后通过多头自注意力层相互交互。在一系列自注意力层之后,DETR3D从每一层读取边界框参数,并使用受 DETR启发的 set-to-set 损失来评估性能.

DETR3D架构不执行点云重建或图像的显式深度预测,使其对深度估计中的错误具有鲁棒性。 此外,方法不需要任何后处理,例如非最大抑制 (NMS),提高了效率并减少了对手动设计的方法来清洁其输出的依赖。在nuScenes 数据集上,DETR3D方法(没有 NMS)与现有技术(有 NMS)相当。在相机重叠区域,明显优于其他方法。

贡献。我们将我们的主要贡献总结如下:

• 文章提出了一个基于RGB 图像的流线型3D 对象检测模型。与在最后阶段结合来自不同摄像机视图的对象预测的现有工作不同,我们的方法在每一层计算中融合了来自所有摄像机视图的信息。据我们所知,这是首次尝试将多摄像头检测作为 3D set-to-set 预测。

• 我们引入了一个模块,该模块通过后向几何投影连接 2D 特征提取和 3D 边界框预测。它不会受到来自辅助网络的不准确深度预测的影响,并且通过将 3D 信息反向投影到所有可用帧上来无缝地使用来自多个摄像头的信息。

• 与 Object DGCNN [11] 类似,我们的方法不需要像每幅图像或全局 NMS 这样的后处理,它与现有的基于 NMS 的方法不相上下。在相机重叠区域,我们的方法大大优于其他方法。

640.png

相关文章
|
机器学习/深度学习 自动驾驶 机器人
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
|
编解码 自动驾驶 测试技术
【论文速递】PETR: 用于多视图 3D 对象检测的位置嵌入变换
【论文速递】PETR: 用于多视图 3D 对象检测的位置嵌入变换
|
算法 自动驾驶 数据挖掘
3D检测:DETR3D
3D检测:DETR3D
949 0
3D检测:DETR3D
|
存储 数据采集 传感器
一文多图搞懂KITTI数据集下载及解析
一文多图搞懂KITTI数据集下载及解析
17044 3
一文多图搞懂KITTI数据集下载及解析
|
存储 计算机视觉 Python
BGR与RGB
BGR与RGB
4039 1
|
8月前
|
缓存 运维 监控
vLLM推理加速指南:7个技巧让QPS提升30-60%
GPU资源有限,提升推理效率需多管齐下。本文分享vLLM实战调优七招:请求塑形、KV缓存复用、推测解码、量化、并行策略、准入控制与预热监控。结合代码与数据,助你最大化吞吐、降低延迟,实现高QPS稳定服务。
2320 7
vLLM推理加速指南:7个技巧让QPS提升30-60%
|
存储 传感器 数据可视化
3D目标检测数据集 KITTI(标签格式解析、3D框可视化、点云转图像、BEV鸟瞰图)
本文介绍在3D目标检测中,理解和使用KITTI 数据集,包括KITTI 的基本情况、下载数据集、标签格式解析、3D框可视化、点云转图像、画BEV鸟瞰图等,并配有实现代码。
5801 1
|
传感器 机器学习/深度学习 人工智能
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
近年来,自动驾驶因其减轻驾驶员负担、提高行车安全的潜力而受到越来越多的关注。在现代自动驾驶系统中,感知系统是不可或缺的组成部分,旨在准确估计周围环境的状态,并为预测和规划提供可靠的观察结果。3D目标检测可以智能地预测自动驾驶车辆附近关键3D目标的位置、大小和类别,是感知系统的重要组成部分。本文回顾了应用于自动驾驶领域的3D目标检测的进展。
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
|
传感器 机器学习/深度学习 人工智能
超全汇总 | 基于Camera的3D目标检测算法综述!(单目/双目/伪激光雷达)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于单目、双目和伪激光雷达数据的相关算法,下面展开讨论下~
超全汇总 | 基于Camera的3D目标检测算法综述!(单目/双目/伪激光雷达)
|
算法 C++ 计算机视觉
Opencv(C++)学习系列---Laplacian拉普拉斯边缘检测算法
Opencv(C++)学习系列---Laplacian拉普拉斯边缘检测算法
1209 0