【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象

简介: 【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象

【论文原文】:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

推荐相关论文:

- 无


摘要:


文章介绍了一个用于多相机3D对象检测的框架。与直接从单目图像估计3D边界框或使用深度预测网络从 2D 信息生成 3D 对象检测输入的现有作品相比,DETR3D直接在3D空间中操作预测。DETR3D架构从多个相机图像中提取 2D 特征,然后使用一组稀疏的 3D 对象查询来索引这些 2D 特征,使用相机变换矩阵将 3D 位置链接到多视图图像。最后,DETR3D对每个对象查询进行边界框预测,使用 set-to-set 损失来衡量真实情况与预测之间的差异。这种自上而下的方法优于其自下而上的方法,其中对象边界框预测遵循每像素深度估计,因为它不会受到深度预测模型引入的复合误差的影响。此外,DETR3D不需要非极大值抑制等后处理,极大地提高了推理速度。在 nuScenes 自动驾驶基准测试中实现了最先进的性能。


简介:


从视觉信息中检测3D物体是低成本自动驾驶系统的长期挑战。虽然使用LiDAR等模式收集的点云的对象检测受益于可见对象的 3D 结构信息,但基于相机的设置更加不适定,因为我们必须仅根据 RGB 中包含的 2D 信息生成 3D 边界框预测。

现有方法通常完全从 2D 计算构建检测管道。也就是说,他们使用专为 2D 任务设计的对象检测管道(例如CenterNet、FCOS)来预测对象姿态和速度等 3D 信息,而不考虑 3D 场景结构或传感器配置。这些方法需要几个后处理步骤来融合跨摄像机的预测并删除冗余框,从而在效率和有效性之间产生急剧的权衡。作为这些基于 2D 的方法的替代方法,一些方法通过应用等 3D 重建方法将更多的 3D 计算结合到我们的对象检测管道中,以从相机图像创建场景的伪 LiDAR 或范围输入 . 然后,他们可以将 3D 对象检测方法应用于这些数据,就好像它是直接从 3D 传感器收集的一样。然而,这种策略会受到复合误差的影响:深度值估计不佳会对 3D 对象检测的性能产生强烈的负面影响,它也可能表现出自身的错误。

在本文中,提出了一种更优雅的自动驾驶 2D 观察和 3D 预测之间的过渡,它不依赖于密集深度预测的模块。框架称为 DETR3D(多视图 3D 检测),以自上而下的方式解决了这个问题。文章通过几何反投影与相机变换矩阵将 2D 特征提取和 3D 对象预测联系起来。DETR3D从一组稀疏的对象先验开始,跨数据集共享并端到端学习。为了收集特定于场景的信息,文章将一组从这些对象先验解码的参考点反向投影到每个相机,并获取由 ResNet 主干提取的相应图像特征。从参考点的图像特征中收集的特征然后通过多头自注意力层相互交互。在一系列自注意力层之后,DETR3D从每一层读取边界框参数,并使用受 DETR启发的 set-to-set 损失来评估性能.

DETR3D架构不执行点云重建或图像的显式深度预测,使其对深度估计中的错误具有鲁棒性。 此外,方法不需要任何后处理,例如非最大抑制 (NMS),提高了效率并减少了对手动设计的方法来清洁其输出的依赖。在nuScenes 数据集上,DETR3D方法(没有 NMS)与现有技术(有 NMS)相当。在相机重叠区域,明显优于其他方法。

贡献。我们将我们的主要贡献总结如下:

• 文章提出了一个基于RGB 图像的流线型3D 对象检测模型。与在最后阶段结合来自不同摄像机视图的对象预测的现有工作不同,我们的方法在每一层计算中融合了来自所有摄像机视图的信息。据我们所知,这是首次尝试将多摄像头检测作为 3D set-to-set 预测。

• 我们引入了一个模块,该模块通过后向几何投影连接 2D 特征提取和 3D 边界框预测。它不会受到来自辅助网络的不准确深度预测的影响,并且通过将 3D 信息反向投影到所有可用帧上来无缝地使用来自多个摄像头的信息。

• 与 Object DGCNN [11] 类似,我们的方法不需要像每幅图像或全局 NMS 这样的后处理,它与现有的基于 NMS 的方法不相上下。在相机重叠区域,我们的方法大大优于其他方法。

640.png

相关文章
|
6月前
|
编解码 自动驾驶 测试技术
【论文速递】PETR: 用于多视图 3D 对象检测的位置嵌入变换
【论文速递】PETR: 用于多视图 3D 对象检测的位置嵌入变换
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
6月前
|
计算机视觉
论文介绍:Panoptic-DeepLab——一种简单、强大且快速的自下而上全景分割基线
【5月更文挑战第22天】Panoptic-DeepLab是UIUC和Google Research合作开发的一种高效全景分割基线,采用双ASPP和双解码器设计,优化语义和实例分割。在Cityscapes、Mapillary Vistas和COCO数据集上表现优秀,同时保持接近实时的速度。其简洁设计仅需三个损失函数,具有高通用性和可扩展性。然而,仍面临尺度变化、实例分割等挑战,需要进一步优化。[链接](https://arxiv.org/abs/1911.10194)
112 0
|
6月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
158 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
6月前
|
存储 算法 自动驾驶
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
|
11月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
338 1
|
6月前
|
机器学习/深度学习 编解码 自动驾驶
【论文速递】WACV2022 - 基于小样本分割的多尺度Non-Novel片段消除方法
【论文速递】WACV2022 - 基于小样本分割的多尺度Non-Novel片段消除方法
|
6月前
|
编解码 算法 自动驾驶
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
426 0
|
机器学习/深度学习 存储 缓存
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
|
机器学习/深度学习 编解码 自然语言处理
【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。
233 0