【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection

简介: 【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection

【论文原文】:PETR: 用于多视图 3D 对象检测的位置嵌入变换

论文:https://arxiv.org/abs/2203.05625

代码:https://github.com/megvii-research/PETR

博主关键词:小样本学习,语义分割,图注意力网络,互监督,目标检测,三维视觉

推荐相关论文:

【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象
https://bbs.csdn.net/topics/612489503

摘要

在本文中,我们开发了用于多视图 3D 对象检测的位置嵌入变换 (PETR)。 PETR 将 3D 坐标的位置信息编码为图像特征,产生 3D 位置感知特征。 对象查询可以感知 3D 位置感知特征并执行端到端对象检测。 PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和 44.1% mAP),并在基准测试中排名第一。 它可以作为未来研究的简单而强大的基线。

Fig. DETR、DETR3D 和提出的 PETR 的比较。 (a) 在 DETR 中,对象查询与 2D 特征交互以执行 2D 检测。 (b) DETR3D 将生成的 3D 参考点重复投影到图像平面,并对 2D 特征进行采样以与解码器中的对象查询进行交互。 (c) PETR 通过将 3D 位置嵌入 (3D PE) 编码为 2D 图像特征来生成 3D 位置感知特征。 对象查询直接与 3D 位置感知功能交互并输出 3D 检测结果。

简介

多视图图像的 3D 对象检测由于其在自动驾驶系统中的低成本而具有吸引力。 以往的工作主要是从单目目标检测的角度来解决这个问题。 最近,DETR 因其在端到端目标检测方面的贡献而受到广泛关注。 在 DETR 中,每个对象查询代表一个对象并与 transformer 解码器中的 2D 特征交互以产生预测。 DETR3D 是 DETR 框架的简单扩展,为端到端 3D 对象检测提供了直观的解决方案。 由对象查询预测的 3D 参考点通过相机参数投影回图像空间,并用于从所有相机视图中采样 2D 特征。 解码器将采样特征和查询作为输入并更新对象查询的表示。

然而,DETR3D 中的这种 2D 到 3D 转换可能会引入几个问题。 首先,参考点的预测坐标可能不那么准确,使得采样的特征超出了对象区域。 其次,仅收集投影点处的图像特征,无法从全局视图进行表示学习。 此外,复杂的特征采样过程将阻碍检测器的实际应用。 因此,在没有在线 2D 到 3D 转换和特征采样的情况下构建端到端 3D 对象检测框架仍然是一个遗留问题。

Fig. 所提出的 PETR 范式的架构。 多视图图像被输入到主干网络(例如 ResNet)以提取多视图 2D 图像特征。 在 3D 坐标生成器中,所有视图共享的相机平截头体空间被离散化为 3D 网格。 meshgrid 坐标由不同的相机参数转换,从而产生 3D 世界空间中的坐标。 然后将 2D 图像特征和 3D 坐标注入建议的 3D 位置编码器以生成 3D 位置感知特征。 从查询生成器生成的对象查询通过与 transformer 解码器中的 3D 位置感知功能的交互进行更新。 更新后的查询进一步用于预测 3D 边界框和对象类。

在本文中,我们的目标是开发一个基于 DETR 的简单而优雅的 3D 对象检测框架。 我们想知道是否有可能将 2D 特征从多视图转换为 3D 感知特征。 这样,对象查询就可以在3D环境下直接更新。 我们的工作受到隐式神经表示的这些进步的启发。 在 MetaSR 和 LIFF 中,高分辨率 (HR) RGB 值是通过将 HR 坐标信息编码到 LR 特征中,从低分辨率 (LR) 输入生成的。 在本文中,我们尝试通过编码 3D 位置嵌入将多视图图像的 2D 特征转换为 3D 表示。 为了实现这一目标,首先将由不同视图共享的相机视锥体空间离散化为网格坐标。 然后通过不同的相机参数对坐标进行变换,得到3D世界空间的坐标。 然后从骨干和 3D 坐标中提取的 2D 图像特征被输入到一个简单的 3D 位置编码器以产生 3D 位置感知特征。 3D 位置感知功能将与转换器解码器中的对象查询交互,更新的对象查询进一步用于预测对象类和 3D 边界框。

与 DETR3D 相比,所提出的 PETR 架构带来了许多优势。 它保持了原始 DETR 的端到端精神,同时避免了复杂的 2D 到 3D 投影和特征采样。 在推理期间,可以以离线方式生成 3D 位置坐标,并用作额外的输入位置嵌入。 实际应用起来相对容易一些。

总而言之,我们的贡献是:

文章的主要贡献如下:

• 提出了一个简单而优雅的框架,称为 PETR,用于多视图 3D 对象检测。 通过对 3D 坐标进行编码,将多视图特征转换为 3D 域。 可以通过与 3D 位置感知功能交互来更新对象查询并生成 3D 预测

• 引入了一种新的 3D 位置感知表示,用于多视图 3D 对象检测。 引入了一个简单的隐函数来将 3D 位置信息编码为 2D 多视图特征。

• 实验表明,PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和 44.1% mAP),并在 3D 目标检测排行榜上排名第一。

【社区访问】

【论文速递 | 精选】

阅读原文访问社区

https://bbs.csdn.net/forums/paper


AIEarth是一个由众多领域内专家博主共同打造的学术平台,旨在建设一个拥抱智慧未来的学术殿堂!【平台地址:https://devpress.csdn.net/aiearth】 很高兴认识你!加入我们共同进步!

目录
相关文章
|
机器学习/深度学习 算法 数据可视化
深度学习论文阅读目标检测篇(一):R-CNN《Rich feature hierarchies for accurate object detection and semantic...》
 过去几年,在经典数据集PASCAL上,物体检测的效果已经达到 一个稳定水平。效果最好的方法是融合了多种低维图像特征和高维上 下文环境的复杂集成系统。在这篇论文里,我们提出了一种简单并且 可扩展的检测算法,可以在VOC2012最好结果的基础上将mAP值提 高30%以上——达到了53.3%。
127 0
深度学习论文阅读目标检测篇(一):R-CNN《Rich feature hierarchies for accurate object detection and semantic...》
|
机器学习/深度学习 编解码 并行计算
深度学习论文阅读目标检测篇(七)中文版:YOLOv4《Optimal Speed and Accuracy of Object Detection》
大多数基于 CNN 的目标检测器基本上都仅适用于推荐系统。例 如:通过城市摄像头寻找免费停车位,它由精确的慢速模型完成,而 汽车碰撞警报需要由快速、低精度模型完成。改善实时目标检测器的 精度,使其能够不仅可以用于提示生成推荐系统,也可以用于独立的 流程管理和减少人力投入。传统 GPU 使得目标检测可以以实惠的价 格运行。最准确的现代神经网络不是实时运行的,需要大量的训练的 GPU 与大的 mini bacth size。我们通过创建一个 CNN 来解决这样的 问题,在传统的 GPU 上进行实时操作,而对于这些训练只需要一个 传统的 GPU。
205 0
|
机器学习/深度学习 编解码 并行计算
深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4《Optimal Speed and Accuracy of Object Detection》
 有大量的技巧可以提高卷积神经网络(CNN)的精度。需要在大 数据集下对这种技巧的组合进行实际测试,并需要对结果进行理论论 证。某些技巧仅在某些模型上使用和专门针对某些问题,或只针对小 规模的数据集;而一些技巧,如批处理归一化、残差连接等,适用于 大多数的模型、任务和数据集。我们假设这种通用的技巧包括加权残 差连接(Weighted-Residual-Connection,WRC)
234 0
|
机器学习/深度学习 传感器 编解码
深度学习论文阅读目标检测篇(四)中文版:YOLOv1《 You Only Look Once: Unified, Real-Time Object Detection》
我们的统一架构非常快。我们的基础YOLO模型以45帧/秒的速度实时处理图像。FastYOLO是YOLO的一个较小版本,每秒能处理惊人的155帧图像,同时实现其它实时检测器两倍的mAP。与最先进的检测系统相比,YOLO虽然存在较多的定位错误,但很少将背景预测成假阳性(译者注:其它先进的目标检测算法将背景预测成目标的概率较大)。最后,YOLO能学习到目标非常通用的表示。当从自然图像到艺术品等其它领域泛化时,它都优于其它检测方法,包括DPM和R-CNN。
249 0
|
机器学习/深度学习 编解码 算法
深度学习论文阅读目标检测篇(四)中英文对照版:YOLOv1《 You Only Look Once: Unified, Real-Time Object Detection》
我们提出了 YOLO,一种新的目标检测方法。以前的目标检测工 作重复利用分类器来完成检测任务。相反,我们将目标检测框架看作 回归问题,从空间上分割边界框和相关的类别概率。单个神经网络在 一次评估中直接从整个图像上预测边界框和类别概率。由于整个检测 流水线是单一网络,因此可以直接对检测性能进行端到端的优化。
168 0
|
机器学习/深度学习 算法 数据挖掘
深度学习论文阅读目标检测篇(三):Faster R-CNN《 Towards Real-Time Object Detection with Region Proposal Networks》
 最先进的目标检测网络依靠region proposal算法来推理检测目标的位置。SPPnet[1]和Fast R-CNN[2]等类似的研究已经减少了这些检测网络的运行时间,使得region proposal计算成为一个瓶颈。在这项工作中,我们引入了一个region proposal网络(RPN),该网络与检测网络共享整个图像的卷积特征,从而使近乎零成本的region proposal成为可能。
277 0
|
传感器 自动驾驶 算法
论文阅读:RRPN:RADAR REGION PROPOSAL NETWORK FOR OBJECT DETECTION IN AUTONOMOUS VEHICLES
论文阅读:RRPN:RADAR REGION PROPOSAL NETWORK FOR OBJECT DETECTION IN AUTONOMOUS VEHICLES
300 1
论文阅读:RRPN:RADAR REGION PROPOSAL NETWORK FOR OBJECT DETECTION IN AUTONOMOUS VEHICLES
|
传感器 自动驾驶 算法
论文阅读:Object Classification Using CNN-Based Fusion of Vision and LIDAR in Autonomous Vehicle
论文阅读:Object Classification Using CNN-Based Fusion of Vision and LIDAR in Autonomous Vehicle
105 0
论文阅读:Object Classification Using CNN-Based Fusion of Vision and LIDAR in Autonomous Vehicle
|
决策智能
论文笔记之:Collaborative Deep Reinforcement Learning for Joint Object Search
Collaborative Deep Reinforcement Learning for Joint Object Search   CVPR 2017 Motivation:   传统的 bottom-up object region proposals 的方法,由于提取了较多的 proposal,导致后续计算必须依赖于抢的计算能力,如 GPU 等。
3151 0
论文笔记之:Natural Language Object Retrieval
论文笔记之:Natural Language Object Retrieval 2017-07-10  16:50:43       本文旨在通过给定的文本描述,在图像中去实现物体的定位和识别。大致流程图如下:        此处,作者强调了一点不同之处:   Natural language ob...
1545 0