【论文速递】PETR: 用于多视图 3D 对象检测的位置嵌入变换

简介: 【论文速递】PETR: 用于多视图 3D 对象检测的位置嵌入变换

论文:https://arxiv.org/abs/2203.05625

代码:https://github.com/megvii-research/PETR

博主关键词: 小样本学习,语义分割,图注意力网络,互监督,目标检测,三维视觉

推荐相关论文:

【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象


摘要


在本文中,我们开发了用于多视图 3D 对象检测的位置嵌入变换 (PETR)。PETR 将 3D 坐标的位置信息编码为图像特征,产生 3D 位置感知特征。对象查询可以感知 3D 位置感知特征并执行端到端对象检测。PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和 44.1% mAP),并在基准测试中排名第一。它可以作为未来研究的简单而强大的基线。

640.png

Fig1. DETR、DETR3D 和提出的 PETR 的比较。(a) 在 DETR 中,对象查询与 2D 特征交互以执行 2D 检测。(b) DETR3D 将生成的 3D 参考点重复投影到图像平面,并对 2D 特征进行采样以与解码器中的对象查询进行交互。(c) PETR 通过将 3D 位置嵌入 (3D PE) 编码为 2D 图像特征来生成 3D 位置感知特征。对象查询直接与 3D 位置感知功能交互并输出 3D 检测结果。


简介


多视图图像的 3D 对象检测由于其在自动驾驶系统中的低成本而具有吸引力。以往的工作主要是从单目目标检测的角度来解决这个问题。最近,DETR 因其在端到端目标检测方面的贡献而受到广泛关注。在 DETR 中,每个对象查询代表一个对象并与 transformer 解码器中的 2D 特征交互以产生预测。DETR3D 是 DETR 框架的简单扩展,为端到端 3D 对象检测提供了直观的解决方案。由对象查询预测的 3D 参考点通过相机参数投影回图像空间,并用于从所有相机视图中采样 2D 特征。解码器将采样特征和查询作为输入并更新对象查询的表示。

然而,DETR3D 中的这种 2D 到 3D 转换可能会引入几个问题。首先,参考点的预测坐标可能不那么准确,使得采样的特征超出了对象区域。其次,仅收集投影点处的图像特征,无法从全局视图进行表示学习。此外,复杂的特征采样过程将阻碍检测器的实际应用。因此,在没有在线 2D 到 3D 转换和特征采样的情况下构建端到端 3D 对象检测框架仍然是一个遗留问题。

640.png

Fig2. 所提出的 PETR 范式的架构。多视图图像被输入到主干网络(例如 ResNet)以提取多视图 2D 图像特征。在 3D 坐标生成器中,所有视图共享的相机平截头体空间被离散化为 3D 网格。meshgrid 坐标由不同的相机参数转换,从而产生 3D 世界空间中的坐标。然后将 2D 图像特征和 3D 坐标注入建议的 3D 位置编码器以生成 3D 位置感知特征。从查询生成器生成的对象查询通过与 transformer 解码器中的 3D 位置感知功能的交互进行更新。更新后的查询进一步用于预测 3D 边界框和对象类。

在本文中,我们的目标是开发一个基于 DETR 的简单而优雅的 3D 对象检测框架。我们想知道是否有可能将 2D 特征从多视图转换为 3D 感知特征。这样,对象查询就可以在3D环境下直接更新。我们的工作受到隐式神经表示的这些进步的启发。在 MetaSR 和 LIFF 中,高分辨率 (HR) RGB 值是通过将 HR 坐标信息编码到 LR 特征中,从低分辨率 (LR) 输入生成的。在本文中,我们尝试通过编码 3D 位置嵌入将多视图图像的 2D 特征转换为 3D 表示。为了实现这一目标,首先将由不同视图共享的相机视锥体空间离散化为网格坐标。然后通过不同的相机参数对坐标进行变换,得到3D世界空间的坐标。然后从骨干和 3D 坐标中提取的 2D 图像特征被输入到一个简单的 3D 位置编码器以产生 3D 位置感知特征。3D 位置感知功能将与转换器解码器中的对象查询交互,更新的对象查询进一步用于预测对象类和 3D 边界框。

与 DETR3D 相比,所提出的 PETR 架构带来了许多优势。它保持了原始 DETR 的端到端精神,同时避免了复杂的 2D 到 3D 投影和特征采样。在推理期间,可以以离线方式生成 3D 位置坐标,并用作额外的输入位置嵌入。实际应用起来相对容易一些。总而言之,我们的贡献是:

文章的主要贡献如下:• 提出了一个简单而优雅的框架,称为 PETR,用于多视图 3D 对象检测。通过对 3D 坐标进行编码,将多视图特征转换为 3D 域。可以通过与 3D 位置感知功能交互来更新对象查询并生成 3D 预测

• 引入了一种新的 3D 位置感知表示,用于多视图 3D 对象检测。引入了一个简单的隐函数来将 3D 位置信息编码为 2D 多视图特征。

• 实验表明,PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和 44.1% mAP),并在 3D 目标检测排行榜上排名第一。

相关文章
|
传感器 机器学习/深度学习 自动驾驶
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
5240 1
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
|
5月前
|
人工智能 自然语言处理 数据安全/隐私保护
企业AI落地开源五剑客:Open-WebUI、Dify、RAGFlow、FastGPT、n8n
在AI技术迅猛发展的今天,企业常面临数据安全、技术门槛和系统整合等难题。本文介绍了五款开源工具——Open WebUI、Dify、RAGFlow、FastGPT和n8n,它们以低成本、私有化部署和模块化扩展的优势,助力企业构建AI能力闭环,覆盖交互、生成、知识处理与流程自动化等多个环节,推动AI真正落地应用。
|
传感器 自动驾驶 测试技术
【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象
【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象
|
8月前
|
API C++
【Azure Developer】VS Code上登录China Azure遇见错误:CAA20002
在VS Code中安装Azure Resource插件后,修改云环境为中国区Azure时,可能会遇到错误代码CAA20002。解决办法是将Microsoft Account的Client ID Version从默认的v1修改为v2。具体操作为:打开VS Code设置页面“Setting”,输入“microsoft account”过滤配置,在Microsoft中找到Client ID Version并将其值更改为v2。完成后测试登录即可成功。相关参考资料可查阅GitHub上的VS Code Azure登录问题讨论。
243 8
|
机器学习/深度学习 算法 计算机视觉
BEV新SOTA | Sparse4D v3用实例去噪+质量估计+解耦注意力全面提升BEV检测性能
BEV新SOTA | Sparse4D v3用实例去噪+质量估计+解耦注意力全面提升BEV检测性能
618 0
|
搜索推荐 算法 SEO
移动端的seo优化要怎么做
在如今移动端优化规则不断完善的时代,现今做网站推广要想获得更多的流量,移动端网站关键词排名自然是不可轻视的优化步骤,但移动端网站排名的规则与PC端网站优化排名算法有很大的差异,那么移动端关键词优化有哪
|
运维 Ubuntu Shell
掌握Docker容器的创建:从镜像到实例
【8月更文挑战第27天】
2431 4
|
前端开发 JavaScript 项目管理
飞跃前端瓶颈:技术进阶指南精华篇
飞跃前端瓶颈:技术进阶指南精华篇
230 1
|
域名解析 缓存 运维
【域名解析DNS专栏】域名解析故障排查手册:常见问题与解决方案
【5月更文挑战第22天】【DNS故障排查手册】解决域名无法解析、速度慢、污染劫持及配置错误问题。检查网络、清理缓存、更换DNS服务器、使用HTTPS、DNSSEC及CDN。示例:使用nslookup查询域名解析。定期检查优化DNS服务器,确保稳定安全。
3610 4
【域名解析DNS专栏】域名解析故障排查手册:常见问题与解决方案
|
传感器 机器学习/深度学习 自动驾驶
【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023
本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。CRN,全称是Camera Radar Net,是一个多视角相机-雷达融合框架。 通过融合多视角相机和雷达的特性,生成语义丰富且空间精确的BEV特征图。实现3D物体检测、跟踪和BEV分割任务。
1687 57