CVPR 2021 | CenterPoint:基于Center的3D目标检测和跟踪|代码已开源

简介: 3D目标通常表示为点云中的3D框。这种表示方法模仿了经过充分研究的基于图像的2D边界框检测,但也带来了其他挑战。3D世界中的物体没有遵循任何特定的方向,并且基于盒的检测器很难枚举所有方向或将轴对齐的边界框拟合到旋转的对象。

本文提出将3D目标表示为点(points),表现SOTA!性能优于3DSSD、PointPainting等,端到端3D检测和跟踪速度达30 FPS!代码现已开源!

640.png


作者团队:UT Austin(二作就是CenterNet的作者)

代码:https://github.com/tianweiy/CenterPoint

论文:https://arxiv.org/pdf/2006.11275.pdf

3D目标通常表示为点云中的3D框。这种表示方法模仿了经过充分研究的基于图像的2D边界框检测,但也带来了其他挑战。3D世界中的物体没有遵循任何特定的方向,并且基于盒的检测器很难枚举所有方向或将轴对齐的边界框拟合到旋转的对象。


在本文中,我们提出将3D目标表示为点(points),并进行跟踪。


640.png


图1:作者提出了一个基于中心的框架来表示,检测和跟踪对象。以前的基于锚的方法相对于自我车辆坐标使用“轴对齐”的锚。当车辆在直路上行驶时,基于锚点和基于中心的方法都能够准确地检测物体(顶部)。但是,在安全关键的左转(底部)期间,基于锚点的方法很难将轴对齐的边界框拟合到旋转的对象。我们基于中心的模型通过旋转不变点准确地检测物体。彩色效果最佳。


我们使用关键点检测器查找对象的中心,然后简单地回归其他属性,包括3D大小,3D方向和速度。在我们基于中心的框架中,3D目标跟踪简化为贪婪的最近点匹配。所得的检测和跟踪算法简单,高效且有效。


640.png


图2:我们的CenterPoint框架概述。我们依赖于一个标准的3D主干,该主干从Lidar点云中提取地图视图要素表示。然后,2D CNN架构检测头找到对象中心,并使用中心特征退回到完整的3D边界框。该框预测用于提取估计的3D边界框的每个面的3D中心处的点特征,这些点特征将传递到MLP中以预测IoU引导的置信度得分和框回归细化。彩色效果最佳


Highlights


  • S简单: 两句话方法总结:我们使用头部带有一些卷积层的标准3D点云编码器来生成鸟瞰热图和其他密集回归输出,包括前一帧中心的偏移量。检测是一种简单的局部峰提取,具有改进功能,而跟踪是最接近距离的匹配。


  • 快速而准确: 我们最好的单一型号在11FPS +上运行时,在Waymo上达到71.9 mAPH,在nuScenes上达到65.5 NDS。


  • 可扩展: 在您的新颖算法中可轻松替换基于锚的检测器。

640.png


图3:在Waymo验证中CenterPoint的定性结果示例。我们将原始点云显示为蓝色,将检测到的对象显示为绿色边界框,并使用红色将边界点内部的激光雷达点显示为红色。最好在屏幕上观看。


实验结果


在nuScenes数据集上,针对3D检测,基于点的表示比基于盒子的表示高3-4 mAP,针对3D跟踪的表现比基于Box的表示高6 aMOTA。


640.png

表1:在Waymo测试仪上进行3D检测的最新比较。我们同时显示了1级和2级基准的mAP和mAPH。


640.png


表2:在nuScenes测试集上进行3D检测的最新比较。我们显示了nuScenes检测得分(NDS)和平均平均精度(mAP).


640.png


表3:在Waymo测试仪上进行3D跟踪的最新比较。我们展示了MOTA和MOTP。↑代表更好,而↓代表更低。


我们的实时模型以30帧/秒的速度运行端到端3D检测和跟踪,具有54.2 AMOTA和48.3 mAP,而最好的单一模型可实现60.3 mAP的3D检测和63.8 AMOTA的3D跟踪。


640.png


表4:在nuScenes测试集上进行3D跟踪的最新比较。我们显示了AMOTA,假阳性(FP),假阴性(FN),ID开关(IDS)和每个类别的AMOTA的数量。↑代表更好,而↓代表更低。

640.png


表5:Waymo验证中基于锚和基于中心的3D检测方法的比较。我们显示每级和平均LEVEL 2 mAPH。


640.png


表6:基于锚点和基于中心的nuScenes验证3D检测方法的比较。我们显示了平均平均精度(mAP)和nuScenes检测得分(NDS)。


640.png


640.png

                       表11:在Waymo验证中进行3D检测的最新比较

640.png


表12:用于nuScenes验证的3D跟踪的消融研究。我们显示了不同检测器和跟踪器的组合。CenterPoint- *是我们的探测器。点是我们建议的跟踪器。M-KF是基于Mahalanobis距离的卡尔曼滤波器的缩写,如最后一次挑战获胜者Chiu等人[10]所使用的。Ttrack表示跟踪时间,Ttot表示检测和跟踪的总时间。

结论


我们提出了一个基于中心的框架,用于同时从Lidar点云进行3D对象检测和跟踪。我们的方法使用标准的3D点云编码器,该编码器的头部带有一些卷积层,以产生鸟瞰热图和其他密集的回归输出。检测是一种简单的局部峰提取,具有改进功能,而跟踪是最接近距离的匹配。CenterPoint简单,近乎实时,并在Waymo和nuScenes基准测试中达到了最先进的性能.

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
220 0
|
18天前
|
计算机视觉
ECCV2024 Oral:第一视角下的动作图像生成,Meta等提出LEGO模型
【10月更文挑战第25天】Meta公司提出了一种名为LEGO的新模型,旨在从第一视角生成动作图像,以促进技能传递。LEGO结合了视觉大型语言模型和扩散模型,通过微调和生成技术,实现了更准确的动作图像生成。该研究已在ECCV2024上被选为口头报告。
24 2
|
2月前
|
机器学习/深度学习 传感器 机器人
机器人策略学习的Game Changer?伯克利提出Body Transformer
【9月更文挑战第13天】加州大学伯克利分校的研究团队提出了一种名为Body Transformer(BoT)的创新架构,旨在通过将机器人的物理形态建模为传感器和执行器组成的图,并利用掩码注意力机制汇聚信息,为机器人学习策略提供有效归纳偏置。BoT不仅在模仿学习和强化学习中表现出色,在任务完成、缩放特性及计算效率方面超越传统架构,而且具备更强的稳定性和泛化能力。尽管存在适用范围和计算资源等局限性,BoT仍展示了在实际应用中的巨大潜力。论文详情见:https://arxiv.org/pdf/2408.06316v1
31 6
|
5月前
|
机器学习/深度学习 前端开发 计算机视觉
【YOLOv8改进】Explicit Visual Center: 中心化特征金字塔模块(论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的有效改进和实战案例,包括卷积、主干网络、注意力机制和检测头的创新。提出中心化特征金字塔(CFP)解决特征交互和局部区域忽视问题。CFP通过空间显式视觉中心方案和全局集中特征规范增强模型表现,尤其在YOLOv5和YOLOX上表现提升。创新点包括轻量级MLP和并行视觉中心机制,以捕获全局和局部信息。YOLOv8引入EVCBlock整合这些改进。详细代码和配置见链接。
|
6月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
158 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
6月前
|
人工智能 数据可视化 测试技术
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
Meta AI开源CLIP-DINOiser | 如何将自监督DINO的Trick教给CLIP?这里就是答案!
140 0
|
机器学习/深度学习 监控 算法
|
存储 算法 计算机视觉
【检测|RCNN系列-5】Light-Head R-CNN的稳精度、提速度之路(附论文获取方式)
【检测|RCNN系列-5】Light-Head R-CNN的稳精度、提速度之路(附论文获取方式)
142 0
|
编解码 数据可视化 计算机视觉
经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(二)
经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(二)
172 0