本文提出将3D目标表示为点(points),表现SOTA!性能优于3DSSD、PointPainting等,端到端3D检测和跟踪速度达30 FPS!代码现已开源!
作者团队:UT Austin(二作就是CenterNet的作者)
代码:https://github.com/tianweiy/CenterPoint
论文:https://arxiv.org/pdf/2006.11275.pdf
3D目标通常表示为点云中的3D框。这种表示方法模仿了经过充分研究的基于图像的2D边界框检测,但也带来了其他挑战。3D世界中的物体没有遵循任何特定的方向,并且基于盒的检测器很难枚举所有方向或将轴对齐的边界框拟合到旋转的对象。
在本文中,我们提出将3D目标表示为点(points),并进行跟踪。
图1:作者提出了一个基于中心的框架来表示,检测和跟踪对象。以前的基于锚的方法相对于自我车辆坐标使用“轴对齐”的锚。当车辆在直路上行驶时,基于锚点和基于中心的方法都能够准确地检测物体(顶部)。但是,在安全关键的左转(底部)期间,基于锚点的方法很难将轴对齐的边界框拟合到旋转的对象。我们基于中心的模型通过旋转不变点准确地检测物体。彩色效果最佳。
我们使用关键点检测器查找对象的中心,然后简单地回归其他属性,包括3D大小,3D方向和速度。在我们基于中心的框架中,3D目标跟踪简化为贪婪的最近点匹配。所得的检测和跟踪算法简单,高效且有效。
图2:我们的CenterPoint框架概述。我们依赖于一个标准的3D主干,该主干从Lidar点云中提取地图视图要素表示。然后,2D CNN架构检测头找到对象中心,并使用中心特征退回到完整的3D边界框。该框预测用于提取估计的3D边界框的每个面的3D中心处的点特征,这些点特征将传递到MLP中以预测IoU引导的置信度得分和框回归细化。彩色效果最佳
Highlights
- S简单: 两句话方法总结:我们使用头部带有一些卷积层的标准3D点云编码器来生成鸟瞰热图和其他密集回归输出,包括前一帧中心的偏移量。检测是一种简单的局部峰提取,具有改进功能,而跟踪是最接近距离的匹配。
- 快速而准确: 我们最好的单一型号在11FPS +上运行时,在Waymo上达到71.9 mAPH,在nuScenes上达到65.5 NDS。
- 可扩展: 在您的新颖算法中可轻松替换基于锚的检测器。
图3:在Waymo验证中CenterPoint的定性结果示例。我们将原始点云显示为蓝色,将检测到的对象显示为绿色边界框,并使用红色将边界点内部的激光雷达点显示为红色。最好在屏幕上观看。
实验结果
在nuScenes数据集上,针对3D检测,基于点的表示比基于盒子的表示高3-4 mAP,针对3D跟踪的表现比基于Box的表示高6 aMOTA。
表1:在Waymo测试仪上进行3D检测的最新比较。我们同时显示了1级和2级基准的mAP和mAPH。
表2:在nuScenes测试集上进行3D检测的最新比较。我们显示了nuScenes检测得分(NDS)和平均平均精度(mAP).
表3:在Waymo测试仪上进行3D跟踪的最新比较。我们展示了MOTA和MOTP。↑代表更好,而↓代表更低。
我们的实时模型以30帧/秒的速度运行端到端3D检测和跟踪,具有54.2 AMOTA和48.3 mAP,而最好的单一模型可实现60.3 mAP的3D检测和63.8 AMOTA的3D跟踪。
表4:在nuScenes测试集上进行3D跟踪的最新比较。我们显示了AMOTA,假阳性(FP),假阴性(FN),ID开关(IDS)和每个类别的AMOTA的数量。↑代表更好,而↓代表更低。
表5:Waymo验证中基于锚和基于中心的3D检测方法的比较。我们显示每级和平均LEVEL 2 mAPH。
表6:基于锚点和基于中心的nuScenes验证3D检测方法的比较。我们显示了平均平均精度(mAP)和nuScenes检测得分(NDS)。
表11:在Waymo验证中进行3D检测的最新比较
表12:用于nuScenes验证的3D跟踪的消融研究。我们显示了不同检测器和跟踪器的组合。CenterPoint- *是我们的探测器。点是我们建议的跟踪器。M-KF是基于Mahalanobis距离的卡尔曼滤波器的缩写,如最后一次挑战获胜者Chiu等人[10]所使用的。Ttrack表示跟踪时间,Ttot表示检测和跟踪的总时间。
结论
我们提出了一个基于中心的框架,用于同时从Lidar点云进行3D对象检测和跟踪。我们的方法使用标准的3D点云编码器,该编码器的头部带有一些卷积层,以产生鸟瞰热图和其他密集的回归输出。检测是一种简单的局部峰提取,具有改进功能,而跟踪是最接近距离的匹配。CenterPoint简单,近乎实时,并在Waymo和nuScenes基准测试中达到了最先进的性能.