4、验证
4.1、平均精度AP
在评估目标检测器的性能时,通常使用平均精度(AP)度量。nuScenes通过地平面上的2D中心距离d来定义匹配,而不是使用3D相交于并集(IoU)来进行阈值设置,以便将检测与目标大小和方向解耦。
在此基础上,作者通过计算查全率和查准率超过10%的查全率曲线下的归一化面积来计算AP。最后,在所有匹配阈值D={0.5,1,2,4}米和所有类别C上计算mAP:
4.2、TP(True Positive)
除了平均精度作者还计算了5种真正度量,即平均平移误差(ATE)、平均尺度误差(ASE)、平均方向误差(AOE)、平均速度误差(AVE)和平均属性误差(AAE)。
为了获得这些测量结果,首先定义中心距匹配GT d≤2m的预测将被视为真阳性(TP)。然后,对每一类目标单独进行匹配和评分,每个指标是在10%以上的每个召回级别的平均累积平均值。ATE是二维欧几里得中心距离(m)。ASE等于1−IOU,IOU是在对齐其平移和方向后在预测和标签之间计算的。AOE是预测和标签之间的最小偏航角差(弧度)。
请注意,与在整个◦周期上测量的其他类别不同,障碍物是在◦周期上测量的。AVE是二维(m/s)中绝对速度误差的l2-范数。AAE定义为1−acc,其中acc表示属性分类精度。最后,给定这些指标,计算了总体上所有类别的平均TP指标(mTP):
4.3、NuScenes检测分数
传统的mAP结合了对检测的位置、大小和方向的评估,也无法在这种设置中捕获某些方面,如速度和属性,因此该基准提出了一个更全面、解耦但简单的度量,即nuScenes检测分数(NDS):
其中mAP是平均精度(mAP),TP是由5个真阳性度量组成的集合。考虑到mAVE、mAOE和mATE可以大于1,应用一个界限将它们限制在0和1之间。
5、实验
5.1、消融实验
最后,在表3中展示了整个学习过程中的一些关键因素。可以看出,在前期过程中,将深度转换回原始空间以计算损失是提高mAP的重要因素,而基于距离的目标分配是提高整体NDS的重要因素。
- 更强的主干网,例如用ResNet101替换原有的ResNet50,并使用DCN,在后期的推广过程中至关重要。
- 同时,由于尺度和测量的差异,对不同的回归目标使用解耦头也是提高角度预测和NDS精度的有意义的方法。
- 最后,通过简单的数据增强、更多的训练阶段和基本的模型集合来达到目前的技术水平。
5.2、SOTA对比
1、定量分析
首先,在表1中显示了定量分析的结果。分别比较了测试集和验证集的结果。首先比较了使用RGB图像作为测试集上的输入数据的所有方法。以mAP 0.358和NDS 0.428获得了其中最好的性能。
特别是,就mAP而言,本文的方法比之前的最佳方法超出了2%以上。使用LiDAR数据作为输入的基准包括速度更快、更轻的PointPillars和性能相对较高的CBGS(表1中的MEGVII)。
对于使用RGB图像和雷达数据输入的方法,选择CenterFusion作为基准。可以看出,尽管本文的方法和高性能CBGS有一定差距,但它在mAP上甚至超过了PointPillars和CenterFusion。这表明,本文的方法可以用足够的数据体面地解决这个不适定问题。
同时,可以看出,使用其他数据模式的方法具有相对较好的NDS,主要是因为mAVE较小。原因是其他方法引入连续多帧数据,例如来自连续帧的点云数据,以预测对象的速度。
此外,雷达可以测量速度,因此即使使用单帧图像,CenterFusion也可以实现合理的速度预测。然而,这些不能仅用单个图像来实现,因此如何从连续帧图像中挖掘速度信息将是未来可以探索的方向之一。
在验证集上,将本文的方法与最好的开源检测器CenterNet进行了比较。他们的方法不仅需要大约三天的训练时间(相比之下,FCOS3D只要一天的时间就能达到类似的性能,这可能要归功于经过预训练的Backbone),而且除了mATE之外,CenterNet的方法还不如FCOS3D方法。特别是,由于旋转编码方案,FCOS3D实现了角度预测精度的显著提高。mAP的显著提高反映了多级特征预测的优势。基于这些方面的所有改进,最终在NDS上实现了约9%的收益。
2、定性分析
然后,在图5中显示了一些定性结果,以直观地了解模型的性能。首先,在图5中,在6个视图图像和顶部视点云中绘制了预测的3D边界框。例如,右后方摄像头中的障碍物未贴上标签,而是由模型检测到。
然而,同时也应该看到,FCOS3D方法在遮挡目标的深度估计和识别方面仍然存在明显的问题。例如,很难在左后图像中检测到被阻挡的汽车。此外,从俯视图来看,特别是在深度估计方面,结果不如图像中所示的那样好。这也符合预期,即深度估计仍然是这个不适定问题的核心挑战。
在图6中展示了一些失败案例,主要集中在大目标和遮挡目标的检测上。在相机视图和俯视图中,黄色虚线圆圈用于标记未成功检测到的被遮挡目标。红色虚线圆圈用于标记检测到的具有明显偏差的大目标。
前者主要表现为未能找到后面的目标,而后者主要表现为对目标大小和方向的不准确估计。这两种失败案例背后的原因也不同。前者是由于当前设置的固有属性,难以解决;后者可能是因为当前模型的卷积核的感受野不够大,导致大目标检测的性能低下。因此,未来的研究方向可能更侧重于后者的解决。
6、总结
本文提出了一种简单而有效的单阶段框架FCOS3D,用于无任何2D检测或2D-3D对应先验的单目3D目标检测。在该框架中,首先将通常定义的7-DoF 3D目标转换到图像域,并将其解耦为2D和3D属性,以适应3D设置。
在此基础上,考虑到目标的2D比例,将目标分配到不同的特征,并仅根据3D中心进一步分配。此外,中心度用基于3D中心的2D高斯分布重新定义,以与目标公式兼容。详细消融研究的实验结果表明了方法的有效性。对于未来的工作,一个很有前途的方向是如何更好地解决这种不适定环境下的深度和方向估计的困难。
7、参考
[1].FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection.