实验
本文使用公开可用的模型在本文的数据集上训练了几个三维目标检测基线。为了利用位于较远区域的标注,本文将目标网格定义为纵向[-204.8,204.8]m和横向[-25.6,25.6]m。本文将包含在数据集中的14个类别映射为四个类别(轿车、卡车/公共汽车、摩托车和行人),并在鸟瞰(BEV)空间以类别不可知的方式使用全点和11点插值平均精度(AP)度量[4]评估模型的性能。匈牙利方法[11]用于将ground truth和预测与0.3 IOU阈值联系起来。本文选择了一个小的IOU值作为关联阈值来处理BEV中在远距离区域特别频繁的位移误差。此外,利用平均方位相似度(AOS)[6]度量来评价模型在方位预测方面的性能。
1. 基线模型
本文的基线模型基于VoxelNet[30]、BevDepth[12]和BevFusion[14]用于激光雷达、相机和多模态模型。由于BevFusion不使用毫米波雷达传感器,本文为Lidar-Radar Fusion设计了一个简单的解决方案。也就是说,本文把毫米波雷达点云看作一个规则的激光雷达点云。经过点云合并步骤后,Voxelnet可以像处理常规激光雷达点云一样处理来自不同模态的数据。
Voxelnet具有直接在点云上操作的能力,由三个主要部分组成。体素特征编码器(VFE)负责在单个体素级别对原始点云进行编码。Voxelnet利用堆叠的VFE层,其输出由中间卷积神经网络(CNN)进一步处理,以聚集体素特征。执行3D目标检测的最后一个组件是区域建议网络[22]。
BevDepth是一个只需摄像头的三维目标检测网络,提供可靠的深度估计。作者的主要观察是,最近使用像素深度估计的仅摄像机的三维目标检测方案由于深度估计不足而产生次优结果。因此,显式深度监督编码的内参和外参被利用。此外,利用激光雷达点云的稀疏深度数据引入了深度校正子网络,为深度估计网络提供监督。
BEVFusion的主要贡献是利用BEV空间作为摄像机和激光雷达传感器融合的统一表示。BevFusion提出的图像主干显式地预测每个图像像素的离散深度分布,类似于BevDepth(没有深度校正子网络)。然后,对三维特征点云应用BEV池化算子,然后沿Z轴对其进行展平,得到BEV中的特征映射。激光雷达产生的点云的处理方式与Voxelnet的处理方式相同,两个BEV特征图由CNN融合。最后,将检测头附加到融合子网络的输出上。
2. 实施细节
基线模型的激光雷达组件使用HardSimpleVFE[28]作为体素特征编码器,使用SparseEncoder[28]作为中间编码器CNN。图像组件采用Lift-Splat-Shot[19]作为图像编码器,具有Resnet-50主干,随后是用于利用多尺度特征的特征金字塔网络[13]。一个额外的深度校正网络也是图像流的一部分,灵感来自BEVDepth。在多模态模型的情况下,不同模态的特征使用由卷积和挤压激励组成的简单融合子网络来融合[7]。最后,Centerpoint[29]头负责从单峰和多峰情况下的BEV特征中检测对象。
由于本文的目标不是在这项工作中开发最先进的模型,而是为了促进多模态目标探测研究,本文使用了BEVDEPTH提供的超参数,而没有进行任何繁重的参数调整。本文调整了网格分辨率,以支持远程检测,并使用批量大小4,训练模型,使用BEV特征空间中的翻转、旋转和缩放,以6.25e-5的学习速率进行16K迭代(3个 epochs)。本文使用了一个NVIDIA A100 TensorCore GPU进行神经网络训练。这些模型是用MMDetection3D实现的。
3. 实验结果
在Tab 4中描述了基线模型在不同度量上的性能比较。由于文献中有几个例子[14,20]说明了仅用激光雷达的单峰解优于仅用摄像机的模型,所以本文没有训练仅用摄像机的基线。正如表中所描述的,在非不利的天气和时间下,每个多模态模型在公路和城市环境中都超过了LIDAR-ONLY基线。在密集的城市环境中,附加的传感器信号显著提高了检测性能。然而,单峰基线在大雨中表现最好,人们会认为毫米波雷达信号应该有助于提高性能。这一现象表明,更复杂的毫米波雷达融合技术可能有利于增强多模态模型。
摄像机在方位预测方面起着至关重要的作用。没有RGB图像的模型难以始终如一地保持方向,尤其是在大型车辆的情况下。这种闪烁效应(flickering effect)在使用相机传感器的模型中不太明显。使用所有模态的模型在AOS指标上表现最好。
令人惊讶的是,使用激光雷达+相机模态的模型在夜间和城市环境中的表现远远超过了所有其他模型。本文研究了学习曲线,发现增加训练步数有助于进一步提高性能。为了验证本文的假设,本文对本文的模型进行了5个额外的时间点的训练。不幸的是,使用相机传感器的模型在第三个epoch后变得不稳定,导致深度损失爆炸。Tab 5描述了使用11点插值AP度量的更长训练过程的结果。在所有环境中都可以看到坚实的改进,尤其是在雨天验证集(激光雷达和激光雷达+雷达模型分别为+10.8/+6.2AP)上。这可以用训练越长,探测热图越清晰的事实来解释。在第一组基线模型的情况下,模糊的热图导致AP指标较低。在大雨的情况下,由于雨滴的激光雷达反射,热图上的模糊效果在EGO汽车周围非常明显。
为了验证基线模型的远距离感知能力,本文对长期训练的模型进行了远距离目标检测的基准测试。在距离EGO汽车不到75米的地方,探测和ground truth被过滤掉。结果总结在Tab 6中(定性例子见图8)。两种模型在公路环境下的性能相似,没有显著差异。然而,在所有其他环境中,带有额外毫米波雷达信号的模型明显优于仅使用激光雷达的基线。事实上,如图7所示,毫米波雷达传感器即使在恶劣天气下也提供用于感知远处区域中的对象的可靠且准确的信号,可以被用于提高3D目标检测器的性能。在密集的城市环境中也可以观察到类似的效果,在这种环境中,毫米波雷达信号被多模态基线利用,从而导致远距离感知性能的显著提高(+5.5/+4.7全点/11点插值AP)。
训练结果表明,该数据集可以作为多模态远距离感知神经网络训练的基础。诸如测试时间延长或模型集成等先进的评估技术可以导致进一步的改进。但是,在评估方法的过程中,没有一个被应用。Tab 5表明需要进一步改进传感器融合方法以充分利用每一种模态,本文的朴素方法提供了一个次优解。尽管如此,本文希望研究界会发现本文的数据集是有用的,可以在本文基线的基础上进行构建,并显著提高其性能。
表6,远区(>75m)基线模型的比较。第一组:全点AP度量,第二组:11点插值AP度量,第三组:Val-set上平均的AOS度量。
图8。定性结果:激光雷达+毫米波雷达基线模型的检测。上排:激光雷达点云检测。中排:毫米波雷达目标检测,下排(从左到右):左、前、右、后摄像头检测。
总结
本文提出了一个多模态数据集用于鲁棒的远程感知自动驾驶。本文在两大洲的三个国家记录的不同数据集包括来自激光雷达、毫米波雷达和摄像机的传感器数据,提供冗余的360度传感器覆盖。该数据集包含了大量远距离区域的标注对象,使得多模态远程感知神经网络的开发成为可能。此外,本文开发了几个单模态和多模态基线模型,并比较了它们在所提出的数据集上基于不同标准的性能。本文的数据集充分利用了记录的传感器模态的优势,可以用于训练、多模态、远程感知神经网络。在未来,本文的目标是扩展本文收集的数据集与额外的环境和天气条件。此外,本文还将对多模态神经网络的传感器融合进行更深入的实验。本文期望通过发布本文的数据集来促进多模态传感器融合和鲁棒的远程感知系统的研究。
参考
[1] Matuszka T, Barton I, Butykai Á, et al. aiMotive Dataset: A Multimodal Dataset for Robust Autonomous Driving with Long-Range Perception[J]. arXiv preprint arXiv:2211.09445, 2022.
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)