4 Experiments 实验
Argoverse 2支持多种下游任务。在本节中,本文重点介绍三个不同的学习问题:3D目标检测、点云预测和运动预测--每一个分别由传感器、激光雷达和运动预测数据集支持。首先,本文在训练的Argoverse 2传感器数据集中展示了具有挑战性和多样性的分类法,这是一个关于本文的26个评估类的三维检测模型,包括“长尾”类,如婴儿车、轮椅和狗。其次,通过点云预测任务,通过大规模的自监督学习,展示了Argoverse 2激光雷达数据集的效用。最后,本文进行了运动预测实验,为广泛的分类学运动预测提供了第一个基线。
4.1 3D Object Detection 三维目标检测
本文使用最先进的、anchorless的三维目标检测模型-CenterPoint[51]提供基线三维检测结果。本文的CenterPoint实现将一个点云作为输入,并将其裁剪到一个200m×200m的网格中,体素分辨率在XY(鸟瞰)平面为[0.1m,0.1m],Z轴为0.2m。为了适应本文更大的分类法,本文包括六个检测头来鼓励特征专业化。图7描述了使用nuScenes[4]平均精度度量的3D检测基线的性能。本文的大分类法允许本文评估 如“轮式设备”(电动滑板车)、“婴儿车”、“狗”和“轮椅”类,本文发现,尽管有大量的训练数据,但用这些强大基线在这些类别上的性能很差。
在表3中,本文提供了提交给Argoverse 2 3D目标检测排行榜的快照。
4.2 Point Cloud Forecasting 点云预测
本文利用Argoverse 2激光雷达数据集,按照SPF2[49]的实验协议进行点云预测。给定一个过去的场景点云序列,需要一个模型来预测一个未来的场景点云序列。本文以距离图像(range images)格式的过去1秒(10 Hz)的场景点云作为输入,然后预测未来1秒的距离图像(range images)。SPFNET在每个时间步预测两个输出映射--第一个输出映射是预测的范围值,而第二个输出是有效性掩码。以前的点云预测模型是在较小的数据集上评估的,如KITTI或nuScenes。为了探索训练数据量如何影响性能,本文使用了越来越多的训练相同模型架构的数据,直到16,000个序列的完整训练集。
评价Evaluation 本文使用三个指标来评估本文的预测模型的性能:mean IoU,l1-norm, and Chamfer distance(倒角距离)。平均IOU评估预测范围掩码。L1范数度量 预测出的距离(predicted range)像素组与ground truth像素组之间的平均L1距离,两者都被ground truth range mask掩码。该倒角距离是将 预测的距离图像反投影得到的 预测场景点云与ground truth点云之间的两个方向(向前和向后)的倒角距离相加得到的。
SPF2结果及讨论。 表4包含了本文的点云预测实验结果。随着训练数据的增加,该模型的性能在所有三个指标上都稳步增长。这些结果和来自自监督学习文献[3,7]的工作表明,大量的训练数据可以产生实质性的差异。另一个观察是,在本文的数据集上预测的倒角距离明显高于KITTI[49]上的预测。本文推测,这可能是由于两个原因:(1)Argoverse 2激光雷达数据集具有更大的传感范围(大于200m,而KITTI激光雷达传感器的120m),这往往会显著增加倒角距离值。(2)Argoverse 2激光雷达数据集与KITTI数据集相比具有更高的动态场景比例。
4.3 Motion Forecasting 运动预测
本文提出了几个预测基线[6],它们试图利用数据的不同方面。那些只使用focal agent训练而不捕捉任何社会交互的模型包括:constant velocity, nearest neighbor, and LSTM encoder-decoder models(both with and without a map-prior)。本文还评估WIMP[25]作为一个基于图的关注方法捕捉社会互动的例子。所有超参数都是从参考实现中获得的。
评价。 基线方法是根据标准度量进行评估的。继[6]之后,本文使用minADE和minFDE作为度量;它们分别评估最佳预测轨迹和地面真实值之间的平均距离和端点L2距离。本文还使用了Miss Rate(MR),其表示根据端点误差没有一个预测轨迹在ground truth的2.0米内的测试样本的比例。结果表明,与Argoverse 1.1相比,社区在这个问题上的进步以及数据集难度的显著增加。
基线结果。 表5概述了基线的结果。对于K=1,Argoverse 1[6]表明,恒速模型(minFDE=7.89)优于NN+MAP(Prior)(minFDE=8.12)。这进一步证明了Argoverse 2在运动学上更加多样,不能通过作等速假设来求解。令人惊讶的是,使用地图的NN和LSTM变体比不使用地图的变体性能更差,说明了这些基线如何利用地图的改进范围。对于K=6,WIMP显著优于其他基线。这强调了训练具有表达能力的模型是必要的,这些模型可以利用地图、先验和社会背景,并做出不同的预测。这种趋势类似于本文过去的3次Argoverse运动预测竞赛[43]:基于图的注意力方法(例如[25,31,37])继续在竞赛中占据主导地位,在K=6时,其准确性几乎是次佳基线(最近邻)的两倍。也就是说,一些基于光栅化的方法(例如[19])也显示出了有前景的结果。最后,本文还在迁移学习和各种目标类型的背景下评估了基线方法,其结果总结在附录中。
在表6中,本文提供了提交给Argoverse 2 运动预测排行榜的快照。
表5:来自Argoverse 2运动预测(测试版)数据集的运动预测基线方法在类车辆(车辆、公共汽车、摩托车手)目标类型上的性能。使用map prior表示对地图信息的访问,而使用社会上下文则需要在特征表示中编码其他行为者的状态。挖掘交集(多模式)场景会导致所有方法在K=1时性能不佳。由于数据集偏向于运动学上感兴趣的轨迹,等速模型的性能特别差。请注意,在K=6时,现代深度方法(如WIMP)仍然有0.42的脱靶率,这表明Argoverse 2数据集的难度增加了。最好值1%以内的数字用粗体表示。
表6:从2022年12月21日的在线排行榜上获得的Argoverse 2 运动预测数据集的运动预测结果。BANet是CVPR 2022 Workshop 自动驾驶Argoverse 2 运动预测挑战赛(#1)的获胜者,QML和GANet获得了荣誉奖(HM)。条目在下面按照Brier-minFDE进行排序。
5 Conclusion 结论
讨论。 在这项工作中,本文引入了三个新的数据集组成Argoverse 2。本文为三个任务提供基线探索--三维目标检测、点云预测和运动预测。本文的数据集为许多其他任务提供了新的机会。本文相信本文的数据集与现有的数据集相比是有利的,具有高清地图、丰富的分类、地理多样性和有趣的场景。
局限性。 在任何人类标注的数据集中,都存在标签噪声,尽管本文在发布前试图将其最小化。运运动预测数据集中不包含物体的3D bounding boxes,但在给定目标类型的情况下,可以对目标范围做出合理的假设。运动预测数据集也有不完善的跟踪,与最先进的3D跟踪器一致。
6 Appendix 附录
6.1有关传感器套件的其他信息
在图8中,本文提供了用于捕获Argoverse 2数据集的传感器套件的示意图。图9显示了带标注的行人3D长方体的速度分布和偏航分布。
图8:汽车传感器原理图,显示三个坐标系:(1)the vehicle frame in the rear axle;(2)the camera frame;还有the lidar frame。
图9:左:通过速度分布为行人移动的3D长方体的数量。本文定义当速度大于0.5米/秒时为运动物体。右:通过偏航分布标注的3D长方体的数量。
6.2有关运动预测数据集的其他信息
6.2.1 Interestingness Scores
运动学评分选择执行急转弯或显著(de)加速的轨迹。MAP复杂性程序将数据集偏向于底层车道图的轨迹、复杂遍历。特别是,复杂的地图区域、通过十字路口的路径和车道变换得分很高。社会得分奖励跟踪通过密集区域的其他行动者。社会评分还为非车辆目标类别选择,以确保从稀有类别(如摩托车)中获得足够的样本,用于训练和评估。最后,自动车辆计分程序鼓励选择与ego-vehicle期望路线相交的轨道。
图10:Argoverse1.1上提交的minFDE度量值随时间的变化。个人点表示提交给公共领导者委员会。颜色表示特定的比赛阶段。黑色实线表示SOTA性能。研究界取得了巨大进展,但自2020年初以来一直处于稳定状态。然而,本文注意到,在SOTA或附近执行的方法的数量和多样性继续增长。此外,后来的比赛根据“失误率”和概率加权FDE对排行榜进行了排序,这些指标显示了进步。尽管如此,minFDE并没有显著改善。
图11:Motion预测数据集场景中出现的参与者数量(包括得分和所有类型)的直方图。激光雷达数据集是根据相同的准则挖掘的,因此遵循相同的分布。
6.3有关高清地图的额外资料
传感器数据集中的高清地图示例 在图12中,本文显示了与各个日志/场景相关联的本地HD地图示例。
图12:几个不同城市的传感器数据集中的本地矢量地图上的egovehicle(AV)轨迹示例。给出了一个100m×100m的局部地图区域。人行横道用紫色表示。为了说明的目的,红圈表示在1 Hz下离散采样的AV姿态。姿态是在>20赫兹的数据集中提供的,如由红线指示的轨迹路径所示。城市布局变化很大,例如迈阿密的道路通常平行于南北、东西网格,而匹兹堡的道路通常不是。
6.4 额外的3D检测结果
图13:3D目标检测性能在传感器数据集的验证split(测试版)。顶行:复合检测评分(左) 平均平移误差(右)底部行:平均缩放误差(左)和平均方向误差(右)。结果显示在传感器数据集的验证集上。
6.5 SPF2基线的训练详细情况
本文每0.5秒采样2秒的训练片段(表示1秒过去数据和1秒未来数据)。因此,对于持续时间为30秒的训练日志,将采样59个训练片段。本文使用ADAM优化器对模型进行了16个周期的训练,学习速率为4e-3,beta分别为0.9和0.999,每GPU的batch size为16。
6.6 附加运动预测实验
6.6.1 迁移学习
迁移学习实验的结果总结在表8中。WIMP在不同的背景下分别用Argoverse 1.1和Argoverse 2进行训练和测试。正如预期的那样,当模型在相同的分布上训练和测试时(即训练和测试数据都来自Argoverse1.1,或者都来自Argoverse2),它的工作效果最好。例如,当在Argoverse 2(6S)上测试WIMP时,在Argoverse 2(6S)上训练的模型的minFDE为2.91,而在Argoverse 1.1(3S)上训练的模型的minFDE为6.82(即大约差2.3倍)。同样,在相反的设置中,当在Argoverse 1.1(3s)上测试WIMP时,在Argoverse 1.1(3s)上训练的模型的minFDE为1.14,在Argoverse 2(6s)上训练的模型的minFDE为2.05(即大约差1.8倍)。这表明,从Argoverse 2(beta)到Argoverse 1.1的迁移学习比相反的设置更有用,尽管在场景数量上更少。然而,公开发布的Argoverse 2运动预测版本(非beta 2.0版本)的大小与Argoverse 1.1相当
本文注意到,在不同序列长度上训练和测试序列模型是一种常见的做法(例如机器翻译)。因此,期望用3S训练的模型在6S水平上表现良好仍然是合理的。几个因素可能导致分布转移,包括不同的预测水平、城市、挖掘协议、目标类型。然而,值得注意的是,这些结果表明Argoverse 2比它的前身更具挑战性和多样性。
6.6.2 不同目标类型的试验
表9显示了不同目标类型的最近邻基线(没有地图先验)的结果。不出所料,行人的位移误差明显低于其他目标类型。这是因为它们以明显较慢的速度移动。然而,这并不意味着行人运动预测是一个解决的问题,人们应该关注其他目标类型。相反,这意味着本文需要提出更好的度量标准来捕捉这一事实,行人的较低位移误差往往比车辆的较高误差更重要。本文把这一行的工作留到将来的范围内。
表8:WIMP在不同版本的Argoverse运动预测数据集上训练和测试时的性能。训练和评估仅限于车辆类(车辆、公共汽车、摩托车)目标类型,因为在Argoverse 1.1中只有车辆。所有结果均为k=6,并在括号中指定了预测范围。值得注意的是,在3S horizon上训练的模型在较长的6S horizon上表现不佳。下面的“Argoverse 2”表示Argoverse 2(Beta)运动预测数据集。
表9:K=6时,最近邻基线在不同目标类型上的表现。每个评估指标的最准确预测目标类型以粗体突出显示。
参考
Wilson B, Qi W, Agarwal T, et al. Argoverse 2: Next generation datasets for self-driving perception and forecasting[J]. arXiv preprint arXiv:2301.00493, 2023.
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)