最新多传感器融合基准 | Argoverse 2：用于感知和预测的下一代数据集（下）-阿里云开发者社区

4 Experiments 实验

Argoverse 2支持多种下游任务。在本节中，本文重点介绍三个不同的学习问题:3D目标检测、点云预测和运动预测--每一个分别由传感器、激光雷达和运动预测数据集支持。首先，本文在训练的Argoverse 2传感器数据集中展示了具有挑战性和多样性的分类法，这是一个关于本文的26个评估类的三维检测模型，包括“长尾”类，如婴儿车、轮椅和狗。其次，通过点云预测任务，通过大规模的自监督学习，展示了Argoverse 2激光雷达数据集的效用。最后，本文进行了运动预测实验，为广泛的分类学运动预测提供了第一个基线。

4.1 3D Object Detection 三维目标检测

本文使用最先进的、anchorless的三维目标检测模型-CenterPoint[51]提供基线三维检测结果。本文的CenterPoint实现将一个点云作为输入，并将其裁剪到一个200m×200m的网格中，体素分辨率在XY（鸟瞰）平面为[0.1m，0.1m]，Z轴为0.2m。为了适应本文更大的分类法，本文包括六个检测头来鼓励特征专业化。图7描述了使用nuScenes[4]平均精度度量的3D检测基线的性能。本文的大分类法允许本文评估如“轮式设备”（电动滑板车）、“婴儿车”、“狗”和“轮椅”类，本文发现，尽管有大量的训练数据，但用这些强大基线在这些类别上的性能很差。

在表3中，本文提供了提交给Argoverse 2 3D目标检测排行榜的快照。

4.2 Point Cloud Forecasting 点云预测

本文利用Argoverse 2激光雷达数据集，按照SPF2[49]的实验协议进行点云预测。给定一个过去的场景点云序列，需要一个模型来预测一个未来的场景点云序列。本文以距离图像（range images）格式的过去1秒（10 Hz）的场景点云作为输入，然后预测未来1秒的距离图像（range images）。SPFNET在每个时间步预测两个输出映射--第一个输出映射是预测的范围值，而第二个输出是有效性掩码。以前的点云预测模型是在较小的数据集上评估的，如KITTI或nuScenes。为了探索训练数据量如何影响性能，本文使用了越来越多的训练相同模型架构的数据，直到16,000个序列的完整训练集。

评价Evaluation 本文使用三个指标来评估本文的预测模型的性能：mean IoU,l1-norm, and Chamfer distance（倒角距离）。平均IOU评估预测范围掩码。L1范数度量预测出的距离(predicted range)像素组与ground truth像素组之间的平均L1距离，两者都被ground truth range mask掩码。该倒角距离是将预测的距离图像反投影得到的预测场景点云与ground truth点云之间的两个方向（向前和向后）的倒角距离相加得到的。

SPF2结果及讨论。 表4包含了本文的点云预测实验结果。随着训练数据的增加，该模型的性能在所有三个指标上都稳步增长。这些结果和来自自监督学习文献[3,7]的工作表明，大量的训练数据可以产生实质性的差异。另一个观察是，在本文的数据集上预测的倒角距离明显高于KITTI[49]上的预测。本文推测，这可能是由于两个原因：（1）Argoverse 2激光雷达数据集具有更大的传感范围（大于200m，而KITTI激光雷达传感器的120m)，这往往会显著增加倒角距离值。(2)Argoverse 2激光雷达数据集与KITTI数据集相比具有更高的动态场景比例。

4.3 Motion Forecasting 运动预测

本文提出了几个预测基线[6]，它们试图利用数据的不同方面。那些只使用focal agent训练而不捕捉任何社会交互的模型包括：constant velocity, nearest neighbor, and LSTM encoder-decoder models（both with and without a map-prior）。本文还评估WIMP[25]作为一个基于图的关注方法捕捉社会互动的例子。所有超参数都是从参考实现中获得的。

评价。 基线方法是根据标准度量进行评估的。继[6]之后，本文使用minADE和minFDE作为度量；它们分别评估最佳预测轨迹和地面真实值之间的平均距离和端点L2距离。本文还使用了Miss Rate(MR)，其表示根据端点误差没有一个预测轨迹在ground truth的2.0米内的测试样本的比例。结果表明，与Argoverse 1.1相比，社区在这个问题上的进步以及数据集难度的显著增加。

基线结果。 表5概述了基线的结果。对于K=1,Argoverse 1[6]表明，恒速模型(minFDE=7.89)优于NN+MAP(Prior)(minFDE=8.12)。这进一步证明了Argoverse 2在运动学上更加多样，不能通过作等速假设来求解。令人惊讶的是，使用地图的NN和LSTM变体比不使用地图的变体性能更差，说明了这些基线如何利用地图的改进范围。对于K=6，WIMP显著优于其他基线。这强调了训练具有表达能力的模型是必要的，这些模型可以利用地图、先验和社会背景，并做出不同的预测。这种趋势类似于本文过去的3次Argoverse运动预测竞赛[43]:基于图的注意力方法（例如[25,31,37])继续在竞赛中占据主导地位，在K=6时，其准确性几乎是次佳基线（最近邻）的两倍。也就是说，一些基于光栅化的方法（例如[19]）也显示出了有前景的结果。最后，本文还在迁移学习和各种目标类型的背景下评估了基线方法，其结果总结在附录中。

在表6中，本文提供了提交给Argoverse 2 运动预测排行榜的快照。

表5：来自Argoverse 2运动预测（测试版）数据集的运动预测基线方法在类车辆（车辆、公共汽车、摩托车手）目标类型上的性能。使用map prior表示对地图信息的访问，而使用社会上下文则需要在特征表示中编码其他行为者的状态。挖掘交集（多模式）场景会导致所有方法在K=1时性能不佳。由于数据集偏向于运动学上感兴趣的轨迹，等速模型的性能特别差。请注意，在K=6时，现代深度方法（如WIMP）仍然有0.42的脱靶率，这表明Argoverse 2数据集的难度增加了。最好值1%以内的数字用粗体表示。

表6：从2022年12月21日的在线排行榜上获得的Argoverse 2 运动预测数据集的运动预测结果。BANet是CVPR 2022 Workshop 自动驾驶Argoverse 2 运动预测挑战赛(#1)的获胜者，QML和GANet获得了荣誉奖（HM）。条目在下面按照Brier-minFDE进行排序。

5 Conclusion 结论

讨论。 在这项工作中，本文引入了三个新的数据集组成Argoverse 2。本文为三个任务提供基线探索--三维目标检测、点云预测和运动预测。本文的数据集为许多其他任务提供了新的机会。本文相信本文的数据集与现有的数据集相比是有利的，具有高清地图、丰富的分类、地理多样性和有趣的场景。

局限性。 在任何人类标注的数据集中，都存在标签噪声，尽管本文在发布前试图将其最小化。运运动预测数据集中不包含物体的3D bounding boxes，但在给定目标类型的情况下，可以对目标范围做出合理的假设。运动预测数据集也有不完善的跟踪，与最先进的3D跟踪器一致。

6 Appendix 附录

6.1有关传感器套件的其他信息

在图8中，本文提供了用于捕获Argoverse 2数据集的传感器套件的示意图。图9显示了带标注的行人3D长方体的速度分布和偏航分布。

图8：汽车传感器原理图，显示三个坐标系：（1）the vehicle frame in the rear axle；（2）the camera frame；还有the lidar frame。

图9：左：通过速度分布为行人移动的3D长方体的数量。本文定义当速度大于0.5米/秒时为运动物体。右：通过偏航分布标注的3D长方体的数量。

6.2有关运动预测数据集的其他信息

6.2.1 Interestingness Scores

运动学评分选择执行急转弯或显著（de）加速的轨迹。MAP复杂性程序将数据集偏向于底层车道图的轨迹、复杂遍历。特别是，复杂的地图区域、通过十字路口的路径和车道变换得分很高。社会得分奖励跟踪通过密集区域的其他行动者。社会评分还为非车辆目标类别选择，以确保从稀有类别（如摩托车）中获得足够的样本，用于训练和评估。最后，自动车辆计分程序鼓励选择与ego-vehicle期望路线相交的轨道。

图10：Argoverse1.1上提交的minFDE度量值随时间的变化。个人点表示提交给公共领导者委员会。颜色表示特定的比赛阶段。黑色实线表示SOTA性能。研究界取得了巨大进展，但自2020年初以来一直处于稳定状态。然而，本文注意到，在SOTA或附近执行的方法的数量和多样性继续增长。此外，后来的比赛根据“失误率”和概率加权FDE对排行榜进行了排序，这些指标显示了进步。尽管如此，minFDE并没有显著改善。

图11：Motion预测数据集场景中出现的参与者数量（包括得分和所有类型）的直方图。激光雷达数据集是根据相同的准则挖掘的，因此遵循相同的分布。

6.3有关高清地图的额外资料

传感器数据集中的高清地图示例 在图12中，本文显示了与各个日志/场景相关联的本地HD地图示例。

图12：几个不同城市的传感器数据集中的本地矢量地图上的egovehicle(AV)轨迹示例。给出了一个100m×100m的局部地图区域。人行横道用紫色表示。为了说明的目的，红圈表示在1 Hz下离散采样的AV姿态。姿态是在>20赫兹的数据集中提供的，如由红线指示的轨迹路径所示。城市布局变化很大，例如迈阿密的道路通常平行于南北、东西网格，而匹兹堡的道路通常不是。

6.4 额外的3D检测结果

图13:3D目标检测性能在传感器数据集的验证split（测试版）。顶行：复合检测评分（左）平均平移误差（右）底部行：平均缩放误差（左）和平均方向误差（右）。结果显示在传感器数据集的验证集上。

6.5 SPF2基线的训练详细情况

本文每0.5秒采样2秒的训练片段（表示1秒过去数据和1秒未来数据）。因此，对于持续时间为30秒的训练日志，将采样59个训练片段。本文使用ADAM优化器对模型进行了16个周期的训练，学习速率为4e-3，beta分别为0.9和0.999，每GPU的batch size为16。

6.6 附加运动预测实验

6.6.1 迁移学习

迁移学习实验的结果总结在表8中。WIMP在不同的背景下分别用Argoverse 1.1和Argoverse 2进行训练和测试。正如预期的那样，当模型在相同的分布上训练和测试时（即训练和测试数据都来自Argoverse1.1，或者都来自Argoverse2)，它的工作效果最好。例如，当在Argoverse 2(6S)上测试WIMP时，在Argoverse 2(6S)上训练的模型的minFDE为2.91，而在Argoverse 1.1(3S)上训练的模型的minFDE为6.82（即大约差2.3倍）。同样，在相反的设置中，当在Argoverse 1.1(3s)上测试WIMP时，在Argoverse 1.1(3s)上训练的模型的minFDE为1.14，在Argoverse 2(6s)上训练的模型的minFDE为2.05（即大约差1.8倍）。这表明，从Argoverse 2（beta）到Argoverse 1.1的迁移学习比相反的设置更有用，尽管在场景数量上更少。然而，公开发布的Argoverse 2运动预测版本（非beta 2.0版本）的大小与Argoverse 1.1相当

本文注意到，在不同序列长度上训练和测试序列模型是一种常见的做法（例如机器翻译）。因此，期望用3S训练的模型在6S水平上表现良好仍然是合理的。几个因素可能导致分布转移，包括不同的预测水平、城市、挖掘协议、目标类型。然而，值得注意的是，这些结果表明Argoverse 2比它的前身更具挑战性和多样性。

6.6.2 不同目标类型的试验

表9显示了不同目标类型的最近邻基线（没有地图先验）的结果。不出所料，行人的位移误差明显低于其他目标类型。这是因为它们以明显较慢的速度移动。然而，这并不意味着行人运动预测是一个解决的问题，人们应该关注其他目标类型。相反，这意味着本文需要提出更好的度量标准来捕捉这一事实，行人的较低位移误差往往比车辆的较高误差更重要。本文把这一行的工作留到将来的范围内。

表8:WIMP在不同版本的Argoverse运动预测数据集上训练和测试时的性能。训练和评估仅限于车辆类（车辆、公共汽车、摩托车）目标类型，因为在Argoverse 1.1中只有车辆。所有结果均为k=6，并在括号中指定了预测范围。值得注意的是，在3S horizon上训练的模型在较长的6S horizon上表现不佳。下面的“Argoverse 2”表示Argoverse 2(Beta)运动预测数据集。

表9:K=6时，最近邻基线在不同目标类型上的表现。每个评估指标的最准确预测目标类型以粗体突出显示。

参考

Wilson B, Qi W, Agarwal T, et al. Argoverse 2: Next generation datasets for self-driving perception and forecasting[J]. arXiv preprint arXiv:2301.00493, 2023.

原文首发微信公众号【自动驾驶之心】：一个专注自动驾驶与AI的社区（https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA）

最新多传感器融合基准 | Argoverse 2：用于感知和预测的下一代数据集（下）

4 Experiments 实验

4.1 3D Object Detection 三维目标检测

4.2 Point Cloud Forecasting 点云预测

4.3 Motion Forecasting 运动预测

5 Conclusion 结论

6 Appendix 附录

6.1有关传感器套件的其他信息

6.2有关运动预测数据集的其他信息

6.2.1 Interestingness Scores

6.3有关高清地图的额外资料

6.4 额外的3D检测结果

6.5 SPF2基线的训练详细情况

6.6 附加运动预测实验

6.6.1 迁移学习

6.6.2 不同目标类型的试验

参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

最新多传感器融合基准 | Argoverse 2：用于感知和预测的下一代数据集（下）

4 Experiments 实验

4.1 3D Object Detection 三维目标检测

4.2 Point Cloud Forecasting 点云预测

4.3 Motion Forecasting 运动预测

5 Conclusion 结论

6 Appendix 附录

6.1有关传感器套件的其他信息

6.2有关运动预测数据集的其他信息

6.2.1 Interestingness Scores

6.3有关高清地图的额外资料

6.4 额外的3D检测结果

6.5 SPF2基线的训练详细情况

6.6 附加运动预测实验

6.6.1 迁移学习

6.6.2 不同目标类型的试验

参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景