最新多传感器融合基准 | Argoverse 2:用于感知和预测的下一代数据集(下)

简介: 本文介绍Argoverse 2(AV2)--一个用于自动驾驶域中感知和预测研究的三个数据集的集合。

4 Experiments 实验



Argoverse 2支持多种下游任务。在本节中,本文重点介绍三个不同的学习问题:3D目标检测、点云预测和运动预测--每一个分别由传感器、激光雷达和运动预测数据集支持。首先,本文在训练的Argoverse 2传感器数据集中展示了具有挑战性和多样性的分类法,这是一个关于本文的26个评估类的三维检测模型,包括“长尾”类,如婴儿车、轮椅和狗。其次,通过点云预测任务,通过大规模的自监督学习,展示了Argoverse 2激光雷达数据集的效用。最后,本文进行了运动预测实验,为广泛的分类学运动预测提供了第一个基线。


4.1 3D Object Detection 三维目标检测


本文使用最先进的、anchorless的三维目标检测模型-CenterPoint[51]提供基线三维检测结果。本文的CenterPoint实现将一个点云作为输入,并将其裁剪到一个200m×200m的网格中,体素分辨率在XY(鸟瞰)平面为[0.1m,0.1m],Z轴为0.2m。为了适应本文更大的分类法,本文包括六个检测头来鼓励特征专业化。图7描述了使用nuScenes[4]平均精度度量的3D检测基线的性能。本文的大分类法允许本文评估 如“轮式设备”(电动滑板车)、“婴儿车”、“狗”和“轮椅”类,本文发现,尽管有大量的训练数据,但用这些强大基线在这些类别上的性能很差。


在表3中,本文提供了提交给Argoverse 2 3D目标检测排行榜的快照。

640.png

640.png


4.2 Point Cloud Forecasting 点云预测


本文利用Argoverse 2激光雷达数据集,按照SPF2[49]的实验协议进行点云预测。给定一个过去的场景点云序列,需要一个模型来预测一个未来的场景点云序列。本文以距离图像(range images)格式的过去1秒(10 Hz)的场景点云作为输入,然后预测未来1秒的距离图像(range images)。SPFNET在每个时间步预测两个输出映射--第一个输出映射是预测的范围值,而第二个输出是有效性掩码。以前的点云预测模型是在较小的数据集上评估的,如KITTI或nuScenes。为了探索训练数据量如何影响性能,本文使用了越来越多的训练相同模型架构的数据,直到16,000个序列的完整训练集。


评价Evaluation 本文使用三个指标来评估本文的预测模型的性能:mean IoU,l1-norm, and Chamfer distance(倒角距离)。平均IOU评估预测范围掩码。L1范数度量 预测出的距离(predicted range)像素组与ground truth像素组之间的平均L1距离,两者都被ground truth range mask掩码。该倒角距离是将 预测的距离图像反投影得到的 预测场景点云与ground truth点云之间的两个方向(向前和向后)的倒角距离相加得到的。

SPF2结果及讨论。 表4包含了本文的点云预测实验结果。随着训练数据的增加,该模型的性能在所有三个指标上都稳步增长。这些结果和来自自监督学习文献[3,7]的工作表明,大量的训练数据可以产生实质性的差异。另一个观察是,在本文的数据集上预测的倒角距离明显高于KITTI[49]上的预测。本文推测,这可能是由于两个原因:(1)Argoverse 2激光雷达数据集具有更大的传感范围(大于200m,而KITTI激光雷达传感器的120m),这往往会显著增加倒角距离值。(2)Argoverse 2激光雷达数据集与KITTI数据集相比具有更高的动态场景比例。

640.png


4.3 Motion Forecasting 运动预测


本文提出了几个预测基线[6],它们试图利用数据的不同方面。那些只使用focal agent训练而不捕捉任何社会交互的模型包括:constant velocity, nearest neighbor, and LSTM encoder-decoder models(both with and without a map-prior)。本文还评估WIMP[25]作为一个基于图的关注方法捕捉社会互动的例子。所有超参数都是从参考实现中获得的。


评价。 基线方法是根据标准度量进行评估的。继[6]之后,本文使用minADE和minFDE作为度量;它们分别评估最佳预测轨迹和地面真实值之间的平均距离和端点L2距离。本文还使用了Miss Rate(MR),其表示根据端点误差没有一个预测轨迹在ground truth的2.0米内的测试样本的比例。结果表明,与Argoverse 1.1相比,社区在这个问题上的进步以及数据集难度的显著增加。


基线结果。 表5概述了基线的结果。对于K=1,Argoverse 1[6]表明,恒速模型(minFDE=7.89)优于NN+MAP(Prior)(minFDE=8.12)。这进一步证明了Argoverse 2在运动学上更加多样,不能通过作等速假设来求解。令人惊讶的是,使用地图的NN和LSTM变体比不使用地图的变体性能更差,说明了这些基线如何利用地图的改进范围。对于K=6,WIMP显著优于其他基线。这强调了训练具有表达能力的模型是必要的,这些模型可以利用地图、先验和社会背景,并做出不同的预测。这种趋势类似于本文过去的3次Argoverse运动预测竞赛[43]:基于图的注意力方法(例如[25,31,37])继续在竞赛中占据主导地位,在K=6时,其准确性几乎是次佳基线(最近邻)的两倍。也就是说,一些基于光栅化的方法(例如[19])也显示出了有前景的结果。最后,本文还在迁移学习和各种目标类型的背景下评估了基线方法,其结果总结在附录中。


在表6中,本文提供了提交给Argoverse 2 运动预测排行榜的快照。

640.png

表5:来自Argoverse 2运动预测(测试版)数据集的运动预测基线方法在类车辆(车辆、公共汽车、摩托车手)目标类型上的性能。使用map prior表示对地图信息的访问,而使用社会上下文则需要在特征表示中编码其他行为者的状态。挖掘交集(多模式)场景会导致所有方法在K=1时性能不佳。由于数据集偏向于运动学上感兴趣的轨迹,等速模型的性能特别差。请注意,在K=6时,现代深度方法(如WIMP)仍然有0.42的脱靶率,这表明Argoverse 2数据集的难度增加了。最好值1%以内的数字用粗体表示。


640.png


表6:从2022年12月21日的在线排行榜上获得的Argoverse 2 运动预测数据集的运动预测结果。BANet是CVPR 2022 Workshop 自动驾驶Argoverse 2 运动预测挑战赛(#1)的获胜者,QML和GANet获得了荣誉奖(HM)。条目在下面按照Brier-minFDE进行排序。


5 Conclusion 结论



讨论。 在这项工作中,本文引入了三个新的数据集组成Argoverse 2。本文为三个任务提供基线探索--三维目标检测、点云预测和运动预测。本文的数据集为许多其他任务提供了新的机会。本文相信本文的数据集与现有的数据集相比是有利的,具有高清地图、丰富的分类、地理多样性和有趣的场景。


局限性。 在任何人类标注的数据集中,都存在标签噪声,尽管本文在发布前试图将其最小化。运运动预测数据集中不包含物体的3D bounding boxes,但在给定目标类型的情况下,可以对目标范围做出合理的假设。运动预测数据集也有不完善的跟踪,与最先进的3D跟踪器一致。


6 Appendix 附录



6.1有关传感器套件的其他信息


在图8中,本文提供了用于捕获Argoverse 2数据集的传感器套件的示意图。图9显示了带标注的行人3D长方体的速度分布和偏航分布。


640.png

图8:汽车传感器原理图,显示三个坐标系:(1)the vehicle frame in the rear axle;(2)the camera frame;还有the lidar frame。


640.png

图9:左:通过速度分布为行人移动的3D长方体的数量。本文定义当速度大于0.5米/秒时为运动物体。右:通过偏航分布标注的3D长方体的数量。


6.2有关运动预测数据集的其他信息


6.2.1 Interestingness Scores


运动学评分选择执行急转弯或显著(de)加速的轨迹。MAP复杂性程序将数据集偏向于底层车道图的轨迹、复杂遍历。特别是,复杂的地图区域、通过十字路口的路径和车道变换得分很高。社会得分奖励跟踪通过密集区域的其他行动者。社会评分还为非车辆目标类别选择,以确保从稀有类别(如摩托车)中获得足够的样本,用于训练和评估。最后,自动车辆计分程序鼓励选择与ego-vehicle期望路线相交的轨道。

image.png


图10:Argoverse1.1上提交的minFDE度量值随时间的变化。个人点表示提交给公共领导者委员会。颜色表示特定的比赛阶段。黑色实线表示SOTA性能。研究界取得了巨大进展,但自2020年初以来一直处于稳定状态。然而,本文注意到,在SOTA或附近执行的方法的数量和多样性继续增长。此外,后来的比赛根据“失误率”和概率加权FDE对排行榜进行了排序,这些指标显示了进步。尽管如此,minFDE并没有显著改善。


image.png


图11:Motion预测数据集场景中出现的参与者数量(包括得分和所有类型)的直方图。激光雷达数据集是根据相同的准则挖掘的,因此遵循相同的分布。


6.3有关高清地图的额外资料


传感器数据集中的高清地图示例 在图12中,本文显示了与各个日志/场景相关联的本地HD地图示例。

cb5e792888c7f11c59c17c05af4eb6af.png


图12:几个不同城市的传感器数据集中的本地矢量地图上的egovehicle(AV)轨迹示例。给出了一个100m×100m的局部地图区域。人行横道用紫色表示。为了说明的目的,红圈表示在1 Hz下离散采样的AV姿态。姿态是在>20赫兹的数据集中提供的,如由红线指示的轨迹路径所示。城市布局变化很大,例如迈阿密的道路通常平行于南北、东西网格,而匹兹堡的道路通常不是。

1b0d7eb106a75bcd779304dbae62e989.png


6.4 额外的3D检测结果


81881748b30b7a4a61fe1fcb7423b7e2.png145abe0be3b2639021b3f4ef622c0dd6.png


图13:3D目标检测性能在传感器数据集的验证split(测试版)。顶行:复合检测评分(左) 平均平移误差(右)底部行:平均缩放误差(左)和平均方向误差(右)。结果显示在传感器数据集的验证集上。


6.5 SPF2基线的训练详细情况


本文每0.5秒采样2秒的训练片段(表示1秒过去数据和1秒未来数据)。因此,对于持续时间为30秒的训练日志,将采样59个训练片段。本文使用ADAM优化器对模型进行了16个周期的训练,学习速率为4e-3,beta分别为0.9和0.999,每GPU的batch size为16。


6.6 附加运动预测实验


6.6.1 迁移学习


迁移学习实验的结果总结在表8中。WIMP在不同的背景下分别用Argoverse 1.1和Argoverse 2进行训练和测试。正如预期的那样,当模型在相同的分布上训练和测试时(即训练和测试数据都来自Argoverse1.1,或者都来自Argoverse2),它的工作效果最好。例如,当在Argoverse 2(6S)上测试WIMP时,在Argoverse 2(6S)上训练的模型的minFDE为2.91,而在Argoverse 1.1(3S)上训练的模型的minFDE为6.82(即大约差2.3倍)。同样,在相反的设置中,当在Argoverse 1.1(3s)上测试WIMP时,在Argoverse 1.1(3s)上训练的模型的minFDE为1.14,在Argoverse 2(6s)上训练的模型的minFDE为2.05(即大约差1.8倍)。这表明,从Argoverse 2(beta)到Argoverse 1.1的迁移学习比相反的设置更有用,尽管在场景数量上更少。然而,公开发布的Argoverse 2运动预测版本(非beta 2.0版本)的大小与Argoverse 1.1相当


本文注意到,在不同序列长度上训练和测试序列模型是一种常见的做法(例如机器翻译)。因此,期望用3S训练的模型在6S水平上表现良好仍然是合理的。几个因素可能导致分布转移,包括不同的预测水平、城市、挖掘协议、目标类型。然而,值得注意的是,这些结果表明Argoverse 2比它的前身更具挑战性和多样性。


6.6.2 不同目标类型的试验


表9显示了不同目标类型的最近邻基线(没有地图先验)的结果。不出所料,行人的位移误差明显低于其他目标类型。这是因为它们以明显较慢的速度移动。然而,这并不意味着行人运动预测是一个解决的问题,人们应该关注其他目标类型。相反,这意味着本文需要提出更好的度量标准来捕捉这一事实,行人的较低位移误差往往比车辆的较高误差更重要。本文把这一行的工作留到将来的范围内。

8a57c7852656f3d8ec5192dbb0530419.png

表8:WIMP在不同版本的Argoverse运动预测数据集上训练和测试时的性能。训练和评估仅限于车辆类(车辆、公共汽车、摩托车)目标类型,因为在Argoverse 1.1中只有车辆。所有结果均为k=6,并在括号中指定了预测范围。值得注意的是,在3S horizon上训练的模型在较长的6S horizon上表现不佳。下面的“Argoverse 2”表示Argoverse 2(Beta)运动预测数据集。

73d94b26b605ba2eafcac876f8ca296e.png

表9:K=6时,最近邻基线在不同目标类型上的表现。每个评估指标的最准确预测目标类型以粗体突出显示。


参考



Wilson B, Qi W, Agarwal T, et al. Argoverse 2: Next generation datasets  for self-driving perception and forecasting[J]. arXiv preprint  arXiv:2301.00493, 2023.


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
|
23天前
|
数据可视化 vr&ar 图形学
5秒内快速生成、直出工业级PBR资产,三维扩散模型3DTopia-XL开源
【10月更文挑战第26天】在数字时代,高质量3D资产的需求日益增长,但创建这些资产通常耗时且昂贵。3DTopia-XL是一种新型三维扩散模型,由香港中文大学、东京大学和南洋理工大学等机构的研究人员合作开发。该模型通过使用原始扩散技术和PrimX表示方法,能够在短时间内生成具有高几何保真度和精细纹理的3D资产,大大降低了3D内容创建的门槛。尽管存在一些局限性,3DTopia-XL仍展示了巨大的潜力,未来有望在多个行业中得到广泛应用。
34 2
|
1月前
|
人工智能 计算机视觉
时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型
【10月更文挑战第15天】《VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters》提出了一种创新方法,通过将时序数据转化为图像,利用视觉掩码自编码器(MAE)进行自监督预训练,实现时序预测。该模型在未进行任何时序域适配的情况下,展现了出色的零样本预测性能,并且通过少量微调即可达到最先进水平。这一研究为时序预测领域带来了新希望,同时也引发了关于模型解释性和可信度的讨论。
55 1
|
24天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
6月前
|
机器学习/深度学习 存储 人工智能
存内计算芯片研究进展及应用—以基于NorFlash的卷积神经网络量化及部署研究突出存内计算特性
存内计算芯片研究进展及应用—以基于NorFlash的卷积神经网络量化及部署研究突出存内计算特性
386 3
|
传感器 机器学习/深度学习 编解码
自动驾驶 | 毫米波雷达视觉融合方案综述(数据级/决策级/特征级融合)
自动驾驶在复杂场景下的目标检测任务至关重要,而毫米波雷达和视觉融合是确保障碍物精准检测的主流解决方案。本论文详细介绍了基于毫米波雷达和视觉融合的障碍物检测方法,从任务介绍、评估标准和数据集三方面展开。
自动驾驶 | 毫米波雷达视觉融合方案综述(数据级/决策级/特征级融合)
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
|
机器学习/深度学习 JSON 编解码
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
247 0
|
传感器 机器学习/深度学习 存储
2022 年及以后的技术趋势预测
2022 年及以后的技术趋势预测
105 0
|
传感器 机器学习/深度学习 存储
最新多传感器融合基准 | Argoverse 2:用于感知和预测的下一代数据集(上)
本文介绍Argoverse 2(AV2)--一个用于自动驾驶域中感知和预测研究的三个数据集的集合。
最新多传感器融合基准 | Argoverse 2:用于感知和预测的下一代数据集(上)
下一篇
无影云桌面