最新多传感器融合基准 | Argoverse 2:用于感知和预测的下一代数据集(下)

简介: 本文介绍Argoverse 2(AV2)--一个用于自动驾驶域中感知和预测研究的三个数据集的集合。

4 Experiments 实验



Argoverse 2支持多种下游任务。在本节中,本文重点介绍三个不同的学习问题:3D目标检测、点云预测和运动预测--每一个分别由传感器、激光雷达和运动预测数据集支持。首先,本文在训练的Argoverse 2传感器数据集中展示了具有挑战性和多样性的分类法,这是一个关于本文的26个评估类的三维检测模型,包括“长尾”类,如婴儿车、轮椅和狗。其次,通过点云预测任务,通过大规模的自监督学习,展示了Argoverse 2激光雷达数据集的效用。最后,本文进行了运动预测实验,为广泛的分类学运动预测提供了第一个基线。


4.1 3D Object Detection 三维目标检测


本文使用最先进的、anchorless的三维目标检测模型-CenterPoint[51]提供基线三维检测结果。本文的CenterPoint实现将一个点云作为输入,并将其裁剪到一个200m×200m的网格中,体素分辨率在XY(鸟瞰)平面为[0.1m,0.1m],Z轴为0.2m。为了适应本文更大的分类法,本文包括六个检测头来鼓励特征专业化。图7描述了使用nuScenes[4]平均精度度量的3D检测基线的性能。本文的大分类法允许本文评估 如“轮式设备”(电动滑板车)、“婴儿车”、“狗”和“轮椅”类,本文发现,尽管有大量的训练数据,但用这些强大基线在这些类别上的性能很差。


在表3中,本文提供了提交给Argoverse 2 3D目标检测排行榜的快照。

640.png

640.png


4.2 Point Cloud Forecasting 点云预测


本文利用Argoverse 2激光雷达数据集,按照SPF2[49]的实验协议进行点云预测。给定一个过去的场景点云序列,需要一个模型来预测一个未来的场景点云序列。本文以距离图像(range images)格式的过去1秒(10 Hz)的场景点云作为输入,然后预测未来1秒的距离图像(range images)。SPFNET在每个时间步预测两个输出映射--第一个输出映射是预测的范围值,而第二个输出是有效性掩码。以前的点云预测模型是在较小的数据集上评估的,如KITTI或nuScenes。为了探索训练数据量如何影响性能,本文使用了越来越多的训练相同模型架构的数据,直到16,000个序列的完整训练集。


评价Evaluation 本文使用三个指标来评估本文的预测模型的性能:mean IoU,l1-norm, and Chamfer distance(倒角距离)。平均IOU评估预测范围掩码。L1范数度量 预测出的距离(predicted range)像素组与ground truth像素组之间的平均L1距离,两者都被ground truth range mask掩码。该倒角距离是将 预测的距离图像反投影得到的 预测场景点云与ground truth点云之间的两个方向(向前和向后)的倒角距离相加得到的。

SPF2结果及讨论。 表4包含了本文的点云预测实验结果。随着训练数据的增加,该模型的性能在所有三个指标上都稳步增长。这些结果和来自自监督学习文献[3,7]的工作表明,大量的训练数据可以产生实质性的差异。另一个观察是,在本文的数据集上预测的倒角距离明显高于KITTI[49]上的预测。本文推测,这可能是由于两个原因:(1)Argoverse 2激光雷达数据集具有更大的传感范围(大于200m,而KITTI激光雷达传感器的120m),这往往会显著增加倒角距离值。(2)Argoverse 2激光雷达数据集与KITTI数据集相比具有更高的动态场景比例。

640.png


4.3 Motion Forecasting 运动预测


本文提出了几个预测基线[6],它们试图利用数据的不同方面。那些只使用focal agent训练而不捕捉任何社会交互的模型包括:constant velocity, nearest neighbor, and LSTM encoder-decoder models(both with and without a map-prior)。本文还评估WIMP[25]作为一个基于图的关注方法捕捉社会互动的例子。所有超参数都是从参考实现中获得的。


评价。 基线方法是根据标准度量进行评估的。继[6]之后,本文使用minADE和minFDE作为度量;它们分别评估最佳预测轨迹和地面真实值之间的平均距离和端点L2距离。本文还使用了Miss Rate(MR),其表示根据端点误差没有一个预测轨迹在ground truth的2.0米内的测试样本的比例。结果表明,与Argoverse 1.1相比,社区在这个问题上的进步以及数据集难度的显著增加。


基线结果。 表5概述了基线的结果。对于K=1,Argoverse 1[6]表明,恒速模型(minFDE=7.89)优于NN+MAP(Prior)(minFDE=8.12)。这进一步证明了Argoverse 2在运动学上更加多样,不能通过作等速假设来求解。令人惊讶的是,使用地图的NN和LSTM变体比不使用地图的变体性能更差,说明了这些基线如何利用地图的改进范围。对于K=6,WIMP显著优于其他基线。这强调了训练具有表达能力的模型是必要的,这些模型可以利用地图、先验和社会背景,并做出不同的预测。这种趋势类似于本文过去的3次Argoverse运动预测竞赛[43]:基于图的注意力方法(例如[25,31,37])继续在竞赛中占据主导地位,在K=6时,其准确性几乎是次佳基线(最近邻)的两倍。也就是说,一些基于光栅化的方法(例如[19])也显示出了有前景的结果。最后,本文还在迁移学习和各种目标类型的背景下评估了基线方法,其结果总结在附录中。


在表6中,本文提供了提交给Argoverse 2 运动预测排行榜的快照。

640.png

表5:来自Argoverse 2运动预测(测试版)数据集的运动预测基线方法在类车辆(车辆、公共汽车、摩托车手)目标类型上的性能。使用map prior表示对地图信息的访问,而使用社会上下文则需要在特征表示中编码其他行为者的状态。挖掘交集(多模式)场景会导致所有方法在K=1时性能不佳。由于数据集偏向于运动学上感兴趣的轨迹,等速模型的性能特别差。请注意,在K=6时,现代深度方法(如WIMP)仍然有0.42的脱靶率,这表明Argoverse 2数据集的难度增加了。最好值1%以内的数字用粗体表示。


640.png


表6:从2022年12月21日的在线排行榜上获得的Argoverse 2 运动预测数据集的运动预测结果。BANet是CVPR 2022 Workshop 自动驾驶Argoverse 2 运动预测挑战赛(#1)的获胜者,QML和GANet获得了荣誉奖(HM)。条目在下面按照Brier-minFDE进行排序。


5 Conclusion 结论



讨论。 在这项工作中,本文引入了三个新的数据集组成Argoverse 2。本文为三个任务提供基线探索--三维目标检测、点云预测和运动预测。本文的数据集为许多其他任务提供了新的机会。本文相信本文的数据集与现有的数据集相比是有利的,具有高清地图、丰富的分类、地理多样性和有趣的场景。


局限性。 在任何人类标注的数据集中,都存在标签噪声,尽管本文在发布前试图将其最小化。运运动预测数据集中不包含物体的3D bounding boxes,但在给定目标类型的情况下,可以对目标范围做出合理的假设。运动预测数据集也有不完善的跟踪,与最先进的3D跟踪器一致。


6 Appendix 附录



6.1有关传感器套件的其他信息


在图8中,本文提供了用于捕获Argoverse 2数据集的传感器套件的示意图。图9显示了带标注的行人3D长方体的速度分布和偏航分布。


640.png

图8:汽车传感器原理图,显示三个坐标系:(1)the vehicle frame in the rear axle;(2)the camera frame;还有the lidar frame。


640.png

图9:左:通过速度分布为行人移动的3D长方体的数量。本文定义当速度大于0.5米/秒时为运动物体。右:通过偏航分布标注的3D长方体的数量。


6.2有关运动预测数据集的其他信息


6.2.1 Interestingness Scores


运动学评分选择执行急转弯或显著(de)加速的轨迹。MAP复杂性程序将数据集偏向于底层车道图的轨迹、复杂遍历。特别是,复杂的地图区域、通过十字路口的路径和车道变换得分很高。社会得分奖励跟踪通过密集区域的其他行动者。社会评分还为非车辆目标类别选择,以确保从稀有类别(如摩托车)中获得足够的样本,用于训练和评估。最后,自动车辆计分程序鼓励选择与ego-vehicle期望路线相交的轨道。

image.png


图10:Argoverse1.1上提交的minFDE度量值随时间的变化。个人点表示提交给公共领导者委员会。颜色表示特定的比赛阶段。黑色实线表示SOTA性能。研究界取得了巨大进展,但自2020年初以来一直处于稳定状态。然而,本文注意到,在SOTA或附近执行的方法的数量和多样性继续增长。此外,后来的比赛根据“失误率”和概率加权FDE对排行榜进行了排序,这些指标显示了进步。尽管如此,minFDE并没有显著改善。


image.png


图11:Motion预测数据集场景中出现的参与者数量(包括得分和所有类型)的直方图。激光雷达数据集是根据相同的准则挖掘的,因此遵循相同的分布。


6.3有关高清地图的额外资料


传感器数据集中的高清地图示例 在图12中,本文显示了与各个日志/场景相关联的本地HD地图示例。

cb5e792888c7f11c59c17c05af4eb6af.png


图12:几个不同城市的传感器数据集中的本地矢量地图上的egovehicle(AV)轨迹示例。给出了一个100m×100m的局部地图区域。人行横道用紫色表示。为了说明的目的,红圈表示在1 Hz下离散采样的AV姿态。姿态是在>20赫兹的数据集中提供的,如由红线指示的轨迹路径所示。城市布局变化很大,例如迈阿密的道路通常平行于南北、东西网格,而匹兹堡的道路通常不是。

1b0d7eb106a75bcd779304dbae62e989.png


6.4 额外的3D检测结果


81881748b30b7a4a61fe1fcb7423b7e2.png145abe0be3b2639021b3f4ef622c0dd6.png


图13:3D目标检测性能在传感器数据集的验证split(测试版)。顶行:复合检测评分(左) 平均平移误差(右)底部行:平均缩放误差(左)和平均方向误差(右)。结果显示在传感器数据集的验证集上。


6.5 SPF2基线的训练详细情况


本文每0.5秒采样2秒的训练片段(表示1秒过去数据和1秒未来数据)。因此,对于持续时间为30秒的训练日志,将采样59个训练片段。本文使用ADAM优化器对模型进行了16个周期的训练,学习速率为4e-3,beta分别为0.9和0.999,每GPU的batch size为16。


6.6 附加运动预测实验


6.6.1 迁移学习


迁移学习实验的结果总结在表8中。WIMP在不同的背景下分别用Argoverse 1.1和Argoverse 2进行训练和测试。正如预期的那样,当模型在相同的分布上训练和测试时(即训练和测试数据都来自Argoverse1.1,或者都来自Argoverse2),它的工作效果最好。例如,当在Argoverse 2(6S)上测试WIMP时,在Argoverse 2(6S)上训练的模型的minFDE为2.91,而在Argoverse 1.1(3S)上训练的模型的minFDE为6.82(即大约差2.3倍)。同样,在相反的设置中,当在Argoverse 1.1(3s)上测试WIMP时,在Argoverse 1.1(3s)上训练的模型的minFDE为1.14,在Argoverse 2(6s)上训练的模型的minFDE为2.05(即大约差1.8倍)。这表明,从Argoverse 2(beta)到Argoverse 1.1的迁移学习比相反的设置更有用,尽管在场景数量上更少。然而,公开发布的Argoverse 2运动预测版本(非beta 2.0版本)的大小与Argoverse 1.1相当


本文注意到,在不同序列长度上训练和测试序列模型是一种常见的做法(例如机器翻译)。因此,期望用3S训练的模型在6S水平上表现良好仍然是合理的。几个因素可能导致分布转移,包括不同的预测水平、城市、挖掘协议、目标类型。然而,值得注意的是,这些结果表明Argoverse 2比它的前身更具挑战性和多样性。


6.6.2 不同目标类型的试验


表9显示了不同目标类型的最近邻基线(没有地图先验)的结果。不出所料,行人的位移误差明显低于其他目标类型。这是因为它们以明显较慢的速度移动。然而,这并不意味着行人运动预测是一个解决的问题,人们应该关注其他目标类型。相反,这意味着本文需要提出更好的度量标准来捕捉这一事实,行人的较低位移误差往往比车辆的较高误差更重要。本文把这一行的工作留到将来的范围内。

8a57c7852656f3d8ec5192dbb0530419.png

表8:WIMP在不同版本的Argoverse运动预测数据集上训练和测试时的性能。训练和评估仅限于车辆类(车辆、公共汽车、摩托车)目标类型,因为在Argoverse 1.1中只有车辆。所有结果均为k=6,并在括号中指定了预测范围。值得注意的是,在3S horizon上训练的模型在较长的6S horizon上表现不佳。下面的“Argoverse 2”表示Argoverse 2(Beta)运动预测数据集。

73d94b26b605ba2eafcac876f8ca296e.png

表9:K=6时,最近邻基线在不同目标类型上的表现。每个评估指标的最准确预测目标类型以粗体突出显示。


参考



Wilson B, Qi W, Agarwal T, et al. Argoverse 2: Next generation datasets  for self-driving perception and forecasting[J]. arXiv preprint  arXiv:2301.00493, 2023.


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
8月前
|
机器学习/深度学习 人工智能 物联网
深度学习在时间序列预测的总结和未来方向分析
2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进,还出现了将数值时间序列数据与文本和图像合成的新体系结构(CrossVIVIT), 也出现了直接应用于时间序列的可能性的LLM,以及新形式的时间序列正则化/规范化技术(san)。
490 1
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
|
14天前
|
机器学习/深度学习 算法 数据可视化
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
本文探讨了在量化交易中结合时序特征和静态特征的混合建模方法。通过整合堆叠稀疏降噪自编码器(SSDA)和基于LSTM的自编码器(LSTM-AE),构建了一个能够全面捕捉市场动态特性的交易系统。SSDA通过降噪技术提取股票数据的鲁棒表示,LSTM-AE则专注于捕捉市场的时序依赖关系。系统采用A2C算法进行强化学习,通过多维度的奖励计算机制,实现了在可接受的风险水平下最大化收益的目标。实验结果显示,该系统在不同波动特征的股票上表现出差异化的适应能力,特别是在存在明确市场趋势的情况下,决策准确性较高。
51 5
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
|
2月前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
42 7
|
3月前
|
人工智能 计算机视觉
时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型
【10月更文挑战第15天】《VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters》提出了一种创新方法,通过将时序数据转化为图像,利用视觉掩码自编码器(MAE)进行自监督预训练,实现时序预测。该模型在未进行任何时序域适配的情况下,展现了出色的零样本预测性能,并且通过少量微调即可达到最先进水平。这一研究为时序预测领域带来了新希望,同时也引发了关于模型解释性和可信度的讨论。
114 1
|
8月前
|
存储 机器学习/深度学习 人工智能
AIGC训练场景下的存储特征研究
在今天这样以AIGC为代表的AI时代下,了解训练场景对于存储的具体诉求同样是至关重要的。本文将尝试解读WEKA的一个相关报告,来看看AIGC对于存储有哪些具体的性能要求。
95113 8
|
机器学习/深度学习 人工智能 数据可视化
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
|
机器学习/深度学习 自然语言处理 资源调度
机器学习实战系列[一]:工业蒸汽量预测(最新版本下篇)含特征优化模型融合等
在进行归回模型训练涉及主流ML模型:决策树、随机森林,lightgbm等;在模型验证方面:讲解了相关评估指标以及交叉验证等;同时用lgb对特征进行优化;最后进行基于stacking方式模型融合。
|
机器学习/深度学习 自然语言处理 数据可视化
用于准确预测蛋白质结合界面的节能、高效、无参数几何深度学习
用于准确预测蛋白质结合界面的节能、高效、无参数几何深度学习
115 0