最新多传感器融合基准 | Argoverse 2:用于感知和预测的下一代数据集(上)

简介: 本文介绍Argoverse 2(AV2)--一个用于自动驾驶域中感知和预测研究的三个数据集的集合。

640.png

0.摘要:

本文介绍Argoverse 2(AV2)--一个用于自动驾驶域中感知和预测研究的三个数据集的集合。带标注的传感器数据集包含1000个多模态数据序列,包括来自七个环视摄像机和两个双目摄像机的高分辨率图像,以及激光雷达点云和6自由度地图配准位姿。序列包含26个目标类别的三维长方体标注,所有这些标注都是充分采样的,以支持训练和三维感知模型的评估。激光雷达数据集包含20,000个未标记的激光雷达点云序列和地图配准位姿。该数据集是有史以来最大的激光雷达传感器数据集合,支持自监督学习和新兴的点云预测任务。最后,运动预测数据集包含250,000个场景,挖掘每个场景中自车与其他参与者之间有趣和具有挑战性的交互。模型的任务是预测每个场景中scored actors的未来运动,并提供跟踪历史,捕捉目标的位置、航向、速度和类别。在所有三个数据集中,每个场景都包含自己的高精地图,带有3D车道和人行横道几何形状--来自六个不同城市的数据。本文相信这些数据集将以现有数据集无法支持的方式支持新的和现有的机器学习研究问题。所有数据集都是在CC BY-NC-SA 4.0许可下发布的。


1.介绍:



为了实现安全、可靠的自动驾驶目标,必须解决一系列机器学习任务,从双目深度估计到运动预测,再到三维目标检测。近年来,大量高质量的自动驾驶数据集被发布,以支持对这些和其他重要机器学习任务的研究。许多数据集被标注为“传感器”数据集[4,45,39,40,24,33,18,14,41,36],这与有影响力的KITTI数据集[17]的精神是一致的。Argoverse 3D跟踪数据集[6]是第一个带有“高清地图”的数据集--包含车道级几何形状的地图。同样有影响力的是自动驾驶的“运动预测”数据集[12,22,34,4,52]--包含抽象的目标轨迹而不是原始的传感器数据--其中Argoverse运动预测数据集[6]是第一个.

在过去的两年里,Argoverse团队举办了六场关于3D跟踪、双目深度估计(stereo depth estimation)和运动预测的比赛。Argoverse团队维护这些任务的评估服务器和排行榜,以及3D检测。排行榜总共包含了来自400个团队的数千份提交(submissions)。Argoverse团队还维护Argoverse API,并且已经解决了100多个问题。从这些经验中,本文形成了以下指导原则来指导创建Argoverse数据集的下一个迭代。


  1. 越大并不总是越好。(Bigger isn’t always better.) 自动驾驶车辆捕获大量传感器数据,这些数据在逻辑(logistically)上很难处理。传感器数据集的大小为数TB,即使经过压缩也是如此。如果标准基准进一步增长,本文就有可能疏远学术界,并将进展留给资源丰富的行业团体。因此,本文匹配但不超过nuScenes[4]和Waymo Open[45]中传感器数据的规模。

  2. 让每一个实例都有价值。(Make every instance count.)大多数时候驾驶场景都是正常的。数据集应该聚焦于当前预测和感知系统所面临的困难、有趣的场景。因此,本文挖掘特别拥挤,动态,和运动不寻常的场景。

  3. 多样性很重要。(Diversity matters) 对底特律市冬季数据的训练不足以检测迈阿密的物体--迈阿密的摩托车和轻便摩托车频率是底特律市的15倍。行为也不同,因此学习的行人运动行为可能不会泛化。因此,本文的每个数据集都来自六个不同的城市--奥斯汀、底特律、迈阿密、帕洛阿尔托、匹兹堡和华盛顿特区--以及从下雪到阳光明媚的不同季节。

  4. 绘制世界地图。(Map the world) 高清地图是感知和预测的强大先验信息。基于学习的方法找到了对地图信息进行编码的巧妙方法[31],在Argovise竞赛中表现出色。出于这个原因,本文用3D车道几何形状、油漆标记、人行横道、更高分辨率的地面高度等来增强本文的高清地图表示。

  5. 自监督。(Self-supervise) 近年来,其他机器学习域从自监督学习中获得了巨大的成功。来自动态场景的大规模激光雷达数据,与高清地图配对,可以比目前的监督方法更好地表现。为此,本文构建了最大的激光雷达传感器数据集。

  6. 与沉重的长尾搏斗。(Fight the heavy tail) 乘用车是常见的,因此可以评估对汽车的预测和检测的准确性。然而,在现有的数据集中,无法根据公交车和摩托车的不同行为来评估它们的预测精度,也无法评估婴儿车和轮椅的检测。因此,本文为传感器和预测数据集引入了迄今为止最大的分类法,并确保了足够的样本用于训练和评估模型。

考虑到这些指导原则,本文构建了三个Argoverse2(AV2)数据集。下面,本文着重介绍他们的一些贡献。


  1. 1000个场景传感器数据集拥有迄今为止最大的自动驾驶分类--30个类别。26个类别包含至少6000个长方体(cuboids),以支持不同的分类学训练和测试。与最近的自动驾驶数据集不同,该数据集还具有双目图像(stereo imagery)。
  2. 两万(20,000)个场景激光雷达数据集是激光雷达上最大的自监督学习数据集。唯一类似的数据集,是同时开发的(concurrently developed)ONCE[36],其没有高清地图。

  3. 二十五万(250,000)个场景运动预测数据集具有最大的分类法--5种类型的动态参与者和5种类型的静态参与者--并且覆盖了任何此类数据集中最大的映射区域。


本文相信这些数据集将支持三维检测、三维跟踪、单目和双目深度估计、运动预测、视觉里程测量、姿态估计、车道检测、地图自动化(map automation)、自监督学习、运动结构、场景流、光流、接触时间估计和点云预测等问题的研究。


2.相关工作:



在过去的几年里,在许多高质量数据集的催化下,自动驾驶感知和预测研究取得了快速进展。

640.png


传感器数据集和三维目标检测与跟踪。 用于三维目标检测的新传感器数据集[4,45,39,40,24,33,18,14,41,36]导致了有影响力的检测方法,如基于锚点的方法,如PointPillars[27],以及最近的无锚点的方法,如AFDET[16]和CenterPoint[51]。这些方法显著提高了所有数据集的精度。反过来,这些改进使得分离特定于目标的点云成为可能,这被证明对于离线检测和跟踪[42]以及模拟[8]是无价的(invaluable),而模拟以前需要人工标注的3D bounding boxes[35]。新的方法探索替代点云表示,如距离图像(range images)[5,2,46]。流式感知(Streaming perception)[29,21]引入了一种范式来探索准确性和潜伏期之间的权衡。表1提供了AV2传感器数据集和最近的三维目标检测数据集之间的详细比较。


运动预测。 在运动预测方面,进展也同样显著。向基于注意力的方法[28,38,37]的转变导致了各种新的基于矢量的地图和轨迹数据表示[15,31]。新的数据集也为新的算法铺平了道路,nuScenes[4],Lyft L5[22]和Waymo Open Motion数据集[12] 在Argoverse 1[6]中证明它们是必要的后,都发布了车道图。Lyft还引入了交通/速度控制数据,而Waymo在地图上添加了人行横道多边形、车道边界(带有标记类型)、速度限制和停车标志。最近,Yandex发布了Shifts[34]数据集,这是迄今为止最大的预测数据集(按情景时间计算)。这些数据集结合在一起,使利用静态和动态地图进行多参与者、长程运动预测的探索成为可能。


继Argoverse 1.1的成功之后,本文将AV2定位为一个高质量运动预测场景的大规模存储库--保证数据频率(正好10赫兹)和多样性(覆盖6个城市的超过2000公里的独特道路)。这与nuScenes(仅以2赫兹报告数据)和Lyft(在一段10公里的道路上收集)形成鲜明对比,但与Waymo Open Motion DataSet(采用类似的方法进行场景挖掘和数据配置)是互补的。互补数据集对于这些安全关键问题至关重要,因为它们提供了评估泛化和探索迁移学习的机会。为了提高易用性,本文还将AV2设计为在数据大小和格式方面都可广泛访问-表2提供了与其他最近预测数据集的详细比较。

640.png

更广泛的自动驾驶感知问题。 除了目标检测和运动预测的任务,用于自动驾驶的新的大规模传感器数据集为探索数十个新的感知问题提供了机会,尤其是那些可以通过自监督解决的问题。有一些新的问题最近被提出;由于SemanticKITTI[1]的出现,视频中的实时三维语义分割受到了人们的关注。HD地图自动化[54,30]和HD地图变化检测[26]与3D场景流和像素级场景模拟[50,8]一起受到了额外的关注。数据集具有独特的模态,如热像(thermal imagery)[10,9]。本文的新激光雷达数据集能够对自由空间预测[23]或点云预测[48,49]的新方法进行大规模的自监督训练。


3. The Argoverse 2 Datasets



3.1 Sensor Dataset 传感器数据集


Argoverse 2传感器数据集是Argoverse 1 3D跟踪数据集的后续。AV2更大,有1000个场景,高于Argoverse 1中的113个,但每个AV2场景也更丰富--AV2中有23倍的非车辆、非行人长方体。作者手工选择Argoverse 2传感器数据集中的30s组成场景,以包含拥挤的场景,其中包含未被表示的对象、值得注意的天气和有趣的行为,如插队和乱穿马路。每个场景的持续时间为15秒。表1将AV2传感器数据集与自动驾驶数据集进行了比较。图1、2和3显示了AV2的场景在标注范围、目标多样性、目标密度和场景动态性方面如何优于其他数据集。


与本文最相似的传感器数据集是非常有影响力的nuScenes[4]--这两个数据集都有1000个场景和高清地图,尽管Argoverse在拥有地面高度地图方面是独一无二的。nuScenes包含毫米波雷达数据,而AV2包含双目图像。nuScenes有一个很大的分类学--23个目标类别,其中10个有适合训练和评估(evaluation)的数据。本文的数据集包含30个目标类别,其中26个被很好地采样,足以用于训练和评估。nuScenes横跨两个城市,而本文的提出的数据集横跨六个城市。

640.png640.png640.png


传感器套件。 激光雷达扫描收集在10赫兹,以及20 fps图像从7个摄像头定位,以提供一个完整的全景视野。此外,还提供了全局坐标系下的摄像机内参、外参和6自由度 ego-vehicle 姿态。激光雷达回波由两个32波束激光雷达捕获,激光雷达在同一方向以10赫兹旋转,但在方向上相隔180°。摄像机触发与两个激光雷达同步,导致20赫兹的帧率。七个全局快门摄像机与激光雷达同步,使它们的曝光集中在激光雷达上,扫描它们的视野。在附录中,本文提供了一个示意图,说明了汽车传感器套件及其坐标框架。


激光雷达同步精度。 在AV2中,本文改进了摄像机和激光雷达的同步比Argoverse 1明显。本文的同步精度在[-1.39,1.39]ms,与Waymo开放数据集[-6,7]ms[45]相比较。

标注。 AV2传感器数据集包含本文30个类分类法中的对象的10 Hz 3D长方体标注(图1)。长方体的轨道标识符随着时间的推移对于相同的目标实例是一致的。如果对象在“感兴趣区域”(ROI)内--在映射的“可驾驶”区域的五米内,则对其进行标注。

隐私。 为了保护隐私,所有的脸和车牌,无论是在车辆内还是在可驾驶区域外,都被广泛模糊。


传感器数据集分割。 本文随机地将数据集划分为700、150和150个场景的训练、验证和测试拆分。


3.2 Lidar Dataset 激光雷达数据集


Argoverse 2 激光雷达数据集旨在支持激光雷达域中的自监督学习研究以及点云预测[48,49]。由于激光雷达数据比完整的传感器套件更紧凑,本文可以包括两倍长度的场景(30秒而不是15秒),和更多 (20,000 而不是 1,000),相当于大约40倍的驾驶小时,空间预算是5倍。AV2激光雷达数据集的挖掘标准与预测数据集(第3.3.2节)相同,以确保每个场景都是有趣的。虽然激光雷达数据集没有3D目标标注,但每个场景都带有一张高清地图,其中包含关于场景的丰富的3D信息。


本文的数据集是迄今为止最大的此类集合,有20,000个30秒序列。唯一一个类似的数据集,是同时发布的ONCE[36],包含1M激光雷达帧,而本文的是6M激光雷达帧。本文的数据集以10 Hz采样,而不是像ONCE[36]中那样以2 Hz采样,使本文的数据集更适合于点云预测或自监督任务,这些任务点云随时间的演变是重要的。


激光雷达数据集分割。 本文用分别为16,000个、2000个和2000个场景的train、validation和test拆分 随机划分数据集。


3.3 Motion Forecasting Dataset 运动预测数据集


运动预测解决了预测局部环境中动态行为者的未来状态(或占用图)的问题。自动驾驶相关行为者的一些例子包括:车辆(停车和移动)、行人、骑自行车的人、滑板车和宠物。由预测系统生成的预测未来被用作运动规划的主要输入,运动规划根据这种预测条件进行轨迹选择。生成这些预测提出了一个复杂的、多模态的问题,涉及许多不同的、部分观察的和社会交互的主体。然而,通过利用观察到的ground truth futures 来“自我标记”数据的能力,运动预测成为机器学习应用的理想领域(ideal domain)。

在Argoverse 1成功的基础上,Argoverse 2运动预测数据集提供了从自动驾驶车队收集的一组更新的预测场景。下面列举的设计决策总结了本文从内部研究/开发中吸取的集体经验教训,以及来自3个竞赛中近260个独特团队提交的2700多份submissions的反馈意见[43]:


  1. 运动预测是长尾域中的一个安全关键系统。 因此,本文的数据集偏向于包含不同类型focal agent的不同和有趣的场景(见第3.3.2节)。本文的目标是鼓励开发确保尾部事件(tail events)期间安全的方法,而不是优化“轻松里程”上的预期性能。
  2. There is a “Goldilocks zone” of task difficulty. Argoverse1测试集的性能已经开始稳定下来,如附录的图10所示。Argoverse 2的设计是为了增加预测的难度,在未来几年刺激富有成效的重点研究。这些变化旨在激励在扩展预测范围(3s→6s)上表现良好的方法,处理多种类型的动态对象(1→5),并确保长尾场景的安全性。未来的Argoverse releases可能会通过减少观测窗口和增加预测层位来继续增加问题的难度。
  3. 可用性很重要。 Argoverse 1受益于一个庞大而活跃的研究社区--在很大程度上是由于设置和使用的简单性。因此,本文注意确保现有的Argoverse模型可以很容易地移植到Argoverse 2上运行。特别是,本文优先考虑对地图元素的直观访问,鼓励使用车道图作为强优先级的方法。为了提高训练和泛化,所有姿态也被插值和重新采样在精确的10赫兹(Argoverse 1是近似的)。新的数据集包括更少,但更长和更复杂的场景;这确保总的数据集大小保持足够大,可以训练复杂的模型,但足够小,可以方便地访问。


3.3.1 Data Representation 数据表示


该数据集包括从美国六个独特的城市驾驶环境中挖掘的25万个非重叠场景(80/10/10 Train/Val/Test随机拆分)。它总共包含10个目标类型,其中动态和静态类别各有5个(参见图4)。每个场景包括本地矢量地图和11秒(10赫兹)的轨迹数据(2D位置、速度和方向),用于在本地环境中由eGo-vehicle观察到的所有轨迹。每个场景的前5秒被表示为观察窗口,而随后的6秒被表示为预测视界。


在每个场景中,本文将单个轨迹标记为focal agent。focal轨迹保证在整个场景期间得到充分观察,并经过特别选择,以最大限度地与地图特征和附近其他行为者进行有趣的互动(见第3.3.2节)。为了评估多智能体预测,本文还将轨道的子集标记为“得分参与者”(如图5所示),并保证场景相关性和最小数据质量。

640.png


图4:运动预测数据集的目标类型和地理直方图。左图:“focal”和“得分”类别上的目标类型直方图。中心:数据集中所有轨道上的目标类型直方图。不同静态目标类型之间的细粒度差异(例如,建筑锥和无人自行车)在预测数据集中是独特的。右图:数据集中包含的大都市区直方图。


640.png


图5:运动预测数据集中一些有趣场景的可视化。这些场景演示了各种目标类型(车辆、行人、公共汽车、自行车手或摩托车手)的混合。ego-vehicle用绿色表示,focal agent用紫色表示,scored actors用橙色表示。其他未评分的tracks以蓝色显示。目标位置是在观测历史的最后一个时间步骤捕获的。为了可视化的目的,为focal agent呈现完整的5秒历史和6秒未来,而为其他scored actors只显示1.5秒未来。左边是一个行人在ego-vehicle前面穿过,而中间和右边是一个摩托车手在交通中穿行。


3.3.2 Mining Interesting Scenarios 挖掘有趣的场景


Argoverse 2的源数据来自船队日志(fleet logs),这些日志带有与有趣或难以预测的事件一致的标注。每个日志被修剪到30秒,并通过兴趣评分模块运行,以便将数据选择偏向于来自自然分布长尾的示例。本文使用启发式方法对场景中的每个轨迹进行五个维度的评分:目标类别、运动学、地图复杂性、社会背景和与自我载体(ego-vehicle)的关系(细节见附录)。


最后的场景是通过提取非重叠的11 s窗口生成的,其中至少有一个候选轨道在整个持续时间内被完全观察到。得分最高的候选轨道被表示为focal agent;所有其他完全观察到的轨道在30米内的ego-vehicle表示为scored actors。由此产生的数据集是多样的、具有挑战性的,并且仍然适合广泛使用(请参见表2中的下载大小)。在图6中,本文展示了结果数据集比Argoverse 1.1更有趣,并验证了本文的直觉,即在启发式模块中得分高的参与者(actors)更难准确预测。

640.png


3.4 HD Maps 高精地图


上述三个数据集中的每个场景共享相同的HD地图表示。每个场景都带有自己的本地地图区域,类似于Waymo Open Motion[12]数据集。这与最初的Argoverse数据集不同,在最初的数据集中,所有场景都被本地化到两张城市地图上--一张是匹兹堡的,一张是迈阿密的。在附录中,本文提供了例子。每个场景映射的优点包括更高效的查询和处理映射更改的能力。在本文的数据集中,一个特定的十字路口可能会被观察多次,在此期间车道、人行横道甚至地面高度都可能发生变化。


车道图。 HD地图的核心特征是车道图,由图组成,其中是单个车道段。在附录中,本文列举并定义了本文为每个车道段提供的属性。与Argoverse 1不同,本文提供了实际的3D车道边界,而不仅仅是中心线。但是,本文的API提供了代码,可以在任何期望的采样分辨率下快速推断中心线。折线被量化到1cm分辨率。本文的表示比nuScenes更丰富,它只在2D中提供车道几何,而不是3D。


可驾驶区域。 而不是像在Argoverse 1中所做的那样,以光栅化格式提供可驾驶区域分割,本文以矢量格式释放它,即作为3D多边形。这提供了多种优势,主要是在压缩方面,允许本文为成千上万的场景存储单独的地图,然而光栅格式仍然很容易衍生。将多边形顶点量化到1cm分辨率。


地表高度。 只有传感器数据集包括密集的地表高度图(尽管其他数据集仍然有关于折线的稀疏的三维高度信息)。地地面高度为可行驶区域边界5m等值线内的区域提供,本文将其定义为感兴趣区域(ROI)[6]。本文这样做是因为对于建筑物内部和建筑密集的城市街区内部,地面车辆由于遮挡而无法观察的区域,地表高度的概念定义不清(ill-defined)。光栅栅格被量化到30cm分辨率,比Argoverse 1中的1m分辨率更高。

本地地图的面积。每个场景的局部地图都包括在ego-vehicle轨迹的l2范数中100米膨胀范围内找到的所有实体。


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
5月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
|
存储 传感器 编解码
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
114 0
|
传感器 机器学习/深度学习 编解码
自动驾驶 | 毫米波雷达视觉融合方案综述(数据级/决策级/特征级融合)
自动驾驶在复杂场景下的目标检测任务至关重要,而毫米波雷达和视觉融合是确保障碍物精准检测的主流解决方案。本论文详细介绍了基于毫米波雷达和视觉融合的障碍物检测方法,从任务介绍、评估标准和数据集三方面展开。
自动驾驶 | 毫米波雷达视觉融合方案综述(数据级/决策级/特征级融合)
|
算法
基于实时迭代的数值鲁棒NMPC双模稳定预测模型(Matlab代码实现)
基于实时迭代的数值鲁棒NMPC双模稳定预测模型(Matlab代码实现)
132 0
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
|
机器学习/深度学习 JSON 编解码
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
212 0
|
机器学习/深度学习 人工智能 编解码
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(2)
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景
344 0
|
SQL 自然语言处理 达摩院
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景(1)
「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景
991 0
|
传感器 机器学习/深度学习 编解码
最新多传感器融合基准 | Argoverse 2:用于感知和预测的下一代数据集(下)
本文介绍Argoverse 2(AV2)--一个用于自动驾驶域中感知和预测研究的三个数据集的集合。
最新多传感器融合基准 | Argoverse 2:用于感知和预测的下一代数据集(下)