多模态最新Benchmark!aiMotive DataSet:远距离感知数据集(上)

简介: 本文引入了一个多模态数据集,用于具有远程感知的鲁棒自动驾驶。该数据集由176个场景组成,具有同步和校准的激光雷达(Lidar)、相机和毫米波雷达(Radar),覆盖360度视场。所收集的数据是在白天、夜间和下雨时在高速公路、城市和郊区捕获的,并使用具有跨帧一致标识符的3D边界框进行标注。此外,本文训练了用于三维目标检测的单模态和多模态基线模型。

摘要



自动驾驶是计算机视觉领域的一个研究热点。因为自动驾驶汽车对安全性要求很高 ,确保鲁棒性对现实世界的部署至关重要。虽然有几个公共多模态数据集可以访问,但它们主要包括两种传感器模态(照相机、激光雷达),它们不太适合不利的天气。此外,它们缺乏远程标注,这使得训练神经网络变得更加困难,而神经网络是自动驾驶汽车高速公路辅助功能的基础。因此,本文引入了一个多模态数据集,用于具有远程感知的鲁棒自动驾驶。该数据集由176个场景组成,具有同步和校准的激光雷达(Lidar)、相机和毫米波雷达(Radar),覆盖360度视场。所收集的数据是在白天、夜间和下雨时在高速公路、城市和郊区捕获的,并使用具有跨帧一致标识符的3D边界框进行标注。此外,本文训练了用于三维目标检测的单模态和多模态基线模型。


介绍



在过去的几年里,大量用于自动驾驶(AD)中的三维目标检测的数据集已经发布[2,3,5,8,17,18]。大多数数据集都有一个共同的特性,即包含来自不同模态的传感器数据,包括摄像机和激光雷达。通过这种方式,360度的视野(FOV)可以覆盖到Ego交通工具的周围。三维目标检测数据集可以通过ego车辆周围的覆盖范围的维度和传感器冗余度分成不同的组。虽然许多数据集公开可用,但它们要么不提供传感器冗余(即至少两种传感器模态的覆盖),这对稳健的自动驾驶至关重要,要么只依赖于相机和激光雷达传感器,这些传感器在恶劣天气下并不完全适用(根据传感器覆盖和冗余分组的几种流行数据集的属性见表1)。这一问题可以通过使用毫米波雷达来解决,毫米波雷达是一种成本效益高的传感器,不受不利环境条件(例如雨或雾)的影响。此外,标注范围不超过80米(除了少数例外),这对于训练远程感知系统来说是不够的。标注范围的局限性可以解释为自动驾驶数据集主要集中在城市环境中,而确保检测远处目标的能力对高速公路辅助(assistant)至关重要,因此对自动驾驶来说也是如此。


为了克服上述限制,本文发布了一个多模态数据集,用于具有远程感知的鲁棒自动驾驶。收集的数据集包括176个场景,具有同步和校准的激光雷达、摄像机和毫米波雷达传感器,覆盖360度视场。这些数据是在不同的地理区域(高速公路、城市和郊区)以及不同的时间和天气条件(白天、夜晚、下雨)中捕获的。本文提供了3d bounding box,具有跨帧的一致标识符,这使得本文的数据集能够用于三维目标检测和多目标跟踪任务。建议的数据集是在CC BY-NC-SA 4.0 license下发布的,允许研究社区将收集的数据用于非商业研究目的


主要贡献



本文发布了一个多模态自动驾驶数据集,具有冗余传感器覆盖,包括毫米波雷达和360°视场。


与现有的数据集相比,本文的数据集有一个扩展的标注范围,允许开发远程感知系统。

本文培训了单模态和多模态基线模型,并对其进行了基准测试。


相关工作



640.png


表1。相关数据集的比较。中间组:带有冗余360°传感器覆盖的数据集,右组:带有360°视图而没有传感器冗余的数据集。范围是指中间组对前后区域的感知极限,右组对前区域的感知极限(ego 车辆是原点)。


其中最有影响力的数据集是Geiger等人的KITTI[5],它引发了人们对自动驾驶中三维目标检测的兴趣。KITTI数据集包含在德国卡尔斯鲁厄记录的22个场景。传感器设置由前置摄像头和车顶安装的激光雷达组成。发布的数据集感知范围小于100米,不提供360度视场。此外,录像只在白天录制。


几种流行的三维目标检测数据集提供了360°的视场和传感器冗余。nuScenes[2]是与本文的工作最相似的数据集,包括整个传感器设置的完全传感器冗余。但在记录过程中使用了点云相对稀疏、感知范围有限的32波束激光雷达,导致感知极限短于100米(即在给定帧被标注的瞬间,没有距离ego车辆大于100米的标注对象)。传感器数据记录在城市环境中(波士顿、美国、新加坡),缺乏高速公路上的镜头。Waymo Open DataSet[25]是首个360°视场的大规模自动驾驶三维目标检测数据采集,包括1000多个场景和12M标注对象。该数据集的主要缺点是感知范围和传感器组有限。最近发布的Argoverse2 Sensor[27]数据集利用了从使用Argoverse[3]数据集承载几个挑战中获得的经验。Argoverse2的规模与Waymo Open DataSet相似,但标注范围有所扩展。与本文的解决方案相比,该数据集的缺点是缺乏毫米波雷达传感器的使用和记录位置的多样性(见表1)。Lyft Level 5感知数据集[10]和ONCE[15]都只有来自一个国家的记录,没有使用任何雷达,也不包含遥远地区的标注物体。


Radiate[23]使用三种不同的传感器模态,并在恶劣天气(例如雾、雨、雪)中包含大量标注关键帧。该论文的主要贡献是发布了一个高分辨率毫米波雷达数据集。然而,感知范围有限(即小于100米),其他传感器模态也受到限制(32束激光雷达具有非常稀疏的点云,只有前置摄像头具有低分辨率图像)。


另一组数据集也提供360度覆盖,没有传感器冗余,这对稳健的自动驾驶至关重要。RADIal[21]类似于Radiate,采用高清晰度毫米波雷达进行360°传感。记录的数据覆盖了广泛的地理区域,**然而传感器设置仅限于三个传感器。此外,数据集的标注对象数量有限(少于10K)**。Dence[1]还侧重于在恶劣天气下收集的数据。本文介绍了一种独特的传感器设置,包括热像仪、门控相机和旋转激光雷达。即使在记录车上安装了一组不同的传感器,在数据集的情况下也不能确保传感器冗余。此外,由于具有挑战性的天气条件,标注区域是有限的


就像Tab 1的总结,本文的数据集比现有的相关工作有优势。所提出的数据集结合了传感器的全冗余和在不同环境下的长感知范围,这是以前发表的三维目标检测数据集所没有提供的。保证这些特性是训练神经网络所需要的,它可以作为能够在不同环境下运行的鲁棒的自动驾驶软件的基础。


数据集详解:Aimotive多模态数据集



本文的多模态数据集包括15s的长场景,具有同步和校准的传感器。该数据集使用冗余传感器布局提供360°视场,其中至少两个不同的传感器同时记录EGO车辆周围的区域。由于标注的3d bounding box具有跨帧一致的标识符,该数据集可以用于三维目标检测和多目标跟踪任务。另外,相当多的标注(约25%)位于关于自我载体的远距离区域(≥75m)。由于这种特性和冗余传感器的设置,本文的数据集可以促进多模态传感器融合和鲁棒的远程感知系统的研究。


1. 数据收集


这些数据是在两大洲的三个国家收集的,有四辆车,以提供一个多样化的数据集。录像发生在美国加州;奥地利;匈牙利,使用三辆丰田凯美瑞和一辆丰田普锐斯。录像的记录阶段跨越一年,以收集不同季节和天气条件的数据。因此,本文的数据集由一组不同的位置(高速公路、郊区、城市)、时间(白天、夜晚)和天气条件(太阳、云、雨、眩光)组成。数据收集方法满足了机构审查委员会批准的要求


2. 传感器设置

640.png



传感器布局。 这些数据是用一个屋顶安装(roof-mountend)、旋转的64波束激光雷达、四个摄像机和两个远程毫米波雷达记录的,提供了360度的传感器冗余覆盖。定位是基于高精度GNSS+INS传感器。更多细节可以在图1和Tab2找到。


同步。 所有记录的传感器数据都是同步的。激光雷达和毫米波雷达共享相同的时间戳来源。本文的相机使用滚动快门方法捕捉图像,这种方法快速扫描环境,而不是在单个时刻捕捉整个场景的快照。由于所使用的相机逐行捕捉场景,所以相机时间戳大约是捕捉中间行时的曝光时间。


坐标系。该数据集使用五个坐标系,即全球坐标系、人体坐标系、雷达坐标系、摄像机坐标系和图像坐标系。本文使用ECEF[24]作为全局坐标系,并为每个标注帧提供了一个6-DOF的ego车辆姿态。用于定义带标注对象的参考坐标系称为车身坐标系,该坐标系附着在车身上。原点是在标称车身高度和零速度下,车辆后轴中心下的投影地平面点。雷达坐标系使用与人体坐标系相同的轴(X轴正向前进,Y轴正向左边,Z轴正向向上)。将激光雷达点云转换到人体坐标系作为预处理步骤。摄像机坐标系的原点是摄像机的视点,坐标轴的定义与OpenCV[9]摄像机坐标系相同(x轴向右,y轴向下,z轴向前)。摄像机到物体和毫米波雷达到物体的变换可以使用摄像机和毫米波雷达外参(extrinsic)矩阵来执行。本文利用OpenCV的图像坐标系来绘制标注,使用内参矩阵从摄像机坐标投影到图像坐标。


3. Ground Truth 生成


本文使用了两种方法来生成ground truth标签:一种专有的用于训练数据生成的自动标注方法和用于创建验证数据的手动标注方法。由于自动批注可能容易出错,一个额外的手工质量检查后处理已经被执行,以过滤标签错误。即使我们的目标是使用人工验证来最小化标签噪声,但数据集中仍可能包含一些标签噪声。通过这种方式,本文选择了标记足够准确的记录,并丢弃了大多数错误的标注。


在验证集的情况下,本文雇佣了手动标注者在记录的传感器数据上标记对象。在标注阶段,人类标注者使用激光雷达和相机传感器数据来拟合出现在相机图像上的任何感兴趣的目标上的长方体。对于长方体大小,标注者使用默认尺寸。如果点云或图像上的默认尺寸与给定目标的大小不匹配,标注者根据自己的决定调整给定长方体的不匹配尺寸。手工劳动还确保了一个长方体轴与目标方向对齐,精度在5度以内。


将14个类的手动或自动标注的对象表示为具有一些附加物理属性的3D长方体。每个标记的边界框都有一个3D中心点、3D范围(沿水平x轴的长度、沿垂直y轴的宽度、沿z轴的高度)、方向(表示为四元数)、相对速度和唯一的轨迹ID。此外,本文利用FCOS[26]检测器提供了2d bounding box。使用匈牙利算法[11]关联2D-3D标注,以允许利用2D-3D一致性或半标记[16]。

640.png


4. 数据集分析


该数据集包括26 583个带有多种模态传感器数据的标注帧,分为21个402训练帧和5个181验证帧(80/20 训练集/验证集 分割)。这些场景是在不同的天气和环境条件下记录的。参见Tab3用于数据分发。

640.png


该数据集包含超过425k个对象,这些对象被组织成14个类别。图3中显示了类别分布。标注对象的距离分布在图4中被可视化。约24%的长方体在75米以上,Argoverse2约有14%,Waymo,nuScenes,一度不足1%。这一特性使得Longrange感知系统能够借助本文的数据集进行训练。在图2和图5中查看有关对象大小和方向分布的其他统计信息。


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
9月前
|
API 计算机视觉 索引
【COCO数据集】COCO API 解析图像数据和目标标签,vision-transformer DETR的相关transforms操作实现
【COCO数据集】COCO API 解析图像数据和目标标签,vision-transformer DETR的相关transforms操作实现
290 0
|
11月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Pytorch中如何使用DataLoader对数据集进行批训练
Pytorch中如何使用DataLoader对数据集进行批训练
100 0
|
11月前
|
机器学习/深度学习 存储 PyTorch
怎么调用pytorch中mnist数据集
怎么调用pytorch中mnist数据集
146 0
|
11月前
|
PyTorch 算法框架/工具
【PyTorch】自定义数据集处理/dataset/DataLoader等
【PyTorch】自定义数据集处理/dataset/DataLoader等
125 0
|
11月前
|
机器学习/深度学习 数据采集 算法
机器学习之PyTorch和Scikit-Learn第4章 构建优秀的训练数据集 - 数据预处理Part 2
我们在第1章 赋予计算机学习数据的能力和第3章 使用Scikit-Learn的机器学习分类器之旅中简单地介绍了将数据集划分为训练集和测试集的概念。在测试集中比较预测标签和真实标签可以看成是发布上线前对模型的无偏差性能评估。本节中,我们会准备一个新的数据集,葡萄酒数据集。在预处理完数据集后,我们会探讨不同的特征选择技术来对数据集降维。
169 0
机器学习之PyTorch和Scikit-Learn第4章 构建优秀的训练数据集 - 数据预处理Part 2
|
11月前
|
机器学习/深度学习 数据采集 存储
机器学习之PyTorch和Scikit-Learn第4章 构建优秀的训练数据集 - 数据预处理Part 1
数据质量及所包含的有用信息量是决定机器学习算法能学到多好的关键因素。因此,在将数据集喂给机器学习算法前对其进行检查和预处理绝对很重要。本章中,我们会讨论一些基本数据预处理技术,有助于我们构建很好的机器学习模型。
141 0
|
12月前
|
机器学习/深度学习 Web App开发 人工智能
一个项目帮你了解数据集蒸馏Dataset Distillation
一个项目帮你了解数据集蒸馏Dataset Distillation
184 0
|
传感器 机器学习/深度学习 编解码
多模态最新Benchmark!aiMotive DataSet:远距离感知数据集(下)
本文引入了一个多模态数据集,用于具有远程感知的鲁棒自动驾驶。该数据集由176个场景组成,具有同步和校准的激光雷达(Lidar)、相机和毫米波雷达(Radar),覆盖360度视场。所收集的数据是在白天、夜间和下雨时在高速公路、城市和郊区捕获的,并使用具有跨帧一致标识符的3D边界框进行标注。此外,本文训练了用于三维目标检测的单模态和多模态基线模型。
多模态最新Benchmark!aiMotive DataSet:远距离感知数据集(下)
|
TensorFlow 算法框架/工具
TensorFlow加载cifar10数据集
TensorFlow加载cifar10数据集
91 0
TensorFlow加载cifar10数据集