最新Benchmark | 4Seasons：面向挑战场景的自动驾驶视觉SLAM基准-阿里云开发者社区

1摘要

论文基于大规模4Seasons数据集，提出了一种新的视觉SLAM和长期定位基准，用于在挑战条件下的自动驾驶。4Seasons提供了季节变化和不同的天气和照明条件导致的剧烈外观变化。尽管在类似条件的小规模数据集上推进视觉SLAM方面取得了重大进展，但仍缺乏代表自动驾驶真实场景的统一基准。因此论文引入了一个新的统一基准，用于联合评估视觉里程计、全球位置识别和基于地图的视觉定位性能，这对于在任何条件下成功实现自动驾驶至关重要。这些数据已经收集了一年多，在从多层停车场到城市（包括隧道），再到乡村和公路等九种不同环境中，记录了超过300公里的数据。论文提供全球一致的参考姿态，精度高达厘米级，通过将直接立体惯性里程计与RTK GNSS融合而获得。论文在基准上评估了几种最先进的视觉里程计和视觉定位基线方法的性能，并分析了它们的特性。实验结果为当前方法提供了新的见解，并显示了未来研究的潜力。

这项工作通过以下额外贡献扩展了在GCPR 2020上发表的论文[72]：

提出了一个大型跨季节和多天气基准套件，用于自动驾驶中的长期视觉SLAM。它允许对视觉里程计、全球位置识别和基于地图的视觉定位方法进行联合评估；
发布了大量涉及九种不同类型环境的附加序列，从多层停车场到城市（包括隧道），再到乡村和公路；
对视觉SLAM和视觉定位的最新基线方法进行了广泛的评估。

2相关工作

有各种各样的基准和数据集集中于自动驾驶的VO和SLAM。在这里，论文将这些数据集分为仅关注VO的数据集和涵盖不同天气条件的数据集，因此旨在实现长期SLAM。

视觉里程计及基准

最流行的自动驾驶基准可能是KITTI[20]。该多传感器数据集涵盖了广泛的任务，不仅包括VO，还包括3D目标检测和跟踪、场景流估计以及语义场景理解。数据集包含从城市到农村到高速公路的各种场景。尽管如此，所有情景仅在类似天气条件下记录一次。GT是基于高端惯性导航系统（INS）获得的。

另一个大规模包含激光雷达、IMU和图像数据的数据集是马拉加城市数据集[6]。然而，与KITTI相比，没有提供准确的6DoF GT，因此无法进行适当的定量评估。

其他与自动驾驶无关的用于评估VO和视觉惯性里程计（VIO）算法的流行数据集包括[59]（handheld RGB-D）、[7]（UAV stereo-inertial）、[15]（handheld mono）和[55]（handheld stereo-inertial）。

长期SLAM数据集及基准

与论文的工作更相关的是包含同一环境在长时间内的多次遍历的数据集。关于自动驾驶的SLAM，牛津RobotCar数据集[38]代表了一种先驱工作。该数据集由一年内在同一环境中多次记录的大规模序列组成。因此，它涵盖了场景外观和结构的巨大变化。然而，场景的多样性仅限于城市环境。此外，为数据集提供的GT在厘米级别上并不准确[38，57]。其他现有数据集缺乏顺序结构[33]，仅提供了一定的不利条件[42]，或侧重于AR场景[50]。

[52]的工作提出了三个基于现有数据集的互补基准数据集，即RobotCar Seasons（基于[38]）、Aachen Day Night（基于[51]）和CMU Seasons，这些数据集已用于基准视觉定位方法。RobotCar Seasons[52]数据集的GT是SfM和LiDAR点云对齐获得的。然而，由于GNSS测量不准确[38]，无法保证高达厘米级精度的全球一致GT。此外，该数据集仅在阴天条件下提供一个引用遍历。相反，论文为涵盖各种条件的所有训练遍历提供了全球一致的参考模型。因此，每个遍历都可以用作参考模型，允许进一步研究，例如分析适合的参考查询对以进行长期定位和映射。

匹兹堡[63]、东京24/7[64]和Mapillary Street Level Sequences[71]等全球位置识别数据集仅提供粗略尺度的位置信息。其他相关的定位数据集包括12场景[67]、InLoc[61]、剑桥地标[32]和人群驱动[27]。

其他数据集

也可用于VO的其他多用途自动驾驶数据集的示例是[8，10，26，70]。论文提出的基准数据集在规模大（类似于[20]）和外观和条件变化大（类似[38]）方面与之前的相关工作有所不同。此外，还提供了基于直接立体VIO和RTK GNSS融合的精确参考姿态。据我们所知，这是首次引入了一个公共的模块化基准，用于在具有挑战性的自动驾驶条件下评估视觉SLAM、全球位置识别和基于地图的视觉定位方法。

3系统概览

传感器配置

硬件设置包括用于6DoF姿态估计的定制双目惯性传感器，以及用于全球定位和全球姿态修正的高端RTK GNSS接收器。图2显示了装有用于数据采集的传感器系统的测试车辆。

双目惯性传感器：传感器系统的核心是定制的双目惯性传感器。该传感器由一对单色工业级全局快门相机和具有固定焦距的镜头组成。此外，基于FPGA，IMU与摄像机适当地同步。在数据集中，论文以30 fps的帧速率记录双目序列。

GNSS接收器：为了全球定位和补偿VIO系统中的漂移，论文使用了来自Sepcentrio的RTK GNSS接收机（mosaic-X5）和Antcom Active G8 GNSS天线。GNSS接收机利用RTK校正信号提供高达6mm的水平位置精度。虽然高端GNSS接收器用于精确定位，但论文使用连接到时间同步FPGA的第二个接收器来获得传感器的GNSS时间戳。

标定

光圈和焦点调整：双目系统中使用的透镜具有可调节的光圈和焦距。因此，在进行所有传感器的几何校准之前，论文手动调整两个摄像头，以获得匹配的平均亮度和最小聚焦模糊[25]，在10m距离内跨越结构化平面目标。

双目相机和IMU：对于双目摄像机的内外参标定，以及IMU的外参标定和时间同步，论文使用Kalibr1[45]。使用Kannala-Brandt模型[31]对双目摄像机进行建模，该模型是一个由总共八个参数组成的通用摄像机模型。论文通过执行基于特征的极线一致性检查来验证每个记录的标定精度。

GNSS天线：由于GNSS天线不具有任何定向，而是具有各向同性的接收模式，因此仅需要知道摄像机之一与摄像机框架内的天线之间的3D平移矢量。该矢量是为我们的传感器设置手动测量的。

GT 生成

VO和SLAM的参考位姿（即GT）应在局部相对6DoF变换和全球定位中提供高精度。为了满足第一个要求，论文通过集成IMU测量[68]扩展了最先进的双目直接稀疏VO[69]，实现了平均跟踪漂移约为行进距离的0.6%的双目惯性SLAM系统。为了满足第二个要求，使用全球位姿图将双目惯性系统估计的姿态与RTK GNSS测量融合。首先使用Kabsch-Umeyama算法估计Sim（3）变换，以将VIO坐标系中的相机位置与GNSS坐标系中相机位置全局对齐[65]。

数据集的一个关键方面是，论文提供的参考姿态足够准确，即使某些记录的序列在部分GNSS拒绝的环境中包含具有挑战性的条件。尽管双目惯性传感器系统的平均漂移约为0.6%，但这并不能保证在所有情况下都能实现。因此，对于数据集中的参考姿态，通过测量到相应RTK GNSS测量的距离来报告姿态是否可靠。对于所有姿态，如果没有相应的RTK GNSS测量，我们无法保证一定的精度。然而，由于高度精确的双目惯性里程计系统，即使在没有GNSS的环境中，例如隧道或有高楼的区域，这些姿态在大多数情况下也可以被认为是准确的。

4基准设置

如前文所述，为了克服现有自动驾驶基准和数据集的缺点，论文制定了以下适当基准的要求。

精度：通过融合VIO测量值和RTK GNSS校正数据，提供高达厘米精度的6DoF姿态；
大规模：提供大规模序列（轨迹长度超过10公里），以便在具有挑战性的条件下对SLAM和视觉定位进行广泛评估；
多样性：除了大规模，还提供记录场景中的短期和长期变化。这对于评估最近基于学习的方法的泛化能力很重要；
多任务：该基准可用于评估具有挑战性条件下的视觉里程计、全球位置识别和基于地图的视觉定位。

场景

图3显示了覆盖区域，包括突出显示的痕迹。每个场景都以单独的颜色显示。论文现在更详细地描述每个场景。

Offce环路：城市工业区周围的环路；
高速公路：沿慕尼黑北部A9三车道公路行驶；
居民区：穿过市郊的一个街区，街道上的花园和树木覆盖着独立的房屋；
商业园区：在商业区的校园周围有几个环路；
乡村：农业领域周围的农村地区，呈现出非常同质和重复的结构；
城市环路：慕尼黑市内环路上的大型环路，包括一条隧道；
老城区：环绕城市中心，高楼林立，交通十分便利，还有动态物体；
马克西米利安：马克西米利安博物馆（Maximilianeum）是慕尼黑著名的宫殿建筑，位于皇家大道的东端，有铺路石和电车路线；
停车场：三级停车场，以室内外环境为基准。

图5显示了优化轨迹的一个示例，它描述了所提供的参考姿态的精度。表1显示了用于基准测试的所有保留GT的序列。

参考位姿验证

图1的顶部显示了来自同一场景中不同路线的两个重叠点云。注意，尽管天气和季节不同，但点云排列得很好。这表明，论文的参考姿势对于基准长期定位而言足够准确。此外，图6显示了点对点对应的定性评估。该图显示了顶部不同季节（秋季/冬季）和底部不同照明条件（晴天/夜晚）之间非常精确的像素级对应的子集。

位姿准确性

本文的基准数据集的一个潜在限制是，当GNSS可用时只能保证一定的姿态精度。自然，GNSS在城市峡谷或隧道中是不可靠的。因此，对于基准评估，论文仅在GNSS可用且观测到的位置标准偏差小于5cm的情况下，才将位姿视为参考位姿。请注意仅需要准确的参考位姿来评估视觉定位。VO的评估基于随时间的累积漂移，即只需要序列的每个片段的开始和结束位置是准确的。此外还提供了地图质量的定量度量。论文报告每个轨迹的精确参考位姿百分比。此外孩报告了GNSS位姿和位姿图优化后重新定义的位姿之间的水平RMSE的总体地图精度。

每个测试序列的准确位姿百分比可以在表1和表5中看到。对于定性视觉分析，论文在图6中显示了精确的像素对应关系，表明参考位姿足够准确。论文并不声称我们的位姿总是厘米级准确，但是，通过分析地图的准确性，位姿可以确保用于基准测试的位姿的质量。

数据源

论文为所有序列（训练和测试）发布（失真和未失真）8位灰度图像、IMU测量和传感器标定，包括标定序列。此外，仅针对训练序列发布NMEA格式的RTK GNSS测量、VO点云和参考姿态。对于测试序列，此类数据将保留以供评估。此外还指定了重新定义的参考位姿和原始RTK GNSS测量值之间的距离。

5基准任务

论文定义了视觉里程计、全球位置识别和基于地图的视觉定位的基准评估指标、任务及其评估协议。视觉定位包括在现有3D模型中检索查询的6DoF姿态，并且可以解释为两步方法。首先，执行全局图像检索以获得关于地图的查询位姿的粗略估计。其次，使用局部特征匹配来重新确定姿态估计。

挑战场景下的视觉里程计

视觉里程计旨在基于记录的图像准确估计相对6DoF相机位姿。为了对VO的任务进行基准测试，已经存在各种数据集[15，19，59]。所有这些现有数据集都由在相当均匀的条件下（室内或阳光充足/室外阴云密布的条件下）记录的序列组成。然而，专门为自动驾驶用例开发的方法必须在几乎任何条件下都能稳定运行。我们相信，本文的基准将有助于改善汽车环境中不同天气和照明条件下的VO性能。因此，论文的目标不是取代现有的基准和数据集，而是提供一种更专注于自动驾驶挑战性条件的扩展。由于论文为序列的大部分提供了逐帧精确位姿，其他基准中众所周知的度量，如绝对轨迹误差（ATE）或相对姿态误差（RPE）[19，59]也适用于论文的数据。评估指标可以参考论文。

全局位置识别

全局位置识别是指检索给定查询图像的最相似数据库图像的任务[37]。为了提高搜索效率和对不同天气条件的鲁棒性，在全局描述符[1，2，18，29]方面取得了巨大进展。对于定位管道，视觉位置识别通过提供最相似的数据库图像以及相应的全局姿态来充当下游局部姿态修正的初始化步骤。由于深度神经网络的出现[24，34，56，60]，提出了聚集深度图像特征的方法，并显示出优于经典方法的优势[3，21，44，62]。

所提出的数据集对全局位置识别具有挑战性，因为它不仅包含具有相似地理位置的不同外观的跨季节图像，还包含具有相似外观但具有不同位置的季节内图像。这主要导致两种不同的类型：在同一地点拍摄但看起来不同的图像，或在不同地点拍摄但看上去相似的图像。图7描述了这些场景的示例对。评估指标可以参考论文。

基于地图的视觉定位

基于地图的视觉定位是指在参考图像和来自查询序列的图像之间局部重新调整6DoF姿态的任务。与宽基线双目匹配相比，对于基于地图的视觉定位，还可以利用序列的顺序信息。这允许通过运行标准VO方法来估计深度值。然后可以使用这些深度估计来改进单个定位候选的跟踪。

与仅使用2D图像而不使用其他信息的全局位置识别不同，该任务允许使用参考场景的全局一致的3D重建。在这个任务中，论文假设知道参考样本和查询样本之间的映射，并且只关注局部姿态修正任务。在实践中，可以使用前文所述的图像检索技术或使用GNSS测量作为粗略初始化（如果可用）来找到该映射。

在预先构建的地图中准确定位是一个具有挑战性的问题，特别是当查询序列的视觉外观与基础地图有显著差异时。这使得它非常困难，特别是对于基于视觉的系统，因为定位精度通常受到特征描述符的辨别能力的限制。论文提出的数据集允许评估多种类型的天气条件和不同场景（从城市到乡村驾驶）的视觉定位。此外，论文高达厘米的精确参考位姿允许我们创建更严格的评估设置，增加难度。这使我们能够确定当前最先进方法的局限性和鲁棒性。

6实验评价

在本节论文评估了所提供的三个基准（视觉里程计、全球位置识别和基于地图的视觉定位）中每一个SOTA基线方法，以展示基准的多样性和挑战。论文将为基准建立一个开放的排行榜，以在发布时比较不同的方法。这允许为每个用户再现基线结果。此外将设置一个服务器，用于自动评估扣留测试集的结果。

挑战条件下的视觉里程计

使用ORB-SLAM3 [9] 和 Basalt得到结果。表2显示了已知场景下基准的各个序列的评估结果。图8显示了与累积误差图中已知场景相对应的所有序列的结果。表3显示了未知场景下基准的各个序列的评估结果。图9显示了与累积误差图中的未知场景相对应的所有序列的结果。其他结果可以参考论文。

全局位置识别

使用NetVLAD、Deep Image Retrieval、CNN Image Retrieval进行实验。表4显示了4Seasons基准中每个评估场景的单个全局位置识别（GPR）性能。

基于地图的视觉定位

图13显示了分别更改距离和方向阈值时正确分类查询的百分比。该图显示了所有评估场景中不同的最先进的基于地图的视觉定位（MBVL）方法的平均性能。表4的前四行显示了4Seasons基准测试中每个评估场景的分层定位性能。

7结论

当前的基准测试要么主要集中于评估SLAM的性能，要么单独评估视觉定位。为了弥补这一差距，论文引入了一个基准，通过提供一种整体的方法来联合基准长期视觉SLAM和定位。

本文介绍了一个用于在挑战条件下自动驾驶的视觉SLAM和视觉定位的综合基准套件。该基准涵盖了各种各样的环境条件，以及短期和长期的天气和照明变化。此外还回顾和评估了当前最先进的视觉SLAM和视觉定位基线方法。论文观察到了巨大的性能差距，并在未来的工作中看到了弥补这些差距的巨大潜力。

8参考

[1] 4Seasons: Benchmarking Visual SLAM and Long-Term Localization for Autonomous Driving in Challenging Conditions

原文首发微信公众号【自动驾驶之心】：一个专注自动驾驶与AI的社区（https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA）

最新Benchmark | 4Seasons：面向挑战场景的自动驾驶视觉SLAM基准

1摘要

2相关工作

视觉里程计及基准

长期SLAM数据集及基准

其他数据集

3系统概览

传感器配置

标定

GT 生成

4基准设置

场景

参考位姿验证

位姿准确性

数据源

5基准任务

挑战场景下的视觉里程计

全局位置识别

基于地图的视觉定位

6实验评价

挑战条件下的视觉里程计

全局位置识别

基于地图的视觉定位

7结论

8参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

最新Benchmark | 4Seasons：面向挑战场景的自动驾驶视觉SLAM基准

1摘要

2相关工作

视觉里程计及基准

长期SLAM数据集及基准

其他数据集

3系统概览

传感器配置

标定

GT 生成

4基准设置

场景

参考位姿验证

位姿准确性

数据源

5基准任务

挑战场景下的视觉里程计

全局位置识别

基于地图的视觉定位

6实验评价

挑战条件下的视觉里程计

全局位置识别

基于地图的视觉定位

7结论

8参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景