实验和讨论
nuScenes数据集结果
NuScenes数据集包含城市地区的700个训练场景和150个测试场景,图像由6个环视摄像机拍摄。论文在nuScenes数据集上进行实验,以验证BEV定位器的有效性(用35个epoch训练)。
论文从地图界面中提取地图元素。元素类型包括道路边界、车道分隔线和人行横道。所有6个摄像机图像被组合以形成BEV特征。图4展示了定位过程。基于所提供的语义图、初始位姿和相机参数,可以将地图元素重投影到图像透视图。上面的图片显示了偏移位姿,下面的一行图片显示了BEV定位器预测的位姿。通过比较上面和下面的图片,可以观察到地图元素与相机视图中的元素一致,这表明自车位于正确位置,并验证了BEV定位器的有效性。
图5显示了BEV定位器的误差分布。误差曲线表明BEV定位器产生了出色的位姿精度。横向和纵向的位置误差分别小于20cm和60cm。这意味着在大多数情况下,横向和纵向的位置都受到地图元素的良好约束。此外,可以在1°误差下预测航向方向。通过调查,验证了BEV定位器在nuScenes数据集中的有效性。
Qcraft数据集结果
论文进一步使用Qcraft数据集进一步验证了BEV定位器,该数据集包含具有更清晰车道线和道路标记的城市道路和高速公路。语义地图由路缘石、车道分隔器、道路标记和交通灯杆组成。为了公平比较,从7个摄像头中选择了6个摄像头来形成BEV特征。所有训练参数都与nuScenes数据集中的参数相同。
类似地,论文在图6中展示了三个不同视图的重投影语义图。语义图用封闭多边形描述了道路标记,交通杆显示了与地面的接触点。还可以得出结论,BEV定位器成功地预测了Qcraft数据集场景中自车位姿的最佳位姿。结合地图元素的约束,网络可以正确预测车辆的位置和方向。
分段轨迹的误差曲线如图7所示。大多数横向和纵向误差在10和40厘米以下。与nuScenes数据集相比,BEV定位器在Qcraft数据集中提供了更高的精度,论文将其归因于更清晰的道路元素和更高的地图质量。接下来,将讨论定量分析和与其他方法的比较。
与其他方法比较
表I展示了BEV定位器与其他现有定位方法的比较。需要首先确认视觉定位工作涉及不同的硬件配置、场景和地图。因此,这里比较了不同方法的整体定位精度。
可以看出,BEV定位器在nuScenes数据集和Qcraft数据集上都具有最佳的位置精度。与其他基于多传感器融合输入的方法相比,论文的方法基于纯视觉输入。换句话说,论文的方法在视觉定位问题上取得了显著的性能。此外,由于BEV定位器只能在位姿偏移的监督下进行训练,这种端到端的方式显著简化了构建视觉语义定位系统的过程,而无需复杂的策略或参数微调。此外,由于transformer结构具有更强大的学习能力,允许进行大规模数据训练,因此BEV定位器有望部署到广泛的场景中。
论文现在研究了在实验结果和其他视觉语义定位方法中发现的横向误差小于纵向误差的原因。直观地说,语义元素、车道线、道路标记和灯杆同时提供横向约束,而纵向位置只能由灯杆或道路标记约束。纵向约束元件的数量通常小于横向约束元件的数目。此外,与相邻车道线相比,这些元素可能存在于更远的距离处。总之,纵向精度是横向精度无法比拟的。幸运的是,下游模块也需要较少的纵向定位精度,这在一定程度上弥补了这个问题。
消融实验
为了更好地理解框架中每个模块的有效性,论文进行了消融研究,以通过与Qcraft数据集的一系列比较实验进行验证。
a) 不同BEV栅格尺寸的有效性:研究不同BEV网格尺寸的影响,见表二,论文测试了不同BEV栅格尺寸对车辆定位性能的影响。可以观察到,较小的BEV网格大小有助于更高的位姿精度。这可以通过以下事实来解释:更高的分辨率允许更好地编码地图元素的位姿信息。然而,更高的分辨率也带来了计算负担,在计算时间和图形存储器方面都提出了挑战。
b) transformer编码器的有效性:表三显示了带或不带transformer编码器的BEV定位器的精度。没有编码器层,纵向误差和横向误差分别下降0.0789米和0.005米。论文假设self-attention在BEV网格之间进行信息交互。这将启用道路元素的全局场景感知。
c) transformer解码器中位置嵌入的有效性:表四评估了transformer解码器模块中不同transformer策略的影响。基于论文的实验,发现当采用常规transformer结构时,BEV定位器几乎不收敛,特别是在纵向上。该问题通过transformer解码器的轻微改变得以解决。论文在cross-attention操作中向value项添加位置嵌入。直观地说,每个地图查询都包含地图元素的语义信息和位置信息。通过transformer,地图查询意味着查询出其在BEV空间下的相对位置信息。因此,需要检索每个网格的位置信息(包含在位置嵌入中)作为值。这种微小的变化对BEV定位器的性能有很大的贡献。
讨论
总之通过上述实验评估了BEV定位器的可用性,从中可以得出结论,论文的方法在视觉语义定位方面达到了最先进的性能。根据结果,总结了以下发现:
- 论文证明了语义地图元素可以被编码为查询。利用transformer结构,可以从BEV特征空间中查询自车的位姿信息。验证了transformer在语义地图元素和视觉图像之间的跨模态匹配的有效性;
- 论文将视觉语义定位问题表述为端到端的学习任务。神经网络需要由位姿偏移产生的简单监督。简单地使用带有原始图像和语义图的车辆轨迹就足以生成BEV定位器的训练数据集;
- 论文在nuScene数据集和Qcraft数据集上验证了BEV-Locator的性能和准确性。与现有的视觉定位方法相比,BEV定位器仅使用时间戳中的图像即可实现最先进的性能。此外,由于BEV定位器是一种数据驱动方法,因此避免了几何优化策略设计和参数调整;
- BEV定位器探索了视觉语义定位问题作为基于BEV特征的大模型的子任务的可行性。未来的工作旨在将BEV-Locator与其他感知子任务集成到大型统一BEV模型中。得益于BEV和transformer结构,论文假设BEV定位器有潜力应对大规模场景。
结论
论文提出了BEV定位器,这是一种基于地图编码、BEV特征和transformer的视觉语义定位系统的新设计,用于自车的直接位姿估计。引入的网络可以有效地对图像和语义图进行编码,并通过跨模型transformer结构进一步查询位姿信息。BEV-Locator可以按照端到端的数据驱动方式直接实现,无需复杂的优化策略或复杂的参数调整。论文的方法基于nuScenes数据集和Qcraft数据集实现了最先进的性能。证明了在BEV空间中估计自车姿态的有效性。这使得视觉语义定位成为基于BEV的自动驾驶汽车大型模型的子任务之一。
参考
[1] BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)