首篇!BEV-Locator:多目端到端视觉语义定位网络(清华&轻舟智航)(下)

简介: 准确的定位能力是自动驾驶的基础。传统的视觉定位框架通过几何模型来解决语义地图匹配问题,几何模型依赖于复杂的参数调整,从而阻碍了大规模部署。本文提出了BEV定位器:一种使用多目相机图像的端到端视觉语义定位神经网络。具体地,视觉BEV(鸟瞰图)编码器提取多目图像并将其展平到BEV空间中。而语义地图特征在结构上嵌入为地图查询序列。然后,cross-model transformer将BEV特征和语义图查询关联起来。通过交叉注意力模块递归地查询自车的定位信息。最后,可以通过解码transformer输出来推断自车位姿。论文在大规模nuScenes和Qcraft数据集中评估了所提出的方法。

实验和讨论



nuScenes数据集结果


NuScenes数据集包含城市地区的700个训练场景和150个测试场景,图像由6个环视摄像机拍摄。论文在nuScenes数据集上进行实验,以验证BEV定位器的有效性(用35个epoch训练)。


论文从地图界面中提取地图元素。元素类型包括道路边界、车道分隔线和人行横道。所有6个摄像机图像被组合以形成BEV特征。图4展示了定位过程。基于所提供的语义图、初始位姿和相机参数,可以将地图元素重投影到图像透视图。上面的图片显示了偏移位姿,下面的一行图片显示了BEV定位器预测的位姿。通过比较上面和下面的图片,可以观察到地图元素与相机视图中的元素一致,这表明自车位于正确位置,并验证了BEV定位器的有效性。

640.png


图5显示了BEV定位器的误差分布。误差曲线表明BEV定位器产生了出色的位姿精度。横向和纵向的位置误差分别小于20cm和60cm。这意味着在大多数情况下,横向和纵向的位置都受到地图元素的良好约束。此外,可以在1°误差下预测航向方向。通过调查,验证了BEV定位器在nuScenes数据集中的有效性。

640.png

Qcraft数据集结果


论文进一步使用Qcraft数据集进一步验证了BEV定位器,该数据集包含具有更清晰车道线和道路标记的城市道路和高速公路。语义地图由路缘石、车道分隔器、道路标记和交通灯杆组成。为了公平比较,从7个摄像头中选择了6个摄像头来形成BEV特征。所有训练参数都与nuScenes数据集中的参数相同。


类似地,论文在图6中展示了三个不同视图的重投影语义图。语义图用封闭多边形描述了道路标记,交通杆显示了与地面的接触点。还可以得出结论,BEV定位器成功地预测了Qcraft数据集场景中自车位姿的最佳位姿。结合地图元素的约束,网络可以正确预测车辆的位置和方向。


640.png

分段轨迹的误差曲线如图7所示。大多数横向和纵向误差在10和40厘米以下。与nuScenes数据集相比,BEV定位器在Qcraft数据集中提供了更高的精度,论文将其归因于更清晰的道路元素和更高的地图质量。接下来,将讨论定量分析和与其他方法的比较。640.png



与其他方法比较


表I展示了BEV定位器与其他现有定位方法的比较。需要首先确认视觉定位工作涉及不同的硬件配置、场景和地图。因此,这里比较了不同方法的整体定位精度。

640.png


可以看出,BEV定位器在nuScenes数据集和Qcraft数据集上都具有最佳的位置精度。与其他基于多传感器融合输入的方法相比,论文的方法基于纯视觉输入。换句话说,论文的方法在视觉定位问题上取得了显著的性能。此外,由于BEV定位器只能在位姿偏移的监督下进行训练,这种端到端的方式显著简化了构建视觉语义定位系统的过程,而无需复杂的策略或参数微调。此外,由于transformer结构具有更强大的学习能力,允许进行大规模数据训练,因此BEV定位器有望部署到广泛的场景中。


论文现在研究了在实验结果和其他视觉语义定位方法中发现的横向误差小于纵向误差的原因。直观地说,语义元素、车道线、道路标记和灯杆同时提供横向约束,而纵向位置只能由灯杆或道路标记约束。纵向约束元件的数量通常小于横向约束元件的数目。此外,与相邻车道线相比,这些元素可能存在于更远的距离处。总之,纵向精度是横向精度无法比拟的。幸运的是,下游模块也需要较少的纵向定位精度,这在一定程度上弥补了这个问题。


消融实验


为了更好地理解框架中每个模块的有效性,论文进行了消融研究,以通过与Qcraft数据集的一系列比较实验进行验证。

640.png


a) 不同BEV栅格尺寸的有效性:研究不同BEV网格尺寸的影响,见表二,论文测试了不同BEV栅格尺寸对车辆定位性能的影响。可以观察到,较小的BEV网格大小有助于更高的位姿精度。这可以通过以下事实来解释:更高的分辨率允许更好地编码地图元素的位姿信息。然而,更高的分辨率也带来了计算负担,在计算时间和图形存储器方面都提出了挑战。

640.png


b) transformer编码器的有效性:表三显示了带或不带transformer编码器的BEV定位器的精度。没有编码器层,纵向误差和横向误差分别下降0.0789米和0.005米。论文假设self-attention在BEV网格之间进行信息交互。这将启用道路元素的全局场景感知。


640.png

c) transformer解码器中位置嵌入的有效性:表四评估了transformer解码器模块中不同transformer策略的影响。基于论文的实验,发现当采用常规transformer结构时,BEV定位器几乎不收敛,特别是在纵向上。该问题通过transformer解码器的轻微改变得以解决。论文在cross-attention操作中向value项添加位置嵌入。直观地说,每个地图查询都包含地图元素的语义信息和位置信息。通过transformer,地图查询意味着查询出其在BEV空间下的相对位置信息。因此,需要检索每个网格的位置信息(包含在位置嵌入中)作为值。这种微小的变化对BEV定位器的性能有很大的贡献。


讨论


总之通过上述实验评估了BEV定位器的可用性,从中可以得出结论,论文的方法在视觉语义定位方面达到了最先进的性能。根据结果,总结了以下发现:


  • 论文证明了语义地图元素可以被编码为查询。利用transformer结构,可以从BEV特征空间中查询自车的位姿信息。验证了transformer在语义地图元素和视觉图像之间的跨模态匹配的有效性;
  • 论文将视觉语义定位问题表述为端到端的学习任务。神经网络需要由位姿偏移产生的简单监督。简单地使用带有原始图像和语义图的车辆轨迹就足以生成BEV定位器的训练数据集;
  • 论文在nuScene数据集和Qcraft数据集上验证了BEV-Locator的性能和准确性。与现有的视觉定位方法相比,BEV定位器仅使用时间戳中的图像即可实现最先进的性能。此外,由于BEV定位器是一种数据驱动方法,因此避免了几何优化策略设计和参数调整;
  • BEV定位器探索了视觉语义定位问题作为基于BEV特征的大模型的子任务的可行性。未来的工作旨在将BEV-Locator与其他感知子任务集成到大型统一BEV模型中。得益于BEV和transformer结构,论文假设BEV定位器有潜力应对大规模场景。


结论



论文提出了BEV定位器,这是一种基于地图编码、BEV特征和transformer的视觉语义定位系统的新设计,用于自车的直接位姿估计。引入的网络可以有效地对图像和语义图进行编码,并通过跨模型transformer结构进一步查询位姿信息。BEV-Locator可以按照端到端的数据驱动方式直接实现,无需复杂的优化策略或复杂的参数调整。论文的方法基于nuScenes数据集和Qcraft数据集实现了最先进的性能。证明了在BEV空间中估计自车姿态的有效性。这使得视觉语义定位成为基于BEV的自动驾驶汽车大型模型的子任务之一。


参考



[1] BEV-Locator: An End-to-end Visual Semantic Localization Network Using Multi-View Images


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
3月前
|
机器学习/深度学习 计算机视觉 知识图谱
【YOLOv8改进】MobileViT 更换主干网络: 轻量级、通用且适合移动设备的视觉变压器 (论文笔记+引入代码)
MobileViT是针对移动设备的轻量级视觉Transformer网络,结合CNN的局部特征、Transformer的全局注意力和ViT的表示学习。在ImageNet-1k上,它以600万参数实现78.4%的top-1准确率,超越MobileNetv3和DeiT。MobileViT不仅适用于图像分类,还在目标检测等任务中表现出色,且优化简单,代码已开源。YOLOv8引入了MobileViT块,整合卷积和Transformer结构,提升模型性能。更多详情可参考相关专栏和链接。
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
卷积神经网络(CNN):视觉识别的革命先锋
卷积神经网络(CNN)作为人工智能领域的一颗璀璨明珠,在计算机视觉中发挥着核心作用。CNN的发展历程展现了从生物学灵感到技术创新的转变,历经LeNet-5至AlexNet、VGGNet、ResNet等里程碑式的进步。其独特结构包括卷积层、池化层及全连接层,能够层层递进地提取特征并作出决策。CNN不仅在图像分类、目标检测等领域表现卓越,还在人脸识别、医学影像分析等方面展现出巨大潜力。尽管存在局限性,如对序列数据处理能力有限及解释性问题,但通过引入注意力机制、自监督学习等方法,CNN将持续演进,引领人工智能技术走向更加精彩的未来。
28 2
|
1天前
|
应用服务中间件 Apache nginx
【独家揭秘】502 Bad Gateway不再神秘!五大绝招教你快速定位并解决,从此告别网络烦恼!
【8月更文挑战第19天】遇到502 "Bad Gateway"错误让不少开发者头疼。此错误指示Web服务器作为代理收到无效响应。本文将分步骤指导如何排查与解决502问题:首先检查服务器日志文件寻找线索;接着验证后端服务器状态及连通性;然后审查Web服务器配置确保代理设置无误;再检测后端服务器响应时间避免超时;最后利用抓包工具深入分析网络通信。遵循这些步骤,可助你高效定位并解决502错误。
|
3月前
|
机器学习/深度学习
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024
【5月更文挑战第30天】清华大学研究团队提出的EfficientTrain++是一种新型训练方法,旨在加速视觉基础网络(如ResNet、ConvNeXt、DeiT)的训练,最高可达3倍速度提升,同时保持模型准确性。该方法基于傅里叶谱裁剪和动态数据增强,实现了课程学习的创新应用。在ImageNet-1K/22K数据集上,EfficientTrain++能有效减少多种模型的训练时间,且在自监督学习任务中表现出色。尽管面临适应性与稳定性的挑战,EfficientTrain++为深度学习模型的高效训练开辟了新途径,对学术和工业界具有重要意义。
45 4
|
3月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】骨干网络: SwinTransformer (基于位移窗口的层次化视觉变换器)
YOLO目标检测创新改进与实战案例专栏介绍了YOLO的有效改进,包括使用新型视觉Transformer——Swin Transformer。Swin Transformer解决了Transformer在视觉领域的尺度变化和高分辨率问题,采用分层结构和移位窗口自注意力计算,适用于多种视觉任务,如图像分类、目标检测和语义分割,性能超越先前最佳模型。此外,文章还展示了如何在YOLOv8中引入Swin Transformer,并提供了相关代码实现。
|
3月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
96 5
|
3月前
|
机器学习/深度学习 算法 网络架构
基于yolov2深度学习网络的单人口罩佩戴检测和人脸定位算法matlab仿真
摘要:该内容展示了一个基于YOLOv2的单人口罩佩戴检测和人脸定位算法的应用。使用MATLAB2022A,YOLOv2通过Darknet-19网络和锚框技术检测图像中的口罩佩戴情况。核心代码段展示了如何处理图像,检测人脸并标注口罩区域。程序会实时显示检测结果,等待一段时间以优化显示流畅性。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
|
3月前
|
机器学习/深度学习 PyTorch 算法框架/工具
探索未来的视觉革命:卷积神经网络的崭新时代(二)
探索未来的视觉革命:卷积神经网络的崭新时代(二)
探索未来的视觉革命:卷积神经网络的崭新时代(二)
|
4天前
|
SQL 安全 网络安全
网络安全与信息安全:保护数字世界的基石
【8月更文挑战第16天】在数字化时代,网络安全与信息安全的重要性日益凸显。本文将深入探讨网络安全漏洞、加密技术以及安全意识等关键领域,旨在为读者提供全面的知识分享和实践指导。我们将从网络攻击的常见类型及其防御措施出发,进一步讨论加密技术在保障数据安全中的作用,并强调提升个人和企业的安全意识的必要性。通过分析真实案例,本文旨在帮助读者构建更加坚固的网络安全防线,共同守护我们的数字生活。