【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示

简介: 【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示

【论文原文】:ECCV2022 - BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

论文:https://arxiv.org/abs/2203.17270

代码:https://github.com/fundamentalvision/BEVFormer

博主关键词: 小样本学习,语义分割,图注意力网络,互监督,目标检测,三维视觉

推荐相关论文:

【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象

- https://bbs.csdn.net/topics/612489503


摘要


3D 视觉感知任务,包括基于多相机图像的 3D 检测和地图分割,对于自动驾驶系统至关重要。在这项工作中,文章提出了一个名为 BEVFormer 的新框架,它使用时空变换器学习统一的 BEV 表示,以支持多个自动驾驶感知任务。简而言之,BEVFormer 通过预定义的网格状 BEV 查询与空间和时间交互,从而利用空间和时间信息。为了聚合空间信息,文章设计了空间交叉注意力(Spatial Cross Attention),每个 BEV 查询都从相机视图中的感兴趣区域中提取空间特征。对于时间信息,文章提出时间自我注意(Temporal Self Attention)以循环融合历史 BEV 信息。方法在 nuScenes 测试集的 NDS 指标方面达到了新的最先进的 56.9%,比以前的最佳技术高 9.0 分,与基于 LiDAR 的基线的性能相当。进一步表明,BEVFormer 在低能见度条件下显着提高了速度估计和对象召回的准确性。

640.png

简介


3D 空间中的感知对于自动驾驶、机器人技术等各种应用至关重要。尽管基于 LiDAR 的方法取得了显着进步,但基于相机的方法近年来引起了广泛关注。与基于 LiDAR 的对应物相比,除了部署成本低之外,摄像头还具有检测远距离物体和识别基于视觉的道路元素(例如,交通信号灯、停车线)的理想优势。

自动驾驶中周围场景的视觉感知有望根据多个摄像头给出的 2D 线索预测 3D 边界框或语义图。最直接的解决方案是基于单目框架和跨相机后处理。该框架的缺点是它分别处理不同的视图并且无法跨相机捕获信息,从而导致性能和效率低下。

640.png

作为单目框架的替代方案,一个更统一的框架正在从多相机图像中提取整体表示。鸟瞰图 (BEV) 是一种常用的周围场景表示,因为它可以清楚地呈现物体的位置和规模,适用于各种自动驾驶任务,例如感知和规划。尽管以前的地图分割方法证明了 BEV 的有效性,但基于 BEV 的方法在 3D 对象检测中并未显示出优于其他范例的显着优势。根本原因是 3D 对象检测任务需要强大的 BEV 特征来支持准确的 3D 边界框预测,但是从 2D 平面生成 BEV 是不适定的。生成 BEV 特征的流行 BEV 框架是基于深度信息的,但这种范式对深度值或深度分布的准确性很敏感。因此,基于 BEV 的方法的检测性能容易受到复合误差的影响,不准确的 BEV 特征会严重损害最终性能。因此,我们有动力设计一种不依赖深度信息的 BEV 生成方法,并且可以自适应地学习 BEV 特征,而不是严格依赖 3D 先验。Transformer使用注意力机制动态聚合有价值的特征,从概念上满足了我们的需求。

使用 BEV 特征执行感知任务的另一个动机是 BEV 是连接时空空间的理想桥梁。对于人类视觉感知系统,时间信息在推断物体的运动状态和识别被遮挡物体方面起着至关重要的作用,视觉领域的许多工作已经证明了使用视频数据的有效性。然而,现有的最先进的多相机 3D 检测方法很少利用时间信息。重大挑战是自动驾驶是时间关键的,场景中的物体变化很快,因此简单地堆叠交叉时间戳的 BEV 特征会带来额外的计算成本和干扰信息,这可能不是理想的。受循环神经网络 (RNN) 的启发,我们利用 BEV 特征循环传递从过去到现在的时间信息,这与 RNN 模型的隐藏状态具有相同的精神。

为此,文章提出了一种基于变换器的鸟瞰图 (BEV) 编码器,称为 BEVFormer,它可以有效地聚合来自多视图相机的时空特征和历史 BEV 特征。BEVFormer 生成的 BEV 特征可以同时支持 3D 物体检测和地图分割等多种 3D 感知任务,这对自动驾驶系统具有重要价值。如图 1 所示,我们的 BEVFormer 包含三个关键设计,即(1)网格状 BEV 查询以通过注意力机制灵活地融合空间和时间特征(2)空间交叉注意力模块以聚合来自多个空间特征,和(3)时空自注意力模块,从历史BEV特征中提取时间信息,这有利于运动物体的速度估计和严重遮挡物体的检测,同时带来可忽略的计算开销。借助 BEVFormer 生成的统一特征,该模型可以与不同的任务特定头(如 Deformable DETR 和掩码解码器)协作,进行端到端 3D 对象检测和地图分割。

文章的主要贡献如下:• 提出BEVFormer,一种时空变换器编码器,可将多摄像头和/或时间戳输入投射到BEV 表示。凭借统一的 BEV 功能,我们的模型可以同时支持多个自动驾驶感知任务,包括 3D 检测和地图分割。

• 文章设计了可学习的 BEV 查询以及空间交叉注意层和时间自注意层,以查找来自交叉摄像头的空间特征和来自历史的时间特征BEV,然后将它们聚合成统一的 BEV 特征。

• 文章在多个具有挑战性的基准测试中评估提议的 BEVFormer,包括 nuScenes 和 Waymo。与现有技术相比,我们的 BEVFormer 始终如一地实现了改进的性能。例如,在可比较的参数和计算开销下,BEVFormer 在 nuScenes 测试集上实现了 56.9% NDS,比之前的最佳检测方法 DETR3D高出 9.0 个百分点(56.9% 对 47.9%)。对于地图分割任务,我们也实现了最先进的性能,在最具挑战性的车道分割上比 Lift-Splat高出 5.0 多分。我们希望这个简单而强大的框架可以作为后续 3D 感知任务的新基线。

相关文章
|
机器学习/深度学习 传感器 人工智能
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
7月前
|
传感器 机器学习/深度学习 自动驾驶
【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023
本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。CRN,全称是Camera Radar Net,是一个多视角相机-雷达融合框架。 通过融合多视角相机和雷达的特性,生成语义丰富且空间精确的BEV特征图。实现3D物体检测、跟踪和BEV分割任务。
634 1
|
人工智能 算法 图形学
山大SIGGRAPH 2023 最佳论文得主分享:点云法向估计及保特征重建
山大SIGGRAPH 2023 最佳论文得主分享:点云法向估计及保特征重建
246 0
|
算法 数据挖掘 计算机视觉
【目标检测】基于稀疏表示的高光谱图像(Matlab代码实现)
【目标检测】基于稀疏表示的高光谱图像(Matlab代码实现)
193 0
|
传感器 机器学习/深度学习 人工智能
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
近年来,自动驾驶因其减轻驾驶员负担、提高行车安全的潜力而受到越来越多的关注。在现代自动驾驶系统中,感知系统是不可或缺的组成部分,旨在准确估计周围环境的状态,并为预测和规划提供可靠的观察结果。3D目标检测可以智能地预测自动驾驶车辆附近关键3D目标的位置、大小和类别,是感知系统的重要组成部分。本文回顾了应用于自动驾驶领域的3D目标检测的进展。
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
|
机器学习/深度学习 编解码 移动开发
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
|
机器学习/深度学习 传感器 算法
基于监督学习的多模态MRI脑肿瘤分割,使用来自超体素的纹理特征(Matlab代码实现)
基于监督学习的多模态MRI脑肿瘤分割,使用来自超体素的纹理特征(Matlab代码实现)
|
传感器 编解码 测试技术
CVPR'2023 | Nerf-Stereo: 利用NeRF来训练双目立体匹配网络的新范式!
CVPR'2023 | Nerf-Stereo: 利用NeRF来训练双目立体匹配网络的新范式!
603 0
|
机器学习/深度学习 编解码 自然语言处理
计算机视觉论文速递(八)ViTAE:COCO人体姿态估计新模型取得最高精度81.1AP
 人体姿态估计是计算机视觉领域的基本研究问题之一,具有很广泛的实际应用,例如医疗健康领域的行为分析、元宇宙领域的AIGC内容生成等。但是,由于人体姿态丰富,人物衣着表观变化多样,光照和遮挡等因素,人体姿态估计任务非常具有挑战性。之前的深度学习方法主要研究了新的骨干网络设计、多尺度特征融合、更强的解码器结构和损失函数设计等。
349 0