最新BEV感知基线 | 你确定需要激光雷达?(卡内基梅隆大学)

简介: camera和其他传感器相比成本更低,而激光雷达系统的成本很高,因此为不依赖激光雷达构建三维感知系统是一个关键的研究问题。目前主流方法使用多个camera的多视图数据,并将透视图像中的特征“提升”到二维地平面,从而产生车辆周围三维空间的“鸟瞰视图”(BEV)特征表示。最近的研究重点是如何将特征从图像提升到BEV平面。相反,我们提出了一个简单的基线模型,其中“提升”步骤简单地平均了所有投影图像位置的特征,并发现它优于目前SOTA方案的BEV vehicle 分割。消融实验表明,bs_size、数据增强和输入分辨率在很大程度上影响性能。

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



后台回复【BEV】即可获取论文!

后台回复【ECCV2022】获取ECCV2022自动驾驶方向所有论文!

后台回复【领域综述】获取自动驾驶感知融合定位近80篇综述论文!


1提出背景



camera和其他传感器相比成本更低,而激光雷达系统的成本很高,因此为不依赖激光雷达构建三维感知系统是一个关键的研究问题。目前主流方法使用多个camera的多视图数据,并将透视图像中的特征“提升”到二维地平面,从而产生车辆周围三维空间的“鸟瞰视图”(BEV)特征表示。最近的研究重点是如何将特征从图像提升到BEV平面。相反,我们提出了一个简单的基线模型,其中“提升”步骤简单地平均了所有投影图像位置的特征,并发现它优于目前SOTA方案的BEV vehicle 分割。消融实验表明,bs_size、数据增强和输入分辨率在很大程度上影响性能。此外,论文重新考虑了radar输入的效用,最近的工作要么忽略了雷达输入,要么发现雷达输入没有帮助。通过一个简单的RGB-radar融合模块,获得了相当大的性能提升,接近支持激光雷达的系统的精度。


2BEV感知的一些方法



三维激光雷达相比于Radar和Camera,成本过于高昂。目前大多数工作的重点是仅使用多view camera数据输入,生成“鸟瞰视图”(BEV)语义表示。这种方法捕获了驾驶相关任务所需的信息,例如导航、障碍物检测和移动障碍物预测。


BEV车辆语义分割IoU在短短两年内从23.9提高到43.2!虽然令人鼓舞,但对创新和准确性的关注是以牺牲简单性为代价的,并且有可能掩盖对性能“真正重要的东西。之前的工作已经探索了使用同形图将特征直接扭曲到地平面,使用深度估计将特征放置在其近似的三维位置,使用具有各种几何偏差的MLP,以及最近使用几何感知变换器和跨空间和时间的可变形注意力。相反,论文提出了一个简单的基线模型,其中“提升”步骤是无参数的,不依赖深度估计:只需在BEV平面上定义一个三维坐标体,将这些坐标投影到所有图像中,并平均从投影位置采样的特征。令人惊讶的是,我们的简单基线超过了最先进模型的性能,同时速度更快,参数更少。


1.无参数无投影方法


该方法使用camera几何体定义体素与其投影坐标之间的映射,并通过在投影坐标处进行双线性采样来收集特征。这会将每个图像特征放置到多个三维坐标中,本质上是沿着光线在体积中的范围平铺特征。这种提升方法通常不用于鸟瞰语义任务。


2.基于深度的非投影方法


使用单目深度估计器估计每像素深度,并使用深度将特征放置在其估计的三维位置,这是一种有效的策略;


3.基于单应性的非投影方法


一些paper估计地平面而不是每个像素深度,并使用将图像与地面相关的单应性来将特征从一个平面转移到另一个平面。当场景本身是非平面的(例如,高大的对象分散在一个很宽的区域)时,此操作往往会产生较差的结果。


4.基于MLP的非投影方法


用MLP将图像特征的纵轴带转换为地平面特征的前轴带。


5.基于几何感知transformer模型方法


使用transformer新方法完成,可以参考BEVFormer新思路;


6.基于Radar方法


Radar测量提供位置、速度和角度方向,因此数据通常用于检测障碍物(例如紧急制动),并估计移动物体的速度。与激光雷达相比,雷达的射程更长,对天气影响的敏感性更低,而且价格也更低。然而雷达固有的稀疏性和噪声使得使用它成为一个挑战。一些早期方法使用雷达进行BEV语义分割任务,与我们的工作非常相似,但仅在小数据集中。


3模型结构



baseline结构如下图所示,传感器设置由多个摄像机和radar单元组成,首先用ResNet-101对每个camera图像进行特征化,然后定义了一组围绕ego载体的三维坐标,将这些坐标投影到所有图像中,并在投影位置对特征进行双线性采样,产生三维特征量。最后,concat光栅化radar图像,并降低体素的垂直维度,以生成BEV特征图。紧接着使用Resnet-18处理BEV映射特征,在任务头生成语义分割结果。

640.png


(1) 使用ResNet-101主干对每个输入RGB图像进行特征化,形状为3×H×W, 对最后一层的输出进行上采样,并将其与第三层输出连接起来,然后应用两个卷积层,并进行实例归一化和ReLU激活,得到形状为C×H/8×W/8(图像分辨率的八分之一)的特征图。


(2) 将预定义的三维坐标体积投影到所有特征图中,并在那里对特征进行双线性采样,每个camera会生成一个三维特征volume ,同时计算每个摄像机的二进制“有效”体积(三维坐标是否落在摄像机截锥体内)。


(3) 然后对整个volume集进行有效的加权平均,将我们的表示减少到单个三维特征体积,形状为C×Z×Y×X。重新排列三维特征体积维度,以便垂直维度扩展通道维度,如C×Z×Y×X→ (C·Y)×Z×X,得到高维BEV特征图。


(4) 将雷达信息光栅化,以创建另一个BEV特征图。可以使用任意数量的雷达通道R(包括R=0,表示没有雷达)。在nuScenes中,每个雷达回波总共由18个场组成,其中5个是位置和速度,其余的是内置预处理的结果(例如,表明返回有效的置信度)。论文使用所有这些数据,通过使用位置数据选择网格上最近的XZ位置(如果在边界内),并使用15个非位置项作为通道,生成形状为R×Z×X的BEV特征地图,R=15。如果提供了激光雷达,我们将其体素化为形状为Y×Z×X的二进制占用网格,并使用它代替radar特征(仅用于比较)。


(5) 最后将RGB特征和雷达特征连接起来,并通过应用3×3卷积核将扩展信道压缩到C维。这实现了减少(C·Y+R)×Z×X→ C×Z×X。此时,有一个单一的特征平面,表示场景的鸟瞰图。并使用Resnet-18的三个block来处理,生成三个特征映射,最后应用特定于任务的头:分割、中心度和偏移,分割头产生每个像素的车辆/背景分割。


4实验结果



在纯RGB数据上和其它领域方法对比:

640.png


论文中RGB+Radar方法和其它领域反方法性能对比,引入Radar数据,直接提升了8.7%:


640.png


速度优势


在V100 GPU上以7.3 FPS的速度运行。这比BEVFormer快3倍多(以2.3 FPS的速度运行)。与BEVFormer的68.7M相比,论文的模型参数更少:47.2M。大多数参数(44.5M)来自Resnet-101,这也是由于RGB分辨率高(主要的速度瓶颈)。


640.png


可视化


640.png


5论文参考



[1] A Simple Baseline for BEV Perception Without LiDAR.

相关文章
|
5月前
|
机器学习/深度学习 算法 计算机视觉
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
|
4月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
151 7
|
5月前
|
机器学习/深度学习 人工智能 PyTorch
极智AI | GAN应用于玻璃表面水珠样本生成
大家好,我是极智视界,本文介绍一下 GAN 应用于玻璃表面水珠样本生成的方法。
73 0
极智AI | GAN应用于玻璃表面水珠样本生成
|
机器学习/深度学习 人工智能 安全
CVPR 2023 | 一块隔热片即可实现红外场景下的物理攻击,北航提出针对红外行人检测器的漏洞挖掘技术
CVPR 2023 | 一块隔热片即可实现红外场景下的物理攻击,北航提出针对红外行人检测器的漏洞挖掘技术
179 0
|
机器学习/深度学习 量子技术 计算机视觉
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
188 0
|
数据可视化 计算机视觉 智能硬件
人在房间里走了一圈,慕尼黑工业大学的研究推理出室内3D物体
人在房间里走了一圈,慕尼黑工业大学的研究推理出室内3D物体
114 0
|
机器学习/深度学习 人工智能 供应链
当 AI 遇上合成生物,人造细胞前景几何?
当 AI 遇上合成生物,人造细胞前景几何?
|
存储 机器学习/深度学习 编解码
CVPR录用+NTIRE冠军!清华提出首个高光谱图像重建Transformer
CVPR录用+NTIRE冠军!清华提出首个高光谱图像重建Transformer
417 0
|
机器学习/深度学习 编解码 人工智能
首篇!无相机参数BEV感知!(北航、地平线)
CFT在nuScenes检测任务排行榜上实现了49.7%的NDS,与其他几何引导方法相比,这是第一个去除相机参数的工作。在没有时间输入和其他模态信息的情况下,CFT以较小的图像输入(1600×640)实现了第二高的性能。由于view-attention的变体,CFT将普通注意力的内存和transformer FLOPs分别减少了约12%和60%,NDS提高了1.0%。此外,它对噪声相机参数的天然鲁棒性使CFT更具竞争力!!
首篇!无相机参数BEV感知!(北航、地平线)
|
机器学习/深度学习 存储 人工智能
CVPR 2022 | 鲁棒的神经辐射场重建
CVPR 2022 | 鲁棒的神经辐射场重建
465 0
CVPR 2022 | 鲁棒的神经辐射场重建