【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集

简介: 【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集

【论文原文】:AAAI2023 - BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection


相关论文


DETR3D:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries


摘要


在这项研究中,文章提出了一种新的具有可靠深度估计的3D物体检测器,称为BEVDepth,用于基于相机的鸟瞰图 (BEV) 3D物体检测。文章的工作基于一个关键观察——鉴于深度对于相机 3D 检测至关重要这一事实,最近的方法中的深度估计出人意料地不足。BEVDepth通过利用显式深度监督解决了这个问题。还引入了相机感知深度估计模块以促进深度预测能力。此外,文章设计了一种新颖的深度细化模块来应对不精确的特征反投影带来的副作用。借助定制的 Efficient Voxel Pooling 和多帧机制,BEVDepth 在具有挑战性的 nuScenes 测试集上实现了最新的 60.9% NDS,同时保持了高效率。


简介


LiDAR 和摄像头是当前自主系统用于检测 3D 物体和感知环境的两个主要传感器。虽然基于 LiDAR 的方法已经证明了它们能够提供值得信赖的 3D 检测结果,但基于多视图相机的方法最近因其成本较低而受到越来越多的关注。LSS 中很好地解决了使用多视角相机进行 3D 感知的可行性。他们首先使用估计的深度将多视图特征“提升”到 3D 截锥体,然后将截锥体“splat”到参考平面上,通常是鸟瞰图 (BEV) 中的平面。BEV 表示非常重要,因为它不仅支持多输入摄像头系统的端到端训练方案,而且还为 BEV 分割、对象检测等各种下游任务提供了统一的空间和运动规划。然而,尽管基于 LSS 的感知算法取得了成功,但几乎没有研究此管道中的学习深度。我们问——这些检测器中学习深度的质量是否真的满足精确 3D 对象检测的要求?我们首先尝试通过可视化基于 Lift-splat 的检测器中的估计深度来定性地回答这个问题。尽管检测器在 nuScenes基准测试中达到了 30 mAP,但它的深度出奇地差。只有少数特征区域预测合理的深度并有助于后续任务,而大多数其他区域则没有。基于这一观察,我们指出现有 Lift-splat 中的深度学习机制带来了三个不足:• Inaccurate Depth。由于深度预测模块间接受到最终检测损失的监督,绝对深度质量远不能令人满意;• Depth Module Over-fitting。大多数像素无法预测合理的深度,这意味着它们在学习阶段没有得到适当的训练。这让我们怀疑深度模块的泛化能力。• Imprecise BEV Semantics。Lift-splat 中学习的深度将图像特征取消投影到 3D 平截头体特征中,这些特征将进一步汇集到 BEV 特征中。像 Lift-splat 那样深度较差的情况下,只有部分特征未投影到正确的 BEV 位置,导致 BEV 语义不精确。

640.png

此外,我们揭示了通过将 Lift-splat 中学习的深度替换为从点云数据生成的地面实况来提高深度的巨大潜力。结果,mAP 和 NDS 都提高了近 20%,mATE也从 0.768 下降到 0.393。这种现象清楚地表明,增强深度是高性能相机 3D 检测的关键。

640.png

因此,在这项工作中,我们介绍了 BEVDepth,这是一种新的多视图 3D 检测器,它利用源自点云的深度监督来指导深度学习。我们是第一个对深度质量如何影响整个系统进行全面分析的团队。同时,我们创新性地提出将相机内参和外参编码到深度学习模块中,使检测器对各种相机设置具有鲁棒性。最后,进一步引入深度细化模块来细化学习到的深度。为了验证 BEVDepth 的强大功能,我们在 nuScenes 数据集(3D 检测领域的一个著名基准)上对其进行了测试。在我们定制的高效体素池和多帧融合技术的帮助下,BEVDepth 在 nuScenes 测试集上实现了 60.9% NDS,成为这一具有挑战性的基准测试的最新技术水平,同时仍保持高效率。

相关文章
|
传感器 机器学习/深度学习 自动驾驶
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
4932 0
自动驾驶:BEV开山之作LSS(lift,splat,shoot)原理代码串讲
|
编解码 算法 数据可视化
源码解读 | 单目相机实现3D目标检测—CaDDN
源码解读 | 单目相机实现3D目标检测—CaDDN
595 0
|
传感器 并行计算 算法
多传感器感知原理解读 | BEVFusion解读(一)
多传感器感知原理解读 | BEVFusion解读(一)
927 0
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
传感器 机器学习/深度学习 编解码
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
|
机器学习/深度学习 传感器 算法
单目3D目标检测 方法综述——直接回归方法、基于深度信息方法、基于点云信息方法
本文综合整理单目3D目标检测的方法模型,包括:基于几何约束的直接回归方法,基于深度信息的方法,基于点云信息的方法。万字长文,慢慢阅读~ 直接回归方法 涉及到模型包括:MonoCon、MonoDLE、MonoFlex、CUPNet、SMOKE等。 基于深度信息的方法 涉及到模型包括:MF3D、MonoGRNet、D4LCN、MonoPSR等。 基于点云信息的方法 涉及到模型包括:Pseudo lidar、DD3D、CaDDN、LPCG等。
2365 2
|
机器学习/深度学习 算法 计算机视觉
BEV新SOTA | Sparse4D v3用实例去噪+质量估计+解耦注意力全面提升BEV检测性能
BEV新SOTA | Sparse4D v3用实例去噪+质量估计+解耦注意力全面提升BEV检测性能
432 0
|
数据采集 数据可视化 数据格式
3D检测数据集 DAIR-V2X-V 转为Kitti格式 | 可视化
本文分享在DAIR-V2X-V数据集中,将标签转为Kitti格式,并可视化3D检测效果。
673 0
|
传感器 人工智能 算法
盘一盘 | 基于BEV空间的视觉感知算法模型梳理(自下而上&自上而下)(上)
激光雷达传感器可以提供物体准确的深度信息以及结构信息;但激光雷达传感器提供物体信息的距离比较有限,同时其获得的点云数据与相机传感器采集到的图像信息相比更加稀疏;
盘一盘 | 基于BEV空间的视觉感知算法模型梳理(自下而上&自上而下)(上)
|
传感器 数据采集 编解码
3D目标检测数据集 DAIR-V2X-V
本文分享国内场景3D目标检测,公开数据集 DAIR-V2X-V(也称为DAIR-V2X车端)。DAIR-V2X车端3D检测数据集是一个大规模车端多模态数据集,包括: 22325帧 图像数据 22325帧 点云数据 2D&3D标注 基于该数据集,可以进行车端3D目标检测任务研究,例如单目3D检测、点云3D检测和多模态3D检测。
888 0