【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集

简介: 【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集

【论文原文】:AAAI2023 - BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection


相关论文


DETR3D:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries


摘要


在这项研究中,文章提出了一种新的具有可靠深度估计的3D物体检测器,称为BEVDepth,用于基于相机的鸟瞰图 (BEV) 3D物体检测。文章的工作基于一个关键观察——鉴于深度对于相机 3D 检测至关重要这一事实,最近的方法中的深度估计出人意料地不足。BEVDepth通过利用显式深度监督解决了这个问题。还引入了相机感知深度估计模块以促进深度预测能力。此外,文章设计了一种新颖的深度细化模块来应对不精确的特征反投影带来的副作用。借助定制的 Efficient Voxel Pooling 和多帧机制,BEVDepth 在具有挑战性的 nuScenes 测试集上实现了最新的 60.9% NDS,同时保持了高效率。


简介


LiDAR 和摄像头是当前自主系统用于检测 3D 物体和感知环境的两个主要传感器。虽然基于 LiDAR 的方法已经证明了它们能够提供值得信赖的 3D 检测结果,但基于多视图相机的方法最近因其成本较低而受到越来越多的关注。LSS 中很好地解决了使用多视角相机进行 3D 感知的可行性。他们首先使用估计的深度将多视图特征“提升”到 3D 截锥体,然后将截锥体“splat”到参考平面上,通常是鸟瞰图 (BEV) 中的平面。BEV 表示非常重要,因为它不仅支持多输入摄像头系统的端到端训练方案,而且还为 BEV 分割、对象检测等各种下游任务提供了统一的空间和运动规划。然而,尽管基于 LSS 的感知算法取得了成功,但几乎没有研究此管道中的学习深度。我们问——这些检测器中学习深度的质量是否真的满足精确 3D 对象检测的要求?我们首先尝试通过可视化基于 Lift-splat 的检测器中的估计深度来定性地回答这个问题。尽管检测器在 nuScenes基准测试中达到了 30 mAP,但它的深度出奇地差。只有少数特征区域预测合理的深度并有助于后续任务,而大多数其他区域则没有。基于这一观察,我们指出现有 Lift-splat 中的深度学习机制带来了三个不足:• Inaccurate Depth。由于深度预测模块间接受到最终检测损失的监督,绝对深度质量远不能令人满意;• Depth Module Over-fitting。大多数像素无法预测合理的深度,这意味着它们在学习阶段没有得到适当的训练。这让我们怀疑深度模块的泛化能力。• Imprecise BEV Semantics。Lift-splat 中学习的深度将图像特征取消投影到 3D 平截头体特征中,这些特征将进一步汇集到 BEV 特征中。像 Lift-splat 那样深度较差的情况下,只有部分特征未投影到正确的 BEV 位置,导致 BEV 语义不精确。

640.png

此外,我们揭示了通过将 Lift-splat 中学习的深度替换为从点云数据生成的地面实况来提高深度的巨大潜力。结果,mAP 和 NDS 都提高了近 20%,mATE也从 0.768 下降到 0.393。这种现象清楚地表明,增强深度是高性能相机 3D 检测的关键。

640.png

因此,在这项工作中,我们介绍了 BEVDepth,这是一种新的多视图 3D 检测器,它利用源自点云的深度监督来指导深度学习。我们是第一个对深度质量如何影响整个系统进行全面分析的团队。同时,我们创新性地提出将相机内参和外参编码到深度学习模块中,使检测器对各种相机设置具有鲁棒性。最后,进一步引入深度细化模块来细化学习到的深度。为了验证 BEVDepth 的强大功能,我们在 nuScenes 数据集(3D 检测领域的一个著名基准)上对其进行了测试。在我们定制的高效体素池和多帧融合技术的帮助下,BEVDepth 在 nuScenes 测试集上实现了 60.9% NDS,成为这一具有挑战性的基准测试的最新技术水平,同时仍保持高效率。

相关文章
|
5月前
|
机器学习/深度学习 自动驾驶 机器人
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
|
5月前
|
传感器 机器学习/深度学习 编解码
卫星图像10个开源数据集资源汇总
卫星图像10个开源数据集资源汇总
141 0
|
5月前
|
机器学习/深度学习 编解码 自然语言处理
ICCV 2023 | SwiftFormer:基于Transformer的实时移动视觉应用中的高效加性注意
ICCV 2023 | SwiftFormer:基于Transformer的实时移动视觉应用中的高效加性注意
97 2
|
5月前
|
编解码 算法 数据处理
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
|
5月前
|
机器学习/深度学习 算法 决策智能
微美全息开发RPSSC技术在高光谱图像分类领域取得重要突破
随着高光谱遥感技术的发展,对于高光谱图像的更加精准的处理需求逐渐增加。在农业、环境监测、资源管理等领域,对高光谱图像进行准确分类是实现智能决策和资源优化利用的基础。
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(2)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
174 0
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
175 0
|
机器学习/深度学习 人工智能 达摩院
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(1)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
172 0
|
机器学习/深度学习 JSON 编解码
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
219 0
|
机器学习/深度学习 编解码 人工智能
90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(下)
视觉目标跟踪(VOT)是计算机视觉中的一个基本开放问题,任务是估计图像序列中目标的轨迹和状态。VOT具有广泛的应用,包括自动驾驶、机器人、智能视频监控、运动分析和医学成像。给定任意目标对象的初始状态,VOT中的主要挑战是学习在后续帧中搜索目标对象时使用的外观模型。近年来,由于引入了多种跟踪基准,如TrackingNet、VOT2018和GOT-10K,VOT受到了极大的关注。尽管最近取得了进展,VOT仍然是一个开放的研究问题,可能比以往任何时候都更加活跃。
90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(下)