【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集

简介: 【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集

【论文原文】:AAAI2023 - BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection


相关论文


DETR3D:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries


摘要


在这项研究中,文章提出了一种新的具有可靠深度估计的3D物体检测器,称为BEVDepth,用于基于相机的鸟瞰图 (BEV) 3D物体检测。文章的工作基于一个关键观察——鉴于深度对于相机 3D 检测至关重要这一事实,最近的方法中的深度估计出人意料地不足。BEVDepth通过利用显式深度监督解决了这个问题。还引入了相机感知深度估计模块以促进深度预测能力。此外,文章设计了一种新颖的深度细化模块来应对不精确的特征反投影带来的副作用。借助定制的 Efficient Voxel Pooling 和多帧机制,BEVDepth 在具有挑战性的 nuScenes 测试集上实现了最新的 60.9% NDS,同时保持了高效率。


简介


LiDAR 和摄像头是当前自主系统用于检测 3D 物体和感知环境的两个主要传感器。虽然基于 LiDAR 的方法已经证明了它们能够提供值得信赖的 3D 检测结果,但基于多视图相机的方法最近因其成本较低而受到越来越多的关注。LSS 中很好地解决了使用多视角相机进行 3D 感知的可行性。他们首先使用估计的深度将多视图特征“提升”到 3D 截锥体,然后将截锥体“splat”到参考平面上,通常是鸟瞰图 (BEV) 中的平面。BEV 表示非常重要,因为它不仅支持多输入摄像头系统的端到端训练方案,而且还为 BEV 分割、对象检测等各种下游任务提供了统一的空间和运动规划。然而,尽管基于 LSS 的感知算法取得了成功,但几乎没有研究此管道中的学习深度。我们问——这些检测器中学习深度的质量是否真的满足精确 3D 对象检测的要求?我们首先尝试通过可视化基于 Lift-splat 的检测器中的估计深度来定性地回答这个问题。尽管检测器在 nuScenes基准测试中达到了 30 mAP,但它的深度出奇地差。只有少数特征区域预测合理的深度并有助于后续任务,而大多数其他区域则没有。基于这一观察,我们指出现有 Lift-splat 中的深度学习机制带来了三个不足:• Inaccurate Depth。由于深度预测模块间接受到最终检测损失的监督,绝对深度质量远不能令人满意;• Depth Module Over-fitting。大多数像素无法预测合理的深度,这意味着它们在学习阶段没有得到适当的训练。这让我们怀疑深度模块的泛化能力。• Imprecise BEV Semantics。Lift-splat 中学习的深度将图像特征取消投影到 3D 平截头体特征中,这些特征将进一步汇集到 BEV 特征中。像 Lift-splat 那样深度较差的情况下,只有部分特征未投影到正确的 BEV 位置,导致 BEV 语义不精确。

640.png

此外,我们揭示了通过将 Lift-splat 中学习的深度替换为从点云数据生成的地面实况来提高深度的巨大潜力。结果,mAP 和 NDS 都提高了近 20%,mATE也从 0.768 下降到 0.393。这种现象清楚地表明,增强深度是高性能相机 3D 检测的关键。

640.png

因此,在这项工作中,我们介绍了 BEVDepth,这是一种新的多视图 3D 检测器,它利用源自点云的深度监督来指导深度学习。我们是第一个对深度质量如何影响整个系统进行全面分析的团队。同时,我们创新性地提出将相机内参和外参编码到深度学习模块中,使检测器对各种相机设置具有鲁棒性。最后,进一步引入深度细化模块来细化学习到的深度。为了验证 BEVDepth 的强大功能,我们在 nuScenes 数据集(3D 检测领域的一个著名基准)上对其进行了测试。在我们定制的高效体素池和多帧融合技术的帮助下,BEVDepth 在 nuScenes 测试集上实现了 60.9% NDS,成为这一具有挑战性的基准测试的最新技术水平,同时仍保持高效率。

目录
打赏
0
0
0
0
1
分享
相关文章
|
19天前
|
一次推理,实现六大3D点云分割任务!华科发布大一统算法UniSeg3D,性能新SOTA
华中科技大学研究团队提出了一种名为UniSeg3D的创新算法,该算法通过一次推理即可完成六大3D点云分割任务(全景、语义、实例、交互式、指代和开放词汇分割),并基于Transformer架构实现任务间知识共享与互惠。实验表明,UniSeg3D在多个基准数据集上超越现有SOTA方法,为3D场景理解提供了全新统一框架。然而,模型较大可能限制实际部署。
53 15
ECCV 2024:视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号
视觉定位任务旨在通过文本-图像对检测特定目标的边界框,但其监督信号稀疏,难以达到最优性能。ECCV 2024提出的SegVG方法将边界框标注转化为分割信号,提供像素级监督,显著提升定位精度。该方法采用多层多任务编码器-解码器架构和三重对齐模块,有效缓解特征域差异问题。实验表明,SegVG在多个数据集上超越了先前的SOTA方法,特别是在RefCOCO和Visual Genome数据集上分别提升了3%和超过5%的准确率。尽管如此,SegVG也存在计算复杂度高、依赖高质量标注数据及可解释性不足等缺点。
164 23
NeurIPS 2024:FaceChain团队新作,开源拓扑对齐人脸表征模型TopoFR
在2024年NeurIPS会议上,FaceChain团队推出TopoFR模型,通过利用数据的拓扑结构信息,显著提升了人脸识别的准确性。TopoFR采用PTSA策略和SDE策略,分别增强了模型的泛化能力和对硬样本的处理效果。实验结果显示,TopoFR在多个基准测试中表现优异,特别是在IJB-C和IJB-B等高难度测试中,显著超越了现有方法。
158 5
单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024
【10月更文挑战第25天】单目三维物体检测在自动驾驶领域具有重要应用价值,但训练数据和测试数据的分布差异会影响模型性能。为此,研究人员提出了一种名为“单目测试时适应”(MonoTTA)的方法,通过可靠性驱动的适应和噪声防护适应两个策略,有效处理测试时的数据分布变化,提高模型在未知数据上的泛化能力。实验结果表明,MonoTTA方法在KITTI和nuScenes数据集上显著提升了性能。
54 2
CVPR 2024:给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源
【6月更文挑战第28天】CVPR 2024亮点:SAX-NeRF框架开源!融合X光与NeRF,提升3D重建效果。X3D数据集验证,Lineformer+MLG策略揭示物体内部结构,增强几何理解。虽有计算成本及泛化挑战,但为计算机视觉和医学影像开辟新路径。[论文链接](https://arxiv.org/abs/2311.10959)**
323 5
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
【论文速递】ISPRS2022 :一种新颖的结合几何语义信息的星载SAR数据立体三维定位方法
微美全息开发RPSSC技术在高光谱图像分类领域取得重要突破
随着高光谱遥感技术的发展,对于高光谱图像的更加精准的处理需求逐渐增加。在农业、环境监测、资源管理等领域,对高光谱图像进行准确分类是实现智能决策和资源优化利用的基础。
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
309 0
90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(下)
视觉目标跟踪(VOT)是计算机视觉中的一个基本开放问题,任务是估计图像序列中目标的轨迹和状态。VOT具有广泛的应用,包括自动驾驶、机器人、智能视频监控、运动分析和医学成像。给定任意目标对象的初始状态,VOT中的主要挑战是学习在后续帧中搜索目标对象时使用的外观模型。近年来,由于引入了多种跟踪基准,如TrackingNet、VOT2018和GOT-10K,VOT受到了极大的关注。尽管最近取得了进展,VOT仍然是一个开放的研究问题,可能比以往任何时候都更加活跃。
90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(下)