ECCV 2022 | 用于单目3D目标检测的密集约束深度估计器

简介: 由于深度信息的缺失,从单目图像估计物体的准确3D位置是一个具有挑战性的问题。之前的工作表明,利用目标的关键点投影约束来估计多个候选深度可以提高检测性能。然而,现有方法只能利用垂直边缘作为深度估计的投影约束。所以这些方法只利用了少量的投影约束,产生的深度候选不足,导致深度估计不准确。论文提出了一种可以利用来自任何方向边缘的密集投影约束方法。通过这种方式,论文使用了更多的投影约束并输出了更多的候选深度。此外,论文提出了一个图匹配加权模块来合并候选深度。本文提出的方法名为DCD(Densely Constrained Detector),在 KITTI 和 WOD基准上实现了最先进的性能。

论文链接:https://arxiv.org/pdf/2207.10047.pdf

代码链接:https://github.com/BraveGroup/DCD


摘要



由于深度信息的缺失,从单目图像估计物体的准确3D位置是一个具有挑战性的问题。之前的工作表明,利用目标的关键点投影约束来估计多个候选深度可以提高检测性能。然而,现有方法只能利用垂直边缘作为深度估计的投影约束。所以这些方法只利用了少量的投影约束,产生的深度候选不足,导致深度估计不准确。论文提出了一种可以利用来自任何方向边缘的密集投影约束方法。通过这种方式,论文使用了更多的投影约束并输出了更多的候选深度。此外,论文提出了一个图匹配加权模块来合并候选深度。本文提出的方法名为DCD(Densely Constrained Detector),在 KITTI 和 WOD基准上实现了最先进的性能。


之前算法存在的问题在于它们的几何约束不足。具体来说,一些现有的方法 [51,25,50] 估计2D边界框和3D边界框的高度,然后利用2D到3D高度投影约束生成目标的深度候选。最终的深度是通过对所有候选深度进行加权来生成的。如下图所示,该方法仅适用于垂直边缘,这意味着它们只使用少量约束和3D先验,导致深度估计的不准确。

640.png


方法



DCD的框架的如下图所示。DCD使用单阶段检测器 [51]从单目图像中检测目标。论文提出了密集几何约束深度估计器(DGDE,Densely Geometric-constrained Depth Estimator),它可以计算任何方向的2D-3D边缘的深度。DGDE可以有效地利用目标的语义关键点并产生更多的深度候选。此外,论文利用回归得到的2D边缘、3D边缘和方向作为2D-3D边缘图匹配网络的输入。所提出的图匹配加权模块 (GMW,Graph Matching Weighting module) 匹配每个2D-3D边缘并输出匹配分数。通过将多个深度与其相应的匹配分数相结合,论文最终可以为目标生成一个稳健的深度。

640.png


Geometric-based 3D Detection Definition


基于几何的单目3D目标检测通过2D-3D投影约束估计目标的位置。具体来说,网络预测目标的尺寸(image.png),旋转角image.png。假设一个目标有n个语义关键点,论文回归第i个关键点在图像坐标中的2D坐标和object frame中的3D坐标。object frame的坐标原点是目标的中心点。给定n个语义2D-3D关键点投影约束,解决3D目标位置是一个超定问题,它是用于将点云将从object frame转换到camera frame的平移向量。生成每个目标的语义关键点的方法改编自[23]。论文通过PCA建立了一些汽车模型,并通过从点云和2D mask中分割出来的3D点云来细化模型。在获得关键点后,就可以使用DGDE从关键点投影约束中估计目标的深度。


Densely Geometric-constrained Depth Estimation


虽然以前的深度估计方法[51]只考虑了垂直边缘,但DGDE可以处理任意方向的边缘。因此,论文能够利用更多的约束来估计每个深度候选的深度。


该方法基于关键点从3D空间到2D图像的投影关系。第i个关键点的3D坐标在object frame中定义,并通过以下等式投影到2D图像平面上:

640.png


其中image.png是第i个关键点的深度,K是相机内参,K,R,t 表示为:

640.png


通过上述两式,第i个关键点的投影约束方程记为:


640.png


第j个关键点投影约束方程与上式类似,进一步可以从第i个、第 j 个关键点投影约束中得到深度估计image.png

640.png


这个方程表明深度可以通过任意方向边缘的投影约束来计算。


给定n个关键点,论文生成m=n(n-1)/2 个深度候选。与此同时,不可避免地会遇到一些低质量的深度候选。因此,需要适当的加权方法来集成这些深度候选。


Depth Weighting by Graph Matching


利用DGDE估计目标的深度候选时,目标的最终深度可以根据根据估计质量进行加权:


640.png


接下来介绍论文提出的新的加权方法——Graph Matching Weighting module (GMW)。


Graph Construction and Edge Feature extraction:论文构造了2D关键点图和3D关键点图。3D关键点图与2D关键点图基本一致,唯一的区别是顶点坐标是2D坐标还是3D坐标。2D和3D边缘特征提取器[47]如下所示:


640.png


FC、CN、BN、ReLU 分别表示全连接层、Context Normalization [47]、Batch Normalization 和 ReLU。值得一提的是,Context Normalization 提取了所有边的全局信息。


Graph matching layer:给定提取的2D和3D边缘特征,根据在边缘s上的2D特征和边缘t上的3D特征之间的L2距离计算如下损失:


640.png


然后论文将M作为Sinkhorn layer[4]的输入来获得分配矩阵P。Sinkhorn layer通过最小化下述目标函数来迭代优化P:

640.png


Loss function:设计如下所示的回归损失image.png来监督最终的加权深度image.png,并使用分类损失image.png来监督图匹配:


640.png


实验结果



KITTI上的实验结果,优势比较明显。

640.png


可视化:


640.png


更多的实验结果如下表所示:

640.png


消融实验

640.png


DCD可以比基线更准确地估计深度。

640.png


GMW和边数量的消融实验


640.png


关于DCD和AutoShape的讨论


尽管DCD和AutoShape [23]都利用多个关键点来估计目标的位置,但存在如下关键差异:


  • AutoShape直接使用所有2D-3D关键点投影约束来求解对象目标深度。DCD则从每个边缘约束中求解一个深度候选。因此,DCD的边缘约束不仅数量多,而且比关键点约束的阶数更高;
  • AutoShape独立生成关键点权重,而关键点之间没有显式交互。DCD则使用可学习的图匹配模块对边缘约束进行建模,因此DCD根据所有边缘约束生成每个深度的权重,从而获得更好的权重。


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
Go 区块链
go 编译 自定义 图标 ico文件
go 编译 自定义 图标 ico文件
281 0
|
6月前
|
存储 BI API
一文读懂数据中台和数据仓库的区别
本文深入解析了“数据中台”与“数据仓库”的区别,从定义、功能、架构设计、数据处理、应用场景等多个维度进行对比,帮助企业更清晰地理解二者的核心差异与适用场景。数据仓库重在存储与分析历史数据,服务于高层决策;数据中台则强调数据的实时处理与服务化输出,直接赋能一线业务。文章还结合企业规模、业务需求与技术能力,给出了选型建议,助力企业在数字化转型中做出更科学的选择。
1305 11
|
传感器 机器学习/深度学习 人工智能
超全汇总 | 基于Camera的3D目标检测算法综述!(单目/双目/伪激光雷达)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于单目、双目和伪激光雷达数据的相关算法,下面展开讨论下~
超全汇总 | 基于Camera的3D目标检测算法综述!(单目/双目/伪激光雷达)
|
机器学习/深度学习 计算机视觉 异构计算
YOLOv8优改系列一:YOLOv8融合BiFPN网络,实现网络快速涨点
本文介绍了将BiFPN网络应用于YOLOv8以增强网络性能的方法。通过双向跨尺度连接和加权特征融合,BiFPN能有效捕获多尺度特征,提高目标检测效果。文章还提供了详细的代码修改步骤,包括修改配置文件、创建模块文件、修改训练代码等,以实现YOLOv8与BiFPN的融合。
2243 0
YOLOv8优改系列一:YOLOv8融合BiFPN网络,实现网络快速涨点
|
机器学习/深度学习 编解码 计算机视觉
深度学习笔记(十一):各种特征金字塔合集
这篇文章详细介绍了特征金字塔网络(FPN)及其变体PAN和BiFPN在深度学习目标检测中的应用,包括它们的结构、特点和代码实现。
2113 0
什么是 QAM?它是如何工作的?
【4月更文挑战第15天】
3521 5
什么是 QAM?它是如何工作的?
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 注意力机制 | 添加适用于遥感图像的LSKblock注意力——【二次创新+完整代码】
遥感目标检测的研究主要集中在改进方向边界框的表示上,而忽略了遥感场景中独特的先验知识。 这类先验知识对于准确检测微小目标至关重要,因为这些目标往往需要更大的上下文信息才能被正确识别。提出的 LSKNet 可以动态调整其大的空间感受野,以更好地模拟不同目标的距离上下文,从而提高遥感目标检测的精度。 LSKNet 是第一个在遥感目标检测中探索大选择性核机制的方法。
|
机器学习/深度学习 人工智能 供应链
人工智能在社会中的影响与未来展望
人工智能(AI)作为一项重要的技术革新,正在深刻地改变着我们的生活方式、工作方式以及社会结构。本文旨在探讨人工智能在社会中的影响,并展望其未来发展趋势。首先,我们回顾了人工智能的发展历程,从其起源到当前的发展阶段,概述了人工智能技术的基本原理和应用领域。其次,我们分析了人工智能对各个行业的影响,包括但不限于医疗保健、金融、制造业、交通运输和教育等领域。人工智能的广泛应用使得这些行业更加智能化、高效化,但也带来了一些挑战,如就业岗位的变化、隐私安全问题等。接着,我们讨论了人工智能在社会中的伦理和道德问题,包括人工智能算法的公平性、透明性和责任问题。最后,我们展望了人工智能的未来发展,包括强化学习
913 0
|
机器学习/深度学习 编解码 算法
ICCV 2023 | SPIN:轻量级图像超分辨率与超像素令牌交互
ICCV 2023 | SPIN:轻量级图像超分辨率与超像素令牌交互
339 1
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
659 0