摘要
与典型的多传感器系统相比,单目3D检测因其结构简单而备受关注。然而,基于激光雷达的方法和基于单目的方法之间仍然存在着很大的差距。在本文中,作者发现单目图像的不适定性会导致深度模糊。具体来说,具有不同深度的目标可以在2D 图像中以相同的边界框和相似的视觉特征出现。遗憾的是,网络不能准确地区分不同深度和这种非歧视性的视觉特征,导致不稳定的深度训练。为了促进深度信息的学习,作者提出了一个简单而有效的即插即用模块,一个边界框多目标(OBMO)。具体来说,作者通过沿视平截头体移动3D边界框来添加一组合适的伪标签。为了约束伪3D标签的合理性,作者精心设计了两种标签评分策略来表示它们的质量。相对于原始的硬深度标签,这种软伪标签的质量分数允许网络学习一个合理的深度范围,提高训练的稳定性,从而提高最终的性能。在 KITTI 和 Waymo 基准上的大量实验表明,作者的方法显著地改善了最先进的单目3D检测器(在 KITTI 验证集的适度设置下,BEV 的改善为1.82 ± 10.91% mAP,3D的改善为1.18 ± 9.36% mAP)。
介绍
由于在机器人导航和自动驾驶方面的广泛应用,3D目标检测已经成为计算机视觉领域的一个活跃的研究领域。尽管基于 LiDAR 的3D目标检测器[6]-[8]由于精确的深度测量而取得了优异的性能,但是这些方法的应用仍然受到3D传感器的高成本,有限的工作范围和稀疏的数据表示的限制。另一方面,基于单目的3D检测器[9]-[14]因其易于获取和丰富的语义线索,在自动驾驶中受到越来越多的关注。
尽管最近在提高准确性方面付出了巨大的努力,但是单目3D目标检测仍然具有很大的挑战性,这一点已经得到了[14]-[17]的证实。早期的工作基于成熟的2D目标检测,利用2D感兴趣区域(ROI)回归3D信息。[18]-[22]通过引入几何先验或设置2D-3D约束来回归3D信息。业界取得了一些有希望的结果,然而,基于激光雷达和单目的方法在准确性之间的差距仍然是显著的。基于单目的方法竞争力较低的关键原因之一是缺乏精确的深度知识。
为此,许多以前的工作[23]-[35]集中于提高实例深度估计的准确性。这些方法主要包括两种深度先验编码策略,要么在深度预测的中间任务上建立依赖关系,要么在最终结果上添加几何约束。对于前者,通过单目深度估计或额外设计的模块得到的初始深度预测值,丰富了数据的表达内容。一些方法使用预测的深度值将前视图转换为其他视图,例如鸟瞰图(BEV)[23] ,[26]。其他方法将预测的深度值与相应的 RGB 值组合成新的数据表示形式,例如,将它们连接到通道上[27]或将它们转换成 LiDAR 格式[28] ,[29]。对于后者,他们增加额外的模块或改变目标函数,以帮助估计深度。[30] ,[35]使用投影关系分别通过精心设计的体积位移损失和地面先验卷积模块来约束预测。[32]-[34]将深度值分为粗糙值和偏差校正值。[32]考虑目标之间的关系,并将3D对的距离视为偏差。[33] ,[34]分别预测深度和高度的变化,并用它们来微调粗糙值。
以往的工作采用一对一的学习策略,利用一个3D目标标签来监督学习一个2D目标的视觉特征。然而,由于2D和3D之间的不对称投影,这种一对一的学习策略往往导致深度模糊。例如,如果将一辆汽车沿着观察平台从50米的深度移动到55米,并将其尺寸放大1.1,当投影到2D平面时,视觉表示仍然保持不变。如下图1所示,当投影到2D图像时,3D空间中的不同目标可能具有非常相似的边界框和视觉特征。
考虑到汽车的平均长度、宽度和高度分别为3.88米,1.63米和1.53米,在 KITTI数据集中,当尺寸扩大了1.1倍,它仍然保持在合理的范围内。因此,这种模糊性通常会导致较差的性能,网络必须基于非歧视性视觉线索来区分不同的深度。
作者提出了一个简单而有效的即插即用模块,命名为一个边界框多目标(OBMO) ,以解决上述问题。OBMO 的核心思想是通过改变目标的纵深来添加合理的伪标签。考虑到2D图像缺乏深度,3D目标的软伪标签对编码深度先验起着重要作用。与硬标签相比,这种软标签鼓励网络学习深度分布并稳定学习过程,因为训练样本之间的梯度差异较小[36]。
设计这样的软标签是非常重要的,因为深度的显著变化往往会产生无效的3D目标尺寸,使得网络被负样本淹没。为此,作者设计了两个标签评分策略,使用维度先验和几何约束来表示伪标签的质量。通过引入 OBMO 模块和标签评分策略,在一定程度上解决了一对多问题: 鼓励网络学习目标位置的软分布,而不是确定性的。为了显示 OBMO 的优越性,作者在 KITTI 和 Waymo 数据集上进行了广泛的实验。使用多个单目3D检测器,包括直接基于回归的检测器如 RTM3D[37] ,Ground-aware[35] ,GUPNet [33]和深度感知检测器如 PatchNet [27] ,Pseudo-LiDAR [28]。实验结果表明,作者的方法稳定了训练过程,提高了整体的 BEV 和3D检测性能。在广泛应用的 KITTI 数据集上,作者的方法显著提高了最先进的(SOTA)单目3D检测器的性能,在 BEV 中提升1.82~10.91% mAP,在3D中提升1.18~9.36% mAP。在更大的 Waymo 开放数据集上,作者在 LEVEL 1(IoU = 0.5)设置下提高了3.34% 的 mAP。
本文主要贡献为:
- 作者指出单目3D检测中的深度模糊问题在以前的方法中被忽略了,并且认为这个问题会导致深度训练不稳定,从而影响检测性能。
- 为减轻单目3D目标检测深度训练不稳定的问题,作者建议推出即插即用模组 OBMO。它显式地添加了一组合适的伪标签,通过将边框沿着每个原始目标的视图平台移动。
- 作者设计了两种标签评分策略来表示伪标签的质量: IoU 标签评分和线性标签评分,它们的灵感来源于同一类别中目标的固定维度范围。
- 作者对不同的数据集进行了广泛的实验: KITTI 和 Waymo。准确性的持续提高证明了作者提出的 OBMO 的有效性。例如,在基于 GUPNet 的中等 KITTI 验证集下,作者在 中实现了21.41% ,在 中实现了15.70% ,大大改善了最先进的结果。
相关工作
激光雷达3D目标检测
由于精确的深度测量,大多数最先进的3D目标检测测量方法都是基于激光雷达[8] ,[38]-[41]。这些方法大致可分为两部分: 基于体素的方法和基于点的方法。
1)基于体素的方法 : 为了处理点云的不规则数据格式,基于体素的方法[3] ,[42] ,[43]将不规则的点云转换成规则的体素网格。然后利用成熟的卷积神经结构提取高层次特征。然而,感受野受到2D/3D卷积的内核大小的限制[44] ,[45]。此外,计算量和存储量随着输入分辨率的增加呈立方增长。为此,SECOND [46]利用了3D子流形稀疏卷积。在空间稀疏卷积中,如果没有相关的输入点,则不计算输出点,这大大提高了训练和推理的速度。此外,PointPilars [39]建议将体素简化为柱体。总的来说,基于体素的检测方法具有良好的检测效率。然而,实际上很难确定最佳的体素分辨率,因为复杂的几何和各种维度的目标。
2)基于点的方法 : 基于点的方法[47] ,[48]通过不同的集合抽象操作直接提取原始的非结构化点云特征。此外,它还为感兴趣的目标提取特殊proposals。这些基于点的方法,例如 PointNet [49]系列,为点云特征学习提供了灵活的感受野。例如,PointR-CNN [47]是一个两阶段的3D区域proposal框架,用于3D目标检测,从分割的前景点生成目标proposal,并利用语义特征来回归高质量的3D边界框。PointGNN [48]将图神经网络推广到3D目标检测。总之,基于点的方法不需要额外的预处理步骤,如体素化。然而,基于点的方法的主要瓶颈是表示不充分和效率低下。
单目3D目标检测
虽然激光雷达3D目标检测器提供了有希望的结果,但它们的缺点是工作范围有限,数据表示稀疏。另一方面,单目3D目标检测器具有成本低、帧率高等优点。目前的单目3D目标检测方法大致可分为两类: 基于直接回归的方法和深度感知的方法。
1)基于直接回归的方法 : 基于直接回归的方法[9]-[11]直接从 RGB 图像中获得3D检测结果,不需要深度图、双目图等额外知识。Mono3D[20]首先提出了一种能量最小化的方法,并假设所有的车辆都被放置在地平面上。此外,它通过编码语义分割、上下文信息、大小和位置先验以及典型目标形状,对投影到图像平面的每个候选框进行评分。Deep3DBox [19]通过去除额外的3D形状模型和复杂的预处理操作简化了整个pipeline。它以2D目标检测为基础,利用几何约束,使3D目标框与2D检测目标框紧密相连。考虑到几何推理,MonoGRNet [22]同时估计2D 边界框,实例深度,目标的3D位置和局部角。M3D-RPN [18]提出了深度感知卷积层,用于学习空间感知特征,直接生成3D proposal。
SMOKE[50]删除2D检测部分,通过预测投影3D中心直接估计3D位置。RTM3D[37]增加了8个角点作为关键点,这样就可以应用更多的几何约束来消除误报。它还设计了一个关键点特征金字塔,通过softmax得到的软权重来表示每个尺度的重要性。Center3D[51]使用线性递增离散化以及分类和回归分支的组合来预测深度。MonoFlex [24]显式地解耦被截断的目标,并自适应地结合多种方法进行目标深度估计。具体来说,它根据目标的投影中心是“内部”还是“外部”来划分目标。在此基础上,提出了一种基于不确定性的目标深度估计方法,该方法由不同的关键点组合直接回归目标深度并求解深度。GUPNet [33]提出了一个 GUP 模块来获得推断深度的几何引导的不确定性,并设计了一个分层任务学习策略来减少由错误放大引起的不稳定性。MonoDTR [13]结合了Transformer体系结构,并提出了一个深度感知Transformer模块,该模块用于在全局范围内集成上下文和深度感知特性。
基于直接回归的方法通过分支预测深度,并使用一个深度值来监督感兴趣区域(ROI)。然而,作者认为这种一对一的学习策略在单目3D目标检测中经常会遇到深度模糊问题。
2)深度感知方法 : 深度感知方法通常需要额外的深度图,用于3D检测。伪激光雷达将单目3D目标检测任务与单目深度估计任务相结合。它通过现成的深度估计器将 RGB 图像转换为点云。最后,采用有效的基于点云的3D目标检测器来获得检测结果。PatchNet [27]发现数据表示不是最重要的,而坐标转换是最重要的。因此,它直接集成3D坐标作为额外的 RGB 图像patches通道。D4LCN [52]指出,伪激光雷达等方法高度依赖于深度图的质量,而传统的2D卷积无法区分前景像素和背景像素。因此,它生成动态卷积核来提取不同3D位置的特征。CaDDN [23]离散深度范围,并利用估计到的分类像素级深度分布。该方法将表示转换为 BEV,然后利用 BEV 骨干预测3D检测结果。MonoJSG [12]将单目目标深度估计重新表述为一个渐进式细化问题,并提出了一个联合语义和几何成本量来建模深度误差。深度感知方法通过单目深度估计任务只能获得中心点像素的单个深度值。同样,他们忽略了多个合理深度值的可能性。
方法
作者首先提供了一个广泛存在的“一个边界框与多个目标”的详细分析,这种模糊性严重影响了模型的训练稳定性和准确性。以往的工作忽略了这个问题,而作者提出了一个简单而有效的模块,以减少影响。由于每个类别的维度都有其合理的范围,作者设计了两种标签评分策略来表示伪标签的质量,使不合理的伪标签无效。
深度模糊问题
显然,3D 空间要比投影的2D 空间大得多。利用2D图像恢复3D空间是一个不适定的任务。考虑到两个目标在3D空间中具有不同的3D位置,它们在2D图像中可能具有相似的边界框和视觉特征,如前面的图1所示。这表明,从2D图像预测精确的3D位置可能是不可能的。理论上作者在这一部分中证明了这一点。不失一般性,作者假设相机系统已经标定,这遵循一个典型的针孔成像原理,如方程1所示。
在这个方程中,s 是比例因子,u,v 表示目标在图像坐标系中的位置,x,y 表示目标在相机坐标系中的位置,d 表示目标的深度。,,, 来自已标定相机的内部参数。作者设置比例因子 s = 1以方便记。然后,作者可以重写方程1如下:
对于图像上的一个点 A (u,v) , 和 是固定,因为,,, 是相机的内参。
根据方程2,表示 x 与 d 之比,表示 y 与 d 之比,因此作者分别称之为 X-Z 比和 Y-Z 比。根据投影关系,知道无限的3D点可以产生 A,只要它们具有相同的 X-Z 比和 Y-Z 比(沿着相机光学中心到3D点的相同光线(x,y,d))。因此,图像上的一个点可以对应多个3D位置,图像上的一个2D边界框可以对应3D空间中的各种目标。此外,在下图2中,作者给出了三种不同视图的直观解释: 3D视图、鸟瞰视图(BEV)和横向视图。
从图2b 中,作者可以看到宽度(长度)的比值等于深度的比值。从图2c 中,高度(长度)的比值等于深度的比值。更一般地说,当yaw不等于0时,作者可以使用边界框得到相同的结论,如图2d 所示。为了获得准确的深度值,一种直观的解决方案是在2D图像和3D空间中估计目标尺寸,然后根据几何投影恢复深度。然而,尺寸估计引起的误差会放大深度估计的误差,精确预测目标尺寸是非常困难的。
假设维数估计误差在百分之一水平,则深度误差为 ± 0.01 × 深度。以前面图1中的 car P 和 car Q 为例,假设目标 Q 和目标 P 之间的维度比例因子为1.02。对于100米外的目标,由于汽车的典型高度是1.53米(KITTI 的平均值) ,0.03米的尺寸误差(1.53 × (1.02-1)≈0.03)可以导致2米的深度误差(100 × (1.02-1) = 2)。它会显著降低预测值和真值之间的 IU 值,这增加了训练的难度和不稳定性。结果表明,仅用尺寸求深度也是不可行的。
OBMO 模块
深度模糊导致不同深度的目标可以在 RGB 图像上出现非常相似的视觉线索。对于基于单目的方法,他们必须区分深度和这些非区分特征。这种特性对训练的稳定性有显著影响。因此,作者提出了一个叫做 OBMO 的模块来解决难以处理的深度模糊问题。
OBMO 的目的是让网络知道在3D空间中不同位置的目标在2D图像中可能具有相似的边界框和视觉特征。在查看了多个合理的伪标签后,网络可以给出更一般的答案。具体来说,OBMO 是一个即插即用模块,能够应用于任何单目3D 检测器。
为了减轻深度模糊问题的负面影响,作者在合理的范围内基于视图平截头体添加了一些伪标签。这种设计提高了网络的泛化能力,因为伪标签在更大的空间中消除了原始硬标签的严格限制。具体来说,作者首先计算方程2中定义的每个目标的 X-Z 比和 Y-Z 比。然后,作者通过一组小偏移量对每个地面真值(class,X,Y,Z,H,W,L,yaw)进行深度扰动。深度偏移是由尺寸误差容差及其深度决定的。以“汽车”为例,作者在{ -8% ,-4% ,+ 4% ,+ 8% }中选择了。然后根据 X-Z 比和 Y-Z 比分别调整 X 和 Y。由于维度预测(H,W,L)的学习是相对准确和稳定的,如下图3所示,而且维度是一个目标的拥有属性,因此作者不会改变它,只关注3D位置的预测。作者仍然进行消融研究来证明作者的设计,如消融研究表 X 所示。因此,作者得到了一个新的伪标签
两种标签评分策略
然而,添加的伪标签并不是无限的。如果伪标签离对应真值太远。那么维度的转换就太沉重了。对于每一类目标,其维度都是有限的。因此,为了使伪标签更加合理,应该对深度偏移量加以限制,或者区分不合理的伪标签,这样不合理的伪标签就不会影响训练。因此,作者设计了两种标签得分,用来表示伪标签的质量。一个是 IoU 标签分数,另一个是线性标签分数。
*1) IoU Label 得分 : 由于 IoU 是衡量两个边界框有多相似的一个很好的指标,作者用它作为质量得分。IOU 值越高,伪标签越显著。如果两个目标不相交,3D 的 IU 是0,但是2D 的项目 IU 可能不相交。这是常见的类别与较小的长度,如行人。因此,作者不再使用3D IoU,而是使用2D 项目目标框的 IoU 值,定义如下:
是指原始的真值的2D 项目目标框,而 B 伪是增加的伪3D k框标签的投影项目目标框。
2)线性标签得分: 此外,作者引入了另一个简单而有效的评分策略: 线性标签得分。它只关心深度的偏移,作者使用一个简单的线性函数,如方程4所示,
其中 c 是一个超参数,作者使用它来平衡伪标签的影响。c越大,伪标签对训练阶段的影响越大。因此,选择 c 是一种权衡。在作者的实验中,选择 c = 4,从经验上来说,这使得得分范围在[0,1]。这种评分策略直观地反映了伪标签的质量。对于距离太远的伪目标,线性标签得分小于0并过滤掉它们。对于真值,两种评分策略下的质量得分都设置为1.0。在消融实验部分,作者发现这两种标签评分策略具有相似的性能,这意味着 OBMO 对标签评分策略具有鲁棒性。
质量评分估计分支是采用与其他并行回归头相同结构的辅助网络。作者使用真值 Label Score 和预测的 Label Score 之间的 L1损失,如下所示:
总目标函数是:
λ 是作者的标签得分损失和原方法设计的损失之间的权衡。如果基线单目检测器是 GUPNet,则 LBaseline 是2D检测(包括热力图、2D偏移量和2D尺寸)、3D头(包括角度、3D偏移量和3D尺寸)和深度推断的分层任务loss。下图4显示了嵌入在 GUPNet 中的标签评分策略的 OBMO 的整个过程,它可以归结为添加合理的伪标签和添加一个并行的标签评分分支。
实验
实现细节
作者采用来自每个基线的公开代码: PatchNet [27] ,Pseudo-LiDAR [28] ,Ground-aware [35] ,RTM3D [37]和 GUPNet [33]。作者使用他们的论文或项目中描述的相同配置。以 GUPNet 为例,以 DLA-34为主干,对batch size为32的模型进行140个epoch的训练,采用初始学习率为1.25 e-3,并在90和120 epoch进行衰减。作者训练所有模型,使用11 GB 内存的Nvidia GTX 1080Ti。
此外,作者对所有检测器设置了 = { -8% ,-4% ,+ 4% ,+ 8% } ,并公布了 IoU 标签得分和线性标签得分之间较好的一个。对于像 PatchNet 这样的单目3D 检测器,它直接将2D 目标框的分数作为目标的绝对置信度,作者采用了2D-3D从[53]的置信度机制,使得分数更好地描述3D 预测。
数据集和评测
作者在 KITTI [54]和 Waymo [55]基准上进行实验。
作者在 KITTI [54]和 Waymo [55]基准上进行实验。
1) KITTI : KITTI 是广泛应用于单目3D 目标检测的数据集。它提供了7481个训练图像和7518个测试图像。所有这些场景都是在德国卡尔斯鲁厄附近拍摄的,当时天气晴朗,白天也是如此。为了进行公平的比较,作者按照以前的工作[33] ,[35] ,[56]将训练图像分为训练集(3712张图像)和验证集(3769张图像)。所有的实验都是在这个数据集分割下进行的。此外,检测结果评估在三个难度级别: 简单,中等和困难,这是根据2D边界框的高度,遮挡和截断不同。作者在两个核心评价下进行了实验: 3D边界框 的平均精度和鸟瞰图 中目标的平均精度。对于度量,作者使用 KITTI 基准最近建议的度量 和 [54]。按照通常的做法[27] ,[33] ,[37] ,作者评估的结果对汽车类别下的 IoU 阈值设为0.7。
2) Waymo : Waymo 数据集是最近发布的用于自动驾驶研究的大型数据集。它由798个训练序列和202个验证序列组成。这些场景在凤凰城、山景城和旧金山拍摄,在多种天气下,一天中有多次拍摄。与 KITTI 不同的是,它提供360度视野的3D 框标签,而作者只使用前视图完成单目3D 目标检测的任务。作者使用在 CaDDN [23]中提出的相同的数据处理策略。具体来说,由于训练序列数据量大,帧速率高,作者从训练序列中抽取每三帧来构成训练集。作者采用官方发布的评价结果来计算平均精度(mAP)和航向加权平均精度(mAPH)。评估分为难度设置(级别1,级别2)和距离传感器(0-30米,30-50米,和50米-无穷)。作者用0.7和0.5的IoU标准来评估汽车类别。
定量结果
在下表1中,对作者提出的方法和现有的SOTA方法在 KITTI 基准测试集中汽车类别进行了一个全面的比较。
没有花哨,在 和 上,作者的方法优于所有先前的方法,包括具有其它辅助信息的方法。对于,作者的方法是22.71%/15.70%/13.23% ,在三个难度水平上远远高于基线 GUPNet。在简单级别,性能改进甚至更为显著。作者怀疑,这是因为,对于远处的汽车来说,相比近处的汽车,微小的深度变化需要一个重大的尺寸变化。事实上,在远处的目标中也有较少的视觉信息。_
下表2中,作者进一步展示了嵌入在其他 SOTA 单目检测器中的 OBMO 模块的效果。
由于不同的 train-val 分割,PatchNet* 进行统一的重新训练[56]。至于 RTM3D 和Pseudo-LiDAR,它们只在论文中报告 的结果,作者在 上通过它们的公开模型对它们进行了评估。这些改进表明,OBMO 可以同时应用于基于直接回归和深度感知的方法。结果表明,深度感知方法的改进比直接回归方法的改进更为显著。具体来说,就 PatchNet 而言,作者将由25.43%/17.71% 改善至29.33%/22.67% .作者认为 OBMO 可以在一定程度上减轻单目深度估计较差的影响。对于基于直接回归的方法,如 RTM3D,/ 的原始检测器在适当的设置下提高了1.82%/2.14% 。这些重要的改进证明了作者方法的有效性和鲁棒性。
作者进一步研究了在训练中加入 OBMO 模块后的深度损失曲线。如下图5所示,可以很容易地看到使用 OBMO 的方法具有更平滑的学习曲线。
相比之下,原来的检测器曲线是不稳定的,并包含许多强烈的振荡。这表明,OBMO 赋予网络稳定学习的深度,稳定整体学习过程,从而带来明显的改善。
消融实验
作者在消融实验中使用 PatchNet * 作为基线检测器以节省训练时间。默认情况下,作者将深度偏移量设置为{ -8% ,-4% ,+ 4% ,+ 8% }并使用线性标签得分。X-Z 比率和 Y-Z 比率都是约束条件。
各组成部分的有效性。为了研究 OBMO 的每个组成部分所带来的影响,作通过额外的实验来调查它们,如下表3所示。结果表明,该模块的各个组成部分都是有效的。随着分量的逐渐增加,最终的精度也相应提高。作者可以看到,在适度的设置下,初始性能(AP)从15.05%/10.46% 提高到22.75%/16.63% ,这是相当令人印象深刻的。此外,IoU 标签得分和线性标签得分对伪标签都有很好的效果,表明所提出的软标签策略是稳健的,因为它对特定设计的方式不敏感。
不同的约束。此外,作者还研究了不同约束条件,即 X-Z 比率和 Y-Z 比率所带来的影响。如果作者不使用 X-Z 比率或 Y-Z 比率作为约束,X 或 Y 将不会改变作者的伪标签。结果见下表4。
最终,作者通过组合使用它们来实现最佳性能。
深度偏移量。作者进一步说明了不同深度偏移量的影响。特别是由于离散的深度值,作必须小心地选择一个合适的深度偏移量。然而,在做出选择时却有一个进退两难的境地。如果深度偏移量太小,则需要在合理的深度范围内添加多个伪标签,计算复杂度将大大增加。相反,如果深度偏移太大,作者将失去一些合理的伪标签,导致次优性能。因此,根据 KITTI 数据集的统计维数信息,作者使用4个伪标签尝试四个基本偏移值: {2% ,4% ,6% ,8% }。特别是,如果作者选择2% 的基数,那么 = { -4% ,-2% ,+ 2% ,+ 4% }。作者在下表5中公布了相应的结果。
这表明,适当的深度偏移确实是理想的。然后作者将深度偏移量的基值固定为4% ,并更改伪标签的数量。特别是,如果使用四个伪标签,那么 = { -8% ,-4% ,+ 4% ,+ 8% }。结果见下表6。
添加六个伪标签会比增加四个伪标签降低性能。这意味着如果深度值超出了合理的范围,那么添加的伪标签对性能没有帮助,甚至可能对性能有害。
直观地讲,如果添加的伪标签过于密集,也会降低性能。因此,作者将深度偏移的最大值设置为8% · Z,并从{2,4,6,8}中选择伪标签的个数。特别是,如果作者使用4个伪标签,那么 = { -8% ,-4% ,+ 4% ,+ 8% }。结果如下表 7 所示,验证了这一观点。总之,在 KITTI 数据集中,汽车类深度偏移量的最佳选择是{ -8% ,-4% ,+ 4% ,+ 8% }。
作者还在 Waymo 数据集中使用这个设置,因为 Car 类别的维度是相似的。此外,作者还评估了在下表8中对不同难度级别的目标应用 OBMO 的性能。根据2D边界框的高度、遮挡和截断值定义目标的难度级别。
可以看到,OBMO 在所有级别的目标中都运行良好,这意味着深度模糊问题确实存在并且广泛存在。
标签得分的权重 λ。作者在 label score 分支中使用不同的loss权重,并在表9中公布结果。当损失权重设置为1时,模型表现得更好。
保持维度。为了验证改变尺寸会损害性能,作者同时改变位置和尺寸。结果如表10 所示。当作者改变目标的尺寸,性能急剧下降。作者不能改变目标拥有的固有属性。否则,伪标签是不合理的。至于作者修改的位置,它们是当前状态值,可以更改。
OBMO 的推广。进一步验证了本文方法的推广性。一方面,作者测试其他类别: 行人和自行车。另一方面,作者在另一个更大的数据集Waymo上进行测试。
对于第一种情况,作者使用与 Car 相同的默认配置,即四个伪标签: = {-8% ,-4% ,+ 4% ,+ 8% }和 IoU 标签得分。结果如下表11所示。作者对他们两个人的IoU阈值都是0.5。改进是显而易见的,证明作者的方法可以适用于不同的类别。
对于后一个,作者以 GUPNet [33]为基线,采用 mAP 和 mAPH 度量,分别在 IoU 阈值0.7和0.5下。“级别1”表示包含超过5个激光雷达点的边界框的评估。“ 级别2”表示对所有边界框的评估。结果证明,作者提出的 OBMO 方法在所有设置中都取得了一致的改进,如表12所示。
定性结果
为了可视化地评估作者基于 GUPNet 的方法的性能,作者在下图6中举例说明。为了清晰地显示目标在3D世界空间中的位置,作者还将激光雷达信号和真值3D框可视化。可以观察到,作者模型的输出在合理距离的情况下是非常准确的。不幸的是,对于被遮挡和截断的目标来说,这仍然是一个挑战,这是大多数单目3D检测器的常见难题。
局限性和未来工作
虽然作者的工作试图减轻深度模糊问题的影响,但单目图像的深度预测仍然是一个不适定问题。丢失一些像素信息的被遮挡和被截断的目标甚至是更难被发现。作者的 OBMO 模块只允许网络学习一个合理的深度范围,使深度预测更加灵活。它不能提高一个目标的置信度。如果一个目标具有较低的3D 目标评分,仍然很难知道其深度范围。作者将在今后的工作中考虑上述情况。
结论
在本文中,作者指出,由于3D空间巨大,很难准确预测深度。根据这一发现,作者设计了一个简单而优雅的即插即用模块 OBMO。在 X-Z 比值和 Y-Z 比值下添加伪标签,设计了 IoU 标签得分和线性标签得分两种标签得分。与现有的单目3D目标检测方法相比,OBMO 在具有挑战性的 KITTI 和 Waymo 基准上取得了更好的性能。
参考
[1] OBMO: One Bounding Box Multiple Objects for Monocular 3D Object Detection
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)