在自动驾驶感知系统中,3D检测和跟踪是两个基本任务。本文深入探讨这一领域,并基于Sparse4D框架进行扩展。
作者提出了两种辅助训练任务(时间实例去噪和质量估计)并提出了解耦注意力以实现结构改进,从而在检测性能上取得了显著的提升。
此外,作者采用一种直接的方法将检测器扩展为跟踪器,在推理过程中分配实例ID,进一步突显了基于查询的算法的优势。在nuScenes基准测试上进行的广泛实验验证了所提出改进的有效性。
使用ResNet50作为Backbone网络,作者在mAP、NDS和AMOTA方面分别取得了3.0%、2.2%和7.6%的改进,分别达到了46.9%、56.1%和49.0%,最佳模型在nuScenes测试集上实现了71.9%的NDS和67.7%的AMOTA。
1 Introduction
在时间多视角感知研究领域,稀疏型算法取得了显著的进展,达到了与密集型BEV算法相当的感受性能,同时具有多个优点:
- 自由视角变换。这些稀疏方法消除了将图像空间转换为3D向量空间的需要
- 检测头中的恒定计算负载与感知距离和图像分辨率无关
- 通过端到端的方式更容易实现将下游任务集成
在本研究中,作者选择稀疏型算法Sparse4Dv2作为实现改进的基础。算法的整体结构如图1所示。图像编码器将多视角图像转换为多尺度特征图,而解码器则利用这些图像特征来细化实例并生成感知结果。
首先,作者观察到稀疏型算法在收敛性方面相比密集型算法面临更大的挑战,最终影响其最终性能。这个问题在2D检测领域得到了充分的研究,主要归因于使用一对一的正面样本匹配。这种匹配方法在训练的初始阶段是不稳定的,并且与一对一的匹配相比,导致正样本的数量有限,从而降低了解码器训练的效率。
此外,Sparse4D利用稀疏特征采样而不是全局交叉注意力,这进一步由于正样本的稀缺性而阻碍了编码器的收敛。在Sparse4Dv2中,引入了密集深度监督来部分缓解图像编码器面临的收敛问题。这篇论文主要致力于通过关注解码器训练的稳定性来提高模型性能。作者将去噪任务作为辅助监督,并将去噪技术从2D单帧检测扩展到3D时间检测。
它不仅确保了正样本匹配的稳定性,而且显著增加了正样本的数量。此外,作者将质量估计任务作为辅助监督引入。这使得输出置信度更加合理,优化了检测结果排序的准确性,从而导致了更高的评估指标。
此外,作者在Sparse4D中的实例自注意力结构和时间交叉注意力模块的结构进行了增强,引入了一种解耦注意力机制,旨在在计算注意力权重时减少特征干扰。
如图3所示,当将Anchor嵌入和实例特征作为注意力计算的输入时,结果中的注意力权重存在异常值。这无法准确反映目标特征之间的相关性,导致无法聚合正确的特征。
通过用连接代替加法,作者显著减少了这种错误现象的发生。这种改进与Conditional DETR具有相似之处。
然而关键的区别在于作者强调的是查询之间的注意力,而与Conditional DETR不同,Conditional DETR专注于查询和图像特征之间的交叉注意力。此外,作者的方法涉及一种独特的编码方法。最后,为了提高感知系统的端到端能力,作者将3D多目标跟踪任务集成到Sparse4D框架中,使得对象运动轨迹可以直接输出。
与基于检测的跟踪方法不同,作者消除了数据关联和过滤的需要,将所有跟踪功能集成到检测器中。此外,与现有的联合检测和跟踪方法不同,作者的跟踪器不需要修改训练过程或损失函数。它不需要提供真实ID,但实现了预定义的实例到跟踪回归。作者的跟踪实现最大限度地将检测器和跟踪器集成在一起,不需要修改检测器的训练过程,也不需要额外的微调。
作者的贡献可以总结如下:
- 提出了Sparse4D-v3,这是一个强大的3D感知框架,具有三个有效策略:时间实例去噪、质量估计和分离注意力
- 将Sparse4D扩展为一个端到端的跟踪模型
- 在nuScenes上展示了作者改进的有效性,在检测和跟踪任务上都取得了最先进的性能
2 Related Works
Improvements for End-to-End Detection
DETR利用Transformer架构,采用一对一匹配训练方法,消除了NMS的需求,实现了端到端检测。DETR导致了后续的一系列改进。Deformable DETR 将全局注意力改为基于参考点的地方注意力,显著缩小了模型的训练搜索空间并提高了收敛速度。它还减少了注意力的计算复杂度,便于在DETR的框架内使用高分辨率输入和多尺度特征。
Conditional-DETR 引入了条件交叉注意力,将查询中的内容和空间信息分离,并通过点积独立计算注意力权重,从而加速模型收敛。在Conditional-DETR的基础上,Anchor-DETR明确初始化了参考点,作为Anchor。DAB-DETR 进一步将边界框尺寸纳入Anchor的初始化和空间查询的编码中。此外,许多方法从训练匹配的角度出发,旨在增强DETR的收敛稳定性和检测性能。
DN-DETR 将带有噪声的真实值编码为查询输入传递给解码器,并利用去噪任务作为辅助监督。基于DN-DETR,DINO 引入了噪声负样本,并提出了使用Mixed Query Selection进行查询初始化,从而进一步提高了DETR框架的性能。Group-DETR 在训练过程中将查询复制到多个组中,提供更多的训练样本。Co-DETR 在训练过程中合并了密集头,具有双重作用。它使得Backbone网络的训练更加全面,并利用密集头的输出作为查询来增强解码器的训练。
DETR3D 将变形注意力应用于多视角3D检测,实现端到端的3D检测和空间特征融合。PETR系列引入了3D位置编码,利用全局注意力进行直接多视角特征融合并进行时间优化。Sparse4D系列通过实例特征解耦、多点特征采样、时间融合等方面改进了DETR3D,从而提高了感知性能。
Multi-Object Track
大多数多目标跟踪(MOT)方法使用跟踪检测框架。它们依赖于检测器输出执行后处理任务,如数据关联和轨迹过滤,导致一个复杂的流水线,其中有许多超参数需要调整。这些方法没有充分利用神经网络的能力。
为了将跟踪功能直接集成到检测器中,GCNet,TransTrack 和 TrackFormer 利用了DETR框架。它们根据跟踪查询实现帧间目标转移,显著减少了后处理依赖。MOTR 将跟踪过程推进到完全端到端的过程。MOTRv3 解决了MOTR在检测器查询训练中的限制,从而在跟踪性能上取得了显著的改进。MUTR3D 将基于查询的跟踪框架应用于3D多目标跟踪领域。
作者的方法与现有方法有所不同。作者不需要修改检测器的训练或推理策略,也不需要地面真值来跟踪ID。
3 Methodology
网络结构和推理管道如图1所示,与Sparse4Dv2 相同。在本节中,作者将首先介绍两个辅助任务:时间实例去噪(第3.1节)和质量估计(第3.2节)。接下来,作者提出了一种直接改进注意力模块的方法,称为解耦注意力(第3.3节)。最后,作者概述了如何利用Sparse4D实现3D MOT(第3.4节)。
Temporal Instance Denoising
在2D检测中,引入去噪任务被证明是一种有效的提高模型收敛稳定性和检测性能的方法。在本论文中,作者将基本的2D单帧去噪扩展到3D时间去噪。在Sparse4D中,实例(称为查询)被解耦成隐式实例特征和显式Anchor。在训练过程中,作者初始化两组Anchor。一组Anchor均匀分布在检测空间中,使用k-means方法初始化,这些Anchor作为可学习参数。
另一组Anchor是通过将真实值(GT)添加噪声生成的,如图1(2)所示,专为3D检测任务定制。
在这里, 表示介于1和X之间的整数集合。表示GT的数量,而表示噪声实例的分组数量。在这个上下文中, 表示随机噪声,其中和分别在范围 和 内遵循均匀随机分布。
在DINO-DETR中,将生成的样本分类为正样本,将生成的样本分类为负样本,存在潜在的误分配风险,因为可能更接近真实值。为了完全消除任何歧义,作者使用二分图匹配每个和组来确定正样本和负样本。
此外,作者将上述的单帧噪声实例通过时间传播扩展,以更好地与稀疏循环训练过程对齐。在每一帧的训练中,作者从噪声实例中随机选择组,并将它们投影到下一帧。时间传播策略与无噪声实例的对齐方式相同 - Anchor经历自位姿和速度补偿,实例特征作为后续帧特征的直接初始化。
需要注意的是,作者保持每组实例之间的相互独立性,噪声实例和正常实例之间没有特征交互。这与DN-DETR 不同,如图4(b)所示。这种方法确保在每一组内,最多只有一个真实值与正样本匹配,有效地避免了任何潜在的歧义。
Quality Estimation
现有的稀疏型方法主要估计正样本和负样本的分类置信度来衡量与真实值的对齐。优化目标是最大数据集的所有正样本的分类置信度。然而,不同正样本之间的匹配质量存在显著差异。因此,分类置信度并不是评估预测边界框质量的理想指标。为了帮助网络理解正样本的质量,在加速收敛的同时,合理地排序预测结果,作者引入了预测质量估计任务。对于3D检测任务,作者定义了两个质量指标:中心度和懒散度,其公式如下。
虽然网络输出分类置信度,但同时估计中心度和懒散度。它们的各自损失函数定义为交叉熵损失和焦点损失[24],如图所示。
Decoupled Attention
正如介绍中所提到的,作者对Sparse4Dv2中的Anchor编码器、自注意力机制和时间交叉注意力进行了简单的改进。如图5所示,设计原则是将不同模态的特征以串联的方式组合,而不是使用加法方法。
与Conditional DETR 相比,有一些不同之处。首先,作者在查询之间的注意力上进行改进,而不是查询和图像特征之间的交叉注意力;交叉注意力仍然使用来自Sparse4D的变形聚合。此外,与在单头注意力级别上将位置嵌入和查询特征串联不同,作者在多头注意力级别上对位置嵌入和查询特征进行外部修改,为神经网络提供了更大的灵活性。
Extend to Tracking
在Sparse4Dv2的框架中,时间建模采用了一种循环形式,将前帧实例作为输入投影到当前帧。时间实例与基于查询的跟踪器中的跟踪查询类似,但跟踪查询受到更高阈值的约束,表示高度确信的检测结果。相比之下,作者的时间实例众多,其中大多数可能无法准确地表示前帧中检测到的物体。
为了在Sparse4Dv2框架内从检测扩展到多目标跟踪,作者直接将实例从检测边界框重新定义为轨迹。一个轨迹包括每个帧的ID和边界框。由于大量冗余实例的设置,许多实例可能无法与精确目标关联并分配确定ID。然而,它们仍然可以传播到下一帧。
当一个实例的检测置信度超过阈值时,它被认为是锁定在目标上并分配一个ID,该ID在整个时间传播过程中保持不变。因此,实现多目标跟踪就像将ID分配过程应用于输出的感知结果一样简单。
在Sparse4Dv2中,跟踪过程中的生命周期管理由Sparse4Dv2中的顶k策略无缝处理,无需进行任何额外修改。具体内容可参见算法1。在作者的实验中,作者观察到经过训练的时间模型在不需要跟踪约束进行微调的情况下,展示出出色的跟踪特性。
算法1 Sparse4Dv3的跟踪管道
4实验
基准
为了验证Sparse4Dv3的有效性,作者使用nuScenes数据集,该数据集包含1000个场景。训练、验证和测试的数据分布分别为700、150和150个场景。每个场景包含一个20秒的2帧/秒视频片段和6个视角图像。除了3D边界框标签外,该数据集还提供了车辆运动状态和相机参数的数据。
对于检测性能评估,一个全面的方法考虑了诸如平均精确率(mAP)、平均平均误差(mATE)、比例(mASE)、方向(mOE)、速度(mAVE)、属性(mAAE)和nuScenes检测评分(NDS)等指标,其中NDS是其他指标的加权平均。
对于跟踪模型评估,主要指标包括平均多目标跟踪准确率(AMOTA)、平均多目标跟踪精度(AMOTP)、召回率、ID切换(IDS)。有关详细信息,请参阅[2; 15]。
实现细节
遵循Sparse4Dv2的设置,除非另有说明,否则作者的头部利用一个6层的解码器,包括900个实例和个时间实例,具有256维的嵌入维度。此外,它还包含7个固定的关键点和6个可学习的关键点。在算法1中,参数和分别设置为0.25和0.6。对于去噪实例的组数为5,其中3组被随机选择作为时间去噪实例。
作者使用AdamW优化器训练模型100个周期,无需对跟踪任务进行任何微调。与大多数方法一样,作者采用顺序迭代训练方法。每次训练步骤从单个帧的输入数据和来自历史帧的实例缓存中获取数据。时间模型的训练持续时间和GPU内存消耗与单帧模型相似,允许作者有效地训练时间模型。
除了在本文中引入的时间实例去噪和质量估计任务外,作者还包含密集深度回归作为辅助任务,以增强模型训练的稳定性。
主要结果
为了更好地控制变量,作者在验证集上进行全面的比较实验,如表1所示。
在第一个实验设置中,作者使用ResNet50作为Backbone网络,使用来自ImageNet-1k上监督训练的参数进行初始化。图像大小设置为。这些参数对GPU内存和训练时间的要求相对较低,便于进行实验迭代。在这个配置中,Sparse4Dv3在mAP和NDS方面分别提高了3.0%和2.2%。
在第二个实验设置中,作者使用ResNet101作为Backbone网络,并将图像大小加倍至,以评估模型在更大图像上的性能。在这个配置中,Sparse4Dv3在mAP和NDS方面分别提高了3.2%和2.9%。此外,与Sparse4Dv2相比,推理速度保持基本不变。在配置中,作者的推理速度仍然超过了StreamPETR,该方法利用全局注意力。
在nuScenes测试集上的3D检测。 此外,作者在nuScenes测试集上评估模型的性能,如表2所示。为了保持与大多数算法的一致配置,作者使用VoVNet-99作为Backbone网络,并使用DD3D[34]的预训练权重进行初始化,图像大小设置为。
在测试集上,Sparse4Dv3在mAP和NDS方面分别提高了1.3%和1.8%。重要的是,稀疏基于的算法在距离误差(mATE)方面的性能显著超过了密集BEV基算法。这主要是由于作者采用的质量估计所实现的置信度排序稳定性,从而在mATE方面取得了显著改进。
3D多目标跟踪。 作者直接在表1和表2中使用MOT3D指标评估模型,而无需进行额外的微调。如图3所示,在验证评估集上,Sparse4Dv3在所有跟踪指标方面显著优于现有方法,无论它们是端到端方法还是非端到端方法。
与最先进的端到端解决方案DORT相比,在相同配置下,作者的AMOTA提高了6.6%(0.490 vs 0.424)。与端到端解决方案DQTrack相比,作者的AMOTA提高了16.0%(0.567 vs 0.407),ID切换降低了44.5%(557 vs 1003)。
表4在测试集上呈现了评估结果,其中Sparse4Dv3在IDS、召回率、MOTAR、MOTA和MOTP等指标上实现了最先进的性能。
消融研究
作者进行消融实验来评估本文的改进。在控制变量的情况下,作者逐步引入单个改进,并显示结果在表5中。具体而言,去噪在各种指标上都有显著改进。单帧去噪和时间去噪分别提高了mAP的0.8%和0.4%,以及NDS的0.9%和0.6%。解耦注意力主要增强了模型的mAP和mAVE,分别提高了1.1%和1.9%。中心度与预期设计一致,显著降低了距离误差(mATE),1.8%。
然而,它对方向估计误差产生了负面影响,部分地通过引入懒散度得到缓解。将两者结合使用,结果提高了0.8%的mAP,2.8%的mATE,以及1.9%的mAVE。
图6(a)显示了Sparse4Dv2和Sparse4Dv3的损失和评估指标的训练曲线。可以观察到,Sparse4Dv3在最终收敛和收敛速度方面都显著优于Sparse4Dv2。作者进一步验证了中心度对模型性能的影响。作者认为,通过分类损失在一对一匹配中训练得到的置信度并不能有效地反映检测结果的质量。一个高置信度的框不一定对应于更接近的地面真值。
在引入中心度后,作者使用中心度乘以置信度作为每个检测结果的分数,使检测结果的排名更加准确。如图6(b,c)所示,当不使用中心度时,在低召回率和高阈值情况下(例如,召回0.1或阈值0.95),模型准确性仍然不高,且翻译误差较大。引入中心度后,这种现象得到了显著缓解。
基于云的性能提升
在有足够计算资源的云系统上,通常利用更大的计算资源来达到最佳性能。因此,作者采用两种措施来进一步发挥Sparse4D的潜力,包括与未来帧的特征融合和更大、更预训练的Backbone网络。首先,作者采用Sparse4Dv1中的多帧采样方法,将来自未来8帧(2 FPS)的特征进行融合。通过包括下一帧的特征(2 FPS),在mAP和mAVE方面取得了显著改进,分别降低了5.67%和3.23%。
此外,遵循StreamPETR的方法,作者尝试使用EVA02作为Backbone网络。EVA02已经进行了彻底的预训练,其特征提取富含语义信息,提供了更强的泛化和辅助模型分类。与ResNet101相比,EVA02-Large在mAP方面提高了5.98%。通过结合EVA02和未来帧,作者在nuScenes测试集上实现了令人瞩目的mAP(0.682)、NDS(0.719)和AMOTA(0.677)。这一成就甚至超过了某些使用激光雷达的检测模型(例如TransFusion)。
参考
[1]. Sparse4D v3 Advancing End-to-End 3D Detection and Tracking.