YOLO还真行 | 2D检测教3D检测做事情，YOLOv7让BEVFusion无痛涨6个点，长尾也解决了-阿里云开发者社区

自动驾驶车辆（AVs）必须准确检测来自常见和罕见类别的物体，以确保安全导航，这催生了长尾3D目标检测（LT3D）的问题。当代基于激光雷达（LiDAR）的3D检测器在罕见类别上的表现不佳（例如，CenterPoint仅在_stromler_上达到5.1 AP），因为仅从稀疏的激光雷达点中识别物体是困难的。图像提供视觉证据，有助于解决这种歧义，从而促进了RGB-LiDAR融合的研究。

在本文中，作者深入研究了一个简单的晚期融合框架，该框架将独立训练的RGB和激光雷达检测器进行组合。与最近端到端的方法相比，作者的晚期融合方法可以轻松利用大规模的单一模式数据集，显著提高罕见类别检测。特别的是，作者从根本上检查了晚期融合框架中的三个关键组成部分，包括是否要训练2D或3D RGB检测器，是否要在3D空间中匹配RGB和激光雷达检测，还是在投影到2D图像平面的2D图像空间中进行融合。

大量实验表明，2D RGB检测器比3D RGB检测器具有更好的识别精度，2D图像平面的匹配可以减轻深度估计误差，而将匹配的分数进行概率融合，可以实现最先进的LT3D性能。作者的晚期融合方法在建立的nuScenes LT3D基准上达到了51.4 mAP，比先前的成果提高了5.9 mAP。

1 Introduction

3D目标检测是自动驾驶车辆（AV）感知堆栈的至关重要组成部分。为了促进3D感知研究，AV行业已经发布了许多大规模的多模态数据集。然而，尽管在检测常见类别（如汽车和公交车）方面取得了显著改进，最先进的检测器在罕见类别（如_stromler_和_debris_）上的表现仍然不佳，这可能会影响下游规划，从而催生了_长尾3D检测_（LT3D）的研究。

现状

长尾3D检测不能仅仅通过在常见和罕见类别上都训练最先进的（SOTA）检测器来解决。例如，BEVFusion，这是一个端到端训练的多模态 Transformer 基础检测器，在罕见类别上的性能仅达到4.4 AP。相比之下，将单目3D RGB检测和3D激光雷达检测进行晚期融合可以提高罕见类别的识别（参见图1），在nuScenes LT3D基准上实现SOTA性能。重要的是，[42]表明：（a）激光雷达检测器具有高召回率，但难以正确识别罕见物体；（b）RGB检测器在识别上更好，但无法可靠地估算深度。

技术见解

为了解决LT3D问题，作者深入研究了[42]提出的简单晚期融合框架（参见图1），并从根本上一致性（参见图2）研究了三个关键设计选择，包括是否要训练2D或3D RGB检测器，是否要在2D图像平面或3D鸟瞰图上匹配RGB和激光雷达检测，以及如何将匹配的检测进行融合。

首先，作者评估了使用2D versus 3D RGB检测器进行晚期融合的影响，并发现前者训练起来相对简单，可以充分利用具有2D标注的外部数据集，并导致所有类别上的平均AP更高。这在实际中有意义，因为标注RGB图像上的2D框比标注3D立方体要便宜得多。

接下来，作者研究了在2D图像平面或3D鸟瞰图（BEV）中匹配2D RGB检测和3D LiDAR检测的影响。在3D BEV中匹配检测需要使用激光雷达点提供的深度信息将2D检测膨胀到3D。这引入了额外的深度估计误差。相反，作者证明了将3D LiDAR检测投影到2D图像平面进行匹配更为鲁棒。

最后，作者研究了评分校准和贝叶斯融合来组合匹配检测。作者发现适当的评分校准可以提高罕见类别检测并实现激光雷达和RGB检测的贝叶斯融合。如果没有评分校准，罕见类别检测往往会被覆盖的常见类别检测所抑制。

贡献

主要有以下三个贡献：

广泛研究了晚期融合框架中的三个设计选择（参见图2），并从中获得了适用于检测器架构的通用技术见解。
受到上述研究的启发，提出了一种简单的晚期融合方法，有效地将基于2D RGB的检测和基于3D LiDAR的检测进行融合。
进行了全面的实验来验证作者的设计选择，并证明作者的简单方法在nuScenes和Argoverse 2 LT3D基准上实现了最先进的结果。

2 Related Work

自动驾驶车辆（AVs）的3D检测可以根据输入模态进行广泛分类：LiDAR-only，RGB-only和多模态检测器。近年来，3D检测受到2D检测的启发。LiDAR基础检测器，如PointPillars，CBGS和PVRCNN++，采用类似于SSD的架构，从BEV特征图中回归无模态边界框。

更近的是，CenterPoint采用了一种中心回归损失，灵感来源于[72]。尽管取得了显著的进展，但由于稀疏的激光雷达点很难将前景物体与背景区分开来，LiDAR基础检测器通常会产生许多假阳性。另一方面，单目RGB基础方法近年来受到越来越多的关注，因为传感器成本低且广泛采用[22]。FCOS3D通过额外回归每个检测的尺寸、深度和旋转来扩展FCOS。最近的方法如BEVDet和BEVFormer通过估计每个像素的深度构建BEV特征图。PolarFormer引入了一种极坐标变换来改进近场检测。

重要的是，许多最先进的3D RGB检测器通常在大规模外部数据集如DDAD上进行预训练。单目RGB检测器可以准确分类物体，但很难估计深度，尤其是在远场检测。尽管在激光雷达和RGB 3D检测方面取得了近期进展，但作者发现多模态融合对于LT3D（下一节详细说明）至关重要。重要的是，使用RGB（更好的识别）和LiDAR（更好的3D定位）有助于检测罕见类别。作者深入研究了图1中描述的晚期融合框架，以确定如何有效地将RGB和LiDAR单一模态检测器融合到LT3D（参见图2）。

多模态融合用于3D目标检测是一个活跃的研究领域。流行的方法可以分为输入融合、特征融合和晚期融合。输入融合方法通常使用图像级特征增强激光雷达点。例如，PointPainting将激光雷达点投影到语义分割掩码上，并将每个点附带相应的类别得分。MVP增强了与语义分割掩码中物体的LiDAR扫掠区域。Frustum PointNets和SRDL利用2D RGB检测为2D检测范围内的LiDAR点回归3D边界框，使用PointNets。

最近的工作表明，特征融合比输入融合更有效。PointFusion在检测之前先融合全局图像和点云特征，MSMDFusion在多个尺度上融合激光雷达和RGB特征。[35]提出了一种多任务网络，同时考虑2D和3D目标检测、地面估计和深度补全。TransFusion和BEVFusion在BEV空间使用多头自注意力融合特征。尽管 Transformer 在检测常见物体方面取得了成功，[42]发现TransFusion在检测罕见类别时表现不佳，因为 Transformer 架构（在TransFusion和BEV-Fusion中采用）在长尾中缺乏配对的RGB-LiDAR训练数据。为了使 Transformer 在实际中工作良好，它们应该在多样、大规模的数据集上进行训练。

此外，端到端训练的多模态检测器需要配对的多种模态数据进行训练。因此，作者选择研究单模态检测器的晚期融合，这不需要配对的RGB-LiDAR训练数据。CLOCs是一种晚期融合方法，它学习一个独立的融合网络来合并RGB和LiDAR检测，对于3D检测显示出令人鼓舞的结果。最近，[42]引入了一种简单的非学习过滤算法，有效地消除了远离任何3D RGB检测的错误激光雷达检测。作者深入研究了这个简单的（非学习）晚期融合框架，研究了三个关键的设计选择，并提出了一个显著超过先前最先进方法的LT3D方法。

长尾检测不仅在AV领域得到广泛研究，在2D领域也得到了很好的研究。现有方法提出了重新加权损失，重新平衡数据采样，平衡计算不均衡类别的梯度，平衡网络权重。CBGS明确解决了稀有类别的3D检测问题，通过上采样稀有类别的激光扫描线实例，并将不同场景中的稀有物体 Copy-Paste 。尽管它对于改善某些类别的检测精度（例如，每个类别5K~50K的实例）效果很好，但对于稀有类别的检测精度（例如，每个类别小于5K的实例）的提高并不显著。

最近，[31]采用采样数据增强，[26]使用主动学习和硬例子挖掘从稀有类别获得更多数据。LT3D与2D长尾检测相比，因为激光雷达传感器提供了直接的几何和自运动线索，这些线索很难从2D图像中提取。与2D检测器不同，3D检测器在目标尺度变化方面没有经历太多变化。然而，远场物体的激光雷达返回是稀疏的，这提出了不同的一组挑战。此外，稀有类别（如孩子和婴儿车）通常大小较小，且激光雷达返回的数量有限。因此，激光雷达检测器很难准确检测这些稀有类别。作者的工作通过将RGB和激光雷达单一模态检测融合来解决这些问题。

3 Late-Fusion of RGB and LiDAR Detections

如图1所示，作者的简单晚期融合框架将单一模态的2D RGB和3D LiDAR检测器进行集成。作者首先在3.1节分析了将RGB信息融入的不同方式，在3.2节提出了匹配RGB和LiDAR检测的简单算法，最后在3.3节描述了评分校准、概率融合和NMS重叠融合。

How Do We Incorporate RGB Information?

尽管激光雷达提供了准确的局部定位，但仅使用激光雷达的稀疏点难以使用背景目标。RGB图像提供了互补信息，对于识别物体并消除在点云中几何上相似但图像中语义不同的目标至关重要。尽管先前的作品研究了晚期融合，但它们将3D RGB检测器与3D激光雷达检测器结合在一起。

相比之下，作者发现将2D RGB检测器与3D激光雷达检测器集成在一起可以获得显著更好的LT3D性能。作者提出了一些关于使用2D检测器将RGB信息集成在一起以在稀有类别上获得更好性能的见解，并在表2中消融了使用2D或3D RGB检测器进行晚期融合的影响。

2D RGB检测器更为成熟。2D目标检测是计算机视觉的一个基本问题，近年来已经成熟，并且模型权衡已经得到很好的理解。

在本工作中，作者考虑了两种最先进的2D RGB检测器，YOLOV7和DINO。YOLOV7是一个实时检测器，它在保持性能的同时，通过使用近似双倍推理效率的训练技巧，几乎将先前的技术水平提高了一倍。DINO是一个最近基于 Transformer 的检测器，它使用去噪 Anchor 框箱改进了DETR。由于2D检测器不会进行3D预测（例如，深度和旋转），了解如何最好地利用它们在长尾3D检测的上下文中是一个关键挑战。作者在第3.2节中解决这个问题。

2D RGB检测器可以使用更多样化的数据进行训练。仅训练2D RGB检测器需要_2D边界框标注_，这些标注比用于训练3D RGB检测器的_3D立方体标注_要便宜得多。由于与2D检测相比，标注3D无模态立方体既昂贵又非易事（与2D检测的边界框标注相比），单目3D RGB检测的数据集要小得多，也不够多样化。

例如，nuScenes（2020年出版）标注了23类、144000张RGB图像，而COCO（2014年发布的早期2D检测数据集）标注了80类、330000张图像。这使得作者可以预训练在更大、更多样、公开可用的数据集[32, 49, 58, 63, 73]上的2D RGB检测器，从而进一步提高LT3D性能。作者证明了利用现有2D检测数据集可以帮助“免费”训练更强大的2D检测器，从而进一步提高LT3D性能。

How Do We Match Uni-Modal Detections?

在晚期融合框架（参见图2B）中，找到两组单模态检测之间的对应关系是一个必要步骤。以前的工作使用鸟瞰图平面（BEV）中的中心距离来匹配3D RGB和3D LiDAR检测。然而，由于3D RGB检测器引起的深度估计错误，精确匹配检测具有很大的困难。相反，作者选择匹配2D RGB和3D LiDAR检测。以前的工作试图通过使用激光雷达点将2D检测膨胀到3D BEV，但作者发现匹配3D BEV中的检测具有与3D RGB检测器相同的大部分限制。重要的是，膨胀的2D RGB检测器会引入额外的深度估计错误，并降低总体匹配质量。

相比之下，作者将多模态检测通过将3D LiDAR检测投影到2D图像平面进行匹配，避免了由于不精确的深度估计引起的额外噪声。作者在表2中消融了匹配在3D BEV与2D图像平面上的影响，并在此处提供作者的2D匹配算法。

在2D图像平面上进行空间匹配。利用可用的传感器外参，作者将3D LiDAR检测投影到2D图像平面上。然后，作者使用IoU度量来确定（投影）LiDAR和2D RGB检测之间的重叠。如果两个检测的IoU大于一个固定阈值，则匹配。尽管概念上很简单，但作者发现它比在3D BEV（鸟瞰图平面）中使用中心距离匹配检测更有效（参见表2）。

处理未匹配的检测

使用2D IoU对多模态检测进行空间匹配，会产生三类检测：匹配检测、未匹配RGB检测（没有相应的LiDAR检测）和未匹配LiDAR检测（没有相应的RGB检测）。作者将在下一小节中讨论如何融合匹配检测。对于未匹配的2D RGB检测，作者直接将其删除。作者认为，由于激光雷达检测器倾向于产生高召回率，因此未匹配的RGB检测很可能是假阳性。

另一方面，作者通过因子对未匹配的3D LiDAR检测的信心得分进行降权。作者在作者的工作中，将设置为0.4，并使用验证集进行评估。

解决不同模态之间的语义不一致。

如图2C所示，检测在空间上匹配但语义上不一致。为了解决这个问题，作者提出了一种语义匹配启发式，以更好地融合激光雷达和RGB检测。对于一对空间上匹配的RGB和激光雷达检测，作者考虑两种情况。如果两种模态预测相同的语义类别，作者进行分数融合（下文将描述）。否则，如果两种模态预测不同的语义类别，作者使用基于RGB的检测的信心分数和类别标签。

直观上，RGB检测器可以从高分辨率图像中更可靠地预测语义，这有助于纠正3D激光雷达检测器产生的对几何上相似但语义不同的目标进行分类错误，如图3所示。

How Do We Fuse Matched Detections?

作者将相同语义类别的匹配检测与来自不同单模态检测器产生的检测相结合，使用概率集成。然而，两个检测器的预测信心分数并不直接可比。因此，作者探索RGB（）和LiDAR（）检测的分数校准。分数校准对于公平比较融合分数至关重要。

分数融合需要独立单模态检测器生成的分数可比较。在本工作中，作者对每个类别在应用Sigmoid变换之前调整对数分数，即/。最优地调整每个类别的在计算上是昂贵的。因此，作者贪心地调整每个，优化每个类别的AP，按每个类别的基数逐步排序。

概率集成。遵循[7]，作者假设独立的类别先验，并且给定类别标签时具有条件独立性，即。作者计算最终分数如下：

其中和是在校准后生成的后验概率。在长尾场景中，可以显著影响最终的LT3D性能。为了最大化性能，作者需要联合调整所有类先验，这在实践中是计算上昂贵的。相反，作者按顺序 greedily 调整它们，按照类基数排序。

相邻相机捕获重叠区域（参见图1-左），因此有些物体被检测和融合了两次。校准后，作者只需在重叠区域中运行NMS以移除较低得分的检测。

4 Experiments

在本节中，作者进行了广泛的实验来评估作者提出的方法。作者将作者的晚期融合方法与先前的作品进行比较，并进行了详细的消融研究，进一步解决了图2中提出的三个驱动问题。

作者发现，与先前的作品相比，作者的方法在所有类别上的平均改进了5.9%，在稀有类别上的改进尤为显著，达到了7.2%（见表1）。作者在补充材料中包括了在Argoverse 2数据集上的基准结果，并发现同样的结论成立。

Experiment Setup

数据集。作者使用已建立的nuScenes数据集来研究LT3D。作者遵循[42]中定义的协议，使用所有18个长尾类别（在验证集中有足够的示例）。此外，作者使用nuImages数据集作为外部2D标注数据源，研究使用额外的数据来训练更好的2D RGB检测器如何提高晚期融合性能。

最后，作者在补充材料中使用Argoverse 2进行评估，并发现作者的主要结论成立。请注意，其他数据集（如KITTI和Waymo）不支持LT3D的研究，因为它们只标注了三个常见类别。

指标。平均平均精确度（mAP）是目标检测的公认指标。对于3D检测，真阳性（TP）定义为具有地面平面上距离阈值内的中心距离到 GT 标注的检测。mAP计算所有类别的AP平均值，其中每个类别的AP是使用距离阈值[0.5, 1, 2, 4]米绘制精度-召回曲线下的面积。

作者根据类别的基数报告了三个组别的指标：大量（每个类别>50k训练实例），中量（5k50k），和少量（小于5k）。遵循[42]的说明，作者使用nuScenes训练集进行训练，并在验证集上报告数字。

实现细节。作者在nuScenes LT3D设置下，重新训练了几个现有的仅LiDAR、仅RGB和多模态的检测器。作者使用标准的增强技术，包括 Copy-Paste 增强，并采用[42]中定义的采样比例在训练所有检测器时。遵循已确立的做法，作者使用提供的自车位置对所有检测器的LiDAR密集化进行聚合。

作者使用[42]中开源实现的方法训练FCOS3D、CenterPoint和TransFusion，并使用各个论文中提出的训练时间表训练其他检测器。

作者使用8个RTX 3090 GPU训练作者的模型。默认情况下，作者将2D RGB检测器与nuScenes的3D标注生成的2D边界框训练，并使用nuImages中指定的2D边界框进行额外的训练。作者的2D RGB检测器YOLOV7和DINO在ImageNet[10]和COCO[36]数据集上进行预训练。

Comparison to the State-of-the-Art

作者将作者的晚期融合方法与先前的作品在表1中进行比较，并在图3中呈现定性结果。作者将现有的方法（之前在nuScenes官方基准中的标准10类训练）适应于LT3D，通过在所有18类上重新训练它们。

CenterPoint[66]是一个流行的3D激光雷达检测器，它无法检测稀有物体，在稀有类别上的AP仅为3.5%。这是可以预期的，因为仅从稀疏的激光雷达点中很难识别稀有物体。

令人惊讶的是，基于 Transformer 的3D激光雷达检测器BEVFusion-L在稀有类别上的表现要好得多，达到了10.6%。然而，BEVFusion-L在常见类别上的表现比CenterPoint差3.9%。作者认为，尾部训练数据的有限性和类别不平衡使得学习鲁棒特征变得困难。

与仅基于激光雷达的BEVFusion-L相比，BEVFusion的端到端多模态训练方法表现更好，证实了使用多模态输入对LT3D的优势。接下来，作者实现了一个简单的 Baseline ，在对应于投影的3D检测的裁剪区域内训练一个基于区域的CNN（RCNN）分类器。它显然比CenterPoint表现差，这可能是因为在裁剪区域上学习分类器没有利用上下文信息，导致分类准确性较差。

Peri等人介绍了一个简单的过滤算法，保留CenterPoint检测与BEV中由FCOS3D生成的单目3D RGB检测的距离中心点较近的检测，并丢弃所有其他激光雷达预测。鉴于这个简单方法的成功，作者进一步研究这个晚期融合范式。通过仔细考虑图2中概述的设计选择，作者在[42]的基础上提高了7.8%。

Ablation Study

在本节中，作者设计了一系列实验来研究使用2D和3D RGB检测器以及2D图像和3D BEV平面匹配之间的权衡，并检查了使用额外数据和不同的融合策略的影响（参见表2和表4）。

作者的分析证实了2D RGB检测器更适合用于晚期融合，将投影的3D LiDAR检测与2D图像平面中的3D RGB检测匹配，比在3D BEV中匹配3D RGB检测表现更好，并在概率融合之前进行分数校准可以提高性能。

如何将RGB信息集成？尽管基于激光雷达的检测器在3D检测中得到了广泛应用，但由于分类性能较差，它们在罕见类别上产生了许多高分数的假阳性（FPs）。作者关注使用基于RGB的检测器通过利用两个洞察来去除这些FPs：一是激光雷达基于的3D检测相对于3D定位是准确的，并具有高召回率（尽管分类性能较差）；二是基于RGB的检测相对于识别是准确的，尽管3D定位性能较差。

作者通过匹配和过滤基于RGB的检测器与3D LiDAR检测器来集成RGB信息。作者在表2中评估了使用2D RGB-based检测器（例如，YOLOV7和DINO）与3D RGB-based检测器（例如，FCOS3D，BEVFormer，PolarFormer）的影响。

在这项工作中，作者考虑了将激光雷达检测与3D RGB检测在3D BEV和2D图像平面中进行匹配的影响，以及将激光雷达检测与2D RGB检测在3D BEV和2D图像平面中进行匹配的影响。重要的是，作者发现将激光雷达检测与2D RGB检测在2D图像平面中进行匹配可以显著提高性能。

如何将单模态检测器的检测进行匹配？为了在2D图像平面上匹配3D检测，作者使用提供的传感器外参。为了在3D BEV中匹配2D检测，作者使用在检测框裁剪区域内的激光雷达点膨胀2D检测。在实践中，作者发现将2D RGB检测直接提升到3D会导致不精确的深度估计和性能下降。

为了在3D BEV中匹配和过滤激光雷达和RGB检测，作者遵循[42]中规定的方法。对于每个基于RGB的检测，作者保留距离为m米的激光雷达检测，并移除所有不靠近任何基于RGB的检测的检测。这种方法对3D RGB检测很有效。与仅激光雷达模型相比，与FCOS3D、BEVFormer和PolarFormer的晚期融合（即在3D BEV中融合）平均提高了2%的性能（参见表2）。

显然，作者在3D BEV中匹配和过滤膨胀的2D RGB检测的效果要差于在3D BEV中匹配3D RGB检测，特别是与仅激光雷达 Baseline 相比，2D检测器的识别性能明显更好。为了在2D图像平面上匹配和过滤激光雷达和RGB检测，作者简单地使用IoU度量。

两个检测被认为是匹配，如果它们的空间重叠超过一个固定阈值。作者发现将激光雷达检测投影到2D图像平面并使用2D RGB检测进行融合显著提高了具有中等和稀有类别的检测性能（比 Baseline 提高了10%以上）。相比之下，作者发现将3D RGB检测投影到2D图像平面并将其与2D RGB检测进行匹配的效果要差，这表明2D检测器在识别性能上优于3D RGB检测。

表3显示，DINO在nuScenes验证集上的2D检测（如YOLOV7）优于最先进的3D RGB检测（如BEVFormer）。重要的是，DINO在稀有类别上的表现显著优于BEVFormer（15.9 vs. 2.1 mAP）。

如何融合匹配的检测？在融合之前，作者首先校准激光雷达和RGB检测的得分，以确保它们是可比的。这通过平均提高所有类别的0.7%的准确性，特别是对于具有中等数量的实例的类别，明显提高了性能。为了在相邻摄像机之间的重叠区域去除重复的检测，作者使用NMS重叠融合进一步在所有类别上提高0.4 mAP的准确性。当使用概率集成时，作者使用贝叶斯融合来推理匹配检测的最终得分。

具体来说，如果两个匹配的检测在同一位置同时激活，融合得分应该高于单个得分，因为在该特定空间位置有两个物体证据。如表4所示，概率集成在所有类别上进一步提高了0.5 mAP的准确性。

每类性能细分结果。 作者在表5中突出了最近的多模态方法在每个类别上的性能。

所有多模态方法在常见类别上的表现相似。然而，作者发现所有多模态方法在尾部类别的表现明显较差，与常见类别相比，它们的表现要差得多，这突显了研究社区需要进一步调查的需求。值得注意的是，作者的晚期融合方法在推拉式和推车类别的AP分别比先前的作品提高了20%和6%。

总的来说，作者的晚期融合方法在具有中等和稀有类别的性能上取得了显著的改进。尽管在罕见类别检测的准确性方面取得了显著改进，但作者的方法检测到儿童的AP为8%。作者认为是由于视角几何学的原因，很难将儿童与成人区分开来，因为靠近摄像头的较小儿童与远离摄像头的较高大成人看起来很相似。

失败案例和可视化。 作者可视化了作者晚期融合方法的一些常见失败案例，并将其与端到端训练的多模态检测器TransFusion的失败案例进行了比较。作者发现作者的方法在遮挡（没有3D信息）和2D RGB检测器将目标错误分类的情况下失败。请参阅图4进行详细分析。

Limitations and Future Work

作者的工作专注于LT3D问题，这是一个强调为自动驾驶车辆（AVs）的罕见类别（如推车和碎片）进行3D目标检测的问题。因此，改善LT3D对于确保安全自主至关重要。然而，作者的工作并没有直接研究如何解决LT3D问题会影响到下游感知任务。

未来的工作应该解决这个局限性。虽然作者的晚期融合 Pipeline 可以融合任何检测器的检测，但作者只关注融合单一模态检测器的检测。作者希望未来的工作研究融合更多单一和多模态检测器的检测。

此外，如图5所示，仅仅使用更多数据训练更好的2D RGB检测器提供了一个自然的途径来改善LT3D性能。作者发现nuScenes上的2D检测精度是一个强大的最终3D LT3D性能的代理。

最近在大规模视觉语言模型中的工作展示了在检测罕见类别方面具有零样本结果的 promising 零样本学习。将基础模型集成到作者的晚期融合框架中可以大大提高LT3D。

5 Conclusion

作者对晚期融合进行了深入的探索，重点关注解决三个关键设计决策。作者发现2D RGB检测器更适合用于晚期融合，匹配2D图像平面上的投影3D LiDAR检测优于匹配膨胀到3D BEV的2D RGB检测，以及NMS重叠融合和概率融合之前的分数校准可以提高性能。

作者的简单晚期融合方法实现了最先进的效果，比先前的作品提高了5.9% mAP。尽管 Transformer 在其他计算机视觉和自然语言领域取得了成功，但作者发现端到端 Transformer 基础的多模态检测器在检测罕见类别方面仍然存在困难。

Appendix B Inference Runtime

作者将作者的方法在单个A100 GPU（批处理大小为1）上的推理时间与先前的作品进行了比较，表7中的数据遵循[43]中描述的协议。由于单模态RGB和LiDAR检测器并行运行，分数校准和融合的开销可以忽略不计。作者的方法具有与CenterPoint（CP）相同的运行时间，并且比TransFusion、BEVFormer和DeepInteraction更快。

Appendix C AP vs. NDS Results

作者在表8中报告了nuScenes检测评分（NDS）和mAP结果。作者发现所有先前的方法在两个指标上的排名相同。这并不奇怪，因为NDS是mAP和其他真正阳性指标的加权总和，其中mAP的权重比其他组成部分重五倍。

Appendix D Results on Argoverse 2

作者在为自动驾驶车辆研究开发的大规模Argoverse 2（AV2）数据集上报告了结果。AV2数据集包含26个类别，遵循长尾分布。遵循[42]的说明，作者在50米范围内训练和评估检测。

如表9所示，nuScenes的结论对于AV2仍然适用。FCOS3D在所有类别上的性能都很差，很可能是因为不准确的深度估计。CenterPoint的表现显著优于FCOS3D，在具有许多示例的类别上实现了高精度。

值得注意的是，CenterPoint在AV2的稀有类别上的表现（30.2 AP）优于nuScenes的稀有类别（3.5 AP），可能是因为AV2每个类别有更多的示例在尾部。

最后，作者提出的晚期融合方法在CenterPoint上的改进为8.3%，在先前的工作中的改进为3.9%。这些新的AV2结果与nuScenes的结果一致，证明了作者的方法的一般适用性。

Appendix E More Visualizations

作者在图6中展示了作者的晚期融合方法的额外可视化。作者的方法正确地分类了几何上相似但语义不同的类别，如成人-与推车，自行车-与个人移动，儿童-与成人，以及成人-与建筑工人。

参考

[1]. Long-Tailed 3D Detection via 2D Late Fusion

YOLO还真行 | 2D检测教3D检测做事情，YOLOv7让BEVFusion无痛涨6个点，长尾也解决了

1 Introduction

现状

技术见解

贡献

2 Related Work