CVPR 2022 | 华南理工提出VISTA：双跨视角空间注意力机制实现3D目标检测SOTA，即插即用（2）-阿里云开发者社区

2.2 解耦分类和回归任务

VISTA 将分类和回归任务解耦。在共享卷积算子之后，queries 和 keys 通过单独的线性投影进一步处理产生Q_i和K_i，然后它们将根据语义信息或几何信息参与不同的注意力建模。这种解耦的动机是分类和回归的监督信号对训练造成的不同影响。

给定场景中的 query 目标，为了分类，注意力模块需要从全局上下文中的对象中聚合语义线索，以丰富融合特征中传达的语义信息。这样的目标要求学习的 queries 和 keys 知道同一类别的不同对象之间的共性，以使同一类别的对象在语义上应该相互匹配。然而，回归任务不能采用相同的 queries 和 keys，因为不同的对象有自己的几何特征（例如位移、尺度、速度等），回归特征应该在不同的对象上是多样的。因此，在分类和回归的联合训练过程中，共享相同的 queries 和 keys 会导致注意力学习发生冲突。

此外，无论是单视角还是多视角，分类和回归结果都是从传统的基于体素的 3D 目标检测器中的相同特征图预测的。然而，由于 3D 场景的固有属性，3D 点云中不可避免地存在遮挡和纹理信息丢失，3D 检测器难以提取语义特征，给分类学习带来很大挑战。相反，3D 点云传达的丰富几何信息减轻了网络理解物体几何属性的负担，这是学习回归任务的基础。结果，在网络训练过程中，出现了分类和回归之间学习的不平衡现象，其中分类的学习被回归主导。这种不平衡的学习是基于 3D 点云的，包含分类和回归任务的 3D 目标检测中的常见问题，这将对检测性能产生负面影响。具体来说，3D 检测器在具有相似几何特征的不同对象类别（例如卡车和公共汽车）上不会很鲁棒。

为了缓解上述问题，我们分别为语义和几何信息分别建立注意力模型。注意力模块的输出是基于构建的语义和几何注意力权重的。分类和回归的监督分别应用于，保证了相应任务的有效学习。

2.3 注意力约束

当学习从全局上下文中对跨视角相关性进行建模时，所提出的 VISTA 面临着许多挑战。3D 场景包含大量背景点（大约高达 95%），只有一小部分是有助于检测结果的兴趣点。在跨视角注意力的训练过程中，海量的背景点会给注意力模块带来意想不到的噪音。此外，复杂 3D 场景中的遮挡效应给注意力学习带来了不可避免的失真。因此，注意力模块倾向于关注不相关的区域。注意力学习不佳的极端情况是全局平均池化（GAP）操作，正如我们在实验部分中所展示的，没有任何明确的监督，直接采用注意力模块进行多视角融合会产生类似于 GAP 的性能，这表明注意力模块不能很好地对跨视角相关性建模。

为了使注意力模块能够专注于特定目标而不是一般的点，我们提出对学习的注意力权重的方差施加约束。利用提出的约束，我们使网络能够学习注意到特定目标。通过将注意力方差约束与传统的分类回归监督信号相结合，注意力模块专注于场景中有意义的目标，从而产生高质量的融合特征。我们将提出的约束设定为训练期间的辅助损失函数。为简单起见，我们忽略 batch 维度，给定学习的注意力权重分别是 BEV 和 RV 中的 pillar 数量，xy 平面中 GT 框的尺度和中心位置的集合，其中是场景中的框数量。对于 BEV 中的每个 pillar，我们根据体素大小计算其中心的真实坐标，并得到集合。每个 GT 框的注意力权重通过以下方式获得：

然后我们为所有 GT 框制定方差约束如下：

其中N_q是b_q由包围的 pillar 的数量，计算给定向量的方差。

第三章实现

3.1 体素化

我们根据 x,y,z 轴对点云进行体素化。对于 nuScenes 数据集，体素化的范围是[-51.2, 51.2]m, [-51.2,51.2]m 和[-5.0,3]m，以 x,y,z 表示。对于 Waymo 数据集，范围为[-75.2,75.2]m、[-75.2,75.2]m 和[-2,4]m。除非特别提及，否则我们所有的实验都是在 x、y、z 轴的[0.1,0.1,0.1]m 的低体素化分辨率下进行的。

3.2 数据增广

点云根据 x,y 轴随机翻转，围绕 z 轴旋转，范围为[-0.3925,0.3925]rad，缩放系数范围为 0.95 到 1.05，平移范围为[ 0.2,0.2,0.2]m 在 x,y,z 轴上。采用类别平衡分组采样和数据库采样来提高训练时正样本的比例。

3.3 联合训练

我们在各种目标分配策略 (CBGS, OHS, CenterPoint) 上训练 VISTA。为了训练网络，我们计算不同目标分配策略的原始损失函数，我们建议读者参考他们的论文以了解更多关于损失函数的细节。简而言之，我们将分类和回归考虑在内：

其中λ_1和λ_2是损失函数权重，是 GT 标签y和预测之间的分类损失函数, 是 GT 框b和预测框的回归损失函数。

总损失函数L是的加权和：。我们将λ_1、λ_2和λ_3设置为 1.0、0.25、1.0。我们将 Focal loss 作为，并将 L1 损失作为。

第四章实验

表一：nuScenes 测试集上的 3D 检测结果

表二：Waymo 测试集上的 3D 检测结果
我们在 nuScenes 数据集和 Waymo 数据集上评估 VISTA。我们在三种具有不同目标分配策略的最先进方法上测试 VISTA 的功效：CBGS、OHS 和 CenterPoint。

4.1 数据集和技术细节

nuScenes 数据集包含 700 个训练场景、150 个验证场景和 150 个测试场景。数据集以 2Hz 进行标注，总共 40000 个关键帧被标注了 10 个对象类别。我们为每个带标注的关键帧组合 10 帧扫描点云以增加点数。平均精度 (mAP) 和 nuScenes 检测分数 (NDS) 被应用于我们的性能评估。NDS 是 mAP 和其他属性度量的加权平均值，包括位移、尺度、方向、速度和其他框的属性。在训练过程中，我们遵循 CBGS 通过 Adam 优化器和单周期学习率策略 (one-cycle) 优化模型。

Waymo 数据集包含 798 个用于训练的序列，202 个用于验证的序列。每个序列的持续时间为 20 秒，并以 10Hz 的频率采样，使用 64 通道的激光雷达，包含 610 万车辆、280 万行人和 6.7 万个骑自行车的人。我们根据标准 mAP 和由航向精度 (mAPH) 加权的 mAP 指标来评估我们的网络，这些指标基于车辆的 IoU 阈值为 0.7，行人和骑自行车的人为 0.5。官方评估协议以两个难度级别评估方法：LEVEL_1 用于具有超过 5 个 LiDAR 点的框，LEVEL_2 用于具有至少一个 LiDAR 点的框。

4.2 与其他方法的比较

我们将提出的基于 VISTA 的 OHS 的测试结果提交给 nuScenes 测试服务器。为了对结果进行基准测试，我们遵循 CenterPoint 来调整训练分辨率并利用双翻转测试增强。由于我们的结果基于单一模型，因此我们的比较中不包括使用集成模型和额外数据的方法，测试性能见表一。我们提出的 VISTA 在 nuScenes 测试集上实现了最先进的性能，在整体 mAP 和 NDS 中都大大优于所有已发布的方法。特别是在摩托车和自行车上的表现，mAP 上超过了第二好的方法 CenterPoint 高达 48%。具体来说，几何相似类别（例如卡车、工程车辆）的性能提升证实了我们提出的解耦设计的有效性。

为了进一步验证我们提出的 VISTA 的有效性，我们将提出的 VISTA 应用在 CenterPoint 上，并将测试结果提交到 Waymo 测试服务器。在训练和测试期间，我们遵循与 CenterPoint 完全相同的规则，测试性能见表二。VISTA 在所有级别的所有类别中为 CenterPoint 带来了显着改进，优于所有已发布的结果。

4.3 消融学习

表三：多视角融合消融学习，实验在 nuScenes 验证集上进行

表四：基于 VISTA 的先进方法的性能提升，实验在 nuScenes 验证集上进行

如表三所示，为了证明所提出的 VISTA 的优越性，我们以 OHS 作为我们的基线 (a) 在 nuScenes 数据集的验证集上进行了消融研究。正如前文所述，如果没有注意力约束，注意力权重学习的极端情况将是全局平均池化（GAP）。为了澄清，我们通过 GAP 手动获取 RV 特征，并将它们添加到所有 BEV 特征上实现融合。这种基于 GAP 的融合方法 (b) 将基线的性能 mAP 降低到 59.2%，表明自适应融合来自全局空间上下文的多视角特征的必要性。直接采用 VISTA 进行多视角融合 (d)，mAP 为 60.0%。当将卷积注意力模块替换为传统的线性注意力模块(c) 时，整体 mAP 下降到 58.7%，这反映了聚合局部线索对于构建跨视角注意力的重要性。在添加提出的注意力方差约束后，如 (e) 所示，整体 mAP 的性能提高到 60.4%。从 (d) 到(e)行的性能提升表明注意力机制可以通过注意力约束得到很好的引导，使得注意力模块能够关注整个场景的兴趣区域。然而，共享注意力建模会带来分类学习和回归任务之间的冲突，在 3D 目标检测中，分类任务将被回归任务占主导地位。如（f）所示，在解耦注意力模型后，整体 mAP 的性能从 60.4% 提高到 60.8%，进一步验证了我们的假设。

所提出的 VISTA 是一种即插即用的多视角融合方法，只需稍作修改即可用于各种最近提出的先进目标分配策略。为了证明所提出的 VISTA 的有效性和泛化能力，我们在 CenterPoint、OHS 和 CBGS 上实现了 VISTA，它们是最近的先进方法。这些方法代表基于 anchor 或 anchor-free 的不同主流目标分配。我们在 nuScenes 数据集的验证集上评估结果，所有方法都是基于他们的官方代码库。如表四所示，所有三个目标分配策略在 mAP 和 NDS 分数中都实现了很大的性能提升（在 mAP 和 NDS 中分别约为 1.3% 和 1.4%），表明所提出的 VISTA 可以通过跨视角空间注意力机制融合普遍高质量的多视角特征。

我们在表三中展示了提出的 VISTA 在一个 RTX3090 GPU 上的运行时间。未经任何修改，基线 (a) 以每帧 60 毫秒运行。在基线中采用卷积注意力模块 (d) 后，运行时间增加到 64 毫秒。我们可以从 (e) 和(f)中观察到，虽然应用所提出的注意力方差约束不会影响推理速度，但解耦设计花费了 5ms，但额外的延迟仍然可以忽略不计。以这样的效率运行，我们认为所提出的 VISTA 完全符合实际应用的要求。

4.4 VISTA 分析

图 3：具有（（a）和（c））和没有（（b）和（d））注意方差约束的 VISTA 学习到的注意力权重的可视化。每行呈现一个场景，Query 框以红色显示，点的颜色越亮，点的注意力权重越高。

图 4：在有和没有解耦设计的情况下的检测结果的可视化。每行代表一个场景。浅色表示的框指的是 GT 框，深色表示的框表示正确的预测结果，不同强调色表示的框表示错误的预测。

我们认为，通过所提出的注意力约束训练的 VISTA 可以捕捉 BEV 和 RV 之间的全局和局部相关性，从而可以有效地执行多视角融合以进行准确的框预测。为了生动地展示注意力方差约束在训练 VISTA 中的有效性，我们在图 3 中可视化了网络在有和没有注意力方差约束情况下构建的的跨视角相关性。给定包含目标视角（BEV）的框的区域以 query 源视角（RV），我们得到上述区域中每个 pillar 的相应跨视角注意力权重，并将权重映射回原点云以可视化。我们观察到，在没有注意力方差约束的情况下，学习到的注意力权重对于 RV 中的几乎每个 pillar 都保持较小的值，从而导致近似的全局平均池化操作。在图 3(b)和 (d) 中，注意力模块关注远离 query 汽车和行人的背景点，每个聚焦区域的注意力权重相对较低。相反，用注意力方差约束训练的注意力模块突出显示具有相同 query 类别的物体，如图 3(a)和 (c) 所示。特别是对于 query 汽车，通过注意力方差约束训练的注意力模块成功地关注了场景中的其他汽车。

我们提出的 VISTA 的另一个关键设计是分类和回归任务的解耦。这两个任务的各自的注意力建模缓解了学习的不平衡问题，因此检测结果更加准确和可靠。为了展示我们设计的意义，我们在图中展示了解耦前后的检测结果。每行代表一个场景，左列显示解耦后的结果，另一列显示未解耦的结果。如图 4(b)和 (d) 所示，没有解耦设计的 3D 目标检测器很容易将物体 A 误认为具有相似几何特性的另一个物体 B，我们将这种现象称为 A-to-B，例如公共汽车（紫色）到卡车（黄色）、公共汽车（紫色）到拖车（红色）和自行车（白色）到摩托车（橙色），证明了分类和回归任务之间存在不平衡训练。此外，当将右列与左列进行比较时，混淆的预测并不准确。相反，具有解耦设计的 VISTA 成功区分了对象的类别，并预测了紧密的框，如图 4(a)和 (c) 所示，证明了所提出的解耦设计的功效。

第五章总结

在本文中，我们提出了 VISTA，一种新颖的即插即用多视角融合策略，用于准确的 3D 对象检测。为了使 VISTA 能够关注特定目标而不是一般点，我们提出限制学习的注意力权重的方差。我们将分类和回归任务解耦以处理不平衡训练问题。我们提出的即插即用 VISTA 能够产生高质量的融合特征来预测目标候选，并且可以应用于各种目标分配策略方法。nuScenes 和 Waymo 数据集的基准测试证明了我们提出的方法的有效性和泛化能力。

CVPR 2022 | 华南理工提出VISTA：双跨视角空间注意力机制实现3D目标检测SOTA，即插即用（2）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件