CVPR 2022 | 华南理工提出VISTA：双跨视角空间注意力机制实现3D目标检测SOTA，即插即用（1）-阿里云开发者社区

CVPR 2022 | 华南理工提出VISTA：双跨视角空间注意力机制实现3D目标检测SOTA，即插即用（1）

2023-05-15 242

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CVPR 2022 | 华南理工提出VISTA：双跨视角空间注意力机制实现3D目标检测SOTA，即插即用

本文提出了 VISTA，一种新颖的即插即用多视角融合策略，用于准确的 3D 对象检测。为了使 VISTA 能够关注特定目标而不是一般点，研究者提出限制学习的注意力权重的方差。将分类和回归任务解耦以处理不平衡训练问题。在 nuScenes 和 Waymo 数据集的基准测试证明了 VISTA 方法的有效性和泛化能力。该论文已被CVPR 2022接收。

第一章简介

LiDAR (激光雷达)是一种重要的传感器，被广泛用于自动驾驶场景中，以提供物体的精确 3D 信息。因此，基于 LiDAR 的 3D 目标检测引起了广泛关注。许多 3D 目标检测算法通过将无序和不规则的点云进行体素化，随后利用卷积神经网络处理体素数据。然而，3D 卷积算子在计算上效率低下且容易消耗大量内存。为了缓解这些问题，一系列工作利用稀疏 3D 卷积网络作为 3D 骨干网络来提取特征。如图 1 所示，这些工作将 3D 特征图投影到鸟瞰图 (BEV) 或正视图 (RV) 中，并且使用各种方法从这些 2D 特征图生成对象候选 (Object Proposals)。

图 1：单视角检测和文章提出的基于 VISTA 的多视角融合检测的对比

不同的视角有各自的优缺点需要考虑。在 BEV 中，对象不相互重叠，每个对象的大小与距自我车辆 (ego-vehicle) 的距离无关。RV 是 LiDAR 点云的原生表征，因此，它可以产生紧凑和密集的特征。然而，无论是选择 BEV 还是 RV，投影都会不可避免地损害 3D 空间中传递的空间信息的完整性。例如，由于 LiDAR 数据生成过程自身的特性和自遮挡效应，BEV 表征非常稀疏，并且它压缩了 3D 点云的高度信息，在 RV 中，由于丢失了深度信息，遮挡和对象大小的变化会更加严重。显然，从多个视角进行联合学习，也就是多视角融合，为我们提供了准确的 3D 目标检测的解决方案。先前的一些多视角融合算法从单个视角生成候选目标，并利用多视角特征来细化候选目标。此类算法的性能高度依赖于生成的候选的质量；但是，从单一视角生成的候选没有使用所有可用信息，可能导致次优解的产生。其他工作根据不同视角之间的坐标投影关系融合多视角特征。这种融合方法的准确性依赖于另一个视角的相应区域中可提供的补充信息；然而遮挡效应是不可避免的，这会导致低质量的多视角特征融合产生。

为了提高 3D 目标检测的性能，在本文中，给定从 BEV 和 RV 学习到的 3D 特征图，我们提出通过双跨视角空间注意力机制 (VISTA) 从全局空间上下文中生成高质量的融合多视角特征用于预测候选目标，如图 1 所示。所提出的 VISTA 利用源自Transformer 的注意机制，其中 Transformer 已经被成功应用于各种研究环境（例如自然语言处理、2D 计算机视觉）中。与通过坐标投影直接融合相比，VISTA 中内置的注意力机制利用全局信息，通过将单个视角的特征视为特征元素序列，自适应地对视角间的所有成对相关性进行建模。为了全面建模跨视角相关性，必须考虑两个视角中的局部信息，因此我们用卷积算子替换传统注意力模块中的 MLP，我们在实验部分展示了这样做的有效性。尽管如此，如实验部分所示，学习视角之间的相关性仍然具有挑战性。直接采用注意力机制进行多视角融合带来的收益很小，我们认为这主要是由于 3D 目标检测任务本身的特性导致的。

一般来说，3D 目标检测任务可以分为两个子任务：分类和回归。正如先前一些工作(LaserNet, CVCNet) 中所阐述的，3D 目标检测器在检测整个 3D 场景中的物体时面临许多挑战，例如遮挡、背景噪声和点云缺乏纹理信息。因此，注意力机制很难学习到相关性，导致注意力机制倾向于取整个场景的均值，这是出乎意料的，因为注意力模块是为关注感兴趣的区域而设计的。因此，我们显式地限制了注意力机制学习到的注意力图 (Attention Map) 的方差，从而引导注意力模块理解复杂的 3D 户外场景中的有意义区域。此外，分类和回归的不同学习目标决定了注意力模块中学习的 queries 和 keys 的不同期望。不同物体各自的回归目标（例如尺度、位移）期望 queries 和 keys 了解物体的特性。相反，分类任务推动网络了解物体类的共性。不可避免地，共享相同的注意力建模会给这两个任务的训练带来冲突。此外，一方面，由于纹理信息的丢失，神经网络难以从点云中提取语义特征。另一方面，神经网络可以很容易地从点云中学习物体的几何特性。这带来的结果就是，在训练过程中，产生了以回归为主导的困境。为了应对这些挑战，我们在提出的 VISTA 中将这两个任务解耦，以学习根据不同任务整合不同的线索。

我们提出的 VISTA 是一个即插即用的模块，可以被用于近期的先进的目标分配 (Target Assignment) 策略中。我们在 nuScenes 和 Waymo 两个基准数据集上测试了提出的基于 VISTA 的多视角融合算法。在验证集上的消融实验证实了我们的猜想。提出的 VISTA 可以产生高质量的融合特征，因此，我们提出的方法优于所有已公布开源的算法。在提交时，我们的最终结果在 nuScenes 排行榜上的 mAP 和 NDS 达到 63.0% 和 69.8%。在 Waymo 上，我们在车辆、行人和骑自行车人上分别达到了 74.0%、72.5% 和 71.6% 的 2 级 mAPH。我们将我们的主要贡献总结如下：

我们提出了一种新颖的即插即用融合模块：双跨视角空间注意力机制 (VISTA)，以产生融合良好的多视角特征，以提高 3D 目标检测器的性能。我们提出的 VISTA 用卷积算子代替了 MLP，这能够更好地处理注意力建模的局部线索。
我们将 VISTA 中的回归和分类任务解耦，以利用单独的注意力建模来平衡这两个任务的学习。我们在训练阶段将注意力方差约束应用于 VISTA，这有助于注意力的学习并使网络能够关注感兴趣的区域。
我们在 nuScenes 和 Waymo 两个基准数据集上进行了彻底的实验。我们提出的基于 VISTA 的多视角融合可用于各种先进的目标分配策略，轻松提升原始算法并在基准数据集上实现最先进的性能。具体来说，我们提出的方法在整体性能上比第二好的方法高出 4.5%，在骑自行车的人等安全关键对象类别上高出 24%。

论文链接：https://arxiv.org/abs/2203.09704
代码链接：https://github.com/Gorilla-Lab-SCUT/VISTA

第二章双跨视角空间注意力机制

对于大多数基于体素的 3D 目标检测器，它们密集地产生逐 pillar 的目标候选，经验上讲，生成信息丰富的特征图可以保证检测质量。在多视角 3D 目标检测的情况下，目标候选来自融合的特征图，因此需要在融合期间全面考虑全局空间上下文。为此，我们寻求利用注意力模块捕获全局依赖关系的能力进行多视角融合，即跨视角空间注意力。在考虑全局上下文之前，跨视角空间注意力模块需要聚合局部线索以构建不同视角之间的相关性。因此，我们提出 VISTA，其中基于多层感知器 (MLP) 的标准注意力模块被卷积层取代。然而，在复杂的 3D 场景中学习注意力是很困难的。为了采用跨视角注意力进行多视角融合，我们进一步解耦了 VISTA 中的分类和回归任务，并应用提出的注意力约束来促进注意力机制的学习过程。

在本节中，我们将首先详细介绍所提出的双跨视角空间注意力机制（VISTA）的整体架构，然后详细阐述所提出的 VISTA 的解耦设计和注意力约束。

2.1 整体架构

图 2：VISTA 整体架构

如图 2 所示，VISTA 将来自两个不同视角的特征序列作为输入，并对多视角特征之间的跨视角相关性进行建模。与使用线性投影转换输入特征序列的普通注意力模块不同，VISTA 通过 3x3 卷积操作子将输入特征序列投影到 queries 和中。为了将分类和回归解耦开，Q和K通过单独的 MLP 投影到。为了计算V的加权和作为跨视角输出F，我们应用缩放的点积来获得跨视角注意力权重：