CVPR 2022 | 华南理工提出VISTA:双跨视角空间注意力机制实现3D目标检测SOTA,即插即用(1)

简介: CVPR 2022 | 华南理工提出VISTA:双跨视角空间注意力机制实现3D目标检测SOTA,即插即用
本文提出了 VISTA,一种新颖的即插即用多视角融合策略,用于准确的 3D 对象检测。为了使 VISTA 能够关注特定目标而不是一般点,研究者提出限制学习的注意力权重的方差。将分类和回归任务解耦以处理不平衡训练问题。在 nuScenes 和 Waymo 数据集的基准测试证明了 VISTA 方法的有效性和泛化能力。该论文已被CVPR 2022接收。


第一章 简介

LiDAR (激光雷达)是一种重要的传感器,被广泛用于自动驾驶场景中,以提供物体的精确 3D 信息。因此,基于 LiDAR 的 3D 目标检测引起了广泛关注。许多 3D 目标检测算法通过将无序和不规则的点云进行体素化,随后利用卷积神经网络处理体素数据。然而,3D 卷积算子在计算上效率低下且容易消耗大量内存。为了缓解这些问题,一系列工作利用稀疏 3D 卷积网络作为 3D 骨干网络来提取特征。如图 1 所示,这些工作将 3D 特征图投影到鸟瞰图 (BEV) 或正视图 (RV) 中,并且使用各种方法从这些 2D 特征图生成对象候选 (Object Proposals)。

图 1:单视角检测和文章提出的基于 VISTA 的多视角融合检测的对比

不同的视角有各自的优缺点需要考虑。在 BEV 中,对象不相互重叠,每个对象的大小与距自我车辆 (ego-vehicle) 的距离无关。RV 是 LiDAR 点云的原生表征,因此,它可以产生紧凑和密集的特征。然而,无论是选择 BEV 还是 RV,投影都会不可避免地损害 3D 空间中传递的空间信息的完整性。例如,由于 LiDAR 数据生成过程自身的特性和自遮挡效应,BEV 表征非常稀疏,并且它压缩了 3D 点云的高度信息,在 RV 中,由于丢失了深度信息,遮挡和对象大小的变化会更加严重。显然,从多个视角进行联合学习,也就是多视角融合,为我们提供了准确的 3D 目标检测的解决方案。先前的一些多视角融合算法从单个视角生成候选目标,并利用多视角特征来细化候选目标。此类算法的性能高度依赖于生成的候选的质量;但是,从单一视角生成的候选没有使用所有可用信息,可能导致次优解的产生。其他工作根据不同视角之间的坐标投影关系融合多视角特征。这种融合方法的准确性依赖于另一个视角的相应区域中可提供的补充信息;然而遮挡效应是不可避免的,这会导致低质量的多视角特征融合产生。

为了提高 3D 目标检测的性能,在本文中,给定从 BEV 和 RV 学习到的 3D 特征图,我们提出通过双跨视角空间注意力机制 (VISTA) 从全局空间上下文中生成高质量的融合多视角特征用于预测候选目标,如图 1 所示。所提出的 VISTA 利用源自Transformer 的注意机制,其中 Transformer 已经被成功应用于各种研究环境(例如自然语言处理、2D 计算机视觉)中。与通过坐标投影直接融合相比,VISTA 中内置的注意力机制利用全局信息,通过将单个视角的特征视为特征元素序列,自适应地对视角间的所有成对相关性进行建模。为了全面建模跨视角相关性,必须考虑两个视角中的局部信息,因此我们用卷积算子替换传统注意力模块中的 MLP,我们在实验部分展示了这样做的有效性。尽管如此,如实验部分所示,学习视角之间的相关性仍然具有挑战性。直接采用注意力机制进行多视角融合带来的收益很小,我们认为这主要是由于 3D 目标检测任务本身的特性导致的。

一般来说,3D 目标检测任务可以分为两个子任务:分类和回归。正如先前一些工作(LaserNet, CVCNet) 中所阐述的,3D 目标检测器在检测整个 3D 场景中的物体时面临许多挑战,例如遮挡、背景噪声和点云缺乏纹理信息。因此,注意力机制很难学习到相关性,导致注意力机制倾向于取整个场景的均值,这是出乎意料的,因为注意力模块是为关注感兴趣的区域而设计的。因此,我们显式地限制了注意力机制学习到的注意力图 (Attention Map) 的方差,从而引导注意力模块理解复杂的 3D 户外场景中的有意义区域。此外,分类和回归的不同学习目标决定了注意力模块中学习的 queries 和 keys 的不同期望。不同物体各自的回归目标(例如尺度、位移)期望 queries 和 keys 了解物体的特性。相反,分类任务推动网络了解物体类的共性。不可避免地,共享相同的注意力建模会给这两个任务的训练带来冲突。此外,一方面,由于纹理信息的丢失,神经网络难以从点云中提取语义特征。另一方面,神经网络可以很容易地从点云中学习物体的几何特性。这带来的结果就是,在训练过程中,产生了以回归为主导的困境。为了应对这些挑战,我们在提出的 VISTA 中将这两个任务解耦,以学习根据不同任务整合不同的线索。

我们提出的 VISTA 是一个即插即用的模块,可以被用于近期的先进的目标分配 (Target Assignment) 策略中。我们在 nuScenes 和 Waymo 两个基准数据集上测试了提出的基于 VISTA 的多视角融合算法。在验证集上的消融实验证实了我们的猜想。提出的 VISTA 可以产生高质量的融合特征,因此,我们提出的方法优于所有已公布开源的算法。在提交时,我们的最终结果在 nuScenes 排行榜上的 mAP 和 NDS 达到 63.0% 和 69.8%。在 Waymo 上,我们在车辆、行人和骑自行车人上分别达到了 74.0%、72.5% 和 71.6% 的 2 级 mAPH。我们将我们的主要贡献总结如下:

  • 我们提出了一种新颖的即插即用融合模块:双跨视角空间注意力机制 (VISTA),以产生融合良好的多视角特征,以提高 3D 目标检测器的性能。我们提出的 VISTA 用卷积算子代替了 MLP,这能够更好地处理注意力建模的局部线索。
  • 我们将 VISTA 中的回归和分类任务解耦,以利用单独的注意力建模来平衡这两个任务的学习。我们在训练阶段将注意力方差约束应用于 VISTA,这有助于注意力的学习并使网络能够关注感兴趣的区域。
  • 我们在 nuScenes 和 Waymo 两个基准数据集上进行了彻底的实验。我们提出的基于 VISTA 的多视角融合可用于各种先进的目标分配策略,轻松提升原始算法并在基准数据集上实现最先进的性能。具体来说,我们提出的方法在整体性能上比第二好的方法高出 4.5%,在骑自行车的人等安全关键对象类别上高出 24%。




第二章 双跨视角空间注意力机制

对于大多数基于体素的 3D 目标检测器,它们密集地产生逐 pillar 的目标候选,经验上讲,生成信息丰富的特征图可以保证检测质量。在多视角 3D 目标检测的情况下,目标候选来自融合的特征图,因此需要在融合期间全面考虑全局空间上下文。为此,我们寻求利用注意力模块捕获全局依赖关系的能力进行多视角融合,即跨视角空间注意力。在考虑全局上下文之前,跨视角空间注意力模块需要聚合局部线索以构建不同视角之间的相关性。因此,我们提出 VISTA,其中基于多层感知器 (MLP) 的标准注意力模块被卷积层取代。然而,在复杂的 3D 场景中学习注意力是很困难的。为了采用跨视角注意力进行多视角融合,我们进一步解耦了 VISTA 中的分类和回归任务,并应用提出的注意力约束来促进注意力机制的学习过程。

在本节中,我们将首先详细介绍所提出的双跨视角空间注意力机制(VISTA)的整体架构,然后详细阐述所提出的 VISTA 的解耦设计和注意力约束。

2.1 整体架构

图 2:VISTA 整体架构

如图 2 所示,VISTA 将来自两个不同视角的特征序列作为输入,并对多视角特征之间的跨视角相关性进行建模。与使用线性投影转换输入特征序列的普通注意力模块不同,VISTA 通过 3x3 卷积操作子将输入特征序列投影到 queries中。为了将分类和回归解耦开,Q和K通过单独的 MLP 投影到。为了计算V的加权和作为跨视角输出F,我们应用缩放的点积来获得跨视角注意力权重


并且输出将是。输出F_i将被馈送到单个前馈网络以FFN_i获得最终结果。我们采用先前工作中广泛使用的架构作为我们的 FFN,以确保非线性和多样性。我们提出的 VISTA 是一种单阶段方法,可根据跨视角融合的特征直接生成候选目标;这样的设计可以利用更多信息进行准确高效的 3D 目标检测。


相关文章
|
机器学习/深度学习 人工智能 自然语言处理
视觉 注意力机制——通道注意力、空间注意力、自注意力
本文介绍注意力机制的概念和基本原理,并站在计算机视觉CV角度,进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。
11665 58
|
5月前
|
监控 Java API
1K star!这个开源项目让短信集成简单到离谱,开发效率直接翻倍!
SMS4J 是一款由国内技术团队打造的短信聚合框架,专为解决多短信服务商接入难题而生。它就像短信界的"瑞士军刀",目前已整合21家主流短信服务商,从阿里云、腾讯云到中国移动云MAS,开发者只需通过简单配置即可实现多平台无缝切换。
311 4
|
关系型数据库 MySQL 数据库
docker 安装 mysql 并映射数据库存放路径及配置文件
本文是博主学习docker镜像的记录,希望对大家有所帮助。
4491 0
docker 安装 mysql 并映射数据库存放路径及配置文件
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式
|
机器学习/深度学习 人工智能 测试技术
【自定义插件系列】0基础在阿里云百炼上玩转大模型自定义插件
本文介绍了如何在阿里云百炼平台上创建大模型自定义插件,以增强AI模型功能或适配特定需求。通过编程接口(API)或框架设计外部扩展模块,开发者可在不修改底层参数的情况下扩展模型能力。文章以万相文生图V2版模型为例,详细说明了创建自定义插件的五个步骤:新建插件、创建工具、测试工具、复制第二个工具及最终测试发布。同时,提供了官方文档参考链接和具体参数设置指导,帮助用户轻松实现插件开发与应用,推动AI技术在各行业的广泛应用。
1503 0
|
Perl
PYNQ-关于PYNQ的GPIO的使用(RPI接口和arduino接口)或者常用的IO设备(如UART SPI IIC TIMER)
PYNQ-关于PYNQ的GPIO的使用(RPI接口和arduino接口)或者常用的IO设备(如UART SPI IIC TIMER)
837 0
PYNQ-关于PYNQ的GPIO的使用(RPI接口和arduino接口)或者常用的IO设备(如UART SPI IIC TIMER)
|
10月前
|
SQL 机器学习/深度学习 分布式计算
【赵渝强老师】Spark生态圈组件
本文介绍了Spark的生态圈体系架构,包括其核心执行引擎Spark Core、结构化数据处理模块Spark SQL、实时数据流处理模块Spark Streaming,以及机器学习框架MLlib和图计算框架GraphX。文中通过图片和视频详细解析了各模块的功能及访问接口。
183 2
|
10月前
|
存储 安全 网络安全
SSL网络安全证书,守护您的数字世界
SSL证书的应用场景广泛,它是保护网络通信安全的重要手段。无论是个人用户还是企业组织,都应该认识到SSL证书的重要性,并采取适当的措施来部署和使用SSL证书,以保护自己的数据和隐私不受侵害。
|
存储 数据采集 数据可视化
大数据处理技术
【4月更文挑战第10天】大数据处理涵盖采集、预处理、存储、分析挖掘、展现和应用等关键步骤。采集涉及多种类型数据,预处理确保数据质量,存储管理关注规模、速度和安全,分析挖掘利用机器学习发现价值,展现和应用则通过可视化和检索实现数据价值。云计算和AI强化了大数据处理能力,整体目标是提取数据中的价值,驱动企业和社会进步。
810 4
大数据处理技术
|
负载均衡 Kubernetes 网络协议
kubernetes--kube-proxy组件深入理解
每台机器上都运行一个kube-proxy服务’它监听API server中service和endpoint的变化情 况,并通过iptables等来为服务配置负载均衡(仅支持TCP和UDP)
657 0