AutoAlignV2:多模态3D目标检测新SOTA!(ECCV2022)

简介: 点云和RGB图像是自动驾驶中常用的两种感知数据来源,前者可以提供精确的目标定位,后者包括丰富的语义信息。针对3D目标检测中这两种模态的融合,之前提出的AutoAlign方法提出了一种可学习的范式,但由于全局注意力机制,计算开销很大。为了解决这个问题,本文提出了跨域的DeformCAFA模块,它更加关注跨域关系建模中的稀疏可学习采样点,提高了校准误差的容忍度,从而极大加快了不同模态特征间的融合。为了克服GT-AUG在多模态下的复杂设置,在给定深度信息的情况下,设计了一种简单而有效的交叉模态增强策略。而且,通过采用一种新颖的图像级dropout训练方案,模型能够以动态的方式进行推理。

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



标题:AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection

链接:https://arxiv.org/pdf/2207.10316.pdf

代码:https://github.com/zehuichen123/AutoAlignV2


1摘要



点云和RGB图像是自动驾驶中常用的两种感知数据来源,前者可以提供精确的目标定位,后者包括丰富的语义信息。针对3D目标检测中这两种模态的融合,之前提出的AutoAlign方法提出了一种可学习的范式,但由于全局注意力机制,计算开销很大。为了解决这个问题,本文提出了跨域的DeformCAFA模块,它更加关注跨域关系建模中的稀疏可学习采样点,提高了校准误差的容忍度,从而极大加快了不同模态特征间的融合。为了克服GT-AUG在多模态下的复杂设置,在给定深度信息的情况下,设计了一种简单而有效的交叉模态增强策略。而且,通过采用一种新颖的图像级dropout训练方案,模型能够以动态的方式进行推理。为此, 我们在AutoAlign基础上提出AutoAlignV2,一个更快更强的多模态3D目标检测框架。在nuScenes基准测试上的实验表明了AutoAlignV2的有效性和效率。作者的最佳模型在nuScenes测试排行榜上达到72.4 NDS ,一个新的SOTA,超过了现有已知的多模态3D目标检测器。


640.png


2方法



很多研究已经表明,点云数据与RGB图像数据融合可以显著提高3D目标检测效果,但针对如何有效的去融合它们的探索还不够。作者认为训练一个跨模态3D目标检测器的困难主要表现在两方面:一是RGB图像特征与点云特征需要对齐,这主要依赖激光雷达的投影矩阵将像素和点建立对应关系,AutoAlign方法使用了可学习的全局对齐模块,取得了较好效果,缺点就是复杂度高,计算成本高;二是数据增强,比如GT-AUG,可以有效提高3D目标检测效果,但是子剪切粘贴过程中,要保持图像和点云的同步。本文整体就是为了优化这两个问题,提出了一系列方法。


Deformable Feature Aggregation


AutoAlign提出的CAFA(Cross-Attention Feature Alignment),引入可学习的对齐映射来建立图像和雷达点云的映射关系,使得网络以动态和数据驱动的方式自动对齐非同质化的特征。但其缺点是将每个像素都作为可能的空间候选位置,计算代价很高,只能应用在网络的C5特征层,而FPN中其它几个高分辨率特征层里面的信息更加细粒度。针对CAFA的问题,作者提出Cross-Domain DeformCAFA,该算法大大减少了采样候选量,并为每个体素查询特征动态确定图像平面上的关键点区域。此方法显著减少了计算成本,方法具体如下图所示:640.png



后面作者又发现直接将体素特征作为token生成注意力权重和可变形偏移,检测算法效果不佳,分析下来主要token生成存在跨域知识翻译问题,跨域的注意力需要不同模态的信息,而不能只关注体素特征。于是作者利用一种建模方法,让图像特征和体素特征联合生成token,具体使用了一个FC层,聚合这些跨域的特征:


640.png


Depth-Aware GT-AUG


数据增强可以提升深度学习模型的泛化能力,但多模态3D目标检测中,由于遮挡或视角改变,数据增强中将点云与图像组合在一起时很难保持同步。为此我们提出了Depth-Aware GT-AUG方法,摒弃了复杂的点云过滤以及图像域对掩模精细标注的要求,而是基于MixUp的思路,利用3D目标标注的深度信息来混合图像区域。具体地,对于点云目标,和正常的GT-AUG 实现一致。对于图像目标,首先由远及近(深度信息)的规则进行排序,对每个要粘贴的目标,从原始图像中裁剪出相同的区域,并将它们与目标图像按照混合比例α结合起来(具体参考MixUp原理)。具体实现过程如下:

640.png


Depth-Aware GT-AUG在点云域沿用了GT-AUG,而在图像域则是根据目标的深度信息,利用MixUp方法进行图像增强,这样不会完全去掉这个地方的目标特征。


Image-Level Dropout Training Strategy


实际场景中,RGB图像通常是可选的输入,并不是所有的3D目标检测系统都支持图像输入。因此,对于多模态检测,更现实适用的解决方案应该是采用动态融合的方式:当无图像输入时,模型基于原始点云检测目标;当有图像输入时,模型进行特征融合,得到更好的预测结果。为了实现这一目标,作者提出了一种图像级的dropout训练策略,在图像级随机删除融合的图像特征,并在训练过程中填充0,如下图所示。由于图像信息是间歇性缺失的,模型应该逐渐学会将2D特征作为可选输入。这种策略不仅大大加快了训练速度(每批处理的图像更少),而且提高了最终的性能。


640.png


3实验结果



在nuScenes上不同方法使用AutoAlignV2的对比实验:


640.png


与其它3D检测方法的对比:


640.png


消融实验做的也很充分:


640.png640.png640.png



最后,多模态融合就是好,虽然慢了,但是涨点明显,AutoAlignV2也支持纯激光雷达,性能也能和CenterPoint保持一致,更贴合现实应用场景。


640.png


4结论



本文作者提出一个动态、高效的多模态3D目标检测框架AutoAlignV2。它利用多层可变形交叉注意力网络从不同模态中提取和聚合特征,大大加快了融合过程。作者还设计了depth-aware GT-AUG策略,以简化多模态数据增强过程中2D和3D域之间的同步。并且AutoAlignV2更加灵活,可以以一种特殊的方式使用或不使用2D图像进行推理,这更适合于现实世界的自动驾驶系统。整体文章还是非常注重落地的。


相关文章
|
机器学习/深度学习 编解码 算法
【论文理解】ICCV2021-视频中小目标检测Dogfight
论文地址:https://arxiv.org/abs/2108.02092目标:在无人机飞行过程中捕获的背景杂乱的画面中检测其他无人机挑战:任意的移动(相机移动,目标也移动)小尺寸,只占画面像素的0.05%~0.07%(PASCAL VOC (22.62%) and ImageNet (19.94%))形状变换(拍摄角度不同,拍摄的无人机形状不同)遮挡基于region-proposal的方法无法捕
|
4月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
122 8
|
5月前
|
机器学习/深度学习 计算机视觉 网络架构
YOLOv9实时目标检测新SOTA
【2月更文挑战第6天】YOLOv9实时目标检测新SOTA
154 2
YOLOv9实时目标检测新SOTA
|
5月前
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
181 0
|
机器学习/深度学习 自然语言处理 安全
Bert on ABSA、ASGCN、GAN、Sentic GCN…你都掌握了吗?一文总结情感分析必备经典模型(1)
Bert on ABSA、ASGCN、GAN、Sentic GCN…你都掌握了吗?一文总结情感分析必备经典模型
137 0
|
机器学习/深度学习 自然语言处理 数据挖掘
Bert on ABSA、ASGCN、GAN、Sentic GCN…你都掌握了吗?一文总结情感分析必备经典模型(2)
Bert on ABSA、ASGCN、GAN、Sentic GCN…你都掌握了吗?一文总结情感分析必备经典模型
239 1
|
自然语言处理 算法 计算机视觉
【计算机视觉】DETR 系列的最新综述!
DEtection TRansformer (DETR)将检测视为集合预测问题,而不需要生成候选区和后处理步骤,从而将TRansformer引入到目标检测任务中
1095 0
|
机器学习/深度学习 API 语音技术
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(3)
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型
163 0
|
机器学习/深度学习 自然语言处理 算法
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(1)
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型
145 0
|
机器学习/深度学习 存储 自然语言处理
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(2)
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型
431 0