AutoAlignV2:多模态3D目标检测新SOTA!(ECCV2022)

简介: 点云和RGB图像是自动驾驶中常用的两种感知数据来源,前者可以提供精确的目标定位,后者包括丰富的语义信息。针对3D目标检测中这两种模态的融合,之前提出的AutoAlign方法提出了一种可学习的范式,但由于全局注意力机制,计算开销很大。为了解决这个问题,本文提出了跨域的DeformCAFA模块,它更加关注跨域关系建模中的稀疏可学习采样点,提高了校准误差的容忍度,从而极大加快了不同模态特征间的融合。为了克服GT-AUG在多模态下的复杂设置,在给定深度信息的情况下,设计了一种简单而有效的交叉模态增强策略。而且,通过采用一种新颖的图像级dropout训练方案,模型能够以动态的方式进行推理。

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



标题:AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection

链接:https://arxiv.org/pdf/2207.10316.pdf

代码:https://github.com/zehuichen123/AutoAlignV2


1摘要



点云和RGB图像是自动驾驶中常用的两种感知数据来源,前者可以提供精确的目标定位,后者包括丰富的语义信息。针对3D目标检测中这两种模态的融合,之前提出的AutoAlign方法提出了一种可学习的范式,但由于全局注意力机制,计算开销很大。为了解决这个问题,本文提出了跨域的DeformCAFA模块,它更加关注跨域关系建模中的稀疏可学习采样点,提高了校准误差的容忍度,从而极大加快了不同模态特征间的融合。为了克服GT-AUG在多模态下的复杂设置,在给定深度信息的情况下,设计了一种简单而有效的交叉模态增强策略。而且,通过采用一种新颖的图像级dropout训练方案,模型能够以动态的方式进行推理。为此, 我们在AutoAlign基础上提出AutoAlignV2,一个更快更强的多模态3D目标检测框架。在nuScenes基准测试上的实验表明了AutoAlignV2的有效性和效率。作者的最佳模型在nuScenes测试排行榜上达到72.4 NDS ,一个新的SOTA,超过了现有已知的多模态3D目标检测器。


640.png


2方法



很多研究已经表明,点云数据与RGB图像数据融合可以显著提高3D目标检测效果,但针对如何有效的去融合它们的探索还不够。作者认为训练一个跨模态3D目标检测器的困难主要表现在两方面:一是RGB图像特征与点云特征需要对齐,这主要依赖激光雷达的投影矩阵将像素和点建立对应关系,AutoAlign方法使用了可学习的全局对齐模块,取得了较好效果,缺点就是复杂度高,计算成本高;二是数据增强,比如GT-AUG,可以有效提高3D目标检测效果,但是子剪切粘贴过程中,要保持图像和点云的同步。本文整体就是为了优化这两个问题,提出了一系列方法。


Deformable Feature Aggregation


AutoAlign提出的CAFA(Cross-Attention Feature Alignment),引入可学习的对齐映射来建立图像和雷达点云的映射关系,使得网络以动态和数据驱动的方式自动对齐非同质化的特征。但其缺点是将每个像素都作为可能的空间候选位置,计算代价很高,只能应用在网络的C5特征层,而FPN中其它几个高分辨率特征层里面的信息更加细粒度。针对CAFA的问题,作者提出Cross-Domain DeformCAFA,该算法大大减少了采样候选量,并为每个体素查询特征动态确定图像平面上的关键点区域。此方法显著减少了计算成本,方法具体如下图所示:640.png



后面作者又发现直接将体素特征作为token生成注意力权重和可变形偏移,检测算法效果不佳,分析下来主要token生成存在跨域知识翻译问题,跨域的注意力需要不同模态的信息,而不能只关注体素特征。于是作者利用一种建模方法,让图像特征和体素特征联合生成token,具体使用了一个FC层,聚合这些跨域的特征:


640.png


Depth-Aware GT-AUG


数据增强可以提升深度学习模型的泛化能力,但多模态3D目标检测中,由于遮挡或视角改变,数据增强中将点云与图像组合在一起时很难保持同步。为此我们提出了Depth-Aware GT-AUG方法,摒弃了复杂的点云过滤以及图像域对掩模精细标注的要求,而是基于MixUp的思路,利用3D目标标注的深度信息来混合图像区域。具体地,对于点云目标,和正常的GT-AUG 实现一致。对于图像目标,首先由远及近(深度信息)的规则进行排序,对每个要粘贴的目标,从原始图像中裁剪出相同的区域,并将它们与目标图像按照混合比例α结合起来(具体参考MixUp原理)。具体实现过程如下:

640.png


Depth-Aware GT-AUG在点云域沿用了GT-AUG,而在图像域则是根据目标的深度信息,利用MixUp方法进行图像增强,这样不会完全去掉这个地方的目标特征。


Image-Level Dropout Training Strategy


实际场景中,RGB图像通常是可选的输入,并不是所有的3D目标检测系统都支持图像输入。因此,对于多模态检测,更现实适用的解决方案应该是采用动态融合的方式:当无图像输入时,模型基于原始点云检测目标;当有图像输入时,模型进行特征融合,得到更好的预测结果。为了实现这一目标,作者提出了一种图像级的dropout训练策略,在图像级随机删除融合的图像特征,并在训练过程中填充0,如下图所示。由于图像信息是间歇性缺失的,模型应该逐渐学会将2D特征作为可选输入。这种策略不仅大大加快了训练速度(每批处理的图像更少),而且提高了最终的性能。


640.png


3实验结果



在nuScenes上不同方法使用AutoAlignV2的对比实验:


640.png


与其它3D检测方法的对比:


640.png


消融实验做的也很充分:


640.png640.png640.png



最后,多模态融合就是好,虽然慢了,但是涨点明显,AutoAlignV2也支持纯激光雷达,性能也能和CenterPoint保持一致,更贴合现实应用场景。


640.png


4结论



本文作者提出一个动态、高效的多模态3D目标检测框架AutoAlignV2。它利用多层可变形交叉注意力网络从不同模态中提取和聚合特征,大大加快了融合过程。作者还设计了depth-aware GT-AUG策略,以简化多模态数据增强过程中2D和3D域之间的同步。并且AutoAlignV2更加灵活,可以以一种特殊的方式使用或不使用2D图像进行推理,这更适合于现实世界的自动驾驶系统。整体文章还是非常注重落地的。


相关文章
|
9月前
|
人工智能 PyTorch API
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。
1146 5
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
|
数据采集 文字识别 测试技术
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。
|
7月前
|
数据采集 人工智能 自然语言处理
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
284 4
|
9月前
|
人工智能 机器人 测试技术
3D具身基础模型!北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力
北京大学研究团队提出Lift3D框架,通过增强2D预训练模型的隐式与显式3D机器人表示,实现鲁棒的3D操作策略。核心包括任务感知掩码自编码器和2D模型提升策略,有效提高3D空间感知能力。实验表明,Lift3D在模拟与真实场景中性能优越,但计算成本较高且未涉及语言条件理解。未来可结合多模态模型优化应用。
213 30
|
8月前
|
人工智能 自然语言处理 图形学
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。
556 0
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
|
人工智能
3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D
【6月更文挑战第25天】DreamTech的Direct3D是全球首个3D-DiT模型,革新3D生成,使用3D潜在扩散变换,无需多视图或SDS优化,提升效率与准确性。模型包含D3D-VAE(高效编码3D形状)和D3D-DiT(模拟3D潜在分布)。它结合语义和像素条件生成与输入图像一致的3D形状,在质量和泛化上超越现有技术。然而,实际应用还需解决特定场景适应性、优化问题及集成挑战。[链接](https://arxiv.org/abs/2405.14832)
316 4
|
11月前
|
缓存 异构计算
DashInfer-VLM,多模态SOTA推理性能,超vLLM!
DashInfer-VLM是一个针对于视觉多模态大模型VLM的推理架构,特别优化了Qwen VL模型的推理加速,DashInfer-VLM和其他的VLM的推理加速框架最大的区别是, 它把VIT部分和LLM部分进行了分离,并且VIT和LLM的运行是并行运行,不互相干扰。
1468 16
|
人工智能 搜索推荐 物联网
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
《MimicTalk: 快速生成个性化3D数字人》介绍了一种创新方法,利用3D大模型在15分钟内训练出高质量、个性化的数字人模型。该方法基于NeRF技术,通过“静态-动态混合适应”实现高效训练,显著提升了数字人在视频会议、虚拟现实等领域的应用潜力。论文链接:https://arxiv.org/pdf/2410.06734
366 4
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。

热门文章

最新文章