英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!

简介: 英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!

fa6fa29655a84bb295d01e126bf53f23.png

Title: VoxFormer: Sparse Voxel Transformer for Camera-based

3D Semantic Scene Completion


Paper: https://arxiv.org/pdf/2302.12251.pdf


Code: https://github.com/nvlabs/voxformer


导读

777255fefbbaffcaa862200d3f81344f.png


从视觉图像估计场景中完整的几何结构和语义信息对于认知和理解至关重要。为了在人工智能系统中实现这种能力,论文提出了VoxFromer,一个基于Transformer的语义场景补全(SSC,Semantic Scene Completion)框架,可以仅从二维图像中预测空间中的体素占据和类别信息。VoxFromer的框架采用两阶段设计,首先从深度估计得到一组稀疏的可见和占据的体素查询,然后进从稀疏体素生成密集的三维体素。这种设计的一个关键思想是,二维图像上的视觉特征仅对应于可见的场景结构而不是被遮挡或空的空间,因此,从可见结构的特征化和预测开始更加可靠。一旦获得稀疏查询集,VoxFromer采用一个带掩膜的自编码器设计,通过自注意力将信息传播到所有的体素中。在SemanticKITTI数据集上的实验结果表明,VoxFormer在几何和语义方面的相对改进分别达到20.0%和18.1%,并且在训练期间将GPU内存减少了约45%,降至不到16GB。


研究背景

仅从视觉图像进行完整的3D场景理解是自动驾驶汽车感知中的一个重要问题,它直接影响规划和地图构建等下游任务。然而受限于传感器有限的视野和场景物体的遮挡,获得真实世界的准确和完整的3D信息是⼀项具有挑战性的任务。


为了应对这些挑战,语义场景补全(Semantic Scene Completion, SSC)被提出来,其从有限的观察中联合推断完整的场景几何和语义。SSC解决方案必须同时解决两个子任务:可见区域的场景重建和遮挡区域的场景推断。


现有的基于视觉方案的SSC,如MonoScence,使用密集特征投影将2D图像输入提升为3D。然而,这样的投影不可避免地会将可见区域的2D特征分配给空的或被遮挡的体素。例如,被汽车遮挡的空体素仍将获得汽车的视觉特征。结果,生成的3D特征包含许多歧义,无法用于后续的几何补全和语义分割,导致性能不尽如人意。


贡献

19e853be787070b093d24a0e7b06fe85.png


与MonoScene不同,VoxFormer考虑3D到2D交叉注意力来表示稀疏查询。所提出的设计受到两个见解的启发:


**遮挡区域场景推断:**以重建的可见区域作为起点,可以更好地完成不可见区域的三维信息

**稀疏三维空间表示:**由于三维空间大量的体素通常是不被占用的,使用稀疏表示而不是密集表示肯定更有效和可伸缩

VoxFormer的主要贡献如下:


一种新颖的两阶段框架,将图像提升到一个完整的3D体素化语义场景

一种基于2D卷积的新型查询提议(query proposal)网络,可以从图像深度生成可靠的查询

一种新的Transformer类似于掩蔽自编码器(MAE),产生完整的3D场景表示

VoxFormer在SemanticKITTI 的SCC任务上取得SOTA

方法

a092b090058ff8d3babe40c484f3e135.png


VoxFormer框架分为两阶段,第一阶段为类不可知(class-agnostic)的查询提议,第二阶段为类特定(class-specific)的语义分割。具体来说:


阶段一包含一个轻量级的基于2D CNN的查询提议网络,使用图像深度来重建场景的几何形状,从可学习体素查询中得到一个稀疏的体素。

阶段二是一个新的稀疏到密集的类似于MAE的架构,如上图所示,它首先通过与图像的Cross-Attention增强体素的特征,然后将未提出的体素与一个可学习的掩码标记相关联,并将整个体素集进行自注意处理,以完成逐体素语义分割的场景表示。

cf95e4599c18b8d127097d4511e6b99c.png

Stage-1: Class-Agnostic Query Proposal

Depth estimation

论文利用现有的单目深度估计网络得到每个像素点( u , v ) (u,v)(u,v)的深度Z ( u , v ) Z(u,v)Z(u,v),然后将预测的深度图Z ZZ反向投影到点云中:

a511c9c058711df9021f3af18c3c85be.png


Depth correction

image.png

Query proposal

image.png

Stage-2: Class-Specific Segmentation

Deformable attention

image.png

e88625552c4a740984ae2deee10c7e44.png

实验

0d8c21b5e072cc3e1b9e06bedfd6b4e2.png

在大型自动驾驶场景中,VoxFormer可以更好地捕捉场景的布局。同时,在树干、杆等小物体方面表现出满意的性能。


Comparison against camera-based methods

1d9da32e46cfb7ba4eed7597f3d2c869.png

如上表所示:


VoxFormer-S在几何补全方面大大优于MonoScene(36.80->44.02,19.62%)。如此大的改进源于阶段1,它具有明确的深度估计和校正,减少了查询过程中的大量空白。

具有时域信息VoxFrorer-T进一步提高了的VoxFrorer-S的SSC性能

VoxFormer在自动驾驶安全关键的短程领域比其他基于相机的方法有了显著的改进

VoxFormer在小物体上的更具优势

VoxFormer在模型大小和GPU显存上都优于MonoScene

Comparison against LiDAR-based methods

023a3cd30d4e72581b71606237275497.png

如上表所示,目标距离越近,VoxFormer-T和最先进的基于激光雷达的方法之间的性能差距越来越小。


Ablation studies

12e37c58168feb3c9fa28aaa491a4920.png

上表可以看出,基于双目的方法效果由于单目方法,因为前者利用了外极性几何结构,但后者依赖于模式识别。

749701526dee9c8fe3cc1954699a4f17.png

上表可以看出:


密集查询(在第二阶段中使用所有体素查询)消耗了大量内存且比占用查询效果更差

随机查询效果不稳定,与占用查询有较大差距

cd42de9a085e9086bf6b1ab9dd73b3cd.png


上表可以看出,时序连续帧输入可以提高性能


0b1db8fc8d7fd4d232ce338619e040a5.png


上表可以看出,对于阶段1,深度估计和校正都很重要,因为一组合理的体素查询可以为完整的场景表示学习奠定良好的基础。对于第二阶段,自注意和交叉注意可以通过启用voxel-to-voxel和voxel-to-image的交互来帮助提高性能。


总结

在本文中,作者提出了VoxFormer,一个强大的三维语义场景补全(SSC)框架,由(1)基于深度估计的类不可知查询提议和(2)类特定分割的稀疏到密集的类设计。VoxFormer优于最先进的基于相机的方法,甚至与基于激光雷达的方法相当。作者希望VoxFormer能激发基于摄像机的SSC及其在自动驾驶感知中的应用。

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!


同时欢迎添加小编微信: cv_huber,备注CSDN,加入官方学术|技术|招聘交流群,一起探讨更多有趣的话题!


目录
相关文章
|
6月前
|
人工智能 知识图谱
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
【7月更文挑战第7天】LeCun与谢赛宁团队推出 Cambrian-1,一款视觉多模态大语言模型,挑战GPT-4V。该模型以视觉为中心,利用20多种视觉编码器强化表示学习,实现SOTA性能,同时开源权重、代码及工具,促进领域发展。尽管面临资源需求与数据隐私的讨论,但其创新如空间视觉聚合器(SVA)降低了计算需求。[论文链接: https://arxiv.org/abs/2406.16860]
83 1
|
4月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记十九:Swin Transformer训练
本文介绍了使用自定义数据集训练和测试目标检测模型的步骤。首先,通过安装并使用标注工具labelme准备数据集;接着修改配置文件以适应自定义类别,并调整预训练模型;然后解决训练过程中遇到的依赖冲突问题并完成模型训练;最后利用测试命令验证模型效果。文中提供了具体命令及文件修改指导。
|
5月前
|
机器学习/深度学习 存储 运维
ICML 2024:清华提出时间序列大模型:面向通用时序分析的生成式Transformer
【8月更文挑战第7天】在2024年ICML大会上,清华大学团队推出“时间序列大模型(LTSM)”——Timer,一种处理大规模时间序列数据的生成式Transformer。该模型通过预训练学习通用特征,支持多种任务如预测与异常检测。Timer采用统一的数据格式S3处理异构序列,并在数据稀缺场景下展现出色性能。尽管如此,模型泛化能力与计算效率仍有待优化。论文详情参见:https://arxiv.org/abs/2402.02368。
1255 4
|
机器学习/深度学习 测试技术 计算机视觉
【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
|
机器学习/深度学习 自然语言处理 算法
【论文解读】文本分类上分利器:Bert微调trick大全
【论文解读】文本分类上分利器:Bert微调trick大全
919 0
【论文解读】文本分类上分利器:Bert微调trick大全
|
机器学习/深度学习 自然语言处理 自动驾驶
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
|
机器学习/深度学习 算法 数据挖掘
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
|
机器学习/深度学习 编解码 机器人
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
209 0
|
机器学习/深度学习 编解码 计算机视觉
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
213 0
|
机器学习/深度学习 编解码 人工智能
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
138 0