英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!

简介: 英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!

fa6fa29655a84bb295d01e126bf53f23.png

Title: VoxFormer: Sparse Voxel Transformer for Camera-based

3D Semantic Scene Completion


Paper: https://arxiv.org/pdf/2302.12251.pdf


Code: https://github.com/nvlabs/voxformer


导读

777255fefbbaffcaa862200d3f81344f.png


从视觉图像估计场景中完整的几何结构和语义信息对于认知和理解至关重要。为了在人工智能系统中实现这种能力,论文提出了VoxFromer,一个基于Transformer的语义场景补全(SSC,Semantic Scene Completion)框架,可以仅从二维图像中预测空间中的体素占据和类别信息。VoxFromer的框架采用两阶段设计,首先从深度估计得到一组稀疏的可见和占据的体素查询,然后进从稀疏体素生成密集的三维体素。这种设计的一个关键思想是,二维图像上的视觉特征仅对应于可见的场景结构而不是被遮挡或空的空间,因此,从可见结构的特征化和预测开始更加可靠。一旦获得稀疏查询集,VoxFromer采用一个带掩膜的自编码器设计,通过自注意力将信息传播到所有的体素中。在SemanticKITTI数据集上的实验结果表明,VoxFormer在几何和语义方面的相对改进分别达到20.0%和18.1%,并且在训练期间将GPU内存减少了约45%,降至不到16GB。


研究背景

仅从视觉图像进行完整的3D场景理解是自动驾驶汽车感知中的一个重要问题,它直接影响规划和地图构建等下游任务。然而受限于传感器有限的视野和场景物体的遮挡,获得真实世界的准确和完整的3D信息是⼀项具有挑战性的任务。


为了应对这些挑战,语义场景补全(Semantic Scene Completion, SSC)被提出来,其从有限的观察中联合推断完整的场景几何和语义。SSC解决方案必须同时解决两个子任务:可见区域的场景重建和遮挡区域的场景推断。


现有的基于视觉方案的SSC,如MonoScence,使用密集特征投影将2D图像输入提升为3D。然而,这样的投影不可避免地会将可见区域的2D特征分配给空的或被遮挡的体素。例如,被汽车遮挡的空体素仍将获得汽车的视觉特征。结果,生成的3D特征包含许多歧义,无法用于后续的几何补全和语义分割,导致性能不尽如人意。


贡献

19e853be787070b093d24a0e7b06fe85.png


与MonoScene不同,VoxFormer考虑3D到2D交叉注意力来表示稀疏查询。所提出的设计受到两个见解的启发:


**遮挡区域场景推断:**以重建的可见区域作为起点,可以更好地完成不可见区域的三维信息

**稀疏三维空间表示:**由于三维空间大量的体素通常是不被占用的,使用稀疏表示而不是密集表示肯定更有效和可伸缩

VoxFormer的主要贡献如下:


一种新颖的两阶段框架,将图像提升到一个完整的3D体素化语义场景

一种基于2D卷积的新型查询提议(query proposal)网络,可以从图像深度生成可靠的查询

一种新的Transformer类似于掩蔽自编码器(MAE),产生完整的3D场景表示

VoxFormer在SemanticKITTI 的SCC任务上取得SOTA

方法

a092b090058ff8d3babe40c484f3e135.png


VoxFormer框架分为两阶段,第一阶段为类不可知(class-agnostic)的查询提议,第二阶段为类特定(class-specific)的语义分割。具体来说:


阶段一包含一个轻量级的基于2D CNN的查询提议网络,使用图像深度来重建场景的几何形状,从可学习体素查询中得到一个稀疏的体素。

阶段二是一个新的稀疏到密集的类似于MAE的架构,如上图所示,它首先通过与图像的Cross-Attention增强体素的特征,然后将未提出的体素与一个可学习的掩码标记相关联,并将整个体素集进行自注意处理,以完成逐体素语义分割的场景表示。

cf95e4599c18b8d127097d4511e6b99c.png

Stage-1: Class-Agnostic Query Proposal

Depth estimation

论文利用现有的单目深度估计网络得到每个像素点( u , v ) (u,v)(u,v)的深度Z ( u , v ) Z(u,v)Z(u,v),然后将预测的深度图Z ZZ反向投影到点云中:

a511c9c058711df9021f3af18c3c85be.png


Depth correction

image.png

Query proposal

image.png

Stage-2: Class-Specific Segmentation

Deformable attention

image.png

e88625552c4a740984ae2deee10c7e44.png

实验

0d8c21b5e072cc3e1b9e06bedfd6b4e2.png

在大型自动驾驶场景中,VoxFormer可以更好地捕捉场景的布局。同时,在树干、杆等小物体方面表现出满意的性能。


Comparison against camera-based methods

1d9da32e46cfb7ba4eed7597f3d2c869.png

如上表所示:


VoxFormer-S在几何补全方面大大优于MonoScene(36.80->44.02,19.62%)。如此大的改进源于阶段1,它具有明确的深度估计和校正,减少了查询过程中的大量空白。

具有时域信息VoxFrorer-T进一步提高了的VoxFrorer-S的SSC性能

VoxFormer在自动驾驶安全关键的短程领域比其他基于相机的方法有了显著的改进

VoxFormer在小物体上的更具优势

VoxFormer在模型大小和GPU显存上都优于MonoScene

Comparison against LiDAR-based methods

023a3cd30d4e72581b71606237275497.png

如上表所示,目标距离越近,VoxFormer-T和最先进的基于激光雷达的方法之间的性能差距越来越小。


Ablation studies

12e37c58168feb3c9fa28aaa491a4920.png

上表可以看出,基于双目的方法效果由于单目方法,因为前者利用了外极性几何结构,但后者依赖于模式识别。

749701526dee9c8fe3cc1954699a4f17.png

上表可以看出:


密集查询(在第二阶段中使用所有体素查询)消耗了大量内存且比占用查询效果更差

随机查询效果不稳定,与占用查询有较大差距

cd42de9a085e9086bf6b1ab9dd73b3cd.png


上表可以看出,时序连续帧输入可以提高性能


0b1db8fc8d7fd4d232ce338619e040a5.png


上表可以看出,对于阶段1,深度估计和校正都很重要,因为一组合理的体素查询可以为完整的场景表示学习奠定良好的基础。对于第二阶段,自注意和交叉注意可以通过启用voxel-to-voxel和voxel-to-image的交互来帮助提高性能。


总结

在本文中,作者提出了VoxFormer,一个强大的三维语义场景补全(SSC)框架,由(1)基于深度估计的类不可知查询提议和(2)类特定分割的稀疏到密集的类设计。VoxFormer优于最先进的基于相机的方法,甚至与基于激光雷达的方法相当。作者希望VoxFormer能激发基于摄像机的SSC及其在自动驾驶感知中的应用。

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!


同时欢迎添加小编微信: cv_huber,备注CSDN,加入官方学术|技术|招聘交流群,一起探讨更多有趣的话题!


目录
相关文章
|
机器学习/深度学习 计算机视觉
Mobile-Unet网络综述
Mobile-Unet网络综述
2790 0
Mobile-Unet网络综述
|
存储 数据库
Dataset之ADE20k:ADE20k数据集的简介、安装、使用方法之详细攻略
Dataset之ADE20k:ADE20k数据集的简介、安装、使用方法之详细攻略
Dataset之ADE20k:ADE20k数据集的简介、安装、使用方法之详细攻略
|
Ubuntu Linux 编译器
openssl 的编译(linux、Ubuntu) 和 交叉编译(arm、Hi3531A)的问题分析、解决
openssl 的编译(linux、Ubuntu) 和 交叉编译(arm、Hi3531A)的问题分析、解决
2952 0
|
机器学习/深度学习 算法 计算机视觉
卷积神经网络(CNN)的工作原理深度解析
【6月更文挑战第14天】本文深度解析卷积神经网络(CNN)的工作原理。CNN由输入层、卷积层、激活函数、池化层、全连接层和输出层构成。卷积层通过滤波器提取特征,激活函数增加非线性,池化层降低维度。全连接层整合特征,输出层根据任务产生预测。CNN通过特征提取、整合、反向传播和优化进行学习。尽管存在计算量大、参数多等问题,但随着技术发展,CNN在计算机视觉领域的潜力将持续增长。
1341 3
|
机器学习/深度学习 资源调度 计算机视觉
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
659 6
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
|
存储 监控 物联网
|
Unix Python
python 的标准库模块glob使用教程,主要为glob.glob()使用与glob.iglob()使用
python 的标准库模块glob使用教程,主要为glob.glob()使用与glob.iglob()使用
690 0
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 注意力机制 | 添加混合局部通道注意力——MLCA【原理讲解】
YOLOv8专栏介绍了混合局部通道注意力(MLCA)模块,它结合通道、空间和局部信息,提升目标检测性能,同时保持低复杂度。文章提供MLCA原理、代码实现及如何将其集成到YOLOv8中,助力读者实战深度学习目标检测。[YOLOv8改进——更新各种有效涨点方法](https://blog.csdn.net/m0_67647321/category_12548649.html)
|
算法 测试技术 异构计算
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进】D-LKA Attention:可变形大核注意力 (论文笔记+引入代码)
YOLO目标检测专栏探讨了Transformer在医学图像分割的进展,但计算需求限制了模型的深度和分辨率。为此,提出了可变形大核注意力(D-LKA Attention),它使用大卷积核捕捉上下文信息,通过可变形卷积适应数据模式变化。D-LKA Net结合2D和3D版本的D-LKA Attention,提升了医学分割性能。YOLOv8引入了可变形卷积层以增强目标检测的准确性。相关代码和任务配置可在作者博客找到。

热门文章

最新文章