利用BEV辅助的立体匹配,助力3D语义场景补全

简介: 利用BEV辅助的立体匹配,助力3D语义场景补全

640.png


Title: StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion

Paper: https://arxiv.org/pdf/2303.13959.pdf

Code: https://github.com/Arlo0o/StereoScene

导读

3D语义场景补全(SSC)是一个需要从不完整观测中推断出密集3D场景的不适定问题。以往的方法要么明确地融合3D几何信息,要么依赖于从单目RGB图像中学习到的3D先验知识。然而,像LiDAR这样的3D传感器昂贵且具有侵入性,而单目相机由于固有的尺度模糊性而难以建模精确的几何信息。在这项工作中,研究者提出了StereoScene用于3D语义场景补全(SSC),它充分利用了轻量级相机输入而无需使用任何外部3D传感器。研究者的关键想法是利用立体匹配来解决几何模糊性问题。为了提高其在不匹配区域的鲁棒性,论文引入了鸟瞰图(BEV)表示法,以激发具有丰富上下文信息的未知区域预测能力。在立体匹配BEV表示法的基础上,论文精心设计了一个相互交互聚合(MIA)模块,以充分发挥两者的作用,促进它们互补聚合。在SemanticKITTI上的实验结果表明,所提出的StereoScene在几何和语义方面相对于基于相机的现有方法取得了很大的进步,几何方面相对提高了26.9%,语义方面相对提高了38.6%。

背景

3D场景理解是现阶段自动驾驶、机器人导航的关键步骤,由于现实世界传感器的局限性,如视场限制、测量噪声或稀疏再生噪声,这项任务仍然是一个具有挑战性的问题。为了解决这一问题,研究者引入了三维语义场景补全(SSC)来联合预测场景的几何形状和语义分割

现有的3D场景通常以占用网格、点云或数据场的形式作为模型输入,现有的方法要不通过昂贵的传感器(例如激光雷达)直接获取场景数据,要不通过基于单目相机推断出场景,但单目视觉方案具有尺度不确定性。而双目视觉作为一种低成本的解决方案,具有明确的几何约束,带来确定的深度尺度,是一种很好的场景数据获取来源方案。

贡献

Figure 1: Overview of StereoScene Framework

论文提出了StereoScene框架,旨在充分利用视觉输入的潜力。由于具有明确的几何约束,立体匹配在产生匹配位置上的精确预测方面表现出卓越的能力。然而,立体匹配对高反、被遮挡等场景无能为力,因为它严重依赖于双目相机之间的特征对应。相比之下,基于BEV的方法隐式地将图像特征转换为与相机设置无关的规范空间。这种直接从图像特征中诱导出来潜在表示,编码了丰富的上下文和语义信息,展示了强大的全局鲁棒性和推断能力

基于以上观察,论文提出了一个BEV辅助的立体匹配SSC框架,将立体匹配的geometric volume和BEV的latent volume进行相互强化,论文的主要贡献如下:

  1. 提出了一种BEV辅助的立体匹配框架,用于3D语义场景补全
  2. 为了弥补二者表征性方面的差距,论文设计了基于Transformer的相互交互聚合模块,用于结合它们的互补优点
  3. 广泛的实验证明,StereoScene方法在SemanticKITT上的几何和语义相对改进分别为26.9%和38.6%,优于所有基于相机的现有技术水平

方法

本章节首先介绍了3D场景的hybrid occupancy定义,然后介绍了立体匹配的geometric volume和BEV的latent volume,最后介绍了如何聚合它们

Problem Formulation

给定一组立体RGB图像,目标是共同推断出一个3D场景的几何和语义。场景表示为体素网格(占据栅格),其中、、表示三维空间中的高度、宽度和深度。对于每个体素,它将被分配给一个唯一的语义标签,该标签要么占据空白空间,要么属于一个特定的语义类.

Figure 2: Overall framework of our proposed StereoScene

整体的StereoScene框架如上图所示。论文遵循使用连续的2D和3D UNets作为backbones。输入的立体图像 分别由一个2D UNet编码成成对的上下文感知特征和。然后,论文利用一个Stereo Constructor来将这些特性转换为一个密集的3D cost volume 。同时,BEV Constructor利用左图像特征得到潜在的BEV volume 以及其上下文特征。通过Mutual Interactive Aggregation Module将两个分支构建的volume桥接和聚合到一个新的volume 。最后,上下文特征沿向量积分裂,将其输入3D UNet进行语义分割和完成。

Dual Volume Construction

论文构建了密集深度的stereo volume 以及空间感知的BEV volume

Stereo Geometric Volume Constructor

利用从左右图像中获得的一元特征和,Stereo Constructor通过外极约束进行匹配来构建体素深度体。采用group-wise correlation来生成视差cost volume:

然后,将视差cost volume转换为深度volume,其公式为:

BEV Latent Volume Constructor

虽然Stereo Constructor在左右目对齐位置提供准确的估计,但它在严重遮挡或高反的极端条件下很困难。与依赖于严格几何匹配的立体匹配方法不同,BEV表示是通过3D先验将图像提升到一个共享的鸟瞰空间来获得的。论文将视觉特征输入一个卷积神经网络,并获得一个latent depth distribution 及其相关的上下文特征。由于这个分布本质上是一个体素网格,它存储了所有可能深度的概率,为了清晰起见,论文将其表示为BEV latent volume。

Mutual Interactive Aggregation Module

Figure 3: The structure of proposed Mutual Interactive Aggregation module.

该模块旨在相互加强获得的和,并整合它们各自的潜力,以产生一个新的volume。

Bi-directional Interactive Transformer

为了实现更优秀的聚合,论文提出了一个初始的启动阶段,可以有选择地筛选出与其相应的volume可靠的信息。具体来说,论文设计了一个Bi-directional Interactive Transformer (BIT),如图3所示,通过交叉注意机制交互地引导其相对方向的可靠预测,构建一个引导注意矩阵:

Depth Confidence Filtering

为了进一步增强上述引导矩阵,论文开发了一种深度置信度过滤策略,明确利用了volume背后所涉及的几何信息。论文旨在利用其深度分布信息来强制引导矩阵。特别地,为了将volume投影到置信度图,论文首先采用softmax将深度cost值转换为概率形式,然后在深度维度上取出所有深度假设平面中的最高概率值作为预测置信度。该过程的形式化写法如下:

为了达到这个目的,论文使用重塑后的置信度图更新先前的注意力矩阵,具体操作如下:

最后,利用滤波后的注意力矩阵将BEV值向量相乘,得到交互作用的BEV体积:

注意,它相反的相互作用volume 是以对称的方式计算的。

Dual Volume Aggregation

volume聚合模块将

作为输入,通过图3右边所示的流程得到输出聚合volume ,即占据网格。

Semantic Scene Completion

为了利用高质量的占据网格进行语义场景补全,论文使用其关联的上下文信息进行增强:

在此,论文首先对和进行了通道维度和深度维度的unsqueeze操作,这样,可以无缝地融合立体视觉表示精确几何和BEV特征丰富语义上下文的互补优势。

实验

Quantitative Comparison

Table 1: Quantitative results

640.png

Table 2: Quantitative results

如表1所示,作者提出的方法StereoScene在几何完整性和语义分割方面显著优于MonoScene基线方法,IoU提高了26.9%(34.16%→43.34%),mIoU提高了38.6%(11.08%→15.36%)。除了卡车类别外,StereoScene在个别类别预测方面超越了其他基线方法。此外,与MonoScene相比,该方法在小型移动物体的预测方面也表现出了显著的优势。

如表2所示,在SemanticKITTI验证集上,该方法在mIoU方面优于MonoScene和Voxformer-T。

Qualitative Comparison

Figure 4: Qualitative results on the SemanticKITTI validation set.

本文比较了基于立体视觉的场景补全方法StereoScene和基于单目视觉的方法MonoScene在SemanticKITTI验证集上的表现。结果表明,在几何补全和语义分割方面,StereoScene明显优于MonoScene。其中,IoU提高了26.9%(34.16% → 43.34%),mIoU提高了38.6%(11.08% → 15.36%)。此外,在大多数类别的预测中,StereoScene也优于其他基线模型。StereoScene在预测小的移动物体方面的表现显著优于MonoScene,例如自行车、摩托车、人、树干、路灯杆等。此外,在可视化结果上进一步比较了StereoScene和MonoScene,结果表明StereoScene在复杂场景中能够更好地捕捉几何形状,生成更完整、更准确的场景布局,并且在处理摄像机视野之外的区域时,也能够生成更合理、更完整的场景。

总结

本文提出了一种基于BEV辅助立体匹配的3D语义场景完成框架StereoScene,可以在不使用任何外部3D几何传感器输入的情况下生成高保真度的3D场景理解结果。该模型具有不需要使用预训练3D teacher网络或明确的几何输入的性质,利用几何约束隐式地建立结构化空间,并采用Transformer-based互动聚合模块来充分利用BEV表示和Stereo Matching的互补性。同时,该模型在极端条件下表现出很强的鲁棒性,如识别微小物体或在摄像机视野之外进行场景幻想。

目录
相关文章
|
存储 前端开发 Java
农产品销售|助农惠农|基于Springboot实现农产品销售管理系统
农产品销售|助农惠农|基于Springboot实现农产品销售管理系统
793 1
|
编解码 安全 搜索推荐
还没适配 Android 12 的要抓紧了(下)
还没适配 Android 12 的要抓紧了(下)
2323 0
还没适配 Android 12 的要抓紧了(下)
|
消息中间件
为什么选择轻量消息队列(原 MNS)作为云产品间的消息通道?
一张图带您快速了解为什么众多云产品间的消息通道选择轻量消息队列(原 MNS)🤔
183 80
|
数据采集 人工智能 自然语言处理
AI Agent 金融助理0-1 Tutorial 利用Python实时查询股票API的FinanceAgent框架构建股票(美股/A股/港股) AI Finance Agent
金融领域Finance AI Agents方面的工作,发现很多行业需求和用户输入的 query都是和查询股价/行情/指数/财报汇总/金融理财建议相关。如果需要准确的 金融实时数据就不能只依赖LLM 来生成了。常规的方案包括 RAG (包括调用API )再把对应数据和prompt 一起拼接送给大模型来做文本生成。稳定的一些商业机构的金融数据API基本都是收费的,如果是以科研和demo性质有一些开放爬虫API可以使用。这里主要介绍一下 FinanceAgent,github地址 https://github.com/AI-Hub-Admin/FinanceAgent
|
前端开发 Java 数据库
Java系列之 Long类型返回前端精度丢失
这篇文章讨论了Java后端实体类中Long类型数据在传递给前端时出现的精度丢失问题,并提供了通过在实体类字段上添加`@JsonSerialize(using = ToStringSerializer.class)`注解来确保精度的解决方法。
|
存储 人工智能 分布式计算
阿里云智能大数据演进
本文根据7月24日飞天发布时刻产品发布会、7月5日DataFunCon2024·北京站:大数据·大模型.双核时代实录整理而成
|
机器学习/深度学习 算法 算法框架/工具
《YOLOv8原创自研》专栏介绍 & CSDN独家改进创新实战&专栏目录
《YOLOv8原创自研》专栏介绍 & CSDN独家改进创新实战&专栏目录
671 3
|
机器学习/深度学习 编解码 人工智能
论文精读 TransGAN:两个纯粹的Transformer可以组成一个强大的GAN(TransGAN:Two Pure Transformers Can Make One Strong GAN)
TransGAN是UT-Austin、加州大学、 IBM研究院的华人博士生构建了一个只使用纯 transformer 架构、完全没有卷积的 GAN,并将其命名为 TransGAN。该论文已被NeruIPS(Conference and Workshop on Neural Information Processing Systems,计算机人工智能领域A类会议)录用,文章发表于2021年12月。 该文章旨在仅使用Transformer网络设计GAN。Can we build a strong GAN completely free of convolutions? 论文地址:https://
论文精读 TransGAN:两个纯粹的Transformer可以组成一个强大的GAN(TransGAN:Two Pure Transformers Can Make One Strong GAN)
|
Prometheus 监控 Cloud Native
容器化技术的性能调优与监控
【6月更文挑战第29天】本文探讨了容器(如Docker)的性能优化与监控,强调了其在云和微服务中的重要性。调优涉及资源限制设定、代码优化,通过性能测试、瓶颈分析进行迭代优化。监控目标是确保稳定性和可用性,使用工具如Portainer、CAdvisor、Prometheus来跟踪状态、性能指标和日志。监控内容涵盖容器状态、资源使用、日志和限制,策略包括设定阈值和告警机制。调优监控的优化有助于提升应用性能和企业价值。
|
机器学习/深度学习 传感器 人工智能
英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!
英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!
350 0
英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!