利用BEV辅助的立体匹配,助力3D语义场景补全

简介: 利用BEV辅助的立体匹配,助力3D语义场景补全

640.png


Title: StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion

Paper: https://arxiv.org/pdf/2303.13959.pdf

Code: https://github.com/Arlo0o/StereoScene

导读

3D语义场景补全(SSC)是一个需要从不完整观测中推断出密集3D场景的不适定问题。以往的方法要么明确地融合3D几何信息,要么依赖于从单目RGB图像中学习到的3D先验知识。然而,像LiDAR这样的3D传感器昂贵且具有侵入性,而单目相机由于固有的尺度模糊性而难以建模精确的几何信息。在这项工作中,研究者提出了StereoScene用于3D语义场景补全(SSC),它充分利用了轻量级相机输入而无需使用任何外部3D传感器。研究者的关键想法是利用立体匹配来解决几何模糊性问题。为了提高其在不匹配区域的鲁棒性,论文引入了鸟瞰图(BEV)表示法,以激发具有丰富上下文信息的未知区域预测能力。在立体匹配BEV表示法的基础上,论文精心设计了一个相互交互聚合(MIA)模块,以充分发挥两者的作用,促进它们互补聚合。在SemanticKITTI上的实验结果表明,所提出的StereoScene在几何和语义方面相对于基于相机的现有方法取得了很大的进步,几何方面相对提高了26.9%,语义方面相对提高了38.6%。

背景

3D场景理解是现阶段自动驾驶、机器人导航的关键步骤,由于现实世界传感器的局限性,如视场限制、测量噪声或稀疏再生噪声,这项任务仍然是一个具有挑战性的问题。为了解决这一问题,研究者引入了三维语义场景补全(SSC)来联合预测场景的几何形状和语义分割

现有的3D场景通常以占用网格、点云或数据场的形式作为模型输入,现有的方法要不通过昂贵的传感器(例如激光雷达)直接获取场景数据,要不通过基于单目相机推断出场景,但单目视觉方案具有尺度不确定性。而双目视觉作为一种低成本的解决方案,具有明确的几何约束,带来确定的深度尺度,是一种很好的场景数据获取来源方案。

贡献

Figure 1: Overview of StereoScene Framework

论文提出了StereoScene框架,旨在充分利用视觉输入的潜力。由于具有明确的几何约束,立体匹配在产生匹配位置上的精确预测方面表现出卓越的能力。然而,立体匹配对高反、被遮挡等场景无能为力,因为它严重依赖于双目相机之间的特征对应。相比之下,基于BEV的方法隐式地将图像特征转换为与相机设置无关的规范空间。这种直接从图像特征中诱导出来潜在表示,编码了丰富的上下文和语义信息,展示了强大的全局鲁棒性和推断能力

基于以上观察,论文提出了一个BEV辅助的立体匹配SSC框架,将立体匹配的geometric volume和BEV的latent volume进行相互强化,论文的主要贡献如下:

  1. 提出了一种BEV辅助的立体匹配框架,用于3D语义场景补全
  2. 为了弥补二者表征性方面的差距,论文设计了基于Transformer的相互交互聚合模块,用于结合它们的互补优点
  3. 广泛的实验证明,StereoScene方法在SemanticKITT上的几何和语义相对改进分别为26.9%和38.6%,优于所有基于相机的现有技术水平

方法

本章节首先介绍了3D场景的hybrid occupancy定义,然后介绍了立体匹配的geometric volume和BEV的latent volume,最后介绍了如何聚合它们

Problem Formulation

给定一组立体RGB图像,目标是共同推断出一个3D场景的几何和语义。场景表示为体素网格(占据栅格),其中、、表示三维空间中的高度、宽度和深度。对于每个体素,它将被分配给一个唯一的语义标签,该标签要么占据空白空间,要么属于一个特定的语义类.

Figure 2: Overall framework of our proposed StereoScene

整体的StereoScene框架如上图所示。论文遵循使用连续的2D和3D UNets作为backbones。输入的立体图像 分别由一个2D UNet编码成成对的上下文感知特征和。然后,论文利用一个Stereo Constructor来将这些特性转换为一个密集的3D cost volume 。同时,BEV Constructor利用左图像特征得到潜在的BEV volume 以及其上下文特征。通过Mutual Interactive Aggregation Module将两个分支构建的volume桥接和聚合到一个新的volume 。最后,上下文特征沿向量积分裂,将其输入3D UNet进行语义分割和完成。

Dual Volume Construction

论文构建了密集深度的stereo volume 以及空间感知的BEV volume

Stereo Geometric Volume Constructor

利用从左右图像中获得的一元特征和,Stereo Constructor通过外极约束进行匹配来构建体素深度体。采用group-wise correlation来生成视差cost volume:

然后,将视差cost volume转换为深度volume,其公式为:

BEV Latent Volume Constructor

虽然Stereo Constructor在左右目对齐位置提供准确的估计,但它在严重遮挡或高反的极端条件下很困难。与依赖于严格几何匹配的立体匹配方法不同,BEV表示是通过3D先验将图像提升到一个共享的鸟瞰空间来获得的。论文将视觉特征输入一个卷积神经网络,并获得一个latent depth distribution 及其相关的上下文特征。由于这个分布本质上是一个体素网格,它存储了所有可能深度的概率,为了清晰起见,论文将其表示为BEV latent volume。

Mutual Interactive Aggregation Module

Figure 3: The structure of proposed Mutual Interactive Aggregation module.

该模块旨在相互加强获得的和,并整合它们各自的潜力,以产生一个新的volume。

Bi-directional Interactive Transformer

为了实现更优秀的聚合,论文提出了一个初始的启动阶段,可以有选择地筛选出与其相应的volume可靠的信息。具体来说,论文设计了一个Bi-directional Interactive Transformer (BIT),如图3所示,通过交叉注意机制交互地引导其相对方向的可靠预测,构建一个引导注意矩阵:

Depth Confidence Filtering

为了进一步增强上述引导矩阵,论文开发了一种深度置信度过滤策略,明确利用了volume背后所涉及的几何信息。论文旨在利用其深度分布信息来强制引导矩阵。特别地,为了将volume投影到置信度图,论文首先采用softmax将深度cost值转换为概率形式,然后在深度维度上取出所有深度假设平面中的最高概率值作为预测置信度。该过程的形式化写法如下:

为了达到这个目的,论文使用重塑后的置信度图更新先前的注意力矩阵,具体操作如下:

最后,利用滤波后的注意力矩阵将BEV值向量相乘,得到交互作用的BEV体积:

注意,它相反的相互作用volume 是以对称的方式计算的。

Dual Volume Aggregation

volume聚合模块将

作为输入,通过图3右边所示的流程得到输出聚合volume ,即占据网格。

Semantic Scene Completion

为了利用高质量的占据网格进行语义场景补全,论文使用其关联的上下文信息进行增强:

在此,论文首先对和进行了通道维度和深度维度的unsqueeze操作,这样,可以无缝地融合立体视觉表示精确几何和BEV特征丰富语义上下文的互补优势。

实验

Quantitative Comparison

Table 1: Quantitative results

640.png

Table 2: Quantitative results

如表1所示,作者提出的方法StereoScene在几何完整性和语义分割方面显著优于MonoScene基线方法,IoU提高了26.9%(34.16%→43.34%),mIoU提高了38.6%(11.08%→15.36%)。除了卡车类别外,StereoScene在个别类别预测方面超越了其他基线方法。此外,与MonoScene相比,该方法在小型移动物体的预测方面也表现出了显著的优势。

如表2所示,在SemanticKITTI验证集上,该方法在mIoU方面优于MonoScene和Voxformer-T。

Qualitative Comparison

Figure 4: Qualitative results on the SemanticKITTI validation set.

本文比较了基于立体视觉的场景补全方法StereoScene和基于单目视觉的方法MonoScene在SemanticKITTI验证集上的表现。结果表明,在几何补全和语义分割方面,StereoScene明显优于MonoScene。其中,IoU提高了26.9%(34.16% → 43.34%),mIoU提高了38.6%(11.08% → 15.36%)。此外,在大多数类别的预测中,StereoScene也优于其他基线模型。StereoScene在预测小的移动物体方面的表现显著优于MonoScene,例如自行车、摩托车、人、树干、路灯杆等。此外,在可视化结果上进一步比较了StereoScene和MonoScene,结果表明StereoScene在复杂场景中能够更好地捕捉几何形状,生成更完整、更准确的场景布局,并且在处理摄像机视野之外的区域时,也能够生成更合理、更完整的场景。

总结

本文提出了一种基于BEV辅助立体匹配的3D语义场景完成框架StereoScene,可以在不使用任何外部3D几何传感器输入的情况下生成高保真度的3D场景理解结果。该模型具有不需要使用预训练3D teacher网络或明确的几何输入的性质,利用几何约束隐式地建立结构化空间,并采用Transformer-based互动聚合模块来充分利用BEV表示和Stereo Matching的互补性。同时,该模型在极端条件下表现出很强的鲁棒性,如识别微小物体或在摄像机视野之外进行场景幻想。

目录
相关文章
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
|
2月前
|
存储 自然语言处理 API
打破文本边界:如何进行多模态RAG评估
一般的检索增强生成(RAG,Retrieval-Augmented Generation)方法主要依赖于文本数据,常常忽略了图像中的丰富信息。那么应该如何解决呢?本文带你了解一下这个模型。
打破文本边界:如何进行多模态RAG评估
|
3月前
|
编解码 人工智能 数据可视化
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
imagen: 具有深度语言理解的逼真的文本到图像扩散模型
41 0
|
5月前
|
编解码 索引
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
|
8月前
|
机器学习/深度学习 存储 算法
基于多模态融合与图神经网络的用户精准感知系统研究
基于多模态融合与图神经网络的用户精准感知系统研究
241 0
|
算法 自动驾驶 开发者
Cityscapes数据集(智能驾驶场景的语义分割)
面向智能驾驶(辅助驾驶、自动驾驶)场景下的语义分割任务,由于非结构化场景的复杂性,是一个非常具有挑战性的任务,所以有许多研究者和研究机构公开了很多相关的数据集推动语义分割领域的发展。本文主要介绍Cityscapes数据集。
656 0
|
算法
CamVid数据集(智能驾驶场景的语义分割)
CamVid 数据集是由剑桥大学公开发布的城市道路场景的数据集。CamVid全称:The Cambridge-driving Labeled Video Database,它是第一个具有目标类别语义标签的视频集合。 数据集包 括 700 多张精准标注的图片用于强监督学习,可分为训练集、验证集、测试集。同时, 在 CamVid 数据集中通常使用 11 种常用的类别来进行分割精度的评估,分别为:道路 (Road)、交通标志(Symbol)、汽车(Car)、天空(Sky)、行人道(Sidewalk)、电线杆 (Pole)、围墙(Fence)、行人(Pedestrian)、建筑物(Building)
722 0
|
JSON 算法 数据格式
优化cv2.findContours()函数提取的目标边界点,使语义分割进行远监督辅助标注
可以看到cv2.findContours()函数可以将目标的所有边界点都进行导出来,但是他的点存在一个问题,太过密集,如果我们想将语义分割的结果重新导出成labelme格式的json文件进行修正时,这就会存在点太密集没有办法进行修改,这里展示一个示例:没有对导出的结果进行修正,在labelme中的效果图。
250 0
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
|
Web App开发 自然语言处理 图形学
自然语言融入NeRF,给点文字就生成3D图的LERF来了
自然语言融入NeRF,给点文字就生成3D图的LERF来了
154 0

热门文章

最新文章