利用BEV辅助的立体匹配,助力3D语义场景补全

简介: 利用BEV辅助的立体匹配,助力3D语义场景补全

640.png


Title: StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion

Paper: https://arxiv.org/pdf/2303.13959.pdf

Code: https://github.com/Arlo0o/StereoScene

导读

3D语义场景补全(SSC)是一个需要从不完整观测中推断出密集3D场景的不适定问题。以往的方法要么明确地融合3D几何信息,要么依赖于从单目RGB图像中学习到的3D先验知识。然而,像LiDAR这样的3D传感器昂贵且具有侵入性,而单目相机由于固有的尺度模糊性而难以建模精确的几何信息。在这项工作中,研究者提出了StereoScene用于3D语义场景补全(SSC),它充分利用了轻量级相机输入而无需使用任何外部3D传感器。研究者的关键想法是利用立体匹配来解决几何模糊性问题。为了提高其在不匹配区域的鲁棒性,论文引入了鸟瞰图(BEV)表示法,以激发具有丰富上下文信息的未知区域预测能力。在立体匹配BEV表示法的基础上,论文精心设计了一个相互交互聚合(MIA)模块,以充分发挥两者的作用,促进它们互补聚合。在SemanticKITTI上的实验结果表明,所提出的StereoScene在几何和语义方面相对于基于相机的现有方法取得了很大的进步,几何方面相对提高了26.9%,语义方面相对提高了38.6%。

背景

3D场景理解是现阶段自动驾驶、机器人导航的关键步骤,由于现实世界传感器的局限性,如视场限制、测量噪声或稀疏再生噪声,这项任务仍然是一个具有挑战性的问题。为了解决这一问题,研究者引入了三维语义场景补全(SSC)来联合预测场景的几何形状和语义分割

现有的3D场景通常以占用网格、点云或数据场的形式作为模型输入,现有的方法要不通过昂贵的传感器(例如激光雷达)直接获取场景数据,要不通过基于单目相机推断出场景,但单目视觉方案具有尺度不确定性。而双目视觉作为一种低成本的解决方案,具有明确的几何约束,带来确定的深度尺度,是一种很好的场景数据获取来源方案。

贡献

Figure 1: Overview of StereoScene Framework

论文提出了StereoScene框架,旨在充分利用视觉输入的潜力。由于具有明确的几何约束,立体匹配在产生匹配位置上的精确预测方面表现出卓越的能力。然而,立体匹配对高反、被遮挡等场景无能为力,因为它严重依赖于双目相机之间的特征对应。相比之下,基于BEV的方法隐式地将图像特征转换为与相机设置无关的规范空间。这种直接从图像特征中诱导出来潜在表示,编码了丰富的上下文和语义信息,展示了强大的全局鲁棒性和推断能力

基于以上观察,论文提出了一个BEV辅助的立体匹配SSC框架,将立体匹配的geometric volume和BEV的latent volume进行相互强化,论文的主要贡献如下:

  1. 提出了一种BEV辅助的立体匹配框架,用于3D语义场景补全
  2. 为了弥补二者表征性方面的差距,论文设计了基于Transformer的相互交互聚合模块,用于结合它们的互补优点
  3. 广泛的实验证明,StereoScene方法在SemanticKITT上的几何和语义相对改进分别为26.9%和38.6%,优于所有基于相机的现有技术水平

方法

本章节首先介绍了3D场景的hybrid occupancy定义,然后介绍了立体匹配的geometric volume和BEV的latent volume,最后介绍了如何聚合它们

Problem Formulation

给定一组立体RGB图像,目标是共同推断出一个3D场景的几何和语义。场景表示为体素网格(占据栅格),其中、、表示三维空间中的高度、宽度和深度。对于每个体素,它将被分配给一个唯一的语义标签,该标签要么占据空白空间,要么属于一个特定的语义类.

Figure 2: Overall framework of our proposed StereoScene

整体的StereoScene框架如上图所示。论文遵循使用连续的2D和3D UNets作为backbones。输入的立体图像 分别由一个2D UNet编码成成对的上下文感知特征和。然后,论文利用一个Stereo Constructor来将这些特性转换为一个密集的3D cost volume 。同时,BEV Constructor利用左图像特征得到潜在的BEV volume 以及其上下文特征。通过Mutual Interactive Aggregation Module将两个分支构建的volume桥接和聚合到一个新的volume 。最后,上下文特征沿向量积分裂,将其输入3D UNet进行语义分割和完成。

Dual Volume Construction

论文构建了密集深度的stereo volume 以及空间感知的BEV volume

Stereo Geometric Volume Constructor

利用从左右图像中获得的一元特征和,Stereo Constructor通过外极约束进行匹配来构建体素深度体。采用group-wise correlation来生成视差cost volume:

然后,将视差cost volume转换为深度volume,其公式为:

BEV Latent Volume Constructor

虽然Stereo Constructor在左右目对齐位置提供准确的估计,但它在严重遮挡或高反的极端条件下很困难。与依赖于严格几何匹配的立体匹配方法不同,BEV表示是通过3D先验将图像提升到一个共享的鸟瞰空间来获得的。论文将视觉特征输入一个卷积神经网络,并获得一个latent depth distribution 及其相关的上下文特征。由于这个分布本质上是一个体素网格,它存储了所有可能深度的概率,为了清晰起见,论文将其表示为BEV latent volume。

Mutual Interactive Aggregation Module

Figure 3: The structure of proposed Mutual Interactive Aggregation module.

该模块旨在相互加强获得的和,并整合它们各自的潜力,以产生一个新的volume。

Bi-directional Interactive Transformer

为了实现更优秀的聚合,论文提出了一个初始的启动阶段,可以有选择地筛选出与其相应的volume可靠的信息。具体来说,论文设计了一个Bi-directional Interactive Transformer (BIT),如图3所示,通过交叉注意机制交互地引导其相对方向的可靠预测,构建一个引导注意矩阵:

Depth Confidence Filtering

为了进一步增强上述引导矩阵,论文开发了一种深度置信度过滤策略,明确利用了volume背后所涉及的几何信息。论文旨在利用其深度分布信息来强制引导矩阵。特别地,为了将volume投影到置信度图,论文首先采用softmax将深度cost值转换为概率形式,然后在深度维度上取出所有深度假设平面中的最高概率值作为预测置信度。该过程的形式化写法如下:

为了达到这个目的,论文使用重塑后的置信度图更新先前的注意力矩阵,具体操作如下:

最后,利用滤波后的注意力矩阵将BEV值向量相乘,得到交互作用的BEV体积:

注意,它相反的相互作用volume 是以对称的方式计算的。

Dual Volume Aggregation

volume聚合模块将

作为输入,通过图3右边所示的流程得到输出聚合volume ,即占据网格。

Semantic Scene Completion

为了利用高质量的占据网格进行语义场景补全,论文使用其关联的上下文信息进行增强:

在此,论文首先对和进行了通道维度和深度维度的unsqueeze操作,这样,可以无缝地融合立体视觉表示精确几何和BEV特征丰富语义上下文的互补优势。

实验

Quantitative Comparison

Table 1: Quantitative results

640.png

Table 2: Quantitative results

如表1所示,作者提出的方法StereoScene在几何完整性和语义分割方面显著优于MonoScene基线方法,IoU提高了26.9%(34.16%→43.34%),mIoU提高了38.6%(11.08%→15.36%)。除了卡车类别外,StereoScene在个别类别预测方面超越了其他基线方法。此外,与MonoScene相比,该方法在小型移动物体的预测方面也表现出了显著的优势。

如表2所示,在SemanticKITTI验证集上,该方法在mIoU方面优于MonoScene和Voxformer-T。

Qualitative Comparison

Figure 4: Qualitative results on the SemanticKITTI validation set.

本文比较了基于立体视觉的场景补全方法StereoScene和基于单目视觉的方法MonoScene在SemanticKITTI验证集上的表现。结果表明,在几何补全和语义分割方面,StereoScene明显优于MonoScene。其中,IoU提高了26.9%(34.16% → 43.34%),mIoU提高了38.6%(11.08% → 15.36%)。此外,在大多数类别的预测中,StereoScene也优于其他基线模型。StereoScene在预测小的移动物体方面的表现显著优于MonoScene,例如自行车、摩托车、人、树干、路灯杆等。此外,在可视化结果上进一步比较了StereoScene和MonoScene,结果表明StereoScene在复杂场景中能够更好地捕捉几何形状,生成更完整、更准确的场景布局,并且在处理摄像机视野之外的区域时,也能够生成更合理、更完整的场景。

总结

本文提出了一种基于BEV辅助立体匹配的3D语义场景完成框架StereoScene,可以在不使用任何外部3D几何传感器输入的情况下生成高保真度的3D场景理解结果。该模型具有不需要使用预训练3D teacher网络或明确的几何输入的性质,利用几何约束隐式地建立结构化空间,并采用Transformer-based互动聚合模块来充分利用BEV表示和Stereo Matching的互补性。同时,该模型在极端条件下表现出很强的鲁棒性,如识别微小物体或在摄像机视野之外进行场景幻想。

目录
相关文章
|
7月前
|
机器学习/深度学习 数据可视化 PyTorch
零基础入门语义分割-地表建筑物识别 Task5 模型训练与验证-学习笔记
零基础入门语义分割-地表建筑物识别 Task5 模型训练与验证-学习笔记
505 2
|
7月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
26天前
|
存储 自然语言处理 API
打破文本边界:如何进行多模态RAG评估
一般的检索增强生成(RAG,Retrieval-Augmented Generation)方法主要依赖于文本数据,常常忽略了图像中的丰富信息。那么应该如何解决呢?本文带你了解一下这个模型。
打破文本边界:如何进行多模态RAG评估
|
5月前
|
机器学习/深度学习 数据可视化 TensorFlow
使用Python实现深度学习模型:图像语义分割与对象检测
【7月更文挑战第15天】 使用Python实现深度学习模型:图像语义分割与对象检测
84 2
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
传感器 机器学习/深度学习 编解码
智能驾驶--语义分割 公开数据集 汇总
本文整理了10个质量较好,数据集较大,比较新的,图像语义分割的公开数据集;主要服务于智能驾驶方向(辅助驾驶、自动驾驶等)。
615 0
|
机器学习/深度学习 人工智能 自然语言处理
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
多模态对比语言图像预训练CLIP:打破语言与视觉的界限
|
人工智能 JSON 自然语言处理
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用
|
算法
CamVid数据集(智能驾驶场景的语义分割)
CamVid 数据集是由剑桥大学公开发布的城市道路场景的数据集。CamVid全称:The Cambridge-driving Labeled Video Database,它是第一个具有目标类别语义标签的视频集合。 数据集包 括 700 多张精准标注的图片用于强监督学习,可分为训练集、验证集、测试集。同时, 在 CamVid 数据集中通常使用 11 种常用的类别来进行分割精度的评估,分别为:道路 (Road)、交通标志(Symbol)、汽车(Car)、天空(Sky)、行人道(Sidewalk)、电线杆 (Pole)、围墙(Fence)、行人(Pedestrian)、建筑物(Building)
557 0
|
算法 自动驾驶 开发者
Cityscapes数据集(智能驾驶场景的语义分割)
面向智能驾驶(辅助驾驶、自动驾驶)场景下的语义分割任务,由于非结构化场景的复杂性,是一个非常具有挑战性的任务,所以有许多研究者和研究机构公开了很多相关的数据集推动语义分割领域的发展。本文主要介绍Cityscapes数据集。
569 0