Title: StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion
导读
3D语义场景补全(SSC)是一个需要从不完整观测中推断出密集3D场景的不适定问题。以往的方法要么明确地融合3D几何信息,要么依赖于从单目RGB图像中学习到的3D先验知识。然而,像LiDAR这样的3D传感器昂贵且具有侵入性,而单目相机由于固有的尺度模糊性而难以建模精确的几何信息。在这项工作中,研究者提出了StereoScene用于3D语义场景补全(SSC),它充分利用了轻量级相机输入而无需使用任何外部3D传感器。研究者的关键想法是利用立体匹配来解决几何模糊性问题。为了提高其在不匹配区域的鲁棒性,论文引入了鸟瞰图(BEV)表示法,以激发具有丰富上下文信息的未知区域预测能力。在立体匹配和BEV表示法的基础上,论文精心设计了一个相互交互聚合(MIA)模块,以充分发挥两者的作用,促进它们互补聚合。在SemanticKITTI上的实验结果表明,所提出的StereoScene在几何和语义方面相对于基于相机的现有方法取得了很大的进步,几何方面相对提高了26.9%,语义方面相对提高了38.6%。
背景
3D场景理解是现阶段自动驾驶、机器人导航的关键步骤,由于现实世界传感器的局限性,如视场限制、测量噪声或稀疏再生噪声,这项任务仍然是一个具有挑战性的问题。为了解决这一问题,研究者引入了三维语义场景补全(SSC)来联合预测场景的几何形状和语义分割。
现有的3D场景通常以占用网格、点云或数据场的形式作为模型输入,现有的方法要不通过昂贵的传感器(例如激光雷达)直接获取场景数据,要不通过基于单目相机推断出场景,但单目视觉方案具有尺度不确定性。而双目视觉作为一种低成本的解决方案,具有明确的几何约束,带来确定的深度尺度,是一种很好的场景数据获取来源方案。
贡献
Figure 1: Overview of StereoScene Framework
论文提出了StereoScene框架,旨在充分利用视觉输入的潜力。由于具有明确的几何约束,立体匹配在产生匹配位置上的精确预测方面表现出卓越的能力。然而,立体匹配对高反、被遮挡等场景无能为力,因为它严重依赖于双目相机之间的特征对应。相比之下,基于BEV的方法隐式地将图像特征转换为与相机设置无关的规范空间。这种直接从图像特征中诱导出来潜在表示,编码了丰富的上下文和语义信息,展示了强大的全局鲁棒性和推断能力。
基于以上观察,论文提出了一个BEV辅助的立体匹配SSC框架,将立体匹配的geometric volume和BEV的latent volume进行相互强化,论文的主要贡献如下:
- 提出了一种BEV辅助的立体匹配框架,用于3D语义场景补全
- 为了弥补二者表征性方面的差距,论文设计了基于Transformer的相互交互聚合模块,用于结合它们的互补优点
- 广泛的实验证明,StereoScene方法在SemanticKITT上的几何和语义相对改进分别为26.9%和38.6%,优于所有基于相机的现有技术水平
方法
本章节首先介绍了3D场景的hybrid occupancy定义,然后介绍了立体匹配的geometric volume和BEV的latent volume,最后介绍了如何聚合它们
Problem Formulation
给定一组立体RGB图像,目标是共同推断出一个3D场景的几何和语义。场景表示为体素网格(占据栅格),其中、、表示三维空间中的高度、宽度和深度。对于每个体素,它将被分配给一个唯一的语义标签,该标签要么占据空白空间,要么属于一个特定的语义类.
Figure 2: Overall framework of our proposed StereoScene
整体的StereoScene框架如上图所示。论文遵循使用连续的2D和3D UNets作为backbones。输入的立体图像 分别由一个2D UNet编码成成对的上下文感知特征和。然后,论文利用一个Stereo Constructor来将这些特性转换为一个密集的3D cost volume 。同时,BEV Constructor利用左图像特征得到潜在的BEV volume 以及其上下文特征。通过Mutual Interactive Aggregation Module将两个分支构建的volume桥接和聚合到一个新的volume 。最后,上下文特征沿向量积分裂,将其输入3D UNet进行语义分割和完成。
Dual Volume Construction
论文构建了密集深度的stereo volume 以及空间感知的BEV volume
Stereo Geometric Volume Constructor
利用从左右图像中获得的一元特征和,Stereo Constructor通过外极约束进行匹配来构建体素深度体。采用group-wise correlation来生成视差cost volume:
然后,将视差cost volume转换为深度volume,其公式为:
BEV Latent Volume Constructor
虽然Stereo Constructor在左右目对齐位置提供准确的估计,但它在严重遮挡或高反的极端条件下很困难。与依赖于严格几何匹配的立体匹配方法不同,BEV表示是通过3D先验将图像提升到一个共享的鸟瞰空间来获得的。论文将视觉特征输入一个卷积神经网络,并获得一个latent depth distribution 及其相关的上下文特征。由于这个分布本质上是一个体素网格,它存储了所有可能深度的概率,为了清晰起见,论文将其表示为BEV latent volume。
Mutual Interactive Aggregation Module
Figure 3: The structure of proposed Mutual Interactive Aggregation module.
该模块旨在相互加强获得的和,并整合它们各自的潜力,以产生一个新的volume。
Bi-directional Interactive Transformer
为了实现更优秀的聚合,论文提出了一个初始的启动阶段,可以有选择地筛选出与其相应的volume可靠的信息。具体来说,论文设计了一个Bi-directional Interactive Transformer (BIT),如图3所示,通过交叉注意机制交互地引导其相对方向的可靠预测,构建一个引导注意矩阵:
Depth Confidence Filtering
为了进一步增强上述引导矩阵,论文开发了一种深度置信度过滤策略,明确利用了volume背后所涉及的几何信息。论文旨在利用其深度分布信息来强制引导矩阵。特别地,为了将volume投影到置信度图,论文首先采用softmax将深度cost值转换为概率形式,然后在深度维度上取出所有深度假设平面中的最高概率值作为预测置信度。该过程的形式化写法如下:
为了达到这个目的,论文使用重塑后的置信度图更新先前的注意力矩阵,具体操作如下:
最后,利用滤波后的注意力矩阵将BEV值向量相乘,得到交互作用的BEV体积:
注意,它相反的相互作用volume 是以对称的方式计算的。
Dual Volume Aggregation
volume聚合模块将
作为输入,通过图3右边所示的流程得到输出聚合volume ,即占据网格。
Semantic Scene Completion
为了利用高质量的占据网格进行语义场景补全,论文使用其关联的上下文信息进行增强:
在此,论文首先对和进行了通道维度和深度维度的unsqueeze操作,这样,可以无缝地融合立体视觉表示精确几何和BEV特征丰富语义上下文的互补优势。
实验
Quantitative Comparison
Table 1: Quantitative results
Table 2: Quantitative results
如表1所示,作者提出的方法StereoScene在几何完整性和语义分割方面显著优于MonoScene基线方法,IoU提高了26.9%(34.16%→43.34%),mIoU提高了38.6%(11.08%→15.36%)。除了卡车类别外,StereoScene在个别类别预测方面超越了其他基线方法。此外,与MonoScene相比,该方法在小型移动物体的预测方面也表现出了显著的优势。
如表2所示,在SemanticKITTI验证集上,该方法在mIoU方面优于MonoScene和Voxformer-T。
Qualitative Comparison
Figure 4: Qualitative results on the SemanticKITTI validation set.
本文比较了基于立体视觉的场景补全方法StereoScene和基于单目视觉的方法MonoScene在SemanticKITTI验证集上的表现。结果表明,在几何补全和语义分割方面,StereoScene明显优于MonoScene。其中,IoU提高了26.9%(34.16% → 43.34%),mIoU提高了38.6%(11.08% → 15.36%)。此外,在大多数类别的预测中,StereoScene也优于其他基线模型。StereoScene在预测小的移动物体方面的表现显著优于MonoScene,例如自行车、摩托车、人、树干、路灯杆等。此外,在可视化结果上进一步比较了StereoScene和MonoScene,结果表明StereoScene在复杂场景中能够更好地捕捉几何形状,生成更完整、更准确的场景布局,并且在处理摄像机视野之外的区域时,也能够生成更合理、更完整的场景。
总结
本文提出了一种基于BEV辅助立体匹配的3D语义场景完成框架StereoScene,可以在不使用任何外部3D几何传感器输入的情况下生成高保真度的3D场景理解结果。该模型具有不需要使用预训练3D teacher网络或明确的几何输入的性质,利用几何约束隐式地建立结构化空间,并采用Transformer-based互动聚合模块来充分利用BEV表示和Stereo Matching的互补性。同时,该模型在极端条件下表现出很强的鲁棒性,如识别微小物体或在摄像机视野之外进行场景幻想。