登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022

简介: 语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



论文链接:https://arxiv.org/pdf/2207.04397.pdf

代码链接:https://github.com/yanx27/2DPASS


1提出背景



由于camera和激光雷达在自动驾驶中能够捕获一些互补信息,许多方法通过多模态数据融合方式进行语义分割。然而,基于融合的方法需要成对数据,即具有严格点到像素映射的激光雷达点云和2D图像,作为训练和推理阶段的输入,这严重阻碍了它们在实际场景中的应用。因此,论文提出了基于2D先验辅助语义分割(2DPASS)方法,这是一种通用的训练方案,用于促进点云上的表示学习。2DPASS充分利用了训练过程中有着丰富语义信息的2D图像,然后在没有严格paired数据约束的情况下进行语义分割。实践中,通过利用辅助模态融合和多尺度融合进行单知识提取(MSFSKD),2DPASS从多模态数据中获取更丰富的语义和结构信息,然后将这些信息提取到纯3D网络。基线模型显示,在配备2DPASS后,仅使用点云输入即可显著改善,在两个大规模公认基准(即SemanticKITTI和NuScenes)上达到了SOTA。


2应用需求



语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。然而,由于输入传感器的固有局限性,这些单模态方法在复杂环境中会遇到较多挑战。图像数据提供密集的颜色信息和细粒度纹理,但它们在深度传感方面不明确,在弱光条件下不可靠。相比之下,无论光照变化如何,激光雷达都能提供准确和广泛的深度信息,但只能捕获稀疏和无纹理的数据。由于摄像机和激光雷达能够相辅相成,因此最好使用两个传感器感知周围环境。


640.png


目前基于融合的方法仍存在以下不可避免的局限性:


1)由于摄像机和激光雷达之间的FOV(视野)不同,无法为图像平面外的点建立点到像素的映射,通常,激光雷达和摄像机的视场仅在一小部分重叠(如上图所示),这大大限制了基于融合的方法的应用;


2) 基于融合的方法在运行时同时处理图像和点云(通过多任务或级联方式),因此消耗了更多的计算资源,这给实时应用带来了很大负担;


为了解决上述两个问题,论文重点通过有效的设计,利用图像和点云来改进语义分割。考虑到传感器在场景中移动,与相同时间戳中的图像相对应的360度激光雷达点云的非重叠部分(参见图1中右侧部分的灰色区域)可以被来自其他时间戳的图像覆盖。此外,图像的密集和结构信息为可见和不可见的点云区域提供了有用的正则化。基于这些观察结果,我们提出了一种“与模型无关”的训练方案,即2D先验辅助语义分割(2DPASS),以增强任何3D语义分割网络的表示学习;


一方面,对于上述非重叠区域,2DPASS将纯点云作为输入来训练分割模型;另一方面,对于具有良好对齐点到像素映射的子区域,2DPASS采用辅助多模式融合来聚合每个尺度中的图像和点特征,然后将三维预测与融合预测对齐。与以前的跨模态对齐[17]容易污染模态特定信息不同,论文设计了一种多尺度融合到单知识提取(MSFSKD)策略,将额外知识转移到三维模型,并保留其模态特定能力。与基于融合的方法相比,论文的解决方案具有以下更好的特性:


1)通用性:它可以轻松地与任何三维分割模型集成,只需少量的结构修改;

2) 灵活性:融合模块仅在训练期间用于增强3D网络,训练后,增强的三维模型可以在没有图像输入的情况下部署;

3) 有效性:即使只有一小部分重叠的多模态数据,论文的方法也可以显著提高性能;


3网络结构设计



单模态方法


基于图像


基于图像的语义分割旨在预测输入2D图像的像素级标签。FCN[19]是语义分割领域的先驱,它提出了一种基于图像分类网络的端到端全卷积结构。最近的工作通过探索多尺度特征学习[4,20,21]、扩展卷积[5,22]和注意力机制[7,23]取得了显著的改进。然而,仅使图像的方法在深度传感方面不明确,在弱光条件下不稳定。


基于Lidar


激光雷达数据通常表示为点云。处理具有不同表示的点云有几种主流。


1) 基于点的方法使用逐点多层感知器(MLP)近似置换不变集函数。PointNet[24]是这一领域的先驱。后来,许多研究设计了基于点的MLP[25,26]、自适应权重[27,28]和伪网格[29,30]的方法来提取点云的局部特征,或利用非局部算子[31-33]来学习长距离依赖性。然而,基于点的方法在激光雷达场景中并不有效,因为它们的采样和分组算法通常很耗时。


2) 基于投影的方法是非常有效的激光雷达点云方法。一般将点云投影到2D像素上,使传统的CNN可以发挥正常作用。之前的工作通过平面投影[34-36]、球面投影[37、38]或两者[39]将旋转激光雷达扫描的所有点投影到2D图像上。然而,投影不可避免地会导致信息丢失。目前,基于投影的分割方法遇到了分割精度的瓶颈。


3) 最新的工作采用了基于体素的框架,因为它们平衡了效率和有效性,其中最常用的是稀疏卷积(SparseConv)[3]。与传统的基于体素的方法(即3DCNN)直接将所有点转换为三维体素网格相比,SparseConv仅将非空体素存储在哈希表中,并以更高效的方式仅对这些非空体素执行卷积运算。最近,许多研究使用SparseConv来设计更强大的网络架构。Cylinder3D[40]将原始网格体素更改为圆柱体体素,并设计非对称网络以提高性能。AF2-S3Net[41]应用具有不同内核大小的多个分支,通过注意力机制聚合多尺度特征。


4) 最近,出现了一种利用多表示融合方法的趋势。这些方法结合了上述多种表示(即点、投影图像和体素)和不同分支之间的设计特征融合。Tang等人[10]在每个稀疏卷积块中结合逐点MLP来学习点体素表示,并使用NAS搜索更高效的架构。RPVNet[42]提出了距离点体素融合网络,以利用来自三种表示的信息。然而,这些方法仅将稀疏和无纹理的激光雷达点云作为输入,因此未充分利用相机图像中的外观和纹理。


基于多模态方法


多传感器方法试图融合来自两个互补传感器的信息,并利用摄像机和激光雷达的优势[14、15、43、44]。RGBAL[14]将RGB图像转换为极坐标网格映射表示,并设计早期和中期融合策略。PointPainting[15]利用图像的分割逻辑,并通过鸟瞰图投影[23]或球面投影[45]将其投影到激光雷达空间,以提高激光雷达网络性能。最近,PMF[13]利用摄像机坐标系中两种模式的协作融合。然而,这些方法在训练和推理阶段都需要多传感器输入。此外,成对的多模态数据通常计算密集,在实际应用中不可用。


2DPASS


640.png


如上图所示,2DPASS首先从原始图像中裁剪出一小块patch作为2D输入。然后,裁剪后的图像面片和激光雷达点云分别通过2D和3D编码器,并行生成多尺度特征。然后,对于每个尺度,互补的二维知识通过多尺度融合到单知识蒸馏(MSFSKD)从而有效地转移到三维网络中(即充分利用纹理和颜色感知的二维先验知识,并保留原始的三维特定知识),最后3D任务通过解码器生成最终标签;


如上图所示,通过投影,2D和3D分支的预测由纯3D标签监督。在推理过程中,可以丢弃与2D相关的分支,与基于融合的方法相比,这在实际应用中有效地避免了额外的计算负担;

640.png


2Dencoder和3Dencoder结构如上图所示,(a)部分演示了2D特征生成,其中点云将首先投影到图像面片上,并生成点到像素(P2P)映射。然后,根据P2P映射将二维特征映射转换为逐点二维特征。(b)部分显示了三维特征生成。点到体素(P2V)映射很容易获得,体素特征将插值到点云上。点云在图像上的映射如下,其中K代表camera的内参,T代表外参:

640.png


MSFSKD


如下图所示,MSFSKD的内部结构包括模态融合和模态保持。其中2D特征和3D特征(通过2D Learner)进行融合,并通过两个MLP以及非线性映射对特征做点加,然后将输出特征和原2D特征进行融合,结合classifier,输出融合特征,3D部分则通过特征增强,结合classifier,输出3D预测结果,并在结果层面上做蒸馏;


640.png

2D和3D结果融合的表达方式如下:

640.png


蒸馏表达如下:

640.png


4实验结果



KITTI数据集上,语义分割结果,相同速度下,2DPASS大幅度超越PolarNet,相近性能下,2DPASS速度相比RPVNet和S3Net提升明显;


640.png640.png


Nuscenes数据集上,性能优势明显:


640.png

5参考文献



[1] 2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds.ECCV2022.                                                  



相关文章
|
存储 数据采集 传感器
一文多图搞懂KITTI数据集下载及解析
一文多图搞懂KITTI数据集下载及解析
14796 3
一文多图搞懂KITTI数据集下载及解析
|
存储 机器学习/深度学习 算法
MMDetection3d对KITT数据集的训练与评估介绍
MMDetection3d对KITT数据集的训练与评估介绍
2625 0
MMDetection3d对KITT数据集的训练与评估介绍
|
Ubuntu Linux Python
Linux(15)Ubuntu安装ninja构建工具
Linux(15)Ubuntu安装ninja构建工具
2506 0
|
存储 传感器 数据可视化
3D目标检测数据集 KITTI(标签格式解析、3D框可视化、点云转图像、BEV鸟瞰图)
本文介绍在3D目标检测中,理解和使用KITTI 数据集,包括KITTI 的基本情况、下载数据集、标签格式解析、3D框可视化、点云转图像、画BEV鸟瞰图等,并配有实现代码。
3541 1
|
传感器 机器学习/深度学习 编解码
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
|
7月前
|
算法
一次推理,实现六大3D点云分割任务!华科发布大一统算法UniSeg3D,性能新SOTA
华中科技大学研究团队提出了一种名为UniSeg3D的创新算法,该算法通过一次推理即可完成六大3D点云分割任务(全景、语义、实例、交互式、指代和开放词汇分割),并基于Transformer架构实现任务间知识共享与互惠。实验表明,UniSeg3D在多个基准数据集上超越现有SOTA方法,为3D场景理解提供了全新统一框架。然而,模型较大可能限制实际部署。
439 15
|
传感器 机器学习/深度学习 编解码
智能驾驶--语义分割 公开数据集 汇总
本文整理了10个质量较好,数据集较大,比较新的,图像语义分割的公开数据集;主要服务于智能驾驶方向(辅助驾驶、自动驾驶等)。
1742 0
|
传感器 机器学习/深度学习 人工智能
超全汇总 | 基于Camera的3D目标检测算法综述!(单目/双目/伪激光雷达)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于单目、双目和伪激光雷达数据的相关算法,下面展开讨论下~
超全汇总 | 基于Camera的3D目标检测算法综述!(单目/双目/伪激光雷达)
|
Linux TensorFlow 算法框架/工具
linux下anaconda换源
linux下anaconda换源
1387 1
|
传感器 机器学习/深度学习 人工智能
ECCV2022 | 激光雷达点云的开放世界语义分割
三维激光雷达传感器在自主车辆感知系统中发挥着重要作用。近年来,激光雷达点云的语义分割发展非常迅速,受益于包括SemanticKITTI和nuScenes在内的注释良好的数据集。然而,现有的激光雷达语义分割方法都是封闭集和静态的。闭集网络将所有输入视为训练过程中遇到的类别,因此它会错误地将旧类的标签分配给新类,这可能会带来灾难性后果。
ECCV2022 | 激光雷达点云的开放世界语义分割