ECCV2022 | 激光雷达点云的开放世界语义分割

简介: 三维激光雷达传感器在自主车辆感知系统中发挥着重要作用。近年来,激光雷达点云的语义分割发展非常迅速,受益于包括SemanticKITTI和nuScenes在内的注释良好的数据集。然而,现有的激光雷达语义分割方法都是封闭集和静态的。闭集网络将所有输入视为训练过程中遇到的类别,因此它会错误地将旧类的标签分配给新类,这可能会带来灾难性后果。

论文链接:https://arxiv.org/abs/2207.01452

代码链接:https://github.com/Jun-CEN/Open_world_3D_semantic_segmentation


论文方法



三维激光雷达传感器在自主车辆感知系统中发挥着重要作用。近年来,激光雷达点云的语义分割发展非常迅速,受益于包括SemanticKITTI和nuScenes在内的注释良好的数据集。然而,现有的激光雷达语义分割方法都是封闭集和静态的。闭集网络将所有输入视为训练过程中遇到的类别,因此它会错误地将旧类的标签分配给新类,这可能会带来灾难性后果。同时,静态网络受限于某些场景,因为它无法更新自身以适应新环境。此外,从头开始训练以适应新场景非常耗时,并且由于隐私限制,旧类的注释有时不可用。


为了解决闭集和静态问题,我们提出了激光雷达点云的开放世界语义分割,它由两个任务组成:


1) 开放集语义分割(OSeg)将未知标签分配给新类,并将正确标签分配给旧类;

2)增量学习(IL),在标签商提供新类的标签后,将新类逐渐合并到知识库中;

下图显示出了激光雷达点云的开放世界语义分割的示例:

640.png


封闭集模型Mc错误地将旧类的标签分配给新对象(A:建筑车辆被分类为ManMade、卡车甚至行人;B:障碍物被分类为道路、ManMade和其他平面;C:交通标志被分类为Manmade)。在开放集语义分割(OSeg)任务之后,开放集模型Mo可以识别新对象并为它们分配未知标签。在增量学习(IL)任务之后,模型Mi可以对旧类和新类进行分类。


由于论文是第一个在3D激光雷达点云领域研究OSeg任务,参考了2D图像域中的现有方法,可分为两种类型,基于生成网络的方法[1,20,32]和基于不确定性的方法[11,14,18],尽管它们都不能直接使用。基于生成网络的方法采用条件生成对抗网络(cGAN),[24]基于闭集预测结果重构输入,并假设新区域在重构输入和原始输入之间具有较大的外观差异。然而,cGAN不适合重建点云,因为所有信息都由几何信息(即点的坐标)确定,并且cGAN只能重建通道信息(即RGB值),同时保持几何信息(包括像素的坐标和图像的形状)不变。基于不确定性的方法也工作得很差,因为我们发现网络将新类预测为具有高置信分数的旧类,如下图所示。除了OSeg任务的挑战,灾难性遗忘增量学习中的旧类是另一个需要解决的问题。仅使用新类的标签直接微调网络将使网络将一切分类为新类。因此,需要一种方法来增量学习新类,同时保持旧类的性能。


640.png

论文提出了一种冗余分类器(REAL)框架,以提供一种动态分类器架构,使模型适应OSeg和IL任务。对于OSeg任务,在原始网络的基础上添加了多个冗余分类器(RCs),以预测未知类的概率。然后,在IL任务期间,训练几个RCs对新引入的类进行分类,而剩余的RCs仍然负责未知类,如下图所示,基于未知对象合成、预测分布校准和伪标签生成,为实际情况下的OSeg和IL任务提供了训练策略。


640.png


领域方案



闭集激光雷达语义分割:激光雷达点云的语义分割可分为基于点和基于体素的方法。典型的基于点的方法使用PointNet和PointNet++直接对激光雷达点云进行操作。然而,由于激光雷达点云的密度变化和大规模,它们的性能有限。另一种基于点的方法将激光雷达点云转换为2D网格,然后应用2D卷积运算进行语义分割。SqueezeSeg和RangeNet++将点云转换为距离图像,而PolarNet将点云转换为极坐标下的鸟瞰图。然而,2D表示不可避免地丢失一些3D拓扑和几何信息。Cylinder 3D是一种基于体素的方法,它通过圆柱形分区和非对称三维卷积网络处理激光雷达点云的稀疏性和变密度问题。Cylinder 3D在SemanticKITTI和nuScenes上实现了最先进的性能,因此我们将其作为我们工作的基础架构。


开放集2D分类:开放集2D的分类方法有两种趋势:基于不确定性的方法和基于生成模型的方法。最大Softmax概率(MSP)是基于不确定性的方法的基线,而Dan等人[13]发现最大Logit(MaxLogit)是更好的选择。MC Dropout[11]和Ensembles[18]用于近似贝叶斯推理[17,21],后者从概率角度考虑网络。


同时,基于生成的方法,包括SynthCP[32]和DUIR[20],采用条件GAN(cGAN)[24]来重构输入,并通过将重构输入与原始输入进行比较来找到新区域。然而,这些方法不能直接适用于3D激光雷达点云域。[28,35]建议使用冗余分类器(RCs)直接输出未知类的分数,并采用流形混合和基于随机梯度Langevin动力学(SGLD)[29]的采样器来近似未知类分布。论文从中汲取了灵感,并进一步将RCs用于OSeg和IL,以及为3D点云领域开发合适的训练策略。


开放世界分类和检测:开放世界问题首先由Abhijit等人提出[4],他们认为网络应该能够处理在现实世界中实用的动态类别集。因此,他们引入了开放世界分类管道:首先识别已知和未知图像,然后在给定标签时逐渐学习对未知图像进行分类。他们提出了最近非离群值方法来管理开放世界分类任务。Joseph等人[16]将开放世界问题扩展到2D对象检测领域,并提出了一种基于对比聚类、未知感知建议网络和基于能量的未知识别的方法,以应对开放世界检测的挑战。Jun等人[7]后来采用深度度量学习对2D图像进行开放世界语义分割。在这里,论文将开放世界问题扩展到三维激光雷达云点域,而包括用于三维激光雷达点云的OSeg和IL在内的两个子任务尚未研究。


冗余分类器框架(REAL)



训练的闭集模型Mc由特征提取器f和常规分类器gnm组成,能够很好地分类旧类K0,针对一个确定输入P,输出为:

640.png


OSeg任务是使封闭集模型Mc适应开放集模型使得Mo可以将新类U识别为未知。为了实现这一目标,我们在gre中添加了r冗余分类器(RCs):

640.png


上图Mo中的所有RCs用于预测未知类别的分数y,将y的最大响应设为未知类的分数,由类0表示。这样,开放集模型Mo的输出为:

640.png


IL任务是将开放集模型Mo训练为Mi,以便新引入的类Kn从未知变为已知,Mi表示为:


640.png640.png

640.png

640.png


实验



论文对开放世界语义分割的两个任务进行了实验,包括OSeg和IL任务,在两个大规模数据集SemanticKITTI和nuScenes上评估了提出的方法,REAL方法在开放集上的性能如下所示,相比于之前的方法,有明显提升!


640.png640.png


增量学习在SemanticKITTI上的性能对比,接近或超过上限:


640.png


参考文献



[1] Open-world Semantic Segmentation for LIDAR Point Clouds


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
4月前
|
机器学习/深度学习 自动驾驶 机器人
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
|
机器学习/深度学习 传感器 人工智能
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
|
4月前
|
机器学习/深度学习 数据处理 计算机视觉
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
72 0
|
2月前
|
传感器 机器学习/深度学习 自动驾驶
【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023
本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。CRN,全称是Camera Radar Net,是一个多视角相机-雷达融合框架。 通过融合多视角相机和雷达的特性,生成语义丰富且空间精确的BEV特征图。实现3D物体检测、跟踪和BEV分割任务。
79 1
|
4月前
|
存储 算法 自动驾驶
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
5月前
|
编解码 算法 自动驾驶
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
142 0
|
11月前
|
机器学习/深度学习 传感器 编解码
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
|
传感器 机器学习/深度学习 存储
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
|
机器学习/深度学习 传感器 人工智能
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(上)
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(上)