ECCV2022 | 激光雷达点云的开放世界语义分割

简介: 三维激光雷达传感器在自主车辆感知系统中发挥着重要作用。近年来,激光雷达点云的语义分割发展非常迅速,受益于包括SemanticKITTI和nuScenes在内的注释良好的数据集。然而,现有的激光雷达语义分割方法都是封闭集和静态的。闭集网络将所有输入视为训练过程中遇到的类别,因此它会错误地将旧类的标签分配给新类,这可能会带来灾难性后果。

论文链接:https://arxiv.org/abs/2207.01452

代码链接:https://github.com/Jun-CEN/Open_world_3D_semantic_segmentation


论文方法



三维激光雷达传感器在自主车辆感知系统中发挥着重要作用。近年来,激光雷达点云的语义分割发展非常迅速,受益于包括SemanticKITTI和nuScenes在内的注释良好的数据集。然而,现有的激光雷达语义分割方法都是封闭集和静态的。闭集网络将所有输入视为训练过程中遇到的类别,因此它会错误地将旧类的标签分配给新类,这可能会带来灾难性后果。同时,静态网络受限于某些场景,因为它无法更新自身以适应新环境。此外,从头开始训练以适应新场景非常耗时,并且由于隐私限制,旧类的注释有时不可用。


为了解决闭集和静态问题,我们提出了激光雷达点云的开放世界语义分割,它由两个任务组成:


1) 开放集语义分割(OSeg)将未知标签分配给新类,并将正确标签分配给旧类;

2)增量学习(IL),在标签商提供新类的标签后,将新类逐渐合并到知识库中;

下图显示出了激光雷达点云的开放世界语义分割的示例:

640.png


封闭集模型Mc错误地将旧类的标签分配给新对象(A:建筑车辆被分类为ManMade、卡车甚至行人;B:障碍物被分类为道路、ManMade和其他平面;C:交通标志被分类为Manmade)。在开放集语义分割(OSeg)任务之后,开放集模型Mo可以识别新对象并为它们分配未知标签。在增量学习(IL)任务之后,模型Mi可以对旧类和新类进行分类。


由于论文是第一个在3D激光雷达点云领域研究OSeg任务,参考了2D图像域中的现有方法,可分为两种类型,基于生成网络的方法[1,20,32]和基于不确定性的方法[11,14,18],尽管它们都不能直接使用。基于生成网络的方法采用条件生成对抗网络(cGAN),[24]基于闭集预测结果重构输入,并假设新区域在重构输入和原始输入之间具有较大的外观差异。然而,cGAN不适合重建点云,因为所有信息都由几何信息(即点的坐标)确定,并且cGAN只能重建通道信息(即RGB值),同时保持几何信息(包括像素的坐标和图像的形状)不变。基于不确定性的方法也工作得很差,因为我们发现网络将新类预测为具有高置信分数的旧类,如下图所示。除了OSeg任务的挑战,灾难性遗忘增量学习中的旧类是另一个需要解决的问题。仅使用新类的标签直接微调网络将使网络将一切分类为新类。因此,需要一种方法来增量学习新类,同时保持旧类的性能。


640.png

论文提出了一种冗余分类器(REAL)框架,以提供一种动态分类器架构,使模型适应OSeg和IL任务。对于OSeg任务,在原始网络的基础上添加了多个冗余分类器(RCs),以预测未知类的概率。然后,在IL任务期间,训练几个RCs对新引入的类进行分类,而剩余的RCs仍然负责未知类,如下图所示,基于未知对象合成、预测分布校准和伪标签生成,为实际情况下的OSeg和IL任务提供了训练策略。


640.png


领域方案



闭集激光雷达语义分割:激光雷达点云的语义分割可分为基于点和基于体素的方法。典型的基于点的方法使用PointNet和PointNet++直接对激光雷达点云进行操作。然而,由于激光雷达点云的密度变化和大规模,它们的性能有限。另一种基于点的方法将激光雷达点云转换为2D网格,然后应用2D卷积运算进行语义分割。SqueezeSeg和RangeNet++将点云转换为距离图像,而PolarNet将点云转换为极坐标下的鸟瞰图。然而,2D表示不可避免地丢失一些3D拓扑和几何信息。Cylinder 3D是一种基于体素的方法,它通过圆柱形分区和非对称三维卷积网络处理激光雷达点云的稀疏性和变密度问题。Cylinder 3D在SemanticKITTI和nuScenes上实现了最先进的性能,因此我们将其作为我们工作的基础架构。


开放集2D分类:开放集2D的分类方法有两种趋势:基于不确定性的方法和基于生成模型的方法。最大Softmax概率(MSP)是基于不确定性的方法的基线,而Dan等人[13]发现最大Logit(MaxLogit)是更好的选择。MC Dropout[11]和Ensembles[18]用于近似贝叶斯推理[17,21],后者从概率角度考虑网络。


同时,基于生成的方法,包括SynthCP[32]和DUIR[20],采用条件GAN(cGAN)[24]来重构输入,并通过将重构输入与原始输入进行比较来找到新区域。然而,这些方法不能直接适用于3D激光雷达点云域。[28,35]建议使用冗余分类器(RCs)直接输出未知类的分数,并采用流形混合和基于随机梯度Langevin动力学(SGLD)[29]的采样器来近似未知类分布。论文从中汲取了灵感,并进一步将RCs用于OSeg和IL,以及为3D点云领域开发合适的训练策略。


开放世界分类和检测:开放世界问题首先由Abhijit等人提出[4],他们认为网络应该能够处理在现实世界中实用的动态类别集。因此,他们引入了开放世界分类管道:首先识别已知和未知图像,然后在给定标签时逐渐学习对未知图像进行分类。他们提出了最近非离群值方法来管理开放世界分类任务。Joseph等人[16]将开放世界问题扩展到2D对象检测领域,并提出了一种基于对比聚类、未知感知建议网络和基于能量的未知识别的方法,以应对开放世界检测的挑战。Jun等人[7]后来采用深度度量学习对2D图像进行开放世界语义分割。在这里,论文将开放世界问题扩展到三维激光雷达云点域,而包括用于三维激光雷达点云的OSeg和IL在内的两个子任务尚未研究。


冗余分类器框架(REAL)



训练的闭集模型Mc由特征提取器f和常规分类器gnm组成,能够很好地分类旧类K0,针对一个确定输入P,输出为:

640.png


OSeg任务是使封闭集模型Mc适应开放集模型使得Mo可以将新类U识别为未知。为了实现这一目标,我们在gre中添加了r冗余分类器(RCs):

640.png


上图Mo中的所有RCs用于预测未知类别的分数y,将y的最大响应设为未知类的分数,由类0表示。这样,开放集模型Mo的输出为:

640.png


IL任务是将开放集模型Mo训练为Mi,以便新引入的类Kn从未知变为已知,Mi表示为:


640.png640.png

640.png

640.png


实验



论文对开放世界语义分割的两个任务进行了实验,包括OSeg和IL任务,在两个大规模数据集SemanticKITTI和nuScenes上评估了提出的方法,REAL方法在开放集上的性能如下所示,相比于之前的方法,有明显提升!


640.png640.png


增量学习在SemanticKITTI上的性能对比,接近或超过上限:


640.png


参考文献



[1] Open-world Semantic Segmentation for LIDAR Point Clouds


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
机器学习/深度学习 存储 编解码
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
13458 1
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
|
数据可视化 机器人 编译器
科力雷达Lidar使用指南
本文是科力2D激光雷达Lidar的使用指南,包括了雷达的安装、编译、IP配置、上位机软件使用、ROS节点运行、参数配置、官方文档和软件资源链接,以及雷达通讯建立失败等问题的解决方案。适用于Ubuntu20.04(x86) PC和Ubuntu20.04(Arm) Nvidia Orin环境。
451 1
科力雷达Lidar使用指南
|
Kubernetes 负载均衡 数据中心
在K8S中,在主机和容器上部署应用程序有什么区别?
在K8S中,在主机和容器上部署应用程序有什么区别?
|
机器学习/深度学习 算法 vr&ar
深度学习之人脸关键点检测
人脸关键点检测的主要任务是识别并定位人脸图像中的特定关键点,例如眼睛的角点、眉毛的顶点、鼻子的底端、嘴角等。这些关键点不仅能提供面部结构的几何信息,还可以用于分析表情、识别个体,甚至检测面部姿势。
290 2
|
传感器 机器学习/深度学习 存储
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
|
消息中间件 存储 NoSQL
阿里开源中间件一览
阿里开源中间件一览
1112 2
|
传感器 机器学习/深度学习 编解码
激光雷达与视觉联合标定综述!(系统介绍/标定板选择/在线离线标定等)
由于2D识别的成功,论文引入了一个大型基准,称为OMNI3D,重新审视了3D目标检测的任务。OMNI3D对现有数据集进行了重新利用和组合,生成了234k张图像,标注了300多万个实例和97个类别。由于相机内参的变化以及场景和目标类型的丰富多样性,这种规模的3D检测具有挑战性。论文提出了一个名为Cube R-CNN的模型,旨在通过统一的方法在摄像机和场景类型之间进行泛化。结果表明,在更大的OMNI3D和现有基准上,Cube R-CNN优于先前的工作。最后,论文证明了OMNI3D是一个强大的3D目标识别数据集,表明它提高了单个数据集的性能,并可以通过预训练加速对新的较小数据集的学习。
激光雷达与视觉联合标定综述!(系统介绍/标定板选择/在线离线标定等)
|
存储 程序员 C++
C/C++ 内存分配 new 操作符:剖析new操作符的实现机制和使用技巧
C/C++ 内存分配 new 操作符:剖析new操作符的实现机制和使用技巧
436 0
Vue3案例-todoMVC (可跟做练手)
Vue3案例-todoMVC (可跟做练手)
162 0

热门文章

最新文章