让多任务奔跑起来!Waymo开放数据集3D语义分割任务冠军方案分享(图森)

简介: 今天分享图森打榜Waymo开放数据集3D语义分割任务的技术报告,整篇文章读下来比较通透。比较经典的打榜思路,尤其是后面的多任务学习、两阶段优化,有打榜或训练大模型需求的小伙伴可以仔细读读~

论文链接:https://arxiv.org/pdf/2206.11428.pdf


汽车人的碎碎念



今天分享图森打榜Waymo开放数据集3D语义分割任务的技术报告,整篇文章读下来比较通透。比较经典的打榜思路,尤其是后面的多任务学习、两阶段优化,有打榜或训练大模型需求的小伙伴可以仔细读读~


摘要



本文是2022年Waymo开放数据集3D语义分割挑战的第一名所形成的技术报告。算法名称LidarMultiNet,统一输出了3D语义分割、目标检测和全景分割任务。LidarMultiNet的核心是一个强大的基于3D体素的encoder-decoder网络,包含一个新颖的Global Context Pooling(GCP)模块,可从LiDAR帧中提取全局上下文特征以补充其局部特征。进一步,提出了一个可选择的二阶段模块来细化一阶段的分割结果。最终,LidarMultiNet取得了3D语义分割挑战第一名的成绩,并首次证明了主要的LiDAR感知任务可以统一在一个端到端的网络中实现。


本文的贡献如下:

  1. 提出了一个高效的基于体素的LiDAR多任务网络,其统一了主要的 LiDAR 感知任务;
  2. 提出了一种新颖的Global Context Pooling (GCP) 模块,以改进基于3D稀疏卷积的编码器-解码器架构中的全局特征学习;
  3. 引入了两阶段的细化模块来细化第一阶段的语义分割结果或输出更准确的全景分割结果。


方法



Voxel-based LiDAR Segmentation


LiDAR点云语义分割旨在预测点云中所有点云的语义标签,每个点云有个输入特征,即3D坐标、反射强度、时间戳等等。


体素化:首先将点云体素化,之后使用一个简单的体素特征编码器,其只包含多层感知器(MLP)和最大池化层来生成稀疏的体素特征表示:

640.png


基于稀疏体素的编码器-解码器主干网络:本文设计了2D UNet [22]的3D形式作为分割网络的主干,其中体素特征在编码器中逐渐下采样至1/8大小,并在解码器中逐步恢复。Key indices在编解码器间以相同的比例共享,以保持相同的稀疏性并减少稀疏索引的重复计算。在训练期间,LidarMultiNet使用体素级的标签训练模型,在推理时通过去体素化的步骤投影回点云上。


LidarMultiNet


LidarMultiNet的网络结构如下图所示。主网络由基于3D稀疏卷积和反卷积的编码器-解码器王所组成,提出的GCP模块作用于编码器和解码器之间。网络可以增加两个辅助任务,即3D目标检测和BEV分割任务。此外,还有可选的第二个阶段用来细化语义分割结果并输出全景结果。


640.png


Global Context Pooling(GCP)


3D稀疏卷积大大减少了3D CNN 的内存消耗和运行时间,但其通常需要相同尺度的层才能在编码器和解码器中保持相同的稀疏性。这就将网络限制成只能使用相同尺度的submanifold convolution[10],如下图所示。然而submanifold convolution不能通过堆叠多个卷积层将特征发散到孤立的体素上,所以在一定程度上限制了网络学习全局上下文的能力。Global Context Pooling(GCP)旨在通过将全局上下文特征投影到2D密集的BEV特征图上,接着在应用2D多尺度特征提取器后将密集特征图转换回来,最后从3D稀疏张量中提取全局上下文信息。

640.png


如下图所示,基于编码器输出的3D稀疏张量,首先将其投影到密集的BEV特征图中。进一步在高度维度上将其与BEV特征图拼接在一起,形成新的2D BEV特征图。然后,使用2D多尺度CNN进一步提取上下文信息。最后将编码后的BEV特征重塑为密集体素特征,接着再使用密集到稀疏的转换步骤将其转换为稀疏体素特征。


640.png


得益于GCP,LidarMultiNet可以显著扩大感受野,而感受野对语义分割至关重要。此外,GCP中的BEV特征图可以与目标检测等任务恭喜,只需要增加额外的分支即可,稍微增加一些计算量。通过增加目标检测等任务,GCP可以进一步提高分割性能。


LiDAR Multi-task Learning


辅助任务:本文首先使用anchor-free算法CenterPoint [31]的检测头作为额外多任务分支。动机主要有两点:首先,检测损失可以作为辅助损失,并有助于利用分割和检测任务之间的协同作用,Waymo开放数据集 (WOD)也提供了对应的真值;其次,我们的算法超越了同时执行两项任务的多任务网络。除了检测头外,还可以再增加一个BEV分割头,输出粗糙的分割结果,并在训练期间作为另一个辅助损失。


多任务训练和损失函数:BEV的分支使用CE和Lovasz损失训练。整体的网络训练是端到端的,包含分割损失、检测损失和BEV损失,并使用如下的带权重的多任务损失系数进行平衡:

640.png


Second-stage Refinement


640.png


在训练期间,检测作为分割网络的辅助损失,不直接对分割做贡献,如上图所示,由于缺乏空间先验知识,检测框中的点有可能被误分类为多个类别。为了提高实例类别的空间一致性,本文提出了一种的新的基于点云的方法作为第二个阶段,该方法也可输出全景结果,如下图所示。


640.png


实验结果



实现细节如下表所示:

640.png


消融实验如下,各个模块有比较明显的提点。


640.png


打榜当然要使用TTA(Test-Time Augmentation)和模型集成咯。

640.png


最终取得了Waymo开放数据集3D语义分割任务榜单第一的成绩。


640.png


参考



[1] LidarMultiNet: Unifying LiDAR Semantic Segmentation, 3D Object Detection, and Panoptic Segmentation in a Single Multi-task Network


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
1月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
简介: 互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。
破壁人AI百度:科技公司反内卷的典型样本
|
机器学习/深度学习 存储 编解码
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
6512 0
Open3d系列 | 3. Open3d实现点云上采样、点云聚类、点云分割以及点云重建
|
存储 数据采集 数据可视化
Open3d系列 | 1. Open3d实现点云数据读写、点云配准、点云法向量计算
Open3d系列 | 1. Open3d实现点云数据读写、点云配准、点云法向量计算
10027 1
Open3d系列 | 1. Open3d实现点云数据读写、点云配准、点云法向量计算
|
存储 数据采集 传感器
一文多图搞懂KITTI数据集下载及解析
一文多图搞懂KITTI数据集下载及解析
8388 0
一文多图搞懂KITTI数据集下载及解析
|
9月前
|
人工智能 API C++
【AI绘画大比拼】通义万相VS文心一格:探索十种风格下的绘画生成差异!
近日,通义大模型家族的新成员——通义万相已在人工智能大会上亮相。其中,通义万相的强大的“文生图”功能,不禁让我想到了去年八月由百度依托飞桨、文心大模型的技术创新推出的“AI作画”首款产品——文心一格。 那么,在类似的Prompt下,两款产品的表现将会如何呢?今天就让我们就十种风格下二者生成图像的表现力,来看看这两款产品的差异。
|
前端开发 网络协议 API
什么是WebSocket?
WebSocket是一种在单个TCP连接上进行全双工通信的协议。WebSocket通信协议于2011年被IETF定为标准RFC 6455,并由RFC7936补充规范。WebSocket API也被W3C定为标准。
1401 0
什么是WebSocket?
|
4月前
|
编译器 C++
C++ 中 const 和 constexpr 关键字解析:常量、函数和指针
很多 C++ 的初学者看到 const 这个关键字的第一反应都是一头雾水,主要是因为 const可 以出现在很多的位置,以及后面加入的 constexpr 更是常常感到困惑,今天就为大家一一解释出现它们的含义和以及作用
102 0
|
传感器 机器学习/深度学习 存储
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
|
9月前
|
数据采集 存储 运维
基于数据全生命周期的数据资产价值评估方法及应用
数据资产价值评估是现代数据资产管理和运营以及数据流通的基础。基于数据全生命周期理论,从第一性原则出发,通过评估单张数据资产表的成本、数据管理以及数据应用价值,实现对单张数据资产表的系统性评估。利用数据仓库和图算法等技术,以层为单位,每层分摊,血缘路径继承,精确计算得到单张数据资产表的成本价值;然后利用层次分析法得到数据资产非经济因素权重,进而得到数据资产阶梯价值;最后通过实例分析验证了新方法的合理性和可行性。
|
传感器 机器学习/深度学习 人工智能
标注成本降低5倍!LaserMix:通用半监督LiDAR点云分割框架(新加坡南洋理工大学)
一个新颖的半监督LiDAR点云分割框架,有效地利用了LiDAR传感器和自动驾驶场景中的结构先验(spatial prior)对分割模型进行一致性约束,在主流的自动驾驶数据集(nuScenes ,SemanticKITTI ,ScribbleKITTI )上实现了优异的分割性能。
标注成本降低5倍!LaserMix:通用半监督LiDAR点云分割框架(新加坡南洋理工大学)

热门文章

最新文章