让多任务奔跑起来!Waymo开放数据集3D语义分割任务冠军方案分享(图森)

简介: 今天分享图森打榜Waymo开放数据集3D语义分割任务的技术报告,整篇文章读下来比较通透。比较经典的打榜思路,尤其是后面的多任务学习、两阶段优化,有打榜或训练大模型需求的小伙伴可以仔细读读~

论文链接:https://arxiv.org/pdf/2206.11428.pdf


汽车人的碎碎念



今天分享图森打榜Waymo开放数据集3D语义分割任务的技术报告,整篇文章读下来比较通透。比较经典的打榜思路,尤其是后面的多任务学习、两阶段优化,有打榜或训练大模型需求的小伙伴可以仔细读读~


摘要



本文是2022年Waymo开放数据集3D语义分割挑战的第一名所形成的技术报告。算法名称LidarMultiNet,统一输出了3D语义分割、目标检测和全景分割任务。LidarMultiNet的核心是一个强大的基于3D体素的encoder-decoder网络,包含一个新颖的Global Context Pooling(GCP)模块,可从LiDAR帧中提取全局上下文特征以补充其局部特征。进一步,提出了一个可选择的二阶段模块来细化一阶段的分割结果。最终,LidarMultiNet取得了3D语义分割挑战第一名的成绩,并首次证明了主要的LiDAR感知任务可以统一在一个端到端的网络中实现。


本文的贡献如下:

  1. 提出了一个高效的基于体素的LiDAR多任务网络,其统一了主要的 LiDAR 感知任务;
  2. 提出了一种新颖的Global Context Pooling (GCP) 模块,以改进基于3D稀疏卷积的编码器-解码器架构中的全局特征学习;
  3. 引入了两阶段的细化模块来细化第一阶段的语义分割结果或输出更准确的全景分割结果。


方法



Voxel-based LiDAR Segmentation


LiDAR点云语义分割旨在预测点云中所有点云的语义标签,每个点云有个输入特征,即3D坐标、反射强度、时间戳等等。


体素化:首先将点云体素化,之后使用一个简单的体素特征编码器,其只包含多层感知器(MLP)和最大池化层来生成稀疏的体素特征表示:

640.png


基于稀疏体素的编码器-解码器主干网络:本文设计了2D UNet [22]的3D形式作为分割网络的主干,其中体素特征在编码器中逐渐下采样至1/8大小,并在解码器中逐步恢复。Key indices在编解码器间以相同的比例共享,以保持相同的稀疏性并减少稀疏索引的重复计算。在训练期间,LidarMultiNet使用体素级的标签训练模型,在推理时通过去体素化的步骤投影回点云上。


LidarMultiNet


LidarMultiNet的网络结构如下图所示。主网络由基于3D稀疏卷积和反卷积的编码器-解码器王所组成,提出的GCP模块作用于编码器和解码器之间。网络可以增加两个辅助任务,即3D目标检测和BEV分割任务。此外,还有可选的第二个阶段用来细化语义分割结果并输出全景结果。


640.png


Global Context Pooling(GCP)


3D稀疏卷积大大减少了3D CNN 的内存消耗和运行时间,但其通常需要相同尺度的层才能在编码器和解码器中保持相同的稀疏性。这就将网络限制成只能使用相同尺度的submanifold convolution[10],如下图所示。然而submanifold convolution不能通过堆叠多个卷积层将特征发散到孤立的体素上,所以在一定程度上限制了网络学习全局上下文的能力。Global Context Pooling(GCP)旨在通过将全局上下文特征投影到2D密集的BEV特征图上,接着在应用2D多尺度特征提取器后将密集特征图转换回来,最后从3D稀疏张量中提取全局上下文信息。

640.png


如下图所示,基于编码器输出的3D稀疏张量,首先将其投影到密集的BEV特征图中。进一步在高度维度上将其与BEV特征图拼接在一起,形成新的2D BEV特征图。然后,使用2D多尺度CNN进一步提取上下文信息。最后将编码后的BEV特征重塑为密集体素特征,接着再使用密集到稀疏的转换步骤将其转换为稀疏体素特征。


640.png


得益于GCP,LidarMultiNet可以显著扩大感受野,而感受野对语义分割至关重要。此外,GCP中的BEV特征图可以与目标检测等任务恭喜,只需要增加额外的分支即可,稍微增加一些计算量。通过增加目标检测等任务,GCP可以进一步提高分割性能。


LiDAR Multi-task Learning


辅助任务:本文首先使用anchor-free算法CenterPoint [31]的检测头作为额外多任务分支。动机主要有两点:首先,检测损失可以作为辅助损失,并有助于利用分割和检测任务之间的协同作用,Waymo开放数据集 (WOD)也提供了对应的真值;其次,我们的算法超越了同时执行两项任务的多任务网络。除了检测头外,还可以再增加一个BEV分割头,输出粗糙的分割结果,并在训练期间作为另一个辅助损失。


多任务训练和损失函数:BEV的分支使用CE和Lovasz损失训练。整体的网络训练是端到端的,包含分割损失、检测损失和BEV损失,并使用如下的带权重的多任务损失系数进行平衡:

640.png


Second-stage Refinement


640.png


在训练期间,检测作为分割网络的辅助损失,不直接对分割做贡献,如上图所示,由于缺乏空间先验知识,检测框中的点有可能被误分类为多个类别。为了提高实例类别的空间一致性,本文提出了一种的新的基于点云的方法作为第二个阶段,该方法也可输出全景结果,如下图所示。


640.png


实验结果



实现细节如下表所示:

640.png


消融实验如下,各个模块有比较明显的提点。


640.png


打榜当然要使用TTA(Test-Time Augmentation)和模型集成咯。

640.png


最终取得了Waymo开放数据集3D语义分割任务榜单第一的成绩。


640.png


参考



[1] LidarMultiNet: Unifying LiDAR Semantic Segmentation, 3D Object Detection, and Panoptic Segmentation in a Single Multi-task Network


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
7月前
|
自然语言处理 测试技术 计算机视觉
ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
113 2
|
7月前
|
计算机视觉
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
51 0
|
25天前
|
人工智能 API
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
39 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
|
5月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
39 2
|
4月前
|
机器学习/深度学习 数据采集 存储
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】2 DPCNN、HAN、RCNN等传统深度学习方案
参加2021第五届“达观杯”基于大规模预训练模型的风险事件标签识别比赛的经验,包括使用DPCNN、HAN、TextRCNN、CapsuleNet和TextRCNNAttention等传统深度学习模型的方案实现,以及提分技巧,如多个模型的提交文件投票融合和生成伪标签的方法。
43 0
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
93 0
|
机器学习/深度学习 算法
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
143 0
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
159 0
|
机器学习/深度学习 人工智能 搜索推荐
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
200 0
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
144 0