Panoptic-PartFormer:首篇端到端全景部件分割算法,代码已开源!(ECCV2022)

简介: 全景部件分割(PPS)旨在统一全景分割和部件分割。先前的工作主要使用不同的方法来单独处理thing、stuff和part,并未进行任何的计算共享和任务关联。因此本文搭建了一个统一的框架,即Panoptic-PartFormer来实现上述工作。本文在 Cityscapes PPS 和 Pascal Context PPS数据集上取得了最先进的结果,同时减少了70%的计算量和50%的参数量。相比于以往方法,在 Pascal Context PPS 数据集上,ResNet50主干下取得3.4%的提升,使用 Swin Transformer后,获得了10%的性能提升。

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA




基于Transformer的第一篇统一端到端全景部件分割算法!代码已开源!

标题:Panoptic-PartFormer: Learning a Unified Model for Panoptic Part Segmentation


链接:https://arxiv.org/pdf/2204.04655v1.pdf

代码:https://github.com/lxtGH/Panoptic-PartFormer


摘要



全景部件分割(PPS)旨在统一全景分割和部件分割。先前的工作主要使用不同的方法来单独处理thing、stuff和part,并未进行任何的计算共享和任务关联。因此本文搭建了一个统一的框架,即Panoptic-PartFormer来实现上述工作。本文在 Cityscapes PPS 和 Pascal Context PPS数据集上取得了最先进的结果,同时减少了70%的计算量和50%的参数量。相比于以往方法,在 Pascal Context PPS 数据集上,ResNet50主干下取得3.4%的提升,使用 Swin Transformer后,获得了10%的性能提升。


贡献



本文的贡献主要有以下几点:


1、Panopic-PartFormer为全景部件分割提供一个新颖、简单且有效的基线算法,据本文所知,这是该任务的第一个统一的端到端模型;

2、本文提出一个新的解耦的解码器和一个联合查询更新和推理框架,用于thing、stuff和part的联合特征学习,此外,提出了一个新的损失函数来监督整个模型;

3、大量的实验和分析表明了Panopic-PartFormer的有效性和泛化性。本文通过联合训练显著改善部件分割的性能。在Pascal Context PPS 数据集上,使用ResNet101的PartPQ增益约6-7%,使用swin Transformer  的 PartPQ 增益约为 10%,在Cityscapes PPS数据集上获得了1-2的PartPQ增益,并在Mapillary 和 BDD数据集上表现出更好的泛化能力。


全景部件分割的示意图如下所示:


640.png


方法



下图展示了Panopic-PartFormer的整体结构,主要包含三个部分:


1)Encoder network:用于特征提取的主干网络,常见的主干网络如ResNet、Swin Transformer等。

2)Decoupled decoder:解耦解码器包含两个独立的解码器网络,用来获取scene feature和 part feature,其中scene feature用来对thing和stuff的预测进行解码,而part feature用来对part的预测进行解码。这是因为部件分割和全景分割拥有不同的属性。首先,part feature需要更精确的位置和细节信息,其次,scene feature侧重于mask proposal级别的预测,而part feature则更关注mask proposal的内部部分,两者相互冲突。

3)Transformer decoder:将三种不同类型的query和主干特征作为输入,并输出thing、stuff和part的预测结果。


640.png


实验结果



Cityscape Panoptic Part 数据集的实验结果:


640.png


计算量和参数量对比:


640.png


Pascal Panoptic Part数据集的实验结果:


640.png


消融实验和模型设计:


640.png


不同数据集的可视化结果:


640.jpg

相关文章
|
1月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
191 0
|
2月前
|
存储 算法 调度
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
179 26
|
2月前
|
存储 编解码 算法
【多光谱滤波器阵列设计的最优球体填充】使用MSFA设计方法进行各种重建算法时,图像质量可以提高至多2 dB,并在光谱相似性方面实现了显著提升(Matlab代码实现)
【多光谱滤波器阵列设计的最优球体填充】使用MSFA设计方法进行各种重建算法时,图像质量可以提高至多2 dB,并在光谱相似性方面实现了显著提升(Matlab代码实现)
127 6
|
1月前
|
机器学习/深度学习 算法 机器人
使用哈里斯角Harris和SIFT算法来实现局部特征匹配(Matlab代码实现)
使用哈里斯角Harris和SIFT算法来实现局部特征匹配(Matlab代码实现)
137 8
|
1月前
|
机器学习/深度学习 算法 自动驾驶
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
146 8
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
576 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
2月前
|
机器学习/深度学习 传感器 算法
【高创新】基于优化的自适应差分导纳算法的改进最大功率点跟踪研究(Matlab代码实现)
【高创新】基于优化的自适应差分导纳算法的改进最大功率点跟踪研究(Matlab代码实现)
218 14
|
2月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
196 2
|
1月前
|
机器学习/深度学习 数据采集 负载均衡
结合多种启发式解码方法的混合多目标进化算法,用于解决带工人约束的混合流水车间调度问题(Matlab代码实现)
结合多种启发式解码方法的混合多目标进化算法,用于解决带工人约束的混合流水车间调度问题(Matlab代码实现)
122 0
|
1月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
112 0

热门文章

最新文章

下一篇
oss云网关配置