【论文原文】:Generalized Few-shot Semantic Segmentation
获取地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Tian_Generalized_Few-Shot_Semantic_Segmentation_CVPR_2022_paper.pdf
博主关键词: 小样本学习,语义分割,原型学习
推荐相关论文:
【论文速递】ACM2022 - 基于嵌入自适应更新和超类表示的增量小样本语义分割
摘要:
语义分割模型的训练需要大量精细标注的数据,很难快速适应不满足这一条件的新类。小样本分割(FS-Seg)通过许多约束来解决这个问题。在本文中,我们引入了一种新的基准,称为泛化的小样本语义分割(GFSSeg),以分析同时分割具有很少示例的新类别和具有足够示例的基本类别的泛化能力。这是首次研究表明,以往最先进的代表性FS-Seg方法在GFS-Seg中存在不足,其性能差异主要来自FS-Seg的约束设置。为了使GFS-Seg易于处理,我们设置了一个GFS-Seg基线,该基线在原始模型上没有结构更改的情况下实现了良好的性能。然后,由于上下文对语义分割至关重要,我们提出了上下文感知的原型学习(CAPL),通过以下方式显著提高性能:1)利用来自支持样本的共现先验知识,2)动态丰富分类器的上下文信息,以每个查询图像的内容为条件。这两项贡献都在实验上证明了它们的实际价值。在Pascal-VOC和COCO上的大量实验也表明,CAPL通过实现具有竞争力的性能,可以很好地推广到FS-Seg。代码可从https://github.com/dvlabresearch/GFS-Seg获得。
简介:
深度学习的发展为语义分割任务带来了显著的性能提升。有代表性的语义分割方法[5,64]在机器人、自动驾驶、医学成像等领域有广泛的应用。然而,一旦这些框架经过训练,如果没有足够的完全标记的数据,它们就无法处理新应用程序中未见的类。即使新类所需的数据已经准备好,微调也会花费额外的时间和资源。
为了快速适应只有有限标记数据的新类,在标记良好的基类上训练小样本分割(FSSeg)[31]模型,并在以前未见过的新类上进行测试。在训练过程中,FS-Seg将数据分为支持集和查询集。支持集样本旨在为FS-Seg模型提供目标分类信息,以识别查询样本中的目标区域,目的是模拟只有少数新类的标记数据可用的情况。训练后,支持和查询样本都被发送到FS-Seg模型,以根据支持信息对以前未见过的类产生查询预测。
Fig. 1. GFS-Seg和FS-Seg的管道插图。(a) GFSSeg有一个额外的新类注册阶段,将新信息注册到新的分类器中,因此,在最后一个评估阶段,GFS-Seg方法能够对所有可能的基类和新类进行预测,以测试正常的分割模型,而无需转发额外的支持样本,提供目标类的先验知识。相反,(b)评估阶段的FSSeg模型需要支持图像/标签提供每个查询图像中准确包含的目标类信息。
FS-Seg的局限性。但是,FS-Seg要求支持样例包含查询样例中存在的类。在许多情况下,拥有这种先验知识可能会过于强大,因为在相同的类中提供支持样本需要繁琐的手动选择。此外,FS-Seg只评估新类,而正常语义分割的测试样本也可能包含基类。实验表明,由于这些限制,FS-Seg模型不能很好地解决基础类和新类评价的实际情况。
新benchmark和我们的解决方案。基于这些事实,我们建立了一个新的任务,命名为泛化的小样本语义分割(GFS-Seg)。如图1所示,典型的GFS-Seg方法有三个阶段:1)基类学习阶段,2)新类注册阶段(包含新类的支持样本较少),3)基类和新类的评估阶段。GFS-Seg与FS-Seg的区别在于,在评估时,GFS-Seg不需要转发测试(查询)样本中包含相同目标类的支持样本来进行预测,因为GFS-Seg应该分别在基类学习阶段和新类注册阶段获得基类和新类的信息。GFS-Seg在不预先知道查询图像中包含哪些类的情况下,同时对新类进行预测时,在不牺牲基类的准确性的情况下,在新类上表现良好,实现了在更具挑战性的情况下实际使用语义分割的基本步骤。
受[12,26]的启发,我们设计了一个性能不错的GFS-Seg基线。考虑到上下文关系对于语义分割至关重要,我们提出了上下文感知原型学习(CAPL),通过使用适应的特征更新基本原型的权重,为基线提供了显著的性能提升。CAPL不仅利用来自支持样本的基本共现信息,而且还使模型适应查询图像的各种上下文。基线方法和提出的CAPL可以应用于正常的语义分割模型,如FCN[32]、PSPNet[64]和DeepLab[5]。此外,CAPL通过大幅提高基线,达到最先进的性能,证明了其在FS-Seg设置中的有效性。我们的总体贡献如下。
- 我们扩展了经典的小样本分割(FSSeg),并提出了一个更实用的设置-泛化的少镜头语义分割(GFS-Seg)。
- 基于我们的实验结果,我们分析了FS-Seg和GFS-Seg之间存在的性能差距,以及最近流行的FS-Seg模型不能很好地处理的情况。
- 我们提出了情境感知原型学习(CAPL),它在GFS-Seg和FS-Seg的两种设置中都比基线模型产生了显著的性能提升。它适用于各种正常的语义分割模型,没有特定的结构约束。
Fig 2. (a)经典小样本分割(FS-Seg)和(b)泛化的小样本语义分割(GFS-Seg)的插图。“Dist”可以是测量每个特征和原型之间的距离/相似性的任何方法,并基于该距离/相似性进行预测。FS-Seg模型只预测支持集提供的新类,而GFS-Seg模型同时预测基本类和新类,不受冗余类的影响。此外,在评估过程中,GFS-Seg模型不需要查询图像中存在哪些目标类的先验知识,通过注册新类,对所有测试图像形成一次新的分类器((b)中的蓝色区域表示新类注册阶段)。