【论文速递】CVPR2022 - 泛化的小样本语义分割

简介: 【论文速递】CVPR2022 - 泛化的小样本语义分割

【论文原文】:Generalized Few-shot Semantic Segmentation

获取地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Tian_Generalized_Few-Shot_Semantic_Segmentation_CVPR_2022_paper.pdf

博主关键词: 小样本学习,语义分割,原型学习

推荐相关论文:

【论文速递】ACM2022 - 基于嵌入自适应更新和超类表示的增量小样本语义分割


摘要:


语义分割模型的训练需要大量精细标注的数据,很难快速适应不满足这一条件的新类。小样本分割(FS-Seg)通过许多约束来解决这个问题。在本文中,我们引入了一种新的基准,称为泛化的小样本语义分割(GFSSeg),以分析同时分割具有很少示例的新类别和具有足够示例的基本类别的泛化能力。这是首次研究表明,以往最先进的代表性FS-Seg方法在GFS-Seg中存在不足,其性能差异主要来自FS-Seg的约束设置。为了使GFS-Seg易于处理,我们设置了一个GFS-Seg基线,该基线在原始模型上没有结构更改的情况下实现了良好的性能。然后,由于上下文对语义分割至关重要,我们提出了上下文感知的原型学习(CAPL),通过以下方式显著提高性能:1)利用来自支持样本的共现先验知识,2)动态丰富分类器的上下文信息,以每个查询图像的内容为条件。这两项贡献都在实验上证明了它们的实际价值。在Pascal-VOC和COCO上的大量实验也表明,CAPL通过实现具有竞争力的性能,可以很好地推广到FS-Seg。代码可从https://github.com/dvlabresearch/GFS-Seg获得。


简介:


深度学习的发展为语义分割任务带来了显著的性能提升。有代表性的语义分割方法[5,64]在机器人、自动驾驶、医学成像等领域有广泛的应用。然而,一旦这些框架经过训练,如果没有足够的完全标记的数据,它们就无法处理新应用程序中未见的类。即使新类所需的数据已经准备好,微调也会花费额外的时间和资源。

为了快速适应只有有限标记数据的新类,在标记良好的基类上训练小样本分割(FSSeg)[31]模型,并在以前未见过的新类上进行测试。在训练过程中,FS-Seg将数据分为支持集和查询集。支持集样本旨在为FS-Seg模型提供目标分类信息,以识别查询样本中的目标区域,目的是模拟只有少数新类的标记数据可用的情况。训练后,支持和查询样本都被发送到FS-Seg模型,以根据支持信息对以前未见过的类产生查询预测。

640.png

Fig. 1. GFS-Seg和FS-Seg的管道插图。(a) GFSSeg有一个额外的新类注册阶段,将新信息注册到新的分类器中,因此,在最后一个评估阶段,GFS-Seg方法能够对所有可能的基类和新类进行预测,以测试正常的分割模型,而无需转发额外的支持样本,提供目标类的先验知识。相反,(b)评估阶段的FSSeg模型需要支持图像/标签提供每个查询图像中准确包含的目标类信息。


FS-Seg的局限性。但是,FS-Seg要求支持样例包含查询样例中存在的类。在许多情况下,拥有这种先验知识可能会过于强大,因为在相同的类中提供支持样本需要繁琐的手动选择。此外,FS-Seg只评估新类,而正常语义分割的测试样本也可能包含基类。实验表明,由于这些限制,FS-Seg模型不能很好地解决基础类和新类评价的实际情况。

新benchmark和我们的解决方案。基于这些事实,我们建立了一个新的任务,命名为泛化的小样本语义分割(GFS-Seg)。如图1所示,典型的GFS-Seg方法有三个阶段:1)基类学习阶段,2)新类注册阶段(包含新类的支持样本较少),3)基类和新类的评估阶段。GFS-Seg与FS-Seg的区别在于,在评估时,GFS-Seg不需要转发测试(查询)样本中包含相同目标类的支持样本来进行预测,因为GFS-Seg应该分别在基类学习阶段和新类注册阶段获得基类和新类的信息。GFS-Seg在不预先知道查询图像中包含哪些类的情况下,同时对新类进行预测时,在不牺牲基类的准确性的情况下,在新类上表现良好,实现了在更具挑战性的情况下实际使用语义分割的基本步骤。

受[12,26]的启发,我们设计了一个性能不错的GFS-Seg基线。考虑到上下文关系对于语义分割至关重要,我们提出了上下文感知原型学习(CAPL),通过使用适应的特征更新基本原型的权重,为基线提供了显著的性能提升。CAPL不仅利用来自支持样本的基本共现信息,而且还使模型适应查询图像的各种上下文。基线方法和提出的CAPL可以应用于正常的语义分割模型,如FCN[32]、PSPNet[64]和DeepLab[5]。此外,CAPL通过大幅提高基线,达到最先进的性能,证明了其在FS-Seg设置中的有效性。我们的总体贡献如下。

  • 我们扩展了经典的小样本分割(FSSeg),并提出了一个更实用的设置-泛化的少镜头语义分割(GFS-Seg)。
  • 基于我们的实验结果,我们分析了FS-Seg和GFS-Seg之间存在的性能差距,以及最近流行的FS-Seg模型不能很好地处理的情况。
  • 我们提出了情境感知原型学习(CAPL),它在GFS-Seg和FS-Seg的两种设置中都比基线模型产生了显著的性能提升。它适用于各种正常的语义分割模型,没有特定的结构约束。

640.png

Fig 2. (a)经典小样本分割(FS-Seg)和(b)泛化的小样本语义分割(GFS-Seg)的插图。“Dist”可以是测量每个特征和原型之间的距离/相似性的任何方法,并基于该距离/相似性进行预测。FS-Seg模型只预测支持集提供的新类,而GFS-Seg模型同时预测基本类和新类,不受冗余类的影响。此外,在评估过程中,GFS-Seg模型不需要查询图像中存在哪些目标类的先验知识,通过注册新类,对所有测试图像形成一次新的分类器((b)中的蓝色区域表示新类注册阶段)。

相关文章
|
机器学习/深度学习 缓存 算法
【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络
【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
11月前
|
机器学习/深度学习 计算机视觉
【小样本图像分割-1】PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment
本文介绍了ICCV 2019的一篇关于小样本图像语义分割的论文《PANet: Few-Shot Image Semantic Segmentation With Prototype Alignment》。PANet通过度量学习方法,从支持集中的少量标注样本中学习类的原型表示,并通过非参数度量学习对查询图像进行分割。该方法在PASCAL-5i数据集上取得了显著的性能提升,1-shot和5-shot设置下的mIoU分别达到48.1%和55.7%。PANet还引入了原型对齐正则化,以提高模型的泛化能力。
384 0
【小样本图像分割-1】PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment
|
机器学习/深度学习 PyTorch 算法框架/工具
空间金字塔池化(Spatial Pyramid Pooling, SPP)原理和代码实现(Pytorch)
想直接看公式的可跳至第三节 3.公式修正 一、为什么需要SPP 首先需要知道为什么会需要SPP。 我们都知道卷积神经网络(CNN)由卷积层和全连接层组成,其中卷积层对于输入数据的大小并没有要求,唯一对数据大小有要求的则是第一个全连接层,因此基本上所有的CNN都要求输入数据固定大小,例如著名的VGG模型则要求输入数据大小是 (224*224) 。
2423 0
|
7月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
610 0
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
|
存储 关系型数据库 MySQL
OceanBase的架构
【8月更文挑战第9天】OceanBase的架构
652 59
|
11月前
|
IDE Java 编译器
Java:如何确定编译和运行时类路径是否一致
类路径(Classpath)是JVM用于查找类文件的路径列表,对编译和运行Java程序至关重要。编译时通过`javac -classpath`指定,运行时通过`java -classpath`指定。IDE如Eclipse和IntelliJ IDEA也提供界面管理类路径。确保编译和运行时类路径一致,特别是外部库和项目内部类的路径设置。
608 5
|
机器学习/深度学习 PyTorch 算法框架/工具
【YOLOv8改进 - 注意力机制】GAM(Global Attention Mechanism):全局注意力机制,减少信息损失并放大全局维度交互特征
YOLO目标检测专栏探讨了模型创新,如注意力机制,聚焦通道和空间信息的全局注意力模组(GAM),提升DNN性能。GAM在ResNet和MobileNet上优于最新方法。论文及PyTorch代码可在给出的链接找到。核心代码展示了GAM的构建,包含线性层、卷积和Sigmoid激活,用于生成注意力图。更多配置详情参阅相关博客文章。
【YOLOv8改进 - 注意力机制】GAM(Global Attention Mechanism):全局注意力机制,减少信息损失并放大全局维度交互特征
|
数据采集 自然语言处理 机器人
ACL2024 | OceanGPT(沧渊):面向海洋科学任务的大型语言模型初探
本文提出了为海洋领域打造的大型语言模型OceanGPT,它能够处理面向海洋科学的问答等生成任务。
|
负载均衡 安全 Java
【C++ 并发 线程池】轻松掌握C++线程池:从底层原理到高级应用(一)
【C++ 并发 线程池】轻松掌握C++线程池:从底层原理到高级应用
1741 2