【小样本图像分割-1】PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment

简介: 本文介绍了ICCV 2019的一篇关于小样本图像语义分割的论文《PANet: Few-Shot Image Semantic Segmentation With Prototype Alignment》。PANet通过度量学习方法,从支持集中的少量标注样本中学习类的原型表示,并通过非参数度量学习对查询图像进行分割。该方法在PASCAL-5i数据集上取得了显著的性能提升,1-shot和5-shot设置下的mIoU分别达到48.1%和55.7%。PANet还引入了原型对齐正则化,以提高模型的泛化能力。


最近看SAM分割模型中多次提到了小样本图像的分割,为了能够搞清楚整个研究的思路,现在将小样本图像分割的论文内容做个笔记,用于备用。本次阅读的论文来自ICCV2019的一篇文章,用的是比较传统

文章的地址:论文地址

代码的地址:开源代码

摘要

尽管深度cnn在图像语义分割方面取得了很大的进步,但它们通常需要大量密集标注的图像进行训练,并且难以推广到看不见的对象类别。因此,开发了少量镜头分割,以学习仅从几个注释示例中执行分割。本文从度量学习的角度解决了具有挑战性的少镜头分割问题,并提出了一种新的原型对准网络PANet,以更好地利用支持集的信息。我们的PANet从嵌入空间内的一些支持图像中学习特定于类的原型表示,然后通过将每个像素与学习到的原型进行匹配,对查询图像进行分割。通过非参数度量学习,PANet提供了高质量的原型,这些原型对每个语义类都具有代表性,同时对不同的类具有区别性。此外,PANet还引入了支持和查询之间的原型对齐正则化。这样,PANet充分利用了来自支持的知识,并在少镜头分割上提供了更好的泛化。值得注意的是,我们的模型在PASCAL-5i上的1枪和5枪设置的mIoU得分分别为48.1%和55.7%,比最先进的方法分别高出1.8%和8.6%。

作者提出的方法

首先作者提出的网络结构称为PANET,这里作者的思路是首先利用支持集和查询集进行特征提取提取之后,用查询集的原始图像特征和MASK图像特征去预测查询集图像的mask,然后将查询集的mask作为标签,再去预测支持集的MASK,通过这样的作法,可以保证支持集和查询集的一致性,让网络的泛化性更好。

image-20240813234125866

我们的模型(PANet)的概述,用于少样本分割。PANet首先将支持和查询图像映射到嵌入特征中(分别为圆形和三角形),并学习每个类的原型(蓝色和黄色实圆)。然后通过将查询的特征与嵌入空间(虚线)内最近的原型匹配来执行查询的分割。PANet在训练过程中进一步引入了原型对齐正则化,通过从查询到支持(右图)反向执行几次分割来对齐嵌入空间中来自支持和查询图像的原型。带有虚线边界的分割掩码表示ground truth注释。

image-20240813234343843

在一个2-way 1-shot示例中说明作者方法的流程。在块(a)中,PANet执行支持查询的少样本分割。支持和查询图像嵌入到深层特征中。然后通过掩模平均池化得到原型。通过计算每个原型与查询特征在每个空间位置的余弦距离(图中cos)来分割查询图像。在分割结果和ground truth mask之间计算Loss Lseg。在块(b)中,提议的PAR通过执行查询到支持的少样本分割和计算LPAR损失来对齐支持和查询的原型。GT表示标签分割掩码。

2-way 1-shot表示的是有两个类,其中每个类只有一个样本。比如上面的图示中,两个类分别是马和人,马和人作在上面的支持集每个类别只有一张图像。然后作者希望做的事情是通过支持集中仅有的一个人和一个马的原始图像和mask作为支持集,通过计算相似度的方式,在查询集中同时分割出人和马。

本方法的一些效果

下面是作者给出的一些效果,从思路上看很新颖,但是从工业落地的角度来说,工业上更讲究的是准确率,这样的准确率我个人认为虽然节省成本,但是还是达不到目前工业的实际应用。

image-20240813235326826

另外作者还给出了一种有趣的实现方式,只通过简单的涂鸦方式的标记和边界框形式的标注也能在分割上表现出良好的性能。

image-20240813235523645

结论

提出了一种基于度量学习的小镜头分割方法。PANet能够从支持集中提取鲁棒原型,并使用非参数距离计算进行分割。利用提出的PAR,我们的模型可以进一步利用支持信息来辅助训练。在没有任何解码器结构或后处理步骤的情况下,我们的PANet大大优于以前的工作。

所以我个人认为,基于SAM模型的基础上继续改进应该可以得到足够经验的效果,在特定的数据集上。

目录
打赏
0
0
0
0
5
分享
相关文章
【提示学习】HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中,然后修改损失函数以适应多标签的分类任务。
351 0
【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet
本文介绍了一种名为HyperSegNAS的新方法,该方法结合了一次性神经架构搜索(NAS)与3D医学图像分割,旨在解决传统NAS方法在3D医学图像分割中计算成本高、搜索时间长的问题。HyperSegNAS通过引入HyperNet来优化超级网络的训练,能够在保持高性能的同时,快速找到适合不同计算约束条件的最优网络架构。该方法在医疗分割十项全能(MSD)挑战的多个任务中展现了卓越的性能,特别是在胰腺数据集上的表现尤为突出。
81 0
【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet
【小样本图像分割-2】UniverSeg: Universal Medical Image Segmentation
UniverSeg是一种用于医学图像分割的小样本学习方法,通过大量医学图像数据集的训练,实现了对未见过的解剖结构和任务的泛化能力。该方法引入了CrossBlock机制,以支持集和查询集之间的特征交互为核心,显著提升了分割精度。实验结果显示,UniverSeg在多种任务上优于现有方法,特别是在任务多样性和支持集多样性方面表现出色。未来,该方法有望扩展到3D模型和多标签分割,进一步提高医学图像处理的灵活性和效率。
137 0
【小样本图像分割-2】UniverSeg: Universal Medical Image Segmentation
【小样本图像分割-4】nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation
《nnU-Net: 自适应框架用于基于U-Net的医学图像分割》是一篇2018年的论文,发表在Nature上。该研究提出了一种自适应的医学图像分割框架nnU-Net,能够自动调整模型的超参数以适应不同的数据集。通过2D和3D U-Net及级联U-Net的组合,nnU-Net在10个医学分割数据集上取得了卓越的性能,无需手动调整。该方法强调数据增强、预处理和训练策略等技巧,为医学图像分割提供了一个强大的解决方案。
240 0
【小样本图像分割-4】nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
120 1
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
73 2
[Transformer-XL]论文实现:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
[Transformer-XL]论文实现:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
55 1
Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告。 综述名为:《A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis》,发表于2019年,其将文本生成图像分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,并且介绍了代表性model。
Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
【计算机视觉】CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
CORA 在目标检测任务中提出了一种新的 CLIP 预训练模型适配方法,主要包括 Region Prompting 和 Anchor Pre-Matching 两部分。 这种方法能够让 CLIP 模型适应目标检测的任务,能够识别出图像中的对象,并提供准确的分类和定位信息。
1175 0
【论文解读】Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation
北航出了一篇比较有意思的文章,使用标签感知的数据增强方式,将对比学习放置在有监督的环境中 ,下游任务为多类文本分类,在低资源环境中进行实验取得了不错的效果
615 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等