【小样本图像分割-1】PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment

简介: 本文介绍了ICCV 2019的一篇关于小样本图像语义分割的论文《PANet: Few-Shot Image Semantic Segmentation With Prototype Alignment》。PANet通过度量学习方法,从支持集中的少量标注样本中学习类的原型表示,并通过非参数度量学习对查询图像进行分割。该方法在PASCAL-5i数据集上取得了显著的性能提升,1-shot和5-shot设置下的mIoU分别达到48.1%和55.7%。PANet还引入了原型对齐正则化,以提高模型的泛化能力。


最近看SAM分割模型中多次提到了小样本图像的分割,为了能够搞清楚整个研究的思路,现在将小样本图像分割的论文内容做个笔记,用于备用。本次阅读的论文来自ICCV2019的一篇文章,用的是比较传统

文章的地址:论文地址

代码的地址:开源代码

摘要

尽管深度cnn在图像语义分割方面取得了很大的进步,但它们通常需要大量密集标注的图像进行训练,并且难以推广到看不见的对象类别。因此,开发了少量镜头分割,以学习仅从几个注释示例中执行分割。本文从度量学习的角度解决了具有挑战性的少镜头分割问题,并提出了一种新的原型对准网络PANet,以更好地利用支持集的信息。我们的PANet从嵌入空间内的一些支持图像中学习特定于类的原型表示,然后通过将每个像素与学习到的原型进行匹配,对查询图像进行分割。通过非参数度量学习,PANet提供了高质量的原型,这些原型对每个语义类都具有代表性,同时对不同的类具有区别性。此外,PANet还引入了支持和查询之间的原型对齐正则化。这样,PANet充分利用了来自支持的知识,并在少镜头分割上提供了更好的泛化。值得注意的是,我们的模型在PASCAL-5i上的1枪和5枪设置的mIoU得分分别为48.1%和55.7%,比最先进的方法分别高出1.8%和8.6%。

作者提出的方法

首先作者提出的网络结构称为PANET,这里作者的思路是首先利用支持集和查询集进行特征提取提取之后,用查询集的原始图像特征和MASK图像特征去预测查询集图像的mask,然后将查询集的mask作为标签,再去预测支持集的MASK,通过这样的作法,可以保证支持集和查询集的一致性,让网络的泛化性更好。

image-20240813234125866

我们的模型(PANet)的概述,用于少样本分割。PANet首先将支持和查询图像映射到嵌入特征中(分别为圆形和三角形),并学习每个类的原型(蓝色和黄色实圆)。然后通过将查询的特征与嵌入空间(虚线)内最近的原型匹配来执行查询的分割。PANet在训练过程中进一步引入了原型对齐正则化,通过从查询到支持(右图)反向执行几次分割来对齐嵌入空间中来自支持和查询图像的原型。带有虚线边界的分割掩码表示ground truth注释。

image-20240813234343843

在一个2-way 1-shot示例中说明作者方法的流程。在块(a)中,PANet执行支持查询的少样本分割。支持和查询图像嵌入到深层特征中。然后通过掩模平均池化得到原型。通过计算每个原型与查询特征在每个空间位置的余弦距离(图中cos)来分割查询图像。在分割结果和ground truth mask之间计算Loss Lseg。在块(b)中,提议的PAR通过执行查询到支持的少样本分割和计算LPAR损失来对齐支持和查询的原型。GT表示标签分割掩码。

2-way 1-shot表示的是有两个类,其中每个类只有一个样本。比如上面的图示中,两个类分别是马和人,马和人作在上面的支持集每个类别只有一张图像。然后作者希望做的事情是通过支持集中仅有的一个人和一个马的原始图像和mask作为支持集,通过计算相似度的方式,在查询集中同时分割出人和马。

本方法的一些效果

下面是作者给出的一些效果,从思路上看很新颖,但是从工业落地的角度来说,工业上更讲究的是准确率,这样的准确率我个人认为虽然节省成本,但是还是达不到目前工业的实际应用。

image-20240813235326826

另外作者还给出了一种有趣的实现方式,只通过简单的涂鸦方式的标记和边界框形式的标注也能在分割上表现出良好的性能。

image-20240813235523645

结论

提出了一种基于度量学习的小镜头分割方法。PANet能够从支持集中提取鲁棒原型,并使用非参数距离计算进行分割。利用提出的PAR,我们的模型可以进一步利用支持信息来辅助训练。在没有任何解码器结构或后处理步骤的情况下,我们的PANet大大优于以前的工作。

所以我个人认为,基于SAM模型的基础上继续改进应该可以得到足够经验的效果,在特定的数据集上。

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 文件存储
【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet
本文介绍了一种名为HyperSegNAS的新方法,该方法结合了一次性神经架构搜索(NAS)与3D医学图像分割,旨在解决传统NAS方法在3D医学图像分割中计算成本高、搜索时间长的问题。HyperSegNAS通过引入HyperNet来优化超级网络的训练,能够在保持高性能的同时,快速找到适合不同计算约束条件的最优网络架构。该方法在医疗分割十项全能(MSD)挑战的多个任务中展现了卓越的性能,特别是在胰腺数据集上的表现尤为突出。
22 0
【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet
|
1月前
|
机器学习/深度学习 编解码 定位技术
【小样本图像分割-2】UniverSeg: Universal Medical Image Segmentation
UniverSeg是一种用于医学图像分割的小样本学习方法,通过大量医学图像数据集的训练,实现了对未见过的解剖结构和任务的泛化能力。该方法引入了CrossBlock机制,以支持集和查询集之间的特征交互为核心,显著提升了分割精度。实验结果显示,UniverSeg在多种任务上优于现有方法,特别是在任务多样性和支持集多样性方面表现出色。未来,该方法有望扩展到3D模型和多标签分割,进一步提高医学图像处理的灵活性和效率。
26 0
【小样本图像分割-2】UniverSeg: Universal Medical Image Segmentation
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
【文献学习】An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
本文介绍了如何使用纯Transformer模型进行图像识别,并讨论了模型的结构、训练策略及其在多个图像识别基准上的性能。
83 3
|
6月前
|
机器学习/深度学习 BI
[RoFormer]论文实现:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
[RoFormer]论文实现:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
59 1
|
机器学习/深度学习 编解码 自然语言处理
FCT: The Fully Convolutional Transformer for Medical Image Segmentation 论文解读
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。
256 0
|
机器学习/深度学习 人工智能 自然语言处理
RoFormer: Enhanced Transformer with Rotary Position Embedding论文解读
位置编码最近在transformer架构中显示出了有效性。它为序列中不同位置的元素之间的依赖建模提供了有价值的监督。
394 0
|
机器学习/深度学习 人工智能 自然语言处理
【计算机视觉】CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
CORA 在目标检测任务中提出了一种新的 CLIP 预训练模型适配方法,主要包括 Region Prompting 和 Anchor Pre-Matching 两部分。 这种方法能够让 CLIP 模型适应目标检测的任务,能够识别出图像中的对象,并提供准确的分类和定位信息。
|
编解码 资源调度 自然语言处理
【计算机视觉】Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP(OVSeg)
基于掩码的开放词汇语义分割。 从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的开放语言分割。
|
机器学习/深度学习 编解码 数据可视化
图像目标分割_2 FCN(Fully Convolutional Networks for Semantic Segmentation)
图像语义分割:给定一张图片,对图片上每一个像素点进行分类!但是与图像分类目的不同,语义分割模型要具有像素级的密集预测能力才可以。
237 0
|
机器学习/深度学习 编解码 固态存储
Single Shot MultiBox Detector论文翻译【修改】
Single Shot MultiBox Detector论文翻译【修改】
104 0
Single Shot MultiBox Detector论文翻译【修改】
下一篇
无影云桌面