基于自正则原型网络的小样本语义分割

简介: 基于自正则原型网络的小样本语义分割

【论文原文】:Self-Regularized Prototypical Network for Few-Shot Semantic Segmentation

获取地址:https://arxiv.org/pdf/2210.16829.pdf

博主关键词:小样本学习,语义分割,自正则,原型网络

推荐相关论文:

【论文速递】TPAMI2022 - 小样本分割的整体原型激活

【论文速递】CVPR2021 - 基于自适应原型学习和分配的小样本分割

摘要:


用于图像语义分割的深度cnn通常需要大量密集标注的图像进行训练,难以推广到未见的物体类别。因此,已经发展了小样本分割,只需几个注释示例就可以进行分割。在这项工作中,我们使用基于原型提取的自正则化原型网络(SRPNet)来处理few-shot分割,以更好地利用支持信息。提出的SRPNet从支持图像中提取特定类的原型表示,并通过距离度量-保真度为查询图像生成分割掩码。在SRPNet中提出了一种直接有效的基于支持集的原型正则化方法,在支持集上对生成的原型进行评估和正则化。 生成的原型恢复支持掩码的程度对性能有一个上限。无论如何完整地将知识从支持集推广到查询集,查询集上的性能都不应超过上限。通过具体的原型正则化,SRPNet充分利用了支持中的知识,提供了高质量的原型,这些原型对每个语义类都有代表性,同时对不同的类也有区别。通过组合一组正则化原型的迭代查询推理(IQI)模块,查询性能得到进一步提高。我们提出的SRPNet在1个shot和5个shot的分割基准上实现了新的最先进的性能。


关键词: 小样本分割,原型,原型网络,自正则化,非参数距离保真度,迭代查询推理,SRPNet, CNN


简介:


深度学习在分割方面取得了巨大的成功[1,2,3,4,5,6,7],这得益于大规模的分割数据集和强大的基于卷积神经网络(CNN)的架构[8,9,10,11,12,13,14]。然而,使用像素级注释获取大型数据集是昂贵且费力的,这使得在处理具有众多类别的现实世界问题时不切实际[15,16,17]。除了难以获得标记精细的训练数据外,将从训练数据中学习到的知识转移到看不见的类中,或者当训练图像和测试图像在外观上差异较大时,泛化能力较差。为了解决上述挑战,一个日益上升的任务,提出了小样本分割[18,19,20,21]。小样本分割定义为:给出一组小样本,称为支持图像及其注释掩码,根据支持图像的特征提取,将未看到的图像称为查询图像进行分割。具体来说,在一次分割中,每个查询图像只能引用一个支持图像。


现有的小样本分割方法,根据支持集和查询集之间建立联系的方式,可以分为原型方法[22,23,24]和参数方法[25,26,27]。在原型方法中,通过计算查询特征与通过屏蔽平均池从支持特征中提取的原型之间的相似性来获得查询掩码,其中原型是包含类相关表示的特征向量。而在参数化方法中,知识提取和查询分割是结合在一起的,例如在查询特征和支持特征的拼接上应用卷积。由于该系统具有轻巧、紧凑、抗过拟合等特点,采用了原型设计方法。 此外,基于CNN的架构,我们提出了一种自正则化原型网络(SRPNet),该网络通过监督原型生成、改进的相似度度量和迭代优化分割来增强小样本分割。


84c903c04e288810c0b9d9e2edc1b96f.png

Fig. 1. 小样本分割存在两个主要问题,即原型差和泛化差。差原型是指生成的支持原型质量较低,甚至无法恢复支持图像的分割掩码。泛化性差,网络无法实现支持原型对查询掩码的满意预测。


我们分析了不成功的掩码预测的发生,并将其归因于两个挑战:1)对支持特征进行掩码平均池化生成的原型不具有代表性,甚至连支持集本身的掩码都难以恢复,导致原型原型性差;2)泛化性差,通常是由于相似度量不有效,支持集和查询集中的对象外观多样化,以及将所学知识转移到未知类的固有困难。 这两种挑战的例子都是从PASCAL-5i上的实验中收集的,如图1所示。尽管广泛的努力致力于改善糟糕的泛化[28,24],但糟糕的原型仍然是一个被忽视的问题,有很大的改进空间。然而,我们认为原型生成是一个最值得探索和优化的过程,因为如果从支持特征中获得的原型不是一个合适的代表,它很难在查询集上获得令人满意的性能。在这里,我们通过将生成的原型反向应用到支持集本身来评估它们,并尝试使用与查询图像相同的预测方法来恢复支持掩码。事实上,我们在实验中确实观察到,生成的原型并不能很好地恢复支持掩码——丢失了很多细节,有时甚至不一致(见图1第一列)。这样的结果表明,生成的原型缺乏判别代表性,需要对原型生成进行明确的监督。原型提取(通过屏蔽平均池)是一个相对固定的过程,很大程度上依赖于特征提取。在端到端训练过程中,如果没有有效的监督,通常情况下,嵌入式特征图无法提供全面概括对象的原型。以前的一些工作也有类似的精神,在支持和查询特性的交互中引入了监督,具体是通过原型对齐正则化[23]或交叉引用模块[29]。但是,它们既没有直接评估生成的原型的质量,也没有对原型生成过程进行明确的监督。


在这里,我们提出了一个更直接但有效的监督模块,称为自正则化原型(SRP)生成,以评估和增强原型。首先,我们通过掩码-平均-池化嵌入支持特性的掩码来生成原型。然后将生成的原型应用回支持特性以恢复支持掩码。生成的原型的质量是通过其在支持图像上的预测精度来衡量的,即原型恢复支持掩模的效果如何。 我们提出原型的质量可以通过它恢复支持掩码的程度来评估。因此,我们将原型应用到支持特征中进行分割。“程度”是通过某些评估指标(即mIoU和二进制iou)来量化的。 图1)中较差的原型实例表明,由于缺乏区分性和代表性,原型不能很好地恢复支持掩码。原型生成需要明确的监督。为了便于网络学习更好的原型,我们在恢复的支持掩码上引入了额外的损失,并使用支持掩码ground truth反向正则化原型生成。该模型的动机是为支持和查询集生成具有增强一致性和全面性的原型,提供改进的分割性能。建议的正则化只施加在支持特性上,避免了支持和查询集之间的重复交互。正则化的计算成本只发生在训练中,使推断自由。一旦提取了特征映射,就不会引入额外的可学习参数,因此不太容易过拟合。为了保留更多细节,我们采用金字塔结构,将 骨干提取器各层次的特征图进行级联,并向下采样到适当的通道大小,形成具有足够全局景物表示的最终特征图。


尽管我们的原型学得很好,但简单泛化将使这种改进在查询集上不那么明显。为了解决这个问题,我们采用了一个迭代查询推理(IQI)模块,其中一个原型集合用于分割。 包含的每个原型都是基于SRP学到的初始原型进行修改的。此外,我们采用了一个新的度量标准-保真度-来衡量相似度。保真度和余弦相似度都是测量两个独立向量之间的角度,而不是绝对距离。但是,与余弦相似度在图像分割中有一个关于原点对称的值空间,而负的部分在图像分割中没有意义不同,我们的保真度仅分布在0到1之间,并且在不同方向的向量上表现出更明显的区别。


总之,我们工作的主要贡献是:


  • 我们提出了一个直接而有效的自正则化模块。原型是在支持面具的监督下生成、评估和正则化的,这与现有的工作不同。
  • 我们首次在原型生成中采用保真度作为距离度量,这为向量提供了更明显的区分。
  • 采用迭代查询推理模块,使用一组原型进行分段,提高查询推理的泛化能力。
  • 我们在两个few-shot分割基准上实现了新的最先进的性能。

ead3da113c525f9cde35b12499bb23e1.png


Fig. 2. 在1-way 1-shot示例中概述我们的训练模型的架构。通过ResNet-50将支持图像和查询图像嵌入到共享权重的深度特征中。来自多个层次的特征被向上采样并连接,形成最终的特征图。其中,前景原型(黄色)和背景原型(紫色)是对支持特征进行屏蔽平均池化生成的。通过计算原型和特征图之间的像素相似度来分割支持图像和查询图像。支持损耗L_{sup}和查询损耗L_{que}用于端到端训练。

相关文章
|
6月前
|
数据可视化
R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化
R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化
|
1月前
|
运维 安全 网络安全
|
4月前
|
计算机视觉 网络架构
【YOLOv8改进 - 卷积Conv】DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
YOLO目标检测专栏探讨了YOLO的创新改进,如多尺度特征提取的DWRSeg网络。该网络通过区域残差化和语义残差化提升效率,使用DWR和SIR模块优化高层和低层特征。DWRSeg在Cityscapes和CamVid数据集上表现优秀,速度与准确性兼备。论文和代码已公开。核心代码展示了一个包含DWR模块的卷积层。更多配置详情见相关链接。
|
3月前
|
机器学习/深度学习 人工智能 数据挖掘
通义语音AI技术问题之自蒸馏原型网络的构成如何解决
通义语音AI技术问题之自蒸馏原型网络的构成如何解决
40 0
|
4月前
|
机器学习/深度学习 数据采集 监控
算法金 | DL 骚操作扫盲,神经网络设计与选择、参数初始化与优化、学习率调整与正则化、Loss Function、Bad Gradient
**神经网络与AI学习概览** - 探讨神经网络设计,包括MLP、RNN、CNN,激活函数如ReLU,以及隐藏层设计,强调网络结构与任务匹配。 - 参数初始化与优化涉及Xavier/He初始化,权重和偏置初始化,优化算法如SGD、Adam,针对不同场景选择。 - 学习率调整与正则化,如动态学习率、L1/L2正则化、早停法和Dropout,以改善训练和泛化。
45 0
算法金 | DL 骚操作扫盲,神经网络设计与选择、参数初始化与优化、学习率调整与正则化、Loss Function、Bad Gradient
|
6月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
165 5
|
6月前
|
监控 安全 网络虚拟化
VLAN分割网络
VLAN是将物理网络划分为逻辑上的虚拟网络,增强安全、和可扩展性,采用模块化或层次化架构。VLAN划分基于组织结构、安全需求和性能,通过限制广播域和配置跨VLAN路由来控制流量。利用动态分配技术如802.1X和虚拟化服务(VRF、VXLAN)提升灵活性。使用集中管理工具和自动化策略简化网络管理,降低错误和成本。
50 2
|
6月前
|
机器学习/深度学习 算法 TensorFlow
【视频】神经网络正则化方法防过拟合和R语言CNN分类手写数字图像数据MNIST|数据分享
【视频】神经网络正则化方法防过拟合和R语言CNN分类手写数字图像数据MNIST|数据分享
|
6月前
|
机器学习/深度学习 计算机视觉 网络架构
【FCN】端到端式语义分割的开篇之作! 从中窥探后续语义分割网络的核心模块(一)
【FCN】端到端式语义分割的开篇之作! 从中窥探后续语义分割网络的核心模块(一)
407 0
【FCN】端到端式语义分割的开篇之作! 从中窥探后续语义分割网络的核心模块(一)
|
6月前
|
机器学习/深度学习 编解码 数据可视化
UNet 和 UNet++:医学影像经典分割网络对比
UNet 和 UNet++:医学影像经典分割网络对比
606 0