【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割

简介: 【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割

【论文原文】:Self-Regularized Prototypical Network for Few-Shot Semantic Segmentation

获取地址:https://arxiv.org/pdf/2210.16829.pdf

博主关键词: 小样本学习,语义分割,自正则,原型网络

推荐相关论文:

【论文速递】TPAMI2022 - 小样本分割的整体原型激活

【论文速递】CVPR2021 - 基于自适应原型学习和分配的小样本分割


摘要:


用于图像语义分割的深度cnn通常需要大量密集标注的图像进行训练,难以推广到未见的物体类别。因此,已经发展了小样本分割,只需几个注释示例就可以进行分割。在这项工作中,我们使用基于原型提取的自正则化原型网络(SRPNet)来处理few-shot分割,以更好地利用支持信息。提出的SRPNet从支持图像中提取特定类的原型表示,并通过距离度量-保真度为查询图像生成分割掩码。在SRPNet中提出了一种直接有效的基于支持集的原型正则化方法,在支持集上对生成的原型进行评估和正则化。 生成的原型恢复支持掩码的程度对性能有一个上限。无论如何完整地将知识从支持集推广到查询集,查询集上的性能都不应超过上限。通过具体的原型正则化,SRPNet充分利用了支持中的知识,提供了高质量的原型,这些原型对每个语义类都有代表性,同时对不同的类也有区别。通过组合一组正则化原型的迭代查询推理(IQI)模块,查询性能得到进一步提高。我们提出的SRPNet在1个shot和5个shot的分割基准上实现了新的最先进的性能。

关键词: 小样本分割,原型,原型网络,自正则化,非参数距离保真度,迭代查询推理,SRPNet, CNN


简介:


深度学习在分割方面取得了巨大的成功[1,2,3,4,5,6,7],这得益于大规模的分割数据集和强大的基于卷积神经网络(CNN)的架构[8,9,10,11,12,13,14]。然而,使用像素级注释获取大型数据集是昂贵且费力的,这使得在处理具有众多类别的现实世界问题时不切实际[15,16,17]。除了难以获得标记精细的训练数据外,将从训练数据中学习到的知识转移到看不见的类中,或者当训练图像和测试图像在外观上差异较大时,泛化能力较差。为了解决上述挑战,一个日益上升的任务,提出了小样本分割[18,19,20,21]。小样本分割定义为:给出一组小样本,称为支持图像及其注释掩码,根据支持图像的特征提取,将未看到的图像称为查询图像进行分割。具体来说,在一次分割中,每个查询图像只能引用一个支持图像。

现有的小样本分割方法,根据支持集和查询集之间建立联系的方式,可以分为原型方法[22,23,24]和参数方法[25,26,27]。在原型方法中,通过计算查询特征与通过屏蔽平均池从支持特征中提取的原型之间的相似性来获得查询掩码,其中原型是包含类相关表示的特征向量。而在参数化方法中,知识提取和查询分割是结合在一起的,例如在查询特征和支持特征的拼接上应用卷积。由于该系统具有轻巧、紧凑、抗过拟合等特点,采用了原型设计方法。 此外,基于CNN的架构,我们提出了一种自正则化原型网络(SRPNet),该网络通过监督原型生成、改进的相似度度量和迭代优化分割来增强小样本分割。

640.png

Fig. 1. 小样本分割存在两个主要问题,即原型差和泛化差。差原型是指生成的支持原型质量较低,甚至无法恢复支持图像的分割掩码。泛化性差,网络无法实现支持原型对查询掩码的满意预测。


我们分析了不成功的掩码预测的发生,并将其归因于两个挑战:1)对支持特征进行掩码平均池化生成的原型不具有代表性,甚至连支持集本身的掩码都难以恢复,导致原型原型性差;2)泛化性差,通常是由于相似度量不有效,支持集和查询集中的对象外观多样化,以及将所学知识转移到未知类的固有困难。 这两种挑战的例子都是从PASCAL-5i上的实验中收集的,如图1所示。尽管广泛的努力致力于改善糟糕的泛化[28,24],但糟糕的原型仍然是一个被忽视的问题,有很大的改进空间。然而,我们认为原型生成是一个最值得探索和优化的过程,因为如果从支持特征中获得的原型不是一个合适的代表,它很难在查询集上获得令人满意的性能。在这里,我们通过将生成的原型反向应用到支持集本身来评估它们,并尝试使用与查询图像相同的预测方法来恢复支持掩码。事实上,我们在实验中确实观察到,生成的原型并不能很好地恢复支持掩码——丢失了很多细节,有时甚至不一致(见图1第一列)。这样的结果表明,生成的原型缺乏判别代表性,需要对原型生成进行明确的监督。原型提取(通过屏蔽平均池)是一个相对固定的过程,很大程度上依赖于特征提取。在端到端训练过程中,如果没有有效的监督,通常情况下,嵌入式特征图无法提供全面概括对象的原型。以前的一些工作也有类似的精神,在支持和查询特性的交互中引入了监督,具体是通过原型对齐正则化[23]或交叉引用模块[29]。但是,它们既没有直接评估生成的原型的质量,也没有对原型生成过程进行明确的监督。

在这里,我们提出了一个更直接但有效的监督模块,称为自正则化原型(SRP)生成,以评估和增强原型。首先,我们通过掩码-平均-池化嵌入支持特性的掩码来生成原型。然后将生成的原型应用回支持特性以恢复支持掩码。生成的原型的质量是通过其在支持图像上的预测精度来衡量的,即原型恢复支持掩模的效果如何。 我们提出原型的质量可以通过它恢复支持掩码的程度来评估。因此,我们将原型应用到支持特征中进行分割。“程度”是通过某些评估指标(即mIoU和二进制iou)来量化的。 图1)中较差的原型实例表明,由于缺乏区分性和代表性,原型不能很好地恢复支持掩码。原型生成需要明确的监督。为了便于网络学习更好的原型,我们在恢复的支持掩码上引入了额外的损失,并使用支持掩码ground truth反向正则化原型生成。该模型的动机是为支持和查询集生成具有增强一致性和全面性的原型,提供改进的分割性能。建议的正则化只施加在支持特性上,避免了支持和查询集之间的重复交互。正则化的计算成本只发生在训练中,使推断自由。一旦提取了特征映射,就不会引入额外的可学习参数,因此不太容易过拟合。为了保留更多细节,我们采用金字塔结构,将 骨干提取器各层次的特征图进行级联,并向下采样到适当的通道大小,形成具有足够全局景物表示的最终特征图。

尽管我们的原型学得很好,但简单泛化将使这种改进在查询集上不那么明显。为了解决这个问题,我们采用了一个迭代查询推理(IQI)模块,其中一个原型集合用于分割。 包含的每个原型都是基于SRP学到的初始原型进行修改的。此外,我们采用了一个新的度量标准-保真度-来衡量相似度。保真度和余弦相似度都是测量两个独立向量之间的角度,而不是绝对距离。但是,与余弦相似度在图像分割中有一个关于原点对称的值空间,而负的部分在图像分割中没有意义不同,我们的保真度仅分布在0到1之间,并且在不同方向的向量上表现出更明显的区别。

总之,我们工作的主要贡献是:

  • 我们提出了一个直接而有效的自正则化模块。原型是在支持面具的监督下生成、评估和正则化的,这与现有的工作不同。
  • 我们首次在原型生成中采用保真度作为距离度量,这为向量提供了更明显的区分。
  • 采用迭代查询推理模块,使用一组原型进行分段,提高查询推理的泛化能力。
  • 我们在两个few-shot分割基准上实现了新的最先进的性能。

640.png

Fig. 2. 在1-way 1-shot示例中概述我们的训练模型的架构。通过ResNet-50将支持图像和查询图像嵌入到共享权重的深度特征中。来自多个层次的特征被向上采样并连接,形成最终的特征图。其中,前景原型(黄色)和背景原型(紫色)是对支持特征进行屏蔽平均池化生成的。通过计算原型和特征图之间的像素相似度来分割支持图像和查询图像。支持损耗L_{sup}和查询损耗L_{que}用于端到端训练。

相关文章
|
2月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
71 3
|
2月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
45 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
2月前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
83 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
2月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
59 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
4月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
56 1
|
4月前
|
机器学习/深度学习 人工智能 数据挖掘
通义语音AI技术问题之自蒸馏原型网络的构成如何解决
通义语音AI技术问题之自蒸馏原型网络的构成如何解决
47 0
|
4月前
|
人工智能 算法 安全
【2023 年第十三届 MathorCup 高校数学建模挑战赛】C 题 电商物流网络包裹应急调运与结构优化问题 赛后总结之31页论文及代码
本文总结了2023年第十三届MathorCup高校数学建模挑战赛C题的解题过程,详细阐述了电商物流网络在面临突发事件时的包裹应急调运与结构优化问题,提出了基于时间序列预测、多目标优化、遗传算法和重要性评价模型的综合解决方案,并提供了相应的31页论文和代码实现。
87 0
|
5月前
|
机器学习/深度学习 数据采集 监控
算法金 | DL 骚操作扫盲,神经网络设计与选择、参数初始化与优化、学习率调整与正则化、Loss Function、Bad Gradient
**神经网络与AI学习概览** - 探讨神经网络设计,包括MLP、RNN、CNN,激活函数如ReLU,以及隐藏层设计,强调网络结构与任务匹配。 - 参数初始化与优化涉及Xavier/He初始化,权重和偏置初始化,优化算法如SGD、Adam,针对不同场景选择。 - 学习率调整与正则化,如动态学习率、L1/L2正则化、早停法和Dropout,以改善训练和泛化。
54 0
算法金 | DL 骚操作扫盲,神经网络设计与选择、参数初始化与优化、学习率调整与正则化、Loss Function、Bad Gradient
|
9天前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
47 17
|
20天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。