【论文原文】:Learning Few-shot Segmentation from Bounding Box Annotations
获取地址:https://openaccess.thecvf.com/content/WACV2023/papers/Han_Learning_Few_Shot_Segmentation_From_Bounding_Box_Annotations_WACV_2023_paper.pdf
博主关键词: 小样本学习,语义分割,弱监督,原型学习
推荐相关论文:
- 无
摘要:
我们提出了一种新的弱监督小样本语义分割设置和一种元学习方法来应对新的挑战。与现有设置不同,我们利用边界框标注作为元训练阶段的弱监督信号,即更有效的标签。包围框提供了比分割掩码更有效的标签表示,但包含感兴趣的对象和令人不安的背景。我们首先表明,使用包围框的元训练降低了最近的few-shot语义分割方法,这些方法通常是具有完整语义分割监督的元训练。我们假设这种挑战源于边界框表示的不纯信息。我们提出了一个伪三分图估计器和基于三分图注意的原型学习,以从包围框中提取更清晰的监督信号。这些发展增强和推广了我们的方法抵抗测试时支持掩模的噪声。我们的经验表明,我们的方法不断提高性能。在Pascal-5i上的1-way 5-shot设置下,我们的方法在完全测试监督情况下和弱测试监督情况下分别比其他方法获得1.4%和3.6%的平均iou提升。
简介:
语义分割任务的目的是根据语义相似度对图像中的像素区域进行聚类。它是计算机视觉及其应用中的一项基本的视觉场景理解技术。由于卷积神经网络的发展,相对于手工设计[23],语义分割的性能有了明显的提高。尽管如此,在实现场景理解的终极通用智能方面仍然存在两个挑战。首先,神经网络需要大量数据。此外,获得高质量的分割标记的成本远高于图像级注释其次,标准的语义分割任务只处理预定义的类,即闭集问题。然而,在现实场景中有许多看不见或不确定的对象类,这些可能会更严重地影响系统在场景理解之后的成功。用高质量的分割标签来增加类的多样性不是一个解决方案,而且根本不可能,因为现实世界中有无限数量的语义类[30]。
few-shot学习(FSL)技术的发展可以应对这些挑战。FSL努力训练或适应模型的目标任务,例如,分类和分割,只有几个样本。为了推广到具有新类的小样本测试,小样本学习者通常通过解决合成的小样本测试集来进行元训练,即情景学习[32]。许多小样本分割[8,22,34,36]也遵循相同的方案。在以前的作品中,一个集是由支持集和查询集以及这些分割注释组成的。然后,在给定支持集的情况下,训练小样本分割方法对查询集进行分割。然而,从注释效率的角度来看,短语“少数”可能具有误导性。虽然在测试期间,小样本分割确实需要一些{图像,分割掩码}对,但在元训练期间,仍然需要相同级别的大规模完整分割注释来模拟测试时间片段。这很难减少昂贵的注释的必要性。
基于上述观察,在这项工作中,我们提出了一种新的弱监督元训练方法,用于从边界框注释中进行小样本语义分割,这在以前没有得到充分的研究。最近,不同的弱监督小样本语义分割任务被提出[27,30,34,39]。他们在推理阶段使用弱标签,但在元训练阶段仍然使用大量的分割掩码。相反,我们专注于解决大规模弱监督数据集元训练期间的过多的标签成本。元训练阶段比推理阶段需要更多的分割掩码。由于分割标签注释成本特别高,在元训练中用弱的分割标签替换分割注释可以显著降低注释成本。因此,在注释负载方面,这比现有技术实现了低成本的学习。
特别是,我们利用边界框作为元训练中的弱监督。在弱监督领域中,常用的弱标签是图像级标签。然而,最近的研究[6]指出了基于弱监管的本地化问题的病态性。在没有定位信息的情况下,如果类信息与背景信息的相关性大于感兴趣的对象,神经网络很可能会关注背景信息,从而导致定位失败。也就是说,图像级标签可能不足以获得足够的监督信号,特别是在具有挑战性的小样本学习设置中。与分割掩码相比,包围框的注释工作量要小得多,并且包含语义分割[15]所必需的本地化信息;因此是图像级和分割标签之间的一个很好的折衷。
然而,直接利用边界框会干扰小样本分割的学习。我们实验表明,在元训练期间,在带有边界盒的原型学习场景中,对新类的分割性能下降。我们假设性能下降的原因源于包含在边界框中的背景像素。受污染的信息通过支持原型和查询标签传播,导致性能下降。为此,我们提出了伪三分图估计器和基于三分图注意的原型学习,将边界盒内的不确定区域排除在学习之外,以处理元训练过程中边界盒注入的噪声。通过大量的实验,我们发现我们的方法在各种设置下一致地提高了小样本语义分割的性能。这证明了我们的方法可以有效地净化边界框,并在元训练中学习更准确的原型。此外,由于我们的方法提出了一个弱监督的元训练方案,我们的模型可以适应完全监督和弱监督的测试设置。
Fig. 1. 我们模型的概述。我们的目标是从边界框注释中学习小样本语义分割。在每个训练集中,支持掩码和查询标签都被包围框取代。提出了伪三分图估计器和三分图注意模块,从不纯信息中获得鲁棒原型,并排除损失计算中的不确定区域。