一文尽览!弱监督语义/实例/全景分割全面调研(2022最新综述)(下)

简介: 今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



目标框级别的监督



语义分割中的目标框监督


Box比分类标签提供了更多的监督信息,因此缩小了定位目标的搜索空间。使用box监督进行语义分割的核心挑战是如何区分边界框内的前景和背景。由于带标注的边界框与类CAM map的作用相似,如下图所示,所以一般包含如下两个步骤:


  • 1)根据跨像素相似度从边界框中挖掘伪标签;
  • 2)基于伪标签训练分割模型。


下表总结了相关算法。

640.png


Dai等[111]首次进行尝试,他们提出了一种交替更新伪标签和分割模型的方法。具体来说,作者首先采用 MCG [112],一种无监督的region proposal方法,为每张图像生成约2000个候选区域。接着重复执行以下三个步骤:


  • 1)使用分割模型预测每个候选区域的语义标签;
  • 2)对于每一个带标注的bounding box,选择与真值重叠最大且类别一致的候选区域作为伪标签;
  • 3)利用伪标签更新分割模型。


其他工作如[34、114、115]可以参考对应论文。


实例分割中的目标框监督


使用box实现实例分割比使用分类标签更容易,因为box已经提供了实例的大体位置。剩下的问题也是如何区分box内的前景和背景。如下图所示的解决方法:

  • 1)根据跨标签约束在box内生成伪标签,然后进行self-training,如下图灰色线;
  • 2)直接利用跨标签约束结合特定损失函数进行端到端训练,如下图蓝色线。


下表总结了相关算法:


640.png


Mask prediction by self-training


首篇工作是SDI[35]。对于每个给定的box,SDI使用Grabcut [1]生成初始伪标签,之后进行self-training并迭代优化伪标签的质量,最终输出预测结果。还有一些工作如BBAM [116]可以参考相关论文。


Mask prediction by end-to-end training


BBTP [36]和 BoxInst [119]是两种端到端训练的实例分割方法。这两种方法都设计了一个投影损失来直接实现跨标签约束,如下图所示。投影损失保证了box与预测mask沿其四个边的投影之间的一致性。缺点也很明显,可能导致mask是一个矩形。因此,BBTP和Boxinst 还提出了pairwise loss,它们分别根据空间位置和颜色定义了跨像素的相似度。

640.png


全景分割中的目标框监督


相关探索比较少,WPS [41]是唯一一篇。WPS [41]首先使用Grad-CAM [70]获得前景和背景类别的heatmap,然后使用 Grabcut [1]从heatmap中定位每个实例的伪标签。


涂鸦级别的监督


涂鸦即仅提供一小部分像素的标注,也可以当做是一种种子区域。下图展示了涂鸦监督下的语义分割的主流范式。解决这个问题的关键是如何将语义信息从稀疏的涂鸦传播到所有其他未标记的像素上。当前的方法通过利用图像的内部先验来实现这一点,即跨像素相似度。下表总结了相关算法。

640.png


Di 等[33]首次通过graph model将信息从涂鸦传播到未标记的像素。graph model建立在超像素上[120],其中节点是超像素,边缘表示相邻节点之间的相似性,相似性通过颜色和纹理等低级外观线索来衡量。进一步通过交替方案联合优化了图模型和分割模型:固定分割模型,利用multi-label graph cuts solver [121]为图模型中每个未标记节点分配语义标签,生成伪标签;基于伪标签更新分割模型。此外还有[122,123,124]等相关工作。


上述方法都需要一个额外的模型来生成伪标签。还有一些方法可以通过设计损失函数直接优化分割模型,如[102、125]。


讨论


粗监督降低了对逐像素标注的需求。利用粗标注的主要流程是多阶段的:1)通过传播或挖掘从种子区域生成伪标签;2)基于伪标签训练分割模型。当提供相对精细的种子区域时,如目标框或涂鸦级注释,粗监督分割的性能可以比肩全监督。然而,基于CAM的算法不适合小目标和带孔洞的目标。对于这个问题,端到端的方法可能是一条路,值得进一步探索。


不完全监督



不完全监督可分为 :

  • 1)半监督;
  • 2)特定领域监督;
  • 3)部分监督。


因此,这三种弱监督的分割分别称为半监督分割、域自适应分割和部分监督分割。


半监督


语义分割中的半监督


640.png

半监督指部分图像带有逐像素标注,其余图像则无标注。半监督语义分割的目的是利用大量无标签数据提升分割性能。最常见的是self-training,如上图所示。首先使用带标注的图像训练模型,然后预测无标签图像的伪标签,接着一起训练分割模型。伪标签不可避免的存在噪声,因此当前的半监督语义分割方法方案有两种:1)根据跨图像关联改进伪标签以隐式提高其可靠性;2)根据跨视图一致性显式引入额外的监督来进行正则化。下表总结了相关算法。


640.png


Pseudo label refinement for self-training

直观地说,伪标签的可靠性可以通过预测置信度来确定。现有方法通过迭代进行self-training或忽略低置信区域的方法来提升伪标签的质量。相关算法有[49、132、133].


Pseudo label regularization by cross-view consistency

伪标签正则化可以从无监督密集表示学习中受益,因为它们都旨在训练无标签图像上的分割模型。因此,孪生结构和对比学习也被用于半监督语义分割,以确保同一图像在不同视图下的伪标签之间的跨视图一致性。


基于孪生结构:下图展示了几种典型的孪生结构。GCT [127]利用两个相同结构但初始化不同的分割网络,分别从无标签图像的两个不同视图计算对应的分割概率图。概率图的一致性作为额外的监督信息。其他工作如[129、29、130]可以参考相关论文。

640.png


基于对比学习:Zhong等[131]利用逐像素对比学习来促进中间层的特征学习,相关工作还有[30]。


域适应分割


640.png

域适应分割指的是,源域有逐像素标注,而目标域则没有,且目标域与源域存在一定的差异(domain gap)。目标是使用源域数据训练的分割模型可以更好地泛化到目标域上。域自适应语义分割本质上类似于半监督语义分割,唯一的区别是标注图像和无标注图像之间是否存在domain gap。如上图所示,域自适应语义分割的主流范式包含一个额外的步骤:缩小域差距。这个额外的步骤可以通过对抗学习、域混合或伪目标域上的mask质量改进来实现。下表总结了相关算法。

640.png


Adaptation by adversarial learning:对抗学习用于在图像空间或特征空间中对齐源域图像和目标域图像,生成式对抗网络 (GAN) [144] 比较擅长这事。相关算法可以参考[39], [136], [137], [141]。


Adaptation by domain mixing:另一种缩小域差距的策略是通过基于混合的复制粘贴来混合来自不同域的图像[145]、[146]。


Adaptation by pseudo mask quality improvement:由于域间隙,在目标域图像上生成的伪标签通常质量不高。这种伪标签质量的改进过程通常涉及一些先验,例如跨像素相似性和跨视图一致性[40], [138], [139], [140], [142]。


部分监督


实例分割中的部分监督


部分监督(也叫偏监督)的基本设置是,目标类别分为两个不相交的部分:基本和新颖,两个部分都包含box信息,但只有基本类别有逐像素标注。部分监督可以理解为半监督分割的一种变体。

640.png


直观地说,这项任务的难点在于对新类的box信息和逐像素预测之间的监督差距。如上图所示,现有的方法主要遵循先检测后分割的范式,如Mask R-CNN [147],并探索如何利用相关先验从检测模型中提取辅助信息来提升新类别的分割性能。下表总结了相关算法。


640.png


Auxiliary information from cross-label constraint

从box信息中,可以利用跨标签约束的先验提取两类用于分割模型训练的辅助信息。一个是框的类别标签和分割mask之间的连接;如CAM [69]、[70] 中所探讨的;另一个是框位置信息和分割Mask [148]之间的连接。相关的工作还有[37、148]。


Auxiliary information from cross-pixel similarity

部分监督的一个重要目标是探索基本类和新类之间与类别无关的共性,可用于提高新类别的特征识别能力。从低级(颜色、纹理)或高级(语义关系、相似度)信息中利用跨像素相似性的先验是实现这一目标的途径。相关工作有[38、149、51]。


Auxiliary information from cross-image relation

Kuo等提出了ShapeMask [52],通过探索跨图像关联中常见的形状先验来解决部分监督实例分割,因为来自不同图像中相似类别的目标应该具有相似的粗略形状。通过对基本类别的实例标注进行聚类获得的形状先验,可以进行线性组装,然后泛化到不同的类别,从而帮助分割头逐步细化预测结果。


Auxiliary information from a larger segmentation model

Birodkar等提出Deep-MAC [150],其从一个新的角度研究了部分监督的实例分割,即分割头的capacity。Deep-MAC发现更强大的分割头可以消除新类别的监督缺失造成的差距,Deep-MAC用更强大的网络(如例如 Hourglass-100)替换了Mask RCNN中的原始分割头,显著提升了分割性能。


讨论


不完全监督分割减少了对逐像素标注训练图像数量的需求。解决这个问题的策略主要包含两个方向:1)将利用标注数据训练的分割模型迁移到未标注数据上;2)在未标注数据上生成密集的自监督信息,类似于无监督分割的相关策略。最先进的半监督语义分割算法(75.9 mIoU)基本与全监督模型持平(76.0 mIoU)。然而,当标注数据和无标注数据之间存在较大的分布差距时,分割的性能还比较受限。因此,如何设计更有效的随分布变化的策略,以便充分利用大量无标注数据仍然值得进一步探索。


噪声监督



语义分割中的噪声监督


标签歧义通常存在于分割标注中。鉴于伪标签不可避免地存在一些噪声,如 [27] 中所指出的,利用伪标签训练分割模型本质上是一个有噪声的语义分割问题。


Liu等[27]观察到一种现象,即随着训练的进行,分割模型倾向于记住标注中的错误。为了防止对错误的过拟合,他们设计了一种自适应的早停机制并强制执行多尺度跨视图一致性,以提高对标注错误的鲁棒性。李等[151]提出通过不确定性估计来发现噪声标签[152],根据跨视图一致性,计算不同尺度下预测结果之间的像素方差来实现。


结论和讨论



标签高效的分割研究已成为计算机视觉中的一个活跃领域,因为实用。逐像素标注是出了名的昂贵且耗时。近年来,已经有很多算法用于解决不同类型的弱监督分割问题。实验结果表明,这些标签高效的分割方法取得了长足的进步。然而全监督性能上限还有很大的提升空间。


挑战


1)The supervision gap


标签高效分割的主要挑战是密集预测和不完整标签之间的监督差距。尽管已经有很多的算法尝试解决,但如何弥合监督差距仍然是一个悬而未决的开放问题。此外,现有相关的分割模型在扩展到大量目标类别的能力方面受到限制。为了应对这些挑战,需要做出更多的努力,包括更强大的主干,并从其他模式引入额外的监督信息,例如文本监督。


2)The openness issue


标签高效分割问题与开放域(或开放词汇)识别密切相关,新概念可以通过文本或少量示例等来描述。在这种情况下,一个重要的问题在于处理识别的开放性,特别是如何设计一个范式来将新概念添加到现有的识别系统中?仅仅依靠文本指导(例如,利用来自预训练模型的文本嵌入)可能是不够的,但从Web数据中搜索和提取知识是一个很有前途的解决方案。


3)Granularity vs. consistency


标签高效分割旨在涵盖更多视觉概念。然而,随着概念数量的增加,识别粒度和一致性之间存在权衡。也就是说,当将细粒度的类别/或目标添加到字典中时,算法可能无法产生一致的识别结果,例如,当目标较小时,算法可能会选择预测粗粒度标签或部位,因此最好为这种情况调整评估方式。


潜在的研究方向


1)Zero-shot segmentation with text supervision


互联网上有大量带有文本监督的图像,这使得学习大型模型(如 CLIP [153])可以桥接视觉表示和文本监督。这可能是一种实现零样本分割的方法,即为看不见的目标类别学习分割模型。一些工作做了一些尝试[154]、[155]、[156]、[157]、[158]。通常,他们通过将像素嵌入与相应语义类的文本嵌入对齐,进而将分割模型推广到看不见的目标类别。这是一个值得探索的有前途的方向。


2)Label-efficient segmentation by vision transformers


现有的标签高效分割方法主要使用卷积神经网络。最近Transformer大放异彩,相关算法也有很多[165]、[166]、[167] ,[168],这要归功于它们在建模长期依赖方面的强大能力。更重要的是,由先进的无监督表示学习方法(如 DINO [169]、BeiT [170]、MAE [171] 和 iBoT [172])预训练的视觉Transformer的自注意力图包含了丰富的图像分割方面的信息,这提供了一种在没有任何监督的情况下生成可靠伪标签的潜在可能。这在未来也会是一个有趣且开放的方向。


3)Unexplored label-efficient segmentation problems


诚然,目前还存在一些尚未探索的标签高效分割问题,例如基于噪声标签的实例分割和基于不完整标签的全景分割。原因可能是缺乏数据集或足够复杂的模型来获得合理的结果。随着标签高效分割技术的发展,这些研究空白将在未来得到填补。

相关文章
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)
|
23天前
|
机器学习/深度学习 计算机视觉 人工智能
用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域
【6月更文挑战第3天】研究人员提出OmniGlue,首个以泛化为中心的图像匹配器,利用基础模型DINOv2的广泛知识和关键点位置引导的注意力机制,提升未见过图像域的匹配性能。在7个不同图像域的实验中,OmniGlue相对其他模型表现出20.9%的相对增益,优于LightGlue 9.5%。尽管有改进空间,OmniGlue标志着图像匹配技术泛化能力的重要进步。论文链接:https://arxiv.org/pdf/2405.12979
38 2
|
1月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
44 4
|
1月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
67 0
|
1月前
|
机器学习/深度学习 存储 算法
基于多模态融合与图神经网络的用户精准感知系统研究
基于多模态融合与图神经网络的用户精准感知系统研究
104 0
|
6月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
310 1
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
12月前
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
132 0
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(2)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
188 0
|
机器学习/深度学习 自然语言处理 算法
CVPR 2022 | 大幅减少零样本学习所需的人工标注,马普所和北邮提出富含视觉信息的类别语义嵌入
CVPR 2022 | 大幅减少零样本学习所需的人工标注,马普所和北邮提出富含视觉信息的类别语义嵌入
101 0