一文尽览！弱监督语义/实例/全景分割全面调研（2022最新综述）（上）-阿里云开发者社区

汽车人的碎碎念

分割，作为最基础的视觉感知任务和自动驾驶底层的感知模块，承担着很重要的作用。但逐像素的标注需求饱受诟病，相比于目标框标注，属实是太太太太慢了。今天分享一篇上交投稿TPAMI的文章，论文很全面的调研了广义上的弱监督分割算法，又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法，未来有很大的研究价值和落地价值，相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了，只用目标框可以实现可靠的分割性能。论文很赞，内容很扎实，分割方向的同学一定不要错过！

摘要

近几年，分割技术获得了长足的进步。然而，当前主流的分割算法仍然需要依赖大量的标注数据，而逐像素标注十分昂贵、费时且费力。为了减轻这一负担，过去几年研究人员越来越关注构建标签高效的深度学习算法。本文全面回顾了标签高效的分割算法。为此，本文首创了一种分类法，根据不同类型的弱标签（包括无监督、粗监督、不完全监督和噪声监督）提供的监督信息和分割问题的类型（包括语义/实例/全景分割）来进行归纳。进一步，本文从一个统一的角度总结现有的标签高效分割算法，讨论如何弥补弱监督和全监督预测之间的差距——目前的算法大多基于启发式先验，如跨像素相似度、跨标签约束、跨视图一致性、跨图像关系等。最后，本文讨论了未来可能的研究方向。

简介

本文旨在为标签高效的深度分割算法提供一个全面的综述。这些方法专注于不同的任务，本文将任务定义为：语义、实例和全景分割三个方向，且具有某种类型的弱监督信息。为了针对不同的问题归纳这些方法，需要解决如下两个问题：

1）如何为这些方法建立分类法？
2）如何从统一的角度总结这些方法中使用的策略？

本文从弱标签的类型着手，如下图进行分类。该分类主要依据弱标签类型辅以分割类型进行构建：横轴和纵轴分别表示不同类型的弱监督信息和分割任务；每个交叉点表示带有对应弱标签信息的分割任务，其中实心点表示已有相关工作进行探索，空心点则表示没有。

弱监督的类型具体包括：

无监督：所有训练图像均无任何形式的标注，如下图(a)所示；
粗监督：所有训练均有标注，但标注是粗糙的，即无像素级别的标注，如下图(b)所示。依据粗标签的类型，进一步可细分为image-level的标签、box-level的标签和scribble-level的标签；
不完整监督：训练图像只有部分有逐像素标注，如下图(c)所示。不完全监督进一步可细分为：半监督，即部分图像有逐像素标注，其余图像没有标注；domain-specific监督，即源域有标注，目标域无标注；偏监督（也叫部分监督，partial supervision），即部分类别有逐像素标注，其余类别有粗标签，如box信息。
噪声监督：所有训练图像都有逐像素标注，但存在标注错误，如下图(d)所示。

下表总结了相关方向的代表性算法：

问题定义如下表所示：

无监督

无监督（语义）分割的早期阶段，主要是通过人工设计的图像特征进行聚类实现分割，如K-means和Graph Cut [55]等，用于将图像划分为多个具有高自相似性（high self-similarities）的部分。最近，随着无监督特征表示学习的快速发展，特别是MoCo [56]、SimCLR [57]、BYOL [58]等算法，无监督密集特征表示学习极大的促进了无监督分割的发展。无监督分割的目的是，对于没有任何标注的给定图像，网络需要学习密集的特征图。一个好的网络学习得到特征图有如下特性：来自相同语义区域（object/stuff）的像素具有相似的特征表示，而来自不同语义区域的像素则具有不同的特征表示。学习良好的密集特征图可以直接促进分割模型的训练。

由于没有监督信息，实现无监督分割的关键是如何获取监督信息。当前的工作试图根据一些启发式先验来生成密集的自监督信息，例如跨像素相似性、跨视图一致性和跨图像关联（cross-image relation）。

跨像素相似性

跨像素相似性（Cross-pixel similarity）表示具有高度相似线索（如颜色、亮度和纹理）的像素可能属于图像中的同一语义区域。由于该先验源自感知分组原理，因此几乎所有的无监督语义分割算法都基于此原理生成密集的自监督信息。

Hwang等[42]提出首篇用于语义分割的无监督深度学习方法SegSort。其首先使用轮廓检测器[59]、[60]，通过聚类生成密集的自监督信息，即伪片段（pseudo segment）。然后，提取每个伪片段的原型，即片段内像素的均值。SegSort的训练目标是将伪片段内像素的特征表示拉向该伪片段的原型，并将其与其他伪片段区分开来。

跨视图相似性

跨视图相似性（Cross-view consistency）指一个目标在不同视图中应表现出一致性，是无监督语义分割的另一个常用的先验。该先验广泛应用于基于对比学习的方法[56]、[57]和基于孪生结构的[58]、[61]、[62]无监督表示学习，并启发了无监督密集表示学习。

跨视图一致性中的对比学习

在对比学习中，给定图像X，首先生成图像的两个视图，其中一个视图作为query ，另一个作为positive key 。对比学习的优化目标是最小化如下的对比损失：

上式也被称为InfoNCE损失。对比学习的两个关键是：1）如何生成不同的视图；2）如何确定positive/negative pairs。

Pinheiro等[63]首次将对比学习扩展到密集表示学习。他们提出了View-Agnostic Dense Representation (VADeR) [63]算法，一种像素级对比学习方法，下图对比了VADeR和图像级对比学习。

Gansbeke 等人[23]，遵循VADeR [63]的思想，提出了用于无监督语义分割的MaskContrast算法，其结合了SegSort [42] 和对比学习。此外还通过数据增强为每个图像生成两个视图（一个查询视图和一个关键视图）。其他的工作如[53、66]可以具体参考相关论文。

跨视图一致性中的孪生结构

基于孪生结构的无监督表示学习也生成了一幅图像的两个视图，但它是在没有负样本的情况下最大化两个视图之间的一致性，如下图所示。通常，一个视图的表示是在线更新的，而梯度流不会传到孪生网络中[62]。此外，跨视图的一致性通常由两个视图之间的集群分配关系（cluster assignment relation）表示[61]。

Ji等[43]探索了基于孪生结构的密集表示学习在无监督分割中的应用。提出了Invariant Information Clustering（IIC），它最大化了来自不同视图的相邻像素之间的互信息，以确保跨视图的一致性。互信息是基于聚类计算的，即分别来自两个视图的两个相邻像素的联合分布，定义为它们在一系列聚类质心上的相似性分布。其他的工作如[54]可以具体参考相关论文。

跨图像关联

跨图像的同一类别目标具有类似的语义关系。然而，由于没有监督信息，如何在图像中挖掘相似语义的像素比较困难。为了解决这个问题，目前的方法是使用从无监督预训练中学习到的特征，如MoCo [56] 和BYOL [58]，作为建立跨图像关联的基础，然后对特征进行细化。

Zhang等[67]提出了一种像素级对比学习方法，通过隐式涉及跨图像关联进行无监督语义分割。其对无监督预训练学习到的训练图像的特征进行聚类，并能够根据聚类结果为所有训练图像生成逐像素的伪标签，伪标签则用于在对比学习中选择positive/negative pair。其余工作如[24]可以参考具体论文。

讨论

无监督语义分割最近成为了一个很有前途的方向，顺应了无监督密集表示学习的浪潮。[66] 的实验结果表明，基于无监督语义分割学习得到的网络，之后进行全监督微调可以得到更好的结果。比如，基于CP2 [66]预训练的DeepLabV3 [9]性能为77.6% mIoU，优于全监督的76.0%。

尽管如此，针对无监督语义分割的密集表示学习仍处于初步的探索阶段。与图像级表示学习不同，密集表示学习需要一些区域先验来指导像素之间的关系，即它们是否属于同一语义区域。这与无监督语义分割的目标基本相同。因此，无监督语义分割存在先有鸡还是先有蛋的情况。如何在初始阶段引入更准确的区域先验，或者如何在学习过程中对其进行细化，值得未来进一步探索。

粗监督

粗监督可以是image-level（类别标签）、box-level（类别+bbox）、scribble-level（标注像素子集）级别的监督信息。具有粗监督信息的分割也被称为弱监督分割。虽然更广泛的意义上，弱监督也可以指其他类型的分割，如不完全分割。但在本节中弱监督分割特指粗监督分割。

如图2和表2所示，根据粗略标注的类型，粗监督可以是imagelevel（每张训练图像只提供类别标签）、box-level（除了类别标签外，还包括object bounding box）为每个训练图像注释）或涂鸦级别（每个训练图像中的像素子集被注释）。具有粗监督的分割在文献中通常也称为弱监督分割。虽然在更广泛的意义上，这个术语也可以指其他类型的弱监督分割，例如不完全监督，我们根据本节宝贵的文献专门使用它来指代粗监督分割。

图像级别的监督

语义分割中的图像级监督

首先回顾一下使用图像级监督实现语义分割的方法。这个问题的难点在于图像级监督和像素级监督的差距太大了。前者用于训练分类模型，而后者则用于输出object/stuff的掩码（mask）。

为了弥补这种监督信息上的差距，如上图所示，研究人员遵循两阶段的范式。第一阶段使用图像级标签训练的分类模型生成每张图像的密集伪标签，然后第二阶段基于伪标签训练语义分割模型，利用种子区域（seed areas）生成伪标签的示意图如下图所示。由于伪标签不可避免的存在噪声，因此利用伪标签训练分割模型可以等效为带噪声监督的分割问题。所以本节主要分析第一阶段的相关算法。

第一阶段的目标是生成高质量的伪标签，包括两个步骤：

1）根据分类模型得出的信息，为每个训练图像生成一些种子区域（seed areas）。这一步通常是通过计算分类模型的类激活图（CAM）[69]、[70]、[71]来实现的；
2）然后第二步，通过将语义信息从种子区域传播到整个图像来生成伪标签（密集标签）；

这个过程通常是迭代的，包括分割模型的self-training。现有方法尝试优化种子区域以使其更完整和准确，或者在种子区域的基础上生成更可靠的伪标签。下表对相关算法进行了总结。

Seed area refinement by cross-label constraint

所有图像级监督的语义分割算法都使用了类激活图 (CAM) [69]、[70]、[71]。CAM本质是利用交叉标签约束（cross-label constraint）的先验，来根据分类模型提供的信息定位图像中的种子区域。然而，CAM存在两个局限性：1）不完整性：CAM 通常无法覆盖目标类的整个语义区域；2）冗余：一个CAM可能与其他类的区域重叠。为了解决这些问题，研究人员设计了如下几种改进CAM的策略，为种子区域的细化生成更好的类CAM。

Expanding by ensemble：由于CAM通常无法覆盖目标类的整个语义区域，因此直观的策略是通过不同CAM的集合来扩展种子区域。常见的算法有[44、84、86]；
Re-finding by erasing：另一个直观的策略是擦除当前的CAM，然后强制分类模型重新寻找其他区域以形成新的CAM。新旧CAM的集成可以扩展种子区域以覆盖目标类更完整的语义区域。常见的算法有[78、90、94]；
Discovering by optimization：除了融合不同的 CAM，还可以通过鼓励分类模型在优化过程中挖掘更大的区域来发现种子区域。常见的算法有[87、91、93]；
Reasoning by decoupling：CAM与非目标类区域重叠的原因，可能是存在共现类（co-occurrence classes），例如“马”和“人”经常同时出现。共现类误导了分类模型。相关研究有[88、89]。

Seed area refinement by cross-pixel similarity

“擦除”框架可能会误导种子区域逐渐扩展到语义错误的地方。为了解决这个问题，一些工作利用跨像素相似的先验来指导种子区域的扩展。这可以通过利用saliency map[99]来实例化，以确保扩展到具有相似语义的区域。

Hou等[45] 提出了自擦除网络 (SeeNet)，这是首篇尝试使用saliency map[99] 来指导种子区域细化的工作。saliency map随后被广泛使用[75、76]。

Seed area refinement by cross-view consistency

一些工作提出使用跨视图一致性来提高种子区域的质量，因为跨视图一致性可以促进从同一图像的不同空间扰动获得的CAM之间的语义一致性 [26]、[92]。

Wang等[26]设计了一个用于种子区域细化的孪生网络。孪生网络包含两个具有不同数据增强的分支，其为每个输入图像增加了额外的仿射变换。孪生网络的目的是尽可能保证从两个分支计算的CAM是一致的。

Seed area refinement by cross-image relation

跨图像关联通过鼓励具有semantic co-occurrence的不同图像之间的像素级交互来增强种子区域生成的鲁棒性。

Sun等[73] 提出了两个neural co-attentions来互补地捕获具有semantic co-occurrence的每对图像之间的跨图像语义相似性和差异。一个是co-attention，旨在帮助CAM覆盖属于同一类别目标的互补部分，另一个是contrastive co-attention，旨在帮助CAM区分属于不同类别目标的语义。

Pseudo mask generation by cross-pixel similarity

伪标签通常以迭代方式生成，即从种子区域开始，交替描述当前伪标签（由种子区域初始化），然后使用self-training学习的分割模型更新伪标签。跨像素相似度的先验被广泛用于伪标签的描述，其中的关键是如何衡量像素之间的相似度。相似度可以基于低级特征（例如颜色和纹理）[72]、[77]、[79]、[80] 或高级语义[25]、[83]、[85]进行判断。

具有低级信息的相似度学习：Kolesnikov等[77] 提出了从种子区域生成伪标签的三个原则：1）仅使用高置信度的伪标签进行训练；2）更新后的伪标签应与对应的图像级标签一致；3) 约束更新的伪标签以匹配目标边界。这三个原则在后续工作中被广泛采用[72]、[77]、[79]、[80]。

具有高级特征的相似度学习：相似度也可以通过学习得到的特征之间的相似性来衡量。Ahn等[25] 提出AffinityNet，来学习由种子区域的语义标签监督的像素级特征提取器。训练后的 AffinityNet用于构建像素到像素的语义相似度矩阵，该矩阵进一步使用random walk [103]来生成伪标签。

Pseudo mask generation by cross-image relation

跨图像关联也对相似性学习有益，Fan等[47] 构建了一个跨图像关联模块 (CIAN)，用于从具有semantic co-occurrence的图像对生成伪标签。在每对图像中，一张图像作为查询图像，另一张作为参考图像。查询图像的特征图由参考图像的特征图根据两者之间的逐像素相似性进行调整，从而产生更完整和准确的伪标签。

实例分割中的图像级监督

如下图所示，类似于图像级监督语义分割的策略，相关的实例分割算法也需要生成伪标签，然后训练分割模型。但伪标签是实例级的（语义分割是stuff级）。实例级伪标签可以通过：

1）根据跨像素相似度结合self-training来挖掘实例级种子区域（下图灰色线）；
2）根据跨标签约束进行端到端训练（下图蓝色线）。

下表中总结了相关算法。

Instance-level seed area generation

利用peak locating [31]得到实例的种子区域。PRM [31]是第一个通过引入峰值响应图来解决此任务的工作。分类模型中的高置信度响应（峰值）区域暗示了属于该实例的可能位置。种子区域的峰值被一个可学习的kernel逐渐合并成几个峰值，每个峰值都对应一个实例。如下图所示，峰值响应图是通过反向传播得到的。

Instance-level pseudo mask generation

Expounding by self-training：从实例级种子区域生成实例级伪标签通常涉及self-training。WISE[105]和IAM[104]是基于PRM [31]实现该任务的工作。WISE选择PRM输出的局部最大值作为伪标签来训练实例分割模型。

Generating by end-to-end training：上述方法包含多个离线阶段，还有一些端到端的方法，它们根据跨标签约束直接将图像级标签转换为实例级伪标签。Ge等[32] 提出Label-PEnet，以在线和coarse-to-fine的方式将图像级标签转换为像素级标签。Label-PEnet设计了一个级联管道，由四个并行模块组成，即分类、目标检测、实例细化和实例分割模块。

全景分割中的图像级监督

图像级监督的全景分割方案尚未得到广泛探索。目前已知的只有[28]，其提出一个联合thing-and-stuff挖掘 (JTSM) 框架，其中mask-of-interest pooling旨在为任意类别的segments生成固定大小的像素精确特征表示。根据交叉标签约束，thing和stuff的统一特征表示能够通过多实例学习将像素级伪标签连接到图像级标签。伪标签由Grabcut [1]根据跨像素相似度进行优化，并用于训练全景分割模型。

原文首发微信公众号【自动驾驶之心】：一个专注自动驾驶与AI的社区（https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA）

一文尽览！弱监督语义/实例/全景分割全面调研（2022最新综述）（上）

汽车人的碎碎念

摘要

简介