PANet、DANet、FastFCN、OneFormer…你都掌握了吗？一文总结图像分割必备经典模型（三）（3）-阿里云开发者社区

5、 OneFormer

本文提出一种通用图像分割框架 OneFormer ，将分割与多任务训练一次设计结合起来。该框架首次采用了一种以任务为条件的联合训练策略，可以在单个多任务训练过程中对每个领域（语义、实例和全景分割）的 ground truth 进行训练。OneFormer基于transformer，只需要训练一次、一个通用架构、一个模型、在一个数据集，就能够超越现有框架在语义、实例和全景分割任务中的表现，尽管后者需要单独训练在每个任务使用多次的资源。

如图12所示。OneFormer使用两个输入：示例图像和“the task is {task}”形式的任务输入。在论文的单个联合训练过程中，任务从每个图像的{panoptic、instance、semantic}中统一采样。首先使用骨干网和像素解码器从输入图像中提取多尺度特征。论文对任务输入进行标记，以获得一个一维任务标记，该标记用于调节object query，从而为每个输入建立任务模型。此外为GT（Ground truth）标签中的每个类别创建一个表示二进制mask数量的文本列表，并将其映射到文本query表示。文本列表取决于输入图像和{task}。为了监督模型的任务动态预测，论文从全景标注中生成相应的GT。由于GT是任务相关的，论文计算目标和文本query之间的query-text对比损失，以确保object query中存在任务可区分性。object query和多尺度特征被馈送到Transformer解码器以输出最终预测。

图12 OneFormer框架结构。(a) 使用一个骨干网提取输入图像的多尺度特征，然后是一个像素解码器。(b) 在任务标记（Qtask）的指导下，制定了一套统一的N-1个任务条件的对象查询，并在一个Transformer中对1/4比例的特征进行了flatten处理。接下来，将Qtask与来自Transformer的N-1个查询连接起来。在训练过程中对任务进行均匀（p=1/3）抽样，并使用文本映射器生成相应的文本查询（Qtext）。计算查询-文本对比损失来学习任务间的区别。我们可以在推理过程中放弃文本映射器，因此，使模型参数有效。(c) 使用multistage L-layer Transformer Decoder来获得任务-动态类别和掩码预测

Task Conditioned联合训练
论文使用多任务条件联合训练策略来解决图像分割的多任务训练一次挑战。首先从GT标签的{panoptic、semantic、instance}中统一采样task。通过从全景标注中导出任务特定标签，仅使用一组标注就实现了全景标注的统一潜在信息。接下来，从任务特定的GT标签中提取图像中存在的每个类别的一组二值mask，即，语义任务保证图像中存在每个类别只有一个二值mask，而实例任务表示仅thing类的非重叠二值mask，忽略stuff区域。全景任务表示stuff类的单个不定形mask和thing类的非重叠mask，如图12所示。随后对mask集进行迭代，以创建一个文本列表（T_list），模板为“a photo with a {CLS}”，其中，CLS是对应二值mask的类名。每个样本的二值mask数量随数据集的不同而不同。因此用“a/an {task} photo”条目填充T_test，以获得长度恒定的N_list的填充列表（T_pad），填充条目表示no-object masks。之后使用T_pad计算query-text对比损失。使用带有模板“the task is {task}”的任务输入（I_task）来调整任务的架构，该模板被标记化并映射到任务标记（Q_task）。即，使用Q_task在task上控制OneFormer。

图13 输入文本的形成。(a) 在训练期间对任务进行统一抽样。(b) 在任务选择之后，从相应的GT标签中提取每类要检测的不同二进制掩码的数量。(c) 用 "一张带有{CLS}的照片 "的模板为每个mask形成一个带有文字描述的列表，其中CLS代表object mask的相应类别名称。(d) 使用代表无物体检测的 "a/an {task} photo "条目，将文本列表填充为恒定长度的Ntext；其中，task∈{panoptic, instance, semantic}

Query表示
在训练期间使用两组query：text queries（文本查询，Q_test）和object queries（目标查询，Q）。Q_test是图像中待分割目标的基于文本的表示，而Q是基于图像的表示。首先对文本条目T_pad进行标记化，并通过文本编码器传递标记化的表示，该编码器是一个6层transformer。编码的文本嵌入表示输入图像中的二值mask及其对应类的数量。进一步，将一组可学习文本上下文嵌入concat到编码文本嵌入，以获得最终的N个text queries，如图14所示。论文使用文本上下文嵌入的目的是学习样本图像的统一文本上下文。

图14 文本映射器。对输入的文本列表（T_pad）进行标记，然后用一个6层的Transformer文本编码器对其进行编码，得到一组N_text嵌入。将一组N_ctx可学习的嵌入与编码后的表示相连接，以获得最终的N个文本查询（Q_text）。这N个文本查询代表了图像中存在的物体的基于文本的表述

为了获得Q，首先将object queries（Q'）初始化为task-token的N-1次重复。然后使用来自2层transformer内部的flatten 1/4尺度特征的指导来更新Q'。来自transformer的更新后的Q'（富含图像上下文信息）与task token连接，以获得N个query的任务条件表示。任务引导的query初始化和与task token的连接对于模型学习多个分割任务至关重要。

任务导向对比Queries
文章采用的是集合的任务导向对比queries。使用Q和Q_test计算query-text对比损失。使用T_pad获得文本查询表示Q_test。可以使用基于GT的文本和目标查询之间的对比损失，成功地学习查询表示中的任务间差异。此外，对查询的对比学习使模型能够关注类间的差异并减少类别错误分类。

整体损失函数如下：

总的来说，使用ImageNet预训练骨干网从输入图像中提取多尺度特征表示。像素解码器通过逐步上采样主干特征来辅助特征建模。受最近多尺度可变形注意力的成功启发，论文使用相同的基于多尺度可变形Transformer的架构作为像素解码器。

当前SOTA！平台收录 OneFormer 共1个模型实现。

项目	SOTA！平台项目详情页
OneFormer	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/oneformer

6、 PSPNet-ResNet50_PSSL

虽然微调预训练网络已经成为训练图像分割模型的一种流行方式，但这种用于图像分割的骨干网络经常使用图像分类源数据集进行预训练，例如ImageNet。尽管图像分类数据集可以为骨干网络提供丰富的视觉特征和判别能力，但它们无法以端到端的方式完全预训练目标模型（即骨干网络+分割模块）。本文提出了一种利用伪语义分割标签（Pseudo Semantic Segmentation Labels ，PSSL）的方法，以实现基于分类数据集的图像分割模型的端到端预训练。通过对分类结果的解释，并将从多个分类器中查询到的解释集合起来，以降低单一模型造成的偏差，从而获得每幅图像的PSSL。通过对ImageNet的每幅图像的PSSL，所提出的方法利用加权分割学习程序对分割网络进行大规模的预训练。

图15 传统的（a）和本文提出的（b）预训练方法的说明

Cross-Model Ensemble of Explanations
首先，回顾Consensus的方法，即跨模型的集合解释。如图16(a)所示，Consensus首先收集一些训练好的深度模型，然后采用解释算法对每个给定的图像单独解释这些深度模型，最后对各模型的解释结果进行平均。解释的集合与像素级的分割标签一致，而且比单个模型好得多。平均的集合体将模型的变量边缘化，减少了单个模型的偏差。在这里，我们概括了从解释中学习的想法，并利用解释的集合来加强图像分割的预训练。

图16 (a)计算跨模型的解释集合，(b)将解释集合转换为十位数的图像，并对最高十位数进行二进制化的说明

Construction of PSSL
与单独的解释相比，集合解释与图像分割标签的一致性要好得多。在这里，为了得到高分辨率的像素级解释，作者采用了事后解释算法SmoothGrad，而其他算法也可适用于此，如综合梯度、DeepLIFT等。建议集合的数字要大于15，以获得与分割的良好一致性。因此，构建PSSL的第一步是基于15个深度模型的SmoothGrad解释的集合，以获得ImageNet训练集中每幅图像的像素贡献分数：

带有浮点的PSSL在磁盘中占用很多空间，因此，构造的第二步是以减少文件大小而不损失很多信息为目标进行量化处理，将准连续的分数（浮点32位）转换为十等分（0-9）。具体来说，像素x的十等分等级D的计算方法是：

最后一步是将分位数与类别标签相连。图像分类标签可以直接从ImageNet中加载，而且由于ImageNet中几乎每张图像都只包含一个主要对象，所以伪像素标签可以通过图像标签合理地分配。在本文设定中，标签T(D9)=T(I)，其中，T(I)是图像I的ImageNet中的图像分类。完整流程如图9（b）。

PSSL生成的伪标签不能保证其准确性。准确地过滤掉噪声对于普遍提高数据集的质量和有效地提高PSSL的分割模型是至关重要的。作者考虑了两个方向来应对噪声。为了提高实际效率，我们选择对所有的伪标签采取一个恒定的分位数，即像素D9中最高的一个，作为预训练的分割（伪）ground truth。与使用更多的分位数相比，这个阈值在实践中效果不错。这可能是由于使用更多的分位数会给物体尺寸较小的图像的监督引入更多的噪声。

如前所述，为了减少噪声，对于每幅图像I，作者设定T(D9)=T(I)，T(Di<9)=B，其中，B是背景类的索引。考虑到背景像素的比例很大，这个训练问题本质上是一个对像素进行分类的不平衡学习问题。在1000个平衡类别的情况下，背景的像素大约是任何其他类别的像素的9000倍。考虑加权交叉熵的目标函数如下：

当前SOTA！平台收录 PSPNet-ResNet50_PSSL 共1个模型实现。

项目	SOTA！平台项目详情页
PSPNet-ResNet50_PSSL	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/pspnet-resnet50_pssl

前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及API等资源。

网页端访问：在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。

PANet、DANet、FastFCN、OneFormer…你都掌握了吗？一文总结图像分割必备经典模型（三）（3）

5、 OneFormer

6、 PSPNet-ResNet50_PSSL

视觉智能

热门文章

最新文章

相关电子书