PANet、DANet、FastFCN、OneFormer…你都掌握了吗？一文总结图像分割必备经典模型（三）（1）-阿里云开发者社区

机器之心专栏

本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。

本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

本文将分 3 期进行连载，共介绍 19 个在图像分割任务上曾取得 SOTA 的经典模型。

第 1 期：FCN、ReSeg、U-Net、ParseNet、DeepMask、SegNet、Instance-Aware Segmentation
第 2 期：DeepLab、DeepLabv3、RefineNet、PSPNet、Dense-Net、Mask-Lab
第 3 期：PANet、DANet、FastFCN、Gated-SCNN、OneFormer、PSPNet-ResNet50_PSSL

您正在阅读的是其中的第 3 期。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

第 1 期回顾：FCN、ReSeg、U-Net、ParseNet、DeepMask…你都掌握了吗？一文总结图像分割必备经典模型（一）RCNN、DRCN、FSRCNN、ESPCN、SRGAN、RED…你都掌握了吗？

第 2 期回顾：DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗？一文总结图像分割必备经典模型（二）

本期收录模型速览

模型	SOTA！模型资源站收录情况	模型来源论文
PANet	https://sota.jiqizhixin.com/project/panet-2 收录实现数量：1	Path aggregation network for instance segmentation
DANet	https://sota.jiqizhixin.com/project/danet-1 收录实现数量：10 支持框架：PyTorch、TensorFlow等	Dual attention network for scene segmentation
FastFCN	https://sota.jiqizhixin.com/project/fastfcn 收录实现数量：2 支持框架：PyTorch、PaddlePaddle	FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation
Gated-SCNN	https://sota.jiqizhixin.com/project/gated-scnn 收录实现数量：2 支持框架：PyTorch、PaddlePaddle	Gated-SCNN: Gated Shape CNNs for Semantic Segmentation
OneFormer	https://sota.jiqizhixin.com/project/oneformer 收录实现数量：1 支持框架：PyTorch	OneFormer: One Transformer to Rule Universal Image Segmentation
PSPNet-ResNet50_PSSL	https://sota.jiqizhixin.com/project/pspnet-resnet50_pssl 收录实现数量：1 支持框架：PaddlePaddle	Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training of Image Segmentation Models

图像分割是计算机视觉中的一项基本任务，其应用领域包括场景理解、医学图像分析、机器人感知、视频监控、增强现实和图像压缩等。图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。相比图像分类和检测，分割是一项更精细的工作，因为需要对每个像素点分类。

图像分割可以表示为带有语义标签的像素分类问题(语义分割，Semantic Segmentation)或单个对象的分割问题(实例分割，Instance Segmentation)。语义分割是对所有图像像素进行一组对象类别(如人、车、树、天空)的像素级标记，即简单地对图像中各个像素点分类。实例分割进一步扩展了语义分割的范围，需要检测和描绘图像中每个感兴趣的对象(例如，对个人的分割)，即区分开不同的物体。从一定意义上来说，实例分割可以看作是语义分割加检测。

此外，还有全景分割（Panoramic segmentation），全景分割是语义分割和实例分割的结合。跟实例分割不同的是：实例分割只对图像中的object进行检测，并对检测到的object进行分割，而全景分割是对图中的所有物体（包括背景）都要进行检测和分割。本文不涉及全景分割的方法。

随着深度学习技术的应用，已经产生了新一代的图像分割模型，其性能有了显著的提高——通常在流行的基准测试中获得了最高的准确率——致使许多研究人员认为该领域发生了范式转变。

本文聚焦于深度学习技术，回顾图像分割中必备的TOP模型，包括语义分割模型和实例分割模型。

1、 PANet

本文提出了PANet（Path Aggregation Network），旨在提升proposal-based 的实例分割框架中的信息流。具体来说，通过自下而上的路径增强(path augmentation)，在下层用精确的位置信息增强整个特征层次，从而缩短下层和最上层特征之间的信息路径；提出了adaptive feature pooling，将feature grid和所有特征层联系起来，使每个特征层的有用信息直接传播到下面的proposal subnetworks；为进一步提高mask prediction能力，作者创建了一个捕捉每个proposal不同视图的补充分支。如图1所示。

图1 框架说明。(a)FPN骨干网。(b) 自下而上的路径增强。(c) 自适应特征池。(d)Box branch。(e)全连接融合。请注意，为了简洁起见，省略了(a)和(b)中特征图的通道维度

Bottom up Path Augmentation
高层的神经元对整个物体有强烈的反应，而其他神经元更容易被局部纹理和图案激活。经典的FPN中加入了一条top-down的旁路连接，能给feature增加high-level的语义性以改进分类。本文在FPN的P2-P5又加了low-level的特征，最底层的特征流动到N2-N5只需要经过很少的层如绿色所示(仅仅有几个降维的卷积)。框架首先完成了自下而上的路径增强。参照FPN的定义，产生具有相同空间大小的特征图的图层处于同一个网络阶段。每个特征层对应一个阶段。以ResNet为基本结构，用{P2,P3,P4,P5}来表示FPN产生的特征层。增强路径从最低处特征P2开始，然后逐渐到P5。从P2到P5，空间大小逐渐下采样，每一层下采样因子为2。用{N2,N3,N4,N5}表示对应{P2,P3,P4,P5}新生成的特征图。N2 是由P2直接复制的。

图2 自下而上的路径增强构件图示

如图2所示，每个building block通过横向连接取一个分辨率较高的特征图N_i 和一个较低的图P_i + 1，生成新的特征图N_ i + 1。每个特征图N _i首先经过一个3×3的卷积层，步长2，以减小空间大小。然后将特征图P_i + 1和下采样图的每个元素通过横向连接相加。融合后的特征图再经过另一个3×3卷积层处理，生成N _i + 1，用于子网络。这是一个反复的过程，并在P5后终止。在这些building block中，始终使用通道数为256的特征图。所有卷积层之后都有一个ReLU。然后从新的特征图{N2,N3,N4,N5}汇集每个proposal的feature grid。

Adaptive feature pooling
自适应特征池化如图3所示。首先，对于每个proposal，将它们映射到不同的特征级别。按照Mask R-CNN，使用ROIAlign将每个级别的特征网格进行池化。然后利用融合操作(element-wise max or sum)来融合不同层次的特征网格。在下面的子网络中，池化特征网格独立地经过一个参数层，之后进行融合操作，使网络能够适应特征。由于Mask R-CNN的mask prediction分支中使用了四个连续的卷积层，将融合操作放在第一层和第二层卷积层之间。融合后的特征网格作为每个proposal的特征网格，用于进一步的预测，即分类、box回归和mask prediction。如图3所示。

图3 box分支的自适应特征池化图示

Fully-connected Fusion
全连接层，即MLP，被广泛用于实例分割和Mask建议生成中的mask预测。Mask R-CNN在汇集的特征网格上应用微小的FCN来预测相应的Mask，避免了类别之间的竞争。作者注意到fc层与FCN相比产生了不同的属性，后者在每个像素上都有基于局部感受野的预测，并且参数在不同的空间位置是共享的。相反，fc层对位置敏感，因为不同空间位置的预测是通过不同的参数集实现的。所以他们有能力适应不同的空间位置。同时，每个空间位置的预测是通过全局信息进行的。它有助于区分实例和识别属于同一物体的独立部分。鉴于fc层和卷积层的属性彼此不同，作者融合了这两类层的预测，以获得更好的mask预测。

图4 引入全连接融合的mask预测分支

如图4所示，主路径是一个小型FCN，由4个连续的卷积层和1个反卷积层组成。每个卷积层由256个3×3的滤波器组成，反卷积层以系数2对特征进行上采样。它为每个类别独立预测一个二进制的像素级mask，以解耦分割和分类，类似于Mask R-CNN的做法。创建一个从conv3层到fc层的短路径，包含两个3×3的卷积层，其中第二层将通道缩小到一半以减少计算开销。

使用一个fc层来预测一个不分等级的前景/背景Mask。它不仅效率高，而且允许用更多的样本训练fc层中的参数，以实现更好的通用性。使用的mask大小为28×28，这样fc层就会产生一个784×1×1的向量。这个向量被重塑为与FCN预测的mask相同的空间大小。为了得到最终的mask预测，加入来自FCN的每个类别的mask和来自fc的前景/背景预测。只使用一个fc层，而不是多个fc层来进行最终预测，可以防止将隐藏的空间特征图折叠成一个短的特征向量，从而失去空间信息的问题。

当前SOTA！平台收录 PANet 共1个模型实现。

项目	SOTA！平台项目详情页
PANet	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/panet-2

PANet、DANet、FastFCN、OneFormer…你都掌握了吗？一文总结图像分割必备经典模型（三）（1）

1、 PANet

视觉智能

热门文章

最新文章

相关电子书