首篇！最全的全景分割综述（RGB图像/医学图像/LiDAR）（上）-阿里云开发者社区

摘要

用于视频分析的图像分割在智慧城市、医疗保健、计算机视觉和地球科学以及遥感应用等不同的研究领域中发挥着重要作用。在这方面，全景分割是最新的杰出成果之一。后者是语义和实例分割融合的结果。显然，全景分割目前正在研究中，以帮助获得视频监控、人群计数、自动驾驶、医学图像分析等图像场景的更细致的知识，以及对一般场景的更深入理解。为此，本文对现有的全景分割方法进行了第一次全面的综述。因此，基于所采用的算法、应用场景和主要目标的性质，对现有全景技术进行了定义良好的分类。此外，还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来，进行消融研究，以从不同角度了解全景方法。此外，还讨论了适用于全景分割的评估指标，并对现有解决方案的性能进行了比较，以了解最新技术并确定其局限性和优势。最后，阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势，这可以作为未来研究的起点。

总结来说，本文的主要贡献如下：

在介绍了全景分割技术的背景及其显著特征之后，对不同方面的现有工作进行了彻底的分类，例如用于设计全景分割模型的方法、主题技术和应用场景可以处理的图像数据类型；
然后讨论用于验证全景分割模型的公共数据集，并与不同参数进行比较；
描述了评估指标，并对最新技术中确定的最重要的工作进行了各种比较，以显示它们在不同数据集和各种指标下的性能；
在提供关于未来方向的见解之前，将描述当前已解决的挑战和尚未解决的问题，这些未来方向在近期和远期吸引了大量的研究和开发兴趣；
最后得出了相关的结论和建议，以提高图像分割策略的质量。

语义分割

其中进行密集预测的场景的分割。换一种说法；语义分割是用表示像素类别的对应类标记图像的每个像素的操作。此外，语义分割将图像中属于同一类别的不同区域进行分类。尽管语义分割在2007年首次被提出，当时它成为计算机视觉的一部分，但Long等人在2014年首次利用神经网络对自然图像进行端到端分割后，这一重大突破就开始了[37]。

对于图像分割，空间分析是浏览图像区域以确定每个像素的标签的主要过程。基于CNN的方法，如U-Net、SegNet、全连接网络（FCN）和DecovNet，这些是基本架构，在分割质量方面成功地以可接受的精度分割这些区域。然而，对于语义分割，这是一种复杂的分割，特别是当图像复杂时，这些基本网络的性能不足以标记图像中的大量对象。例如，SegNet网络严重依赖于编码器-解码器架构。相反，其他网络在编码器端具有类似的架构，并且仅在架构的解码器部分略有不同。为了处理信息丢失的问题，最近提出了利用深度卷积特征提取的语义分割方法，该方法使用多尺度特征聚合[38，39，40，41]或端到端结构化预测视角[42，43，44，45，46]。

实例分割

实例分割是基于目标检测任务的增量研究工作。目标（事物）检测任务不仅检测目标，还提供检测目标周围的边界框以指示位置[47]。图像分割是目标检测的另一个步骤，它在精细级别上分割场景中的目标，并为分割的场景中的所有目标提供标签。进化顺序可分为图像分类、目标检测、目标定位、语义分割和实例分割。分割效率指的是计算时间和成本，而准确度指的是以鲁棒性正确分割目标的能力。因此，在准确性和效率之间始终存在权衡。

对于任何计算机视觉方法，可区分特征的选择都至关重要，因为特征是决定方法性能的关键因素。特征抽取器，如SIFT和SURF，最初是在AI引入之前使用的。接下来，特征抽取慢慢地从人工选择的方法发展到完全自动化的DL架构。用于目标检测的一些流行DL网络是VGGNet[48]、ResNet[49，50]、DenseNet[51，52，53]、GoogLeNet Inception[59，60]。在此背景下，CNN架构已被用作某些方法中提取特征的主干，这些特征可用于进一步处理。此外，实例分割必须克服几个问题，包括几何变换、检测较小的目标、遮挡、噪声和图像退化。因此，用于实例分割的广泛使用的架构包括掩码RCNN[61]、RCNN[62、63]、PANet[64]和YOLACT[65、66]。

通常，使用基于区域的两阶段方法[67、68、69、39、70、71]或统一的单阶段方法[72]实现实例分割。如前所述，在效率和准确性之间始终存在折衷。两阶段方法具有更好的精度，而单阶段方法具有更高的效率。与语义分割不同，每个目标都与其他目标不同，即使它们属于同一类。

全景分割

全景分割是实例和语义分割的融合，旨在区分场景中的事物。事实上，全景分割有两类，即thing和stuff。Stuff是指不可数的区域，如天空、人行道和地面。而thing包括所有可数的物体，例如汽车、人等。与实例分割和语义方法不同，在全景方法中，通过给每一个目标赋予不同的颜色，使其与其他目标区分开来，从而对thing进行分割，全景分割允许不同场景组件的良好可视化，并且可以作为包括各种场景部分的检测、定位和分类的全局技术来呈现。这生成了一个全面和实际的场景理解。

全景分割技术能够描述图像的场景内容并允许其深入理解，这有助于显著简化分析，提高性能，并为许多计算机视觉任务提供解决方案。我们可以在这些任务中找到视频监控、自动驾驶、医学图像分析、图像场景解析、地球科学和遥感。全景分割通过实现对特定目标的分析而无需检查图像的整个区域，从而允许这些应用，这减少了计算时间，最大限度地减少了对某些目标的漏检或识别，并确定了图像或视频中不同区域的边缘显著性。为了调查全景分割的发展，关于对things和stuff实现的相关任务，图2中描述了从二值分割和目标检测开始到全景分割结束的图像分割的时间线演变。通常，用于执行每项任务的流行网络也被突出显示。

全景分割技术概览

全景分割是计算机视觉的一个突破；它实现了“thing”和“stuff”的组合视图。因此，它代表了图像分割的一个新方向。为了了解最新情况，本节将介绍并深入讨论文献中提出的现有全景分割研究。

一些全景分割技术在组合或聚合结果以产生全景分割之前分别利用实例和语义分割。因此，如图3（a）所示，共享主干通过将主干生成的特征用于网络的其他部分来使用。其他框架使用了相同的方法，但使用了实例和语义网络之间的显式连接[73]，如图3（b）所示。

大多数提出的全景分割框架使用RGB图像，而其他框架则对医学图像和LIDAR数据执行其方法。本节将根据使用的数据类型讨论现有框架。

RGB图像数据

RGB图像是主要的数据源，其中应用了大多数全景分割算法。这是由于RGB图像在摄像机、图像扫描仪、数码相机、计算机和手机显示器中的广泛使用。此外，大多数提出的全景分割方法都是对RGB图像进行的。例如，在[74]中，提出了一种称为Panoptic-Fusion的全景分割模型，这是一种结合了stuff和thing的在线体积语义建图系统。为了预测背景区域（stuff）的类标签并单独分割任意前景目标（thing），它首先通过融合语义和实例分割输出来预测输入RGB帧的像素全景标签。类似地，在[75]中，Faraz等人专注于提高网络的泛化能力，以从单目RGB输入图像预测每像素深度。已经设计了过多的其他全景方法来分割RGB图像，例如[23，31，76，77，78]。

为了用全景策略分割图像，已经提出了许多框架，首先利用实例和语义分割，然后将每个部分的结果拼接，以获得最终的全景分割结果。一些算法如[23]、[43]、Mask R-CNN[79]、PCV[80]、ESPNet[81]、EfficientPS[82]、Panoptic–MOPE[84]等等。

另一方面，在[39]中，提出了Panoptic-DeepLab，这是一种简单的设计，在训练期间只需要三个损失函数。Panoptic0DeepLab是第一个自下而上的单镜头全景分割，在公共基准测试上获得了最先进的性能，因此它提供了端到端的推理速度。后续工作如[86]、OANet[87]等。

作者在[31]中使用基于Lintention的网络，提出了一种基于两阶段的全景分割方法。与基于两个分离网络的方法相似[85]，LintensionNet架构由实例分割分支和语义分割分支组成，其中引入了融合操作以生成最终全景结果。

目标尺度是语义、实例和全景分割方法面临的挑战之一。同一个物体可以用几个像素来表示，在图像中占据很大的区域。因此，具有不同尺度的目标的分割会影响方法的性能。因此，Porzi等人[90]提出了一种基于尺度的全景分割架构。而在[69]中，引入了基于双向学习管道的深度全景分割。其他相关算法如[73]、[91]。

图4说明了使用的四个全景分割网络，而表1和表2总结了每个全景分割框架中使用的主干、特征和数据集。

如前所述，一些全景分割模型通过保持从主干到最终密度图的信息而无需任何显式连接来生成分割掩模。在这种情况下，全景边缘检测（PED）用于解决新的细粒度任务，其中预测填充类的语义级边界以及实例类的实例级边界[93]。这提供了对场景的更全面和统一的理解。接下来，全景边缘网络（PEN）将内容和实例汇集到具有多个分支的单个网络中。而在[70]中，低填充率线性对象和无法识别边界框附近的像素的问题已被考虑在内。因此，可训练和分支的多任务架构已用于对全景分割的像素进行分组。

接下来，[46]中提出了一种全景分割方法，与现有方法相比，该方法提供了更快的推理。显然，使用了全景图像分割的统一框架，该框架使用算盘网络和两个轻量级头部对语义和实例分割进行一次性预测。

另一方面，在[67]中，提出了一种快速全景分割网络（FPSNet），该网络比其他全景方法更快，因为实例分割和合并启发式部分已被称为全景头部的NN模型取代。

在[98]中，提出了一种新的single-shot全景分割网络，其利用密集检测的实时分割。通常，使用无参数掩模构造方法，这降低了计算成本。另一方面，通过建模目标和背景之间的相关性，可以实现全景分割任务中图像的整体理解。为此，[100]中提出了用于全景分割的双向图推理网络（BGRNet）。为了预测一致的语义分割，Porzi等人使用从基于CNN的deep-lab模块生成上下文信息的FPN来生成多尺度特征[41]。

在不统一实例和语义分割以获得全景分割的情况下，Hwang等人[103]利用block和路径集成，从而允许统一的特征图来表示最终的全景结果。在相同的背景下，[104]中提出了一种基于实例和语义分割共享特征图的统一方法（DR1Mask），用于执行全景分割。

根据语义分割，[106]中的作者对目标的实例进行分割，以生成最终的全景分割。该方法首先使用CNN模型分割语义，然后从获得的语义结果中提取实例。全景分割是使用每个阶段的结果之间的连接来创建的。在相同的背景下，使用实例感知像素嵌入网络，[107]中提出了一种全景分割方法。

医学图像

由于医学成像是计算机视觉最有价值的应用之一，不同类型的图像被用于诊断和治疗目的，例如X射线、计算机断层扫描（CT）、磁共振成像（MRI）、超声、核医学成像和正电子发射断层扫描（PET）。在这方面，医学图像分割在计算机辅助诊断系统中起着至关重要的作用。通过为每个像素分配类值并在同一类中分离对象，需要进行实例分割。通常，为每个目标分配一个唯一的ID。另一方面，从图像的形态、空间位置和目标的分布等方面研究和分析生物行为。由于实例分割有其局限性，提出了具有全景结构的cell R-CNN。通常，实例分割模型的编码器用于学习通过联合训练语义分割模型而实现的全局语义级特征[110]。

在[111]中，重点是用于细胞核分割的组织病理学图像，为此提出了CyC–PDAM架构。首先设计了一种基线架构，该架构基于外观、图像和实例级自适应实现无监督域自适应（UDA）分割。然后，设计了一种核修复机制来移除合成图像中的辅助目标，这被发现可以避免错误的FN预测。接下来，引入了一个语义分支，使用语义和实例级别的自适应来适应前景和背景方面的特征，其中模型在全景级别学习域不变特征。接下来，为了减少偏差，引入了重新加权任务。该方案已在三个公共数据集上进行了测试；发现其在很大程度上优于现有技术的UDA方法。该方法可用于其他应用，其性能接近全监督方案。

此外，读者可以参考许多其他全景分割框架，这些框架已开发用于分割医学图像并实现不同的目标，例如病理图像分析[112]、前列腺癌检测[113]和全景X射线图像中的牙齿分割[114]。

LiDAR数据

LiDAR是一种类似于RADAR的技术，可以创建垂直精度几乎为10cm的高分辨率数字高程模型。LiDAR数据因其准确性和鲁棒性而备受青睐，其中，LiDAR空间上的目标检测[115、116、117、118]和里程计[119、120、121]已经有较大进展，重点已转向LiDAR的全景分割。因此，SematicKITTI数据集是KITTI的扩展，包含不同环境下的注释激光雷达扫描，汽车场景[122]已被广泛使用。例如，在[123]中，结合语义分割和3D目标检测器的两种基线方法用于全景分割。类似地，在[124]中，使用Point-Pillars目标检测器来获取每个对象的边界框和类，并部署KPConv[125]和RangeNet++[126]的组合来执行每个类的实例分割。分别训练和测试两个基线网络，并在最后一步合并结果以生成全景分割。然后使用隐藏测试集对基于LiDAR的全景分割进行在线评估。

接着，当使用CNN架构时，Hahn等人[127]采用了一种截然不同的对比方法来聚类目标片段。由于集群不需要像CNN那样的计算时间和能量，因此[127]中采用的模型即使使用CPU也可以部署。然而，已经在SemanticKITTI数据集上进行了评估，并将PQ、SQ、RQ和mIoU用作评估指标。更进一步，在[128]中，Gasperini等人（即Panoster）实现了一种基于Q学习的LiDAR点云全景分割聚类方法。而在[123]中，基于结合基于LiDAR的语义分割和另一个有助于用实例信息丰富分割的检测器，实现了两阶段方法。此外，在[129]中，Milioto等人使用了统一的方法，其中提出了端到端模型。具体地说，数据以距离点表示，并使用共享主干提取特征。在使用两个解码器重建全景图像和偏移的误差估计之前，在主干的末端使用图像金字塔。其他相关算法PanopticTrackNet[130]、EfficientLPS[131]、DSNet[132]可以参考具体论文。

应用

全景分割系统的开发有助于各种任务和应用。因此，可以发现全景分割在提高性能方面发挥重要作用的几个案例场景。图5总结了涉及全景分割的一些主要应用。

目标检测

主要引入了全景分割，以使目标检测过程更易于管理和准确[23]。目标检测是计算机视觉和图像处理的重要技术。它指的是在数字图像和视频中检测特定类别的语义目标（例如人类、建筑物或汽车）的实例。全景分割已经受到了新的和鲁棒的目标检测方案的显著关注[98，134，135]。

医学图像分析

医学图像的分析和分割是基于医学图像中感兴趣目标分割的重要应用。自从全景分割出现以来，人们对在医学领域使用不同的全景模型产生了极大的兴趣[136]。例如，在[137]中，考虑了分割重叠核的问题，并提出了用于核分割的弯曲损失正则化网络。高惩罚被保留给具有大曲率的轮廓，而小曲率被保留为具有小惩罚并用作弯曲损失。这有助于最大限度地减少弯曲损失，并避免生成被多个核包围的轮廓。MoNuSeg数据集用于使用不同的度量来验证该框架，包括聚合Jaccard索引（AJI）、Dice、RQ和PQ。该方法声称使用多个公共数据集会超过其他DL方法。

自动驾驶

自动驾驶汽车是全景分割的关键应用领域。为了有效地构建自动驾驶系统，需要精细的场景理解和更好的场景感知。从LiDAR、摄像头和雷达等硬件传感器收集的数据对实现自动驾驶汽车的可能性至关重要[140、133、141]。此外，DL和计算机视觉的进步导致传感器数据用于自动化的使用增加。在这种情况下，全景分割可以帮助准确分析图像的语义内容（其中像素表示汽车与行人与可驾驶空间）和实例内容（其中，像素表示同一辆汽车与其他汽车对象）。因此，规划和控制模块可以使用来自感知系统的全景分割输出，以更好地通知自动驾驶决策。例如，详细的物体形状和轮廓信息可以帮助改进物体跟踪，从而为转向和加速提供更准确的输入。它还可以与密集（像素级）目标距离估计方法结合使用，以允许场景的高分辨率3D深度估计。通常，在[142]中，NVIDIA开发了一种有效的方案，基于单个、多任务学习DNN执行相机图像的像素级语义和实例分割。该方法实现了基于全景分割的DNN的训练，其目的是将场景理解为整体而不是分段。因此，在嵌入式车载NVIDIA DRIVE AGX平台上，只有一个端到端DNN用于提取所有相关数据，同时达到约5ms的每帧推断时间。

无人机遥感

全景分割是无人机遥感平台的基本方法，它可以实现道路状况监测和城市规划。具体而言，近年来，全景分割技术比当前的语义分割技术提供了更全面的信息[143]。例如在[144]中，全景分割算法的框架被设计用于无人机应用场景，以解决一些问题，即无人机的大目标场景和小目标，这导致分割结果缺少前景目标，分割掩模质量较差。通常，在特征提取网络中引入可变形卷积以提高网络特征提取能力。此外，MaskIoU模块被开发并集成到实例分割分支中，以增强前景目标掩码的整体质量。此外，无人机收集了一系列数据，并将其组织到UAV-OUC全景分割数据集中，以测试和验证航空图像中的全景分割模型[144]。

数据集标注

数据标注是指对数据或图像进行分类和标记，以验证分割算法或其他基于AI的解决方案。全景分割也可用于实现数据集注释[145146]。通常在[147]中，全景分割被用于帮助进行图像标注，这使用协作者（人类）和自动助手（基于全景分割）共同对数据集进行注释。人类注释者的动作作为上下文信号，智能助手对图像的其他部分做出反应并进行注释。而在[92]中，提出了一种弱监督全景分割模型，用于联合进行实例分割、语义分割和标注数据集。但是，这不会检测到重叠的实例。它已经在Pascal VOC 2012上进行了测试，其监督性能高达95%。接着，在[76]中，研究了用于标注数据集的全景分割的工业应用。3D模型用于生成工业建筑的模型，这可以改进远程执行的库存，在那里可以实现目标的精确估计。例如，在核电站现场，由于设备位置可以在进入现场之前首先使用收集的全景图像的全景分割来分析，因此可以显著降低维护成本和时间。所以，这被认为是利用全景分割技术实现大规模工业自动化的巨大突破。此外，[143]中提出了一个名为VALID的综合虚拟航空图像数据集，该数据集由6690张高分辨率图像组成，这些图像通过全景分割进行注释，并分为30类。

数据增强

全景分割的另一个有前途的应用是数据增强。通过使用全景分割，可以设计仅在像素空间中操作的数据增强方案，因此不需要额外的数据或训练，并且实现起来计算成本低[148149]。例如，在[148]中，提出了一种全景数据增强方法，即PanDA。具体而言，通过对不同PanDA augmented数据集的现有模型进行再训练（使用一组冻结的参数生成），除了跨模型主干、数据集域和尺度的检测之外，在实例分割和全景分割方面取得了高性能的进展。此外，由于看起来不真实的训练图像数据集（由PanDA合成）的效率，有必要重新思考图像真实性的需求，以确保强大和稳健的数据扩充。

其他

值得注意的是，全景分割可用于其他研究领域，如生物学和农业，用于分析和分割图像。这是[72]的情况，其中全景分割用于猪的行为研究。尽管评估不会直接影响动物的正常行为，例如食物和水的消耗、乱扔垃圾、互动、攻击行为等。通常，物体和关键点检测器用于单独检测动物。然而，没有追踪到动物的轮廓，这导致了信息的丢失。全景分割通过使用不同的网络头和后处理方法的神经网络（用于语义分割）有效地分割了单个猪，以克服这个问题。实例分割掩码已用于估计动物的大小或重量。即使有脏镜头和遮挡，作者声称也达到了95%的准确率。此外，全景分割可用于可视化战场上隐藏的敌人，如[109]所述。

原文首发微信公众号【自动驾驶之心】：一个专注自动驾驶与AI的社区（https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA）

首篇！最全的全景分割综述（RGB图像/医学图像/LiDAR）（上）

摘要

语义分割

实例分割

全景分割