首篇！最全的全景分割综述（RGB图像/医学图像/LiDAR）（下）-阿里云开发者社区

首篇！最全的全景分割综述（RGB图像/医学图像/LiDAR）（下）

2023-01-18 895

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文对现有的全景分割方法进行了第一次全面的综述。因此，基于所采用的算法、应用场景和主要目标的性质，对现有全景技术进行了定义良好的分类。此外，还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来，进行消融研究，以从不同角度了解全景方法。此外，还讨论了适用于全景分割的评估指标，并对现有解决方案的性能进行了比较，以了解最新技术并确定其局限性和优势。最后，阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势，这可以作为未来研究的起点。

公开数据集

总结和可视化如表3和6所示。

结果分析和讨论

讨论

Cityscapes上的评估

Cityscapes是实验全景分割解决方案效率的最常用数据集。表4给出了使用该数据集和评估指标的方法的详细报告。此外，考虑到用于评估的数据集，给出了所获得的结果。虽然使用val集报告结果是很常见的，但一些作品已经在Cityscapes数据集的测试开发集上报告了结果。所有模型都具有代表性，表4中列出的结果已发表在参考文件中。此外，最近三年，所有这些作品都已发表，如WeaklySupervised（2018）[92]、Panoptic-DeepLab（2019）[105]和EfficientPS（2020）[82]。

COCO上的评估

表5表示使用现有全景分割技术获得的一些结果。与Cityscapes上的性能演示类似，论文展示了COCO不同工作中提供的结果，包括使用测试开发集和值集测试的结果。

Mapillary Vistas、VOC 2012和ADE20K上的评估

表6总结了在Mapillary Vistas和Pascal VOC 2012数据集下的其他框架中获得的结果。

使用AP和mIoU度量进行评估

表7显示了参考不同数据集（包括Cityscapes、COCO、ADE20K、Mapillary Vitas、KITTI和Semantic KITTI）的AP和IoU度量的几种现有全景分割工作的获得结果。

LiDAR数据上的评估

SemanticKITTI数据集的验证集和测试集已用于评估和研究现有方法的性能，如表8所示。

医学图像上的评估

表9显示了使用两种场景的每种方法的性能。

挑战和未来趋势

当前挑战

如前所述，全景分割是语义和实例分割的组合，而语义分割是场景的上下文像素级标记，实例分割是该场景中包含的目标的标记。对于基于语义的像素，通过确定该像素属于哪个类别来对像素进行分类，其中实例分类利用目标检测的结果，然后进行精细级别分割，以在一个同质标签中标记目标像素。

语义分割可以包括将stuff和thing分割在一起，同时用与目标类型对应的相同颜色类标记这些内容。而实例分割使用不同的颜色类来分离这些目标。与所有计算机视觉任务类似，许多挑战可能会阻碍任何实现最佳结果的方法。从这个角度来看，已经确定了不同的限制，例如目标之间的遮挡、目标的比例变化、照明变化以及最后但至少是目标的相似强度。为此，本文试图总结当前面临的一些挑战，如下所示：

目标尺度变化：这是所有计算机视觉任务的限制之一，包括目标检测、语义、实例和全景分割。大多数提出的模型都试图作为第一步解决这个问题。通常现有方法在小目标上不太有效，而对于包含许多缩放目标的场景，用于训练的可用标注数据集是不够的[169170]。在图像中检测小物体是非常困难的，而且当物体很小时，尤其是当图像被扭曲和遮挡时，更难将它们区分为物体和物体；

复杂背景：对于图像分割，当场景复杂时，许多东西（stuff, things）可以被视为其他东西（stuff, things）。捕获的图像可以包括许多数据集中未标注的（stuff, things），这使得人和其他目标的外观相似[171]；

杂乱场景：场景中动态目标之间的完全或部分遮挡也是大多数全景分割方法的限制之一。这尤其适用于实例（事物）分割的情况，这是全景分割中的一个重要部分，可能会受到遮挡的影响。因此，这导致分割的“事物”的质量和数量大大降低；

天气变化：使用无人机进行的监控可能会受到各种天气条件和环境变化的影响，如

雨、雾和雾。因此，一旦全景分割算法应用于现实场景，这可能会降低其准确性[172]；

数据集的质量：这对于提高全景分割模型的性能非常重要。尽管有几个可用的数据集，但在标注它们方面仍存在困难[173174175]。而全景分割和分割通常需要由人类专家标注或验证数据；

需要一种有效的合并启发式方法来合并实例和语义分割结果，并产生最终的全景分割可视化结果。合并启发式的准确性通常决定了模型的性能。然而，在这种情况下，一个关键问题是由于合并启发式算法而增加了计算时间。

计算时间：使用DL模型进行全景分割的训练时间通常非常昂贵，这是因为这些模型的复杂性，也因为模型的性质，即单个或分离。一般来说，分离模型（全景的实例语义）比统一模型花费更多的训练时间，然而，全景SQ更好。

未来趋势

在不久的将来，更多的研究工作可以集中在开发端到端模型，以同时执行实例和语义分割。这将减少对合并启发式的需求，因为合并也会作为衡量模型性能的一个因素。替换合并启发式方法可以进一步提高模型的计算时间[67]。

可以更加专注于检测较小的物体，去除不必要的小物体和其他杂项物体。此外，使用精确的边缘检测方法，可以将事物之间的分离用于良好的实例分割。这也将有助于提供一些实时全景分割技术。目前，目前部署的全景分割实时应用程序数量非常有限。因此，今后关注这一观点至关重要。此外，提高全景分割模型的性能并拓宽其应用是相关的未来方向，尤其是在数字健康、实时自动驾驶、场景重建和3D/4D点云语义分割方面。

医学影像学

在不久的将来，全景分割被寄予了很大的希望，以改进医学图像分割。事实上，从医学图像中对癌细胞的无定形区域进行全景分割可以帮助医生检测和诊断疾病以及肿瘤的定位。这是因为不同癌细胞的形态学线索对于病理学家确定癌症分期非常重要。在这方面，全景分割有助于获得定量形态学信息，如[112]所示，其中提出了用于全景分割的端到端网络来分析病理图像。此外，虽然大多数现有的细胞分割方法基于语义级或实例级细胞分割，但全景分割方案统一了目标的检测和定位，并将像素级分类信息分配给具有大重叠的区域，例如背景。这有助于他们超越最先进的技术。

实时自动驾驶

由于自动驾驶对日常生活以及城市规划和交通技术的影响，自动驾驶已成为一项最新的进步。这鼓励了研究人员在过去的十年中为提高自动驾驶汽车的性能提出了不同的挑战。利用现有技术，特别是人工智能，例如神经网络和DL，有助于克服自动驾驶的许多限制。将这些技术与包括相机和激光雷达在内的不同传感器相结合，有助于场景理解和物体定位，这是自动驾驶的关键任务[176]。此外，通过了解和定位汽车周围的物体以及汽车行驶的表面，可以确保驾驶安全[91]。

在这种情况下，全景分割可以显著有助于识别这些物体（thing），例如，除了对行驶道路（stuff）进行分割之外，还可以读取标志并检测横穿道路的人，特别是在繁忙街道上[177]。图7说明了自动驾驶车辆全景分割的适用性示例。这也可以通过使用适当的计算板来实现，该计算板能够基于DL来训练全景分割模型，从而更好地将场景理解为整体而不是分段。

场景重建

实时动态场景重建是视觉计算领域的热点之一。它的好处可以在真实世界场景理解上找到，也可以在所有当前应用中找到，包括虚拟现实、机器人等。使用基于3D的传感器，如激光雷达或相机数据，通过深度学习技术，场景重建变得更容易。现有的多视图动态场景重建方法要么在具有已知背景或色度键工作室的受控环境中工作，要么需要大量摄像机[179]，[180]。由于复杂场景的简化以及使用颜色类的分离，全景分割可以对场景重建方法进行关键改进，从而理解场景的上下文，然后对其进行精确重建，如图8所示[181]，利用3D激光雷达数据的全景分割也使3D形状的重建更容易，这与真实场景更相似。

3D/4D点云语义分割

3D/4D点云语义分割（PCSS）是一项前沿技术，由于其在计算机视觉、遥感和机器人等不同研究领域的应用，由于深度神经网络提供了新的可能性，它吸引了越来越多的关注。3D/4D PCSS是指语义分割的3D/4D形式，其中使用3D/4D空间中的规则/不规则分布点，而不是2D图像中的规则分布像素。然而，与2D图像中的视觉基础相比，3D/4D PCSS由于稀疏和无序的特性而更具挑战性。为此，使用全景分割可以有效地提高3D/4D PCSS的性能。因此，基于来自自然语言的预测目标类别，[182]中的作者提出了基于全景的模型，即InstanceRefer，以首先从点云上的全景分割中过滤实例，以获得少量候选。随后，他们在使用自适应置信融合定位最相关的候选之前，对每个候选进行了协作整体场景语言理解。这有助于InstanceRefer有效地优于现有技术。

结论

全景分割是计算机视觉的一个突破，它通过将物体分成不同的类别来分割“thing”和“stuff”。全景分割在各个研究和开发领域中开辟了若干机遇。需要区分物体的东西，例如自动驾驶、医学图像分析、遥感图像映射等。为了达到最新水平，论文根据作者的知识，对全景分割技术进行了第一次广泛的批判性调查，该综述是按照定义明确的方法设计的。因此首先介绍了全景分割技术的背景。接下来基于所采用方法的性质、分析的图像数据类型和应用场景，对现有全景分割方案进行了分类。此外，还讨论了用于验证全景分割框架的数据集和评估指标，并将最相关的工作制成表格，以明确比较每个模型的性能。

在此背景下，很明显一些方法分别执行实例分割和语义分割，并将结果融合以实现全景分割，而大多数现有技术作为统一模型完成了该过程。尽管如此，研究界对全景分割的高度重视导致了各种研究文章的发表。Cityscapes数据集上69%的PQ和COCO数据集上50%的PQ是所有模型的最佳结果。这表明，仍需开展大量工作来改进其绩效并促进其实施。

在全景分割的应用方面，人们倾向于自动驾驶、行人检测和医学图像分析（特别是使用组织病理学图像）。然而，新的应用机会正在出现，例如在军事部门，全景分割可以用来可视化战场上隐藏的敌人。另一方面，尽管全景分割的实时应用还很少，但人们对这一方向的兴趣越来越大。全景分割最显著的特征之一是它能够注释数据集，这显著减少了标注过程所需的计算时间。

原文首发微信公众号【自动驾驶之心】：一个专注自动驾驶与AI的社区（https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA）

首篇！最全的全景分割综述（RGB图像/医学图像/LiDAR）（下）

公开数据集

结果分析和讨论