首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)

简介: 本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。

公开数据集



总结和可视化如表3和6所示。


640.png640.png


结果分析和讨论



讨论


Cityscapes上的评估


Cityscapes是实验全景分割解决方案效率的最常用数据集。表4给出了使用该数据集和评估指标的方法的详细报告。此外,考虑到用于评估的数据集,给出了所获得的结果。虽然使用val集报告结果是很常见的,但一些作品已经在Cityscapes数据集的测试开发集上报告了结果。所有模型都具有代表性,表4中列出的结果已发表在参考文件中。此外,最近三年,所有这些作品都已发表,如WeaklySupervised(2018)[92]、Panoptic-DeepLab(2019)[105]和EfficientPS(2020)[82]。

640.png


COCO上的评估


表5表示使用现有全景分割技术获得的一些结果。与Cityscapes上的性能演示类似,论文展示了COCO不同工作中提供的结果,包括使用测试开发集和值集测试的结果。

640.png


Mapillary Vistas、VOC 2012和ADE20K上的评估


表6总结了在Mapillary Vistas和Pascal VOC 2012数据集下的其他框架中获得的结果。

640.png


使用AP和mIoU度量进行评估


表7显示了参考不同数据集(包括Cityscapes、COCO、ADE20K、Mapillary Vitas、KITTI和Semantic KITTI)的AP和IoU度量的几种现有全景分割工作的获得结果。

640.png


LiDAR数据上的评估


SemanticKITTI数据集的验证集和测试集已用于评估和研究现有方法的性能,如表8所示。

640.png


医学图像上的评估


表9显示了使用两种场景的每种方法的性能。

640.png


挑战和未来趋势



当前挑战


如前所述,全景分割是语义和实例分割的组合,而语义分割是场景的上下文像素级标记,实例分割是该场景中包含的目标的标记。对于基于语义的像素,通过确定该像素属于哪个类别来对像素进行分类,其中实例分类利用目标检测的结果,然后进行精细级别分割,以在一个同质标签中标记目标像素。


语义分割可以包括将stuff和thing分割在一起,同时用与目标类型对应的相同颜色类标记这些内容。而实例分割使用不同的颜色类来分离这些目标。与所有计算机视觉任务类似,许多挑战可能会阻碍任何实现最佳结果的方法。从这个角度来看,已经确定了不同的限制,例如目标之间的遮挡、目标的比例变化、照明变化以及最后但至少是目标的相似强度。为此,本文试图总结当前面临的一些挑战,如下所示:


目标尺度变化:这是所有计算机视觉任务的限制之一,包括目标检测、语义、实例和全景分割。大多数提出的模型都试图作为第一步解决这个问题。通常现有方法在小目标上不太有效,而对于包含许多缩放目标的场景,用于训练的可用标注数据集是不够的[169170]。在图像中检测小物体是非常困难的,而且当物体很小时,尤其是当图像被扭曲和遮挡时,更难将它们区分为物体和物体;


复杂背景:对于图像分割,当场景复杂时,许多东西(stuff, things)可以被视为其他东西(stuff, things)。捕获的图像可以包括许多数据集中未标注的(stuff, things),这使得人和其他目标的外观相似[171];


杂乱场景:场景中动态目标之间的完全或部分遮挡也是大多数全景分割方法的限制之一。这尤其适用于实例(事物)分割的情况,这是全景分割中的一个重要部分,可能会受到遮挡的影响。因此,这导致分割的“事物”的质量和数量大大降低;


天气变化:使用无人机进行的监控可能会受到各种天气条件和环境变化的影响,如

雨、雾和雾。因此,一旦全景分割算法应用于现实场景,这可能会降低其准确性[172];


数据集的质量:这对于提高全景分割模型的性能非常重要。尽管有几个可用的数据集,但在标注它们方面仍存在困难[173174175]。而全景分割和分割通常需要由人类专家标注或验证数据;


需要一种有效的合并启发式方法来合并实例和语义分割结果,并产生最终的全景分割可视化结果。合并启发式的准确性通常决定了模型的性能。然而,在这种情况下,一个关键问题是由于合并启发式算法而增加了计算时间。


计算时间:使用DL模型进行全景分割的训练时间通常非常昂贵,这是因为这些模型的复杂性,也因为模型的性质,即单个或分离。一般来说,分离模型(全景的实例语义)比统一模型花费更多的训练时间,然而,全景SQ更好。


未来趋势


在不久的将来,更多的研究工作可以集中在开发端到端模型,以同时执行实例和语义分割。这将减少对合并启发式的需求,因为合并也会作为衡量模型性能的一个因素。替换合并启发式方法可以进一步提高模型的计算时间[67]。


可以更加专注于检测较小的物体,去除不必要的小物体和其他杂项物体。此外,使用精确的边缘检测方法,可以将事物之间的分离用于良好的实例分割。这也将有助于提供一些实时全景分割技术。目前,目前部署的全景分割实时应用程序数量非常有限。因此,今后关注这一观点至关重要。此外,提高全景分割模型的性能并拓宽其应用是相关的未来方向,尤其是在数字健康、实时自动驾驶、场景重建和3D/4D点云语义分割方面。


医学影像学


在不久的将来,全景分割被寄予了很大的希望,以改进医学图像分割。事实上,从医学图像中对癌细胞的无定形区域进行全景分割可以帮助医生检测和诊断疾病以及肿瘤的定位。这是因为不同癌细胞的形态学线索对于病理学家确定癌症分期非常重要。在这方面,全景分割有助于获得定量形态学信息,如[112]所示,其中提出了用于全景分割的端到端网络来分析病理图像。此外,虽然大多数现有的细胞分割方法基于语义级或实例级细胞分割,但全景分割方案统一了目标的检测和定位,并将像素级分类信息分配给具有大重叠的区域,例如背景。这有助于他们超越最先进的技术。


实时自动驾驶


由于自动驾驶对日常生活以及城市规划和交通技术的影响,自动驾驶已成为一项最新的进步。这鼓励了研究人员在过去的十年中为提高自动驾驶汽车的性能提出了不同的挑战。利用现有技术,特别是人工智能,例如神经网络和DL,有助于克服自动驾驶的许多限制。将这些技术与包括相机和激光雷达在内的不同传感器相结合,有助于场景理解和物体定位,这是自动驾驶的关键任务[176]。此外,通过了解和定位汽车周围的物体以及汽车行驶的表面,可以确保驾驶安全[91]。


在这种情况下,全景分割可以显著有助于识别这些物体(thing),例如,除了对行驶道路(stuff)进行分割之外,还可以读取标志并检测横穿道路的人,特别是在繁忙街道上[177]。图7说明了自动驾驶车辆全景分割的适用性示例。这也可以通过使用适当的计算板来实现,该计算板能够基于DL来训练全景分割模型,从而更好地将场景理解为整体而不是分段。

640.png


场景重建


实时动态场景重建是视觉计算领域的热点之一。它的好处可以在真实世界场景理解上找到,也可以在所有当前应用中找到,包括虚拟现实、机器人等。使用基于3D的传感器,如激光雷达或相机数据,通过深度学习技术,场景重建变得更容易。现有的多视图动态场景重建方法要么在具有已知背景或色度键工作室的受控环境中工作,要么需要大量摄像机[179],[180]。由于复杂场景的简化以及使用颜色类的分离,全景分割可以对场景重建方法进行关键改进,从而理解场景的上下文,然后对其进行精确重建,如图8所示[181],利用3D激光雷达数据的全景分割也使3D形状的重建更容易,这与真实场景更相似。


image.png


3D/4D点云语义分割


3D/4D点云语义分割(PCSS)是一项前沿技术,由于其在计算机视觉、遥感和机器人等不同研究领域的应用,由于深度神经网络提供了新的可能性,它吸引了越来越多的关注。3D/4D PCSS是指语义分割的3D/4D形式,其中使用3D/4D空间中的规则/不规则分布点,而不是2D图像中的规则分布像素。然而,与2D图像中的视觉基础相比,3D/4D PCSS由于稀疏和无序的特性而更具挑战性。为此,使用全景分割可以有效地提高3D/4D PCSS的性能。因此,基于来自自然语言的预测目标类别,[182]中的作者提出了基于全景的模型,即InstanceRefer,以首先从点云上的全景分割中过滤实例,以获得少量候选。随后,他们在使用自适应置信融合定位最相关的候选之前,对每个候选进行了协作整体场景语言理解。这有助于InstanceRefer有效地优于现有技术。


结论



全景分割是计算机视觉的一个突破,它通过将物体分成不同的类别来分割“thing”和“stuff”。全景分割在各个研究和开发领域中开辟了若干机遇。需要区分物体的东西,例如自动驾驶、医学图像分析、遥感图像映射等。为了达到最新水平,论文根据作者的知识,对全景分割技术进行了第一次广泛的批判性调查,该综述是按照定义明确的方法设计的。因此首先介绍了全景分割技术的背景。接下来基于所采用方法的性质、分析的图像数据类型和应用场景,对现有全景分割方案进行了分类。此外,还讨论了用于验证全景分割框架的数据集和评估指标,并将最相关的工作制成表格,以明确比较每个模型的性能。


在此背景下,很明显一些方法分别执行实例分割和语义分割,并将结果融合以实现全景分割,而大多数现有技术作为统一模型完成了该过程。尽管如此,研究界对全景分割的高度重视导致了各种研究文章的发表。Cityscapes数据集上69%的PQ和COCO数据集上50%的PQ是所有模型的最佳结果。这表明,仍需开展大量工作来改进其绩效并促进其实施。


在全景分割的应用方面,人们倾向于自动驾驶、行人检测和医学图像分析(特别是使用组织病理学图像)。然而,新的应用机会正在出现,例如在军事部门,全景分割可以用来可视化战场上隐藏的敌人。另一方面,尽管全景分割的实时应用还很少,但人们对这一方向的兴趣越来越大。全景分割最显著的特征之一是它能够注释数据集,这显著减少了标注过程所需的计算时间。


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

目录
打赏
0
0
0
0
46
分享
相关文章
Python基础专题 - 超级详细的 Random(随机)原理解析与编程实践
Python基础专题 - 超级详细的 Random(随机)原理解析与编程实践
1273 0
ShapeNet数据集及dataset代码分析
ShapeNet数据集及dataset代码分析
1091 0
CCF推荐A类会议和期刊总结:计算机体系结构/并行与分布计算/存储系统领域
中国计算机学会(CCF)2022年版推荐目录涵盖了计算机体系结构、并行与分布计算、存储系统领域的多个A类会议和期刊。本文汇总了这些顶级资源的全称、出版社、dblp网址及领域。包括《ACM计算机系统汇刊》、《ACM存储汇刊》等期刊,以及ACM PPoPP、USENIX FAST等会议,为研究人员提供了重要学术参考。
12059 64
CCF推荐A类会议和期刊总结:计算机体系结构/并行与分布计算/存储系统领域
一文详解几种常见本地大模型个人知识库工具部署、微调及对比选型(1)
近年来,大模型在AI领域崭露头角,成为技术创新的重要驱动力。从AlphaGo的胜利到GPT系列的推出,大模型展现出了强大的语言生成、理解和多任务处理能力,预示着智能化转型的新阶段。然而,要将大模型的潜力转化为实际生产力,需要克服理论到实践的鸿沟,实现从实验室到现实世界的落地应用。阿里云去年在云栖大会上发布了一系列基于通义大模型的创新应用,标志着大模型技术开始走向大规模商业化和产业化。这些应用展示了大模型在交通、电力、金融、政务、教育等多个行业的广阔应用前景,并揭示了构建具有行业特色的“行业大模型”这一趋势,大模型知识库概念随之诞生。
152168 30
【Pytorch】查看GPU是否可用
本文提供了使用PyTorch检查GPU是否可用的方法,包括查看PyTorch版本、编译时使用的CUDA版本以及当前CUDA是否可用于PyTorch。
994 2
YOLOv10实战:红外小目标实战 | 多头检测器提升小目标检测精度
本文改进: 在进行目标检测时,小目标会出现漏检或检测效果不佳等问题。YOLOv10有3个检测头,能够多尺度对目标进行检测,但对微小目标检测可能存在检测能力不佳的现象,因此添加一个微小物体的检测头,能够大量涨点,map提升明显; 多头检测器提升小目标检测精度,1)mAP50从0.666提升至0.677
1529 3
Python代码中的# -*- coding: gbk -*-
由于 Python 默认使用 ASCII 编码来解析源代码,因此如果源文件中包含了非 ASCII 编码的字符(比如中文字符),那么解释器就可能会抛出 SyntaxError 异常。加上# -*- coding: gbk -*-这样的注释语句可以告诉解释器当前源文件的字符编码格式是 GBK,从而避免源文件中文字符被错误地解析
224 6
qt.qpa.xcb: could not connect to display 问题解决
【5月更文挑战第16天】qt.qpa.xcb: could not connect to display qt.qpa.plugin: Could not load the Qt platform plugin "xcb" in "" even though it was found. This application failed to start because no Qt platform plugin could be initialized. Reinstalling the application may fix this problem. 问题解决
6214 1
CVPR 2023 最全分割类论文整理:图像/全景/语义/实例分割等【附PDF+代码】
CVPR 2023 最全分割类论文整理:图像/全景/语义/实例分割等【附PDF+代码】
1616 1
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问