首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)

简介: 本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。

公开数据集



总结和可视化如表3和6所示。


640.png640.png


结果分析和讨论



讨论


Cityscapes上的评估


Cityscapes是实验全景分割解决方案效率的最常用数据集。表4给出了使用该数据集和评估指标的方法的详细报告。此外,考虑到用于评估的数据集,给出了所获得的结果。虽然使用val集报告结果是很常见的,但一些作品已经在Cityscapes数据集的测试开发集上报告了结果。所有模型都具有代表性,表4中列出的结果已发表在参考文件中。此外,最近三年,所有这些作品都已发表,如WeaklySupervised(2018)[92]、Panoptic-DeepLab(2019)[105]和EfficientPS(2020)[82]。

640.png


COCO上的评估


表5表示使用现有全景分割技术获得的一些结果。与Cityscapes上的性能演示类似,论文展示了COCO不同工作中提供的结果,包括使用测试开发集和值集测试的结果。

640.png


Mapillary Vistas、VOC 2012和ADE20K上的评估


表6总结了在Mapillary Vistas和Pascal VOC 2012数据集下的其他框架中获得的结果。

640.png


使用AP和mIoU度量进行评估


表7显示了参考不同数据集(包括Cityscapes、COCO、ADE20K、Mapillary Vitas、KITTI和Semantic KITTI)的AP和IoU度量的几种现有全景分割工作的获得结果。

640.png


LiDAR数据上的评估


SemanticKITTI数据集的验证集和测试集已用于评估和研究现有方法的性能,如表8所示。

640.png


医学图像上的评估


表9显示了使用两种场景的每种方法的性能。

640.png


挑战和未来趋势



当前挑战


如前所述,全景分割是语义和实例分割的组合,而语义分割是场景的上下文像素级标记,实例分割是该场景中包含的目标的标记。对于基于语义的像素,通过确定该像素属于哪个类别来对像素进行分类,其中实例分类利用目标检测的结果,然后进行精细级别分割,以在一个同质标签中标记目标像素。


语义分割可以包括将stuff和thing分割在一起,同时用与目标类型对应的相同颜色类标记这些内容。而实例分割使用不同的颜色类来分离这些目标。与所有计算机视觉任务类似,许多挑战可能会阻碍任何实现最佳结果的方法。从这个角度来看,已经确定了不同的限制,例如目标之间的遮挡、目标的比例变化、照明变化以及最后但至少是目标的相似强度。为此,本文试图总结当前面临的一些挑战,如下所示:


目标尺度变化:这是所有计算机视觉任务的限制之一,包括目标检测、语义、实例和全景分割。大多数提出的模型都试图作为第一步解决这个问题。通常现有方法在小目标上不太有效,而对于包含许多缩放目标的场景,用于训练的可用标注数据集是不够的[169170]。在图像中检测小物体是非常困难的,而且当物体很小时,尤其是当图像被扭曲和遮挡时,更难将它们区分为物体和物体;


复杂背景:对于图像分割,当场景复杂时,许多东西(stuff, things)可以被视为其他东西(stuff, things)。捕获的图像可以包括许多数据集中未标注的(stuff, things),这使得人和其他目标的外观相似[171];


杂乱场景:场景中动态目标之间的完全或部分遮挡也是大多数全景分割方法的限制之一。这尤其适用于实例(事物)分割的情况,这是全景分割中的一个重要部分,可能会受到遮挡的影响。因此,这导致分割的“事物”的质量和数量大大降低;


天气变化:使用无人机进行的监控可能会受到各种天气条件和环境变化的影响,如

雨、雾和雾。因此,一旦全景分割算法应用于现实场景,这可能会降低其准确性[172];


数据集的质量:这对于提高全景分割模型的性能非常重要。尽管有几个可用的数据集,但在标注它们方面仍存在困难[173174175]。而全景分割和分割通常需要由人类专家标注或验证数据;


需要一种有效的合并启发式方法来合并实例和语义分割结果,并产生最终的全景分割可视化结果。合并启发式的准确性通常决定了模型的性能。然而,在这种情况下,一个关键问题是由于合并启发式算法而增加了计算时间。


计算时间:使用DL模型进行全景分割的训练时间通常非常昂贵,这是因为这些模型的复杂性,也因为模型的性质,即单个或分离。一般来说,分离模型(全景的实例语义)比统一模型花费更多的训练时间,然而,全景SQ更好。


未来趋势


在不久的将来,更多的研究工作可以集中在开发端到端模型,以同时执行实例和语义分割。这将减少对合并启发式的需求,因为合并也会作为衡量模型性能的一个因素。替换合并启发式方法可以进一步提高模型的计算时间[67]。


可以更加专注于检测较小的物体,去除不必要的小物体和其他杂项物体。此外,使用精确的边缘检测方法,可以将事物之间的分离用于良好的实例分割。这也将有助于提供一些实时全景分割技术。目前,目前部署的全景分割实时应用程序数量非常有限。因此,今后关注这一观点至关重要。此外,提高全景分割模型的性能并拓宽其应用是相关的未来方向,尤其是在数字健康、实时自动驾驶、场景重建和3D/4D点云语义分割方面。


医学影像学


在不久的将来,全景分割被寄予了很大的希望,以改进医学图像分割。事实上,从医学图像中对癌细胞的无定形区域进行全景分割可以帮助医生检测和诊断疾病以及肿瘤的定位。这是因为不同癌细胞的形态学线索对于病理学家确定癌症分期非常重要。在这方面,全景分割有助于获得定量形态学信息,如[112]所示,其中提出了用于全景分割的端到端网络来分析病理图像。此外,虽然大多数现有的细胞分割方法基于语义级或实例级细胞分割,但全景分割方案统一了目标的检测和定位,并将像素级分类信息分配给具有大重叠的区域,例如背景。这有助于他们超越最先进的技术。


实时自动驾驶


由于自动驾驶对日常生活以及城市规划和交通技术的影响,自动驾驶已成为一项最新的进步。这鼓励了研究人员在过去的十年中为提高自动驾驶汽车的性能提出了不同的挑战。利用现有技术,特别是人工智能,例如神经网络和DL,有助于克服自动驾驶的许多限制。将这些技术与包括相机和激光雷达在内的不同传感器相结合,有助于场景理解和物体定位,这是自动驾驶的关键任务[176]。此外,通过了解和定位汽车周围的物体以及汽车行驶的表面,可以确保驾驶安全[91]。


在这种情况下,全景分割可以显著有助于识别这些物体(thing),例如,除了对行驶道路(stuff)进行分割之外,还可以读取标志并检测横穿道路的人,特别是在繁忙街道上[177]。图7说明了自动驾驶车辆全景分割的适用性示例。这也可以通过使用适当的计算板来实现,该计算板能够基于DL来训练全景分割模型,从而更好地将场景理解为整体而不是分段。

640.png


场景重建


实时动态场景重建是视觉计算领域的热点之一。它的好处可以在真实世界场景理解上找到,也可以在所有当前应用中找到,包括虚拟现实、机器人等。使用基于3D的传感器,如激光雷达或相机数据,通过深度学习技术,场景重建变得更容易。现有的多视图动态场景重建方法要么在具有已知背景或色度键工作室的受控环境中工作,要么需要大量摄像机[179],[180]。由于复杂场景的简化以及使用颜色类的分离,全景分割可以对场景重建方法进行关键改进,从而理解场景的上下文,然后对其进行精确重建,如图8所示[181],利用3D激光雷达数据的全景分割也使3D形状的重建更容易,这与真实场景更相似。


image.png


3D/4D点云语义分割


3D/4D点云语义分割(PCSS)是一项前沿技术,由于其在计算机视觉、遥感和机器人等不同研究领域的应用,由于深度神经网络提供了新的可能性,它吸引了越来越多的关注。3D/4D PCSS是指语义分割的3D/4D形式,其中使用3D/4D空间中的规则/不规则分布点,而不是2D图像中的规则分布像素。然而,与2D图像中的视觉基础相比,3D/4D PCSS由于稀疏和无序的特性而更具挑战性。为此,使用全景分割可以有效地提高3D/4D PCSS的性能。因此,基于来自自然语言的预测目标类别,[182]中的作者提出了基于全景的模型,即InstanceRefer,以首先从点云上的全景分割中过滤实例,以获得少量候选。随后,他们在使用自适应置信融合定位最相关的候选之前,对每个候选进行了协作整体场景语言理解。这有助于InstanceRefer有效地优于现有技术。


结论



全景分割是计算机视觉的一个突破,它通过将物体分成不同的类别来分割“thing”和“stuff”。全景分割在各个研究和开发领域中开辟了若干机遇。需要区分物体的东西,例如自动驾驶、医学图像分析、遥感图像映射等。为了达到最新水平,论文根据作者的知识,对全景分割技术进行了第一次广泛的批判性调查,该综述是按照定义明确的方法设计的。因此首先介绍了全景分割技术的背景。接下来基于所采用方法的性质、分析的图像数据类型和应用场景,对现有全景分割方案进行了分类。此外,还讨论了用于验证全景分割框架的数据集和评估指标,并将最相关的工作制成表格,以明确比较每个模型的性能。


在此背景下,很明显一些方法分别执行实例分割和语义分割,并将结果融合以实现全景分割,而大多数现有技术作为统一模型完成了该过程。尽管如此,研究界对全景分割的高度重视导致了各种研究文章的发表。Cityscapes数据集上69%的PQ和COCO数据集上50%的PQ是所有模型的最佳结果。这表明,仍需开展大量工作来改进其绩效并促进其实施。


在全景分割的应用方面,人们倾向于自动驾驶、行人检测和医学图像分析(特别是使用组织病理学图像)。然而,新的应用机会正在出现,例如在军事部门,全景分割可以用来可视化战场上隐藏的敌人。另一方面,尽管全景分割的实时应用还很少,但人们对这一方向的兴趣越来越大。全景分割最显著的特征之一是它能够注释数据集,这显著减少了标注过程所需的计算时间。


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
7月前
|
机器学习/深度学习 自动驾驶 机器人
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
|
机器学习/深度学习 数据采集 算法
基于 UNet 的农业图像的分割| 学习笔记
快速学习基于 UNet 的农业图像的分割。
基于 UNet 的农业图像的分割| 学习笔记
|
机器学习/深度学习 传感器 编解码
史上最全 | 基于深度学习的3D分割综述(RGB-D/点云/体素/多目)(上)
3D目标分割是计算机视觉中的一个基本且具有挑战性的问题,在自动驾驶、机器人、增强现实和医学图像分析等领域有着广泛的应用。它受到了计算机视觉、图形和机器学习社区的极大关注。传统上,3D分割是用人工设计的特征和工程方法进行的,这些方法精度较差,也无法推广到大规模数据上。在2D计算机视觉巨大成功的推动下,深度学习技术最近也成为3D分割任务的首选。近年来已涌现出大量相关工作,并且已经在不同的基准数据集上进行了评估。本文全面调研了基于深度学习的3D分割的最新进展,涵盖了150多篇论文。论文总结了最常用的范式,讨论了它们的优缺点,并分析了这些分割方法的对比结果。并在此基础上,提出了未来的研究方向。
史上最全 | 基于深度学习的3D分割综述(RGB-D/点云/体素/多目)(上)
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
7月前
|
存储 编解码 vr&ar
ICLR 2024:单张图像完成逼真的三维重建
【2月更文挑战第28天】ICLR 2024:单张图像完成逼真的三维重建
236 2
ICLR 2024:单张图像完成逼真的三维重建
|
7月前
|
传感器 机器学习/深度学习 自动驾驶
【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023
本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。CRN,全称是Camera Radar Net,是一个多视角相机-雷达融合框架。 通过融合多视角相机和雷达的特性,生成语义丰富且空间精确的BEV特征图。实现3D物体检测、跟踪和BEV分割任务。
641 1
|
传感器 机器学习/深度学习 人工智能
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
近年来,自动驾驶因其减轻驾驶员负担、提高行车安全的潜力而受到越来越多的关注。在现代自动驾驶系统中,感知系统是不可或缺的组成部分,旨在准确估计周围环境的状态,并为预测和规划提供可靠的观察结果。3D目标检测可以智能地预测自动驾驶车辆附近关键3D目标的位置、大小和类别,是感知系统的重要组成部分。本文回顾了应用于自动驾驶领域的3D目标检测的进展。
史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)(下)
|
机器学习/深度学习 传感器 算法
基于监督学习的多模态MRI脑肿瘤分割,使用来自超体素的纹理特征(Matlab代码实现)
基于监督学习的多模态MRI脑肿瘤分割,使用来自超体素的纹理特征(Matlab代码实现)
|
机器学习/深度学习 传感器 编解码
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
|
传感器 机器学习/深度学习 存储
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022