一、分割|语义相关(10篇)
1.1 Scene-Generalizable Interactive Segmentation of Radiance Fields
场景可概化的交互式辐射场分割
https://arxiv.org/abs/2308.05104
现有的辐射场中的交互式分割方法需要场景特定的优化,因此不能在不同的场景中推广,这极大地限制了它们的适用性。在这项工作中,我们作出了第一次尝试,在场景广义的交互分割辐射场(SGISRF),并提出了一种新的SGISRF方法,它可以执行3D对象分割的新颖(看不见的)的场景所代表的辐射场,引导只有几个交互用户点击在给定的一组多视图2D图像。特别是,建议的SGISRF专注于解决三个关键的挑战与三个专门设计的技术。首先,我们设计了跨维度指导传播编码稀缺的2D用户点击到信息丰富的3D指导表示。其次,不确定性消除3D分割模块被设计为实现高效但有效的3D分割。第三,提出了隐藏-显示监督学习方案,以揭示和纠正隐藏的三维分割错误的2D空间,只有2D掩模注释。在两个现实世界中具有挑战性的基准测试上进行了大量的实验,结果表明:1)所提出的方法的有效性和场景泛化性,2)与需要特定场景优化的经典方法相比,具有良好的性能。
1.2 Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic Role Labeling
面向视频语义角色标注的整体时空场景图构建
https://arxiv.org/abs/2308.05081
视频语义角色标注(VidSRL)旨在通过识别视频中的预测论元事件结构和事件之间的相互关系,从给定视频中检测出显著事件。虽然最近的努力已经提出了用于VidSRL的方法,但它们可能主要受到两个关键缺点,包括缺乏细粒度的空间场景感知和视频时间性的不充分建模。为此,这项工作探索了一种新的整体时空场景图(即HostSG)表示的基础上现有的动态场景图结构,它很好地建模了细粒度的空间语义和时间动态的视频VidSRL。建立在HostSG的基础上,我们提出了一个nichetargeting VidSRL框架。首先设计了场景-事件映射机制,以弥合底层场景结构和高层事件语义结构之间的差距,从而在一个整体的分层场景-事件(称为ICE)图结构。我们进一步执行迭代结构细化,以优化ICE图,使得整体结构表示可以最好地符合最终任务的需求。最后,VidSRL的三个子任务预测被联合解码,其中端到端范例有效地避免了错误传播。在基准数据集上,我们的框架比当前性能最好的模型显著提升。进一步的分析显示,为更好地了解我们的方法的进展。
1.3 Prototypical Kernel Learning and Open-set Foreground Perception for Generalized Few-shot Semantic Segmentation
基于原型核学习和开集前景感知的广义Few-Shot语义分割
https://arxiv.org/abs/2308.04952
广义Few-Shot语义分割(GFSS)扩展了少镜头语义分割(FSS),在评估过程中同时分割看不见的类和看到的类。以前的作品利用额外的分支或原型聚合,以消除FSS的约束设置。然而,表示分割和嵌入偏见,这严重导致GFSS的性能差,没有得到综合考虑。我们通过结合原型内核学习和开放集前景感知来解决上述问题。具体而言,提出了一组可学习的内核来执行分割,每个内核负责一个填充类。然后,我们探索将原型学习合并到基类内核的更新中,这与Few-Shot新类的原型知识聚合一致。此外,采用前景上下文感知模块与基于条件偏差的推理合作,以执行类不可知以及开集的前景检测,从而减轻嵌入偏见,防止新目标被误分类为背景。此外,我们还调整我们的方法,类增量Few-Shot语义分割(CIFSS),它需要在一个增量流的知识的新类。在PASCAL-5i和COCO-20 i数据集上进行的大量实验表明,我们的方法比以前的最先进的方法性能更好。
1.4 Branches Mutual Promotion for End-to-End Weakly Supervised Semantic Segmentation
端到端弱监督语义切分的分支互促算法
https://arxiv.org/abs/2308.04949
端到端弱监督语义分割的目标是在仅基于图像注释的单阶段训练过程中优化分割模型。现有方法采用在线训练的分类分支来提供用于监督分割分支的伪注释。然而,这种策略使得分类分支主导了整个并发训练过程,阻碍了这两个分支的相互协助。在我们的工作中,我们平等对待这两个分支,将它们视为不同的方式来生成分割图,并增加他们的监督和操作的互动,以实现相互促进。为此,一个双向的监督机制,阐述了这两个分支的输出之间的一致性。因此,分割分支也可以向分类分支给出反馈以增强定位种子的质量。此外,我们的方法还设计了这两个分支之间的交互操作,以交换他们的知识,以帮助对方。实验表明,我们的工作优于现有的端到端的弱监督分割方法。
1.5 SLPT: Selective Labeling Meets Prompt Tuning on Label-Limited Lesion Segmentation
SLPT:选择性标记满足对标记受限病变分割的及时调整
https://arxiv.org/abs/2308.04911
使用深度学习的医学图像分析通常受到有限的标记数据和高注释成本的挑战。在标签有限的情况下微调整个网络可能导致过拟合和次优性能。最近,提示调谐已经出现作为一种更有前途的技术,其引入了一些额外的可调参数作为提示到任务不可知的预训练模型,并仅更新这些参数使用监督从有限的标记数据,同时保持预训练模型不变。然而,以往的工作忽略了下游任务选择性标记的重要性,其目的是选择最有价值的下游样本进行注释,以实现最佳的性能与最小的注释成本。为了解决这个问题,我们提出了一个框架,结合选择性标签与提示调谐(SLPT),以提高性能有限的标签。具体来说,我们引入了一个功能感知提示更新,以指导提示调整和TandEm选择性标签(TESLA)策略。TESLA包括无监督多样性选择和使用基于提示的不确定性的监督选择。此外,我们提出了一个多样化的视觉提示调整策略,以提供多提示为基础的差异预测TESLA。我们评估了我们的方法对肝脏肿瘤分割,并实现了最先进的性能,超过传统的微调,只有6%的可调参数,也实现了94%的全数据性能标记只有5%的数据。
1.6 MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation
MixReorg:跨通道混合补丁重组是开放世界语义分割的一种很好的掩码学习方法
https://arxiv.org/abs/2308.04829
最近,用图像级文本监督训练的语义分割模型在具有挑战性的开放世界场景中显示出了有希望的结果。然而,这些模型在学习像素级的细粒度语义对齐和预测准确的对象掩模方面仍然面临困难。为了解决这个问题,我们提出了MixReorg,一种新颖的和直接的预训练范式,用于语义分割,增强了模型的能力,重组补丁混合在图像,探索本地视觉相关性和全球语义连贯性。我们的方法涉及到生成细粒度的补丁文本对数据混合图像补丁,同时保留补丁和文本之间的对应关系。然后训练该模型,以最小化混合图像的分割损失以及原始特征和恢复特征的两个对比损失。使用MixReorg作为掩码学习器,传统的文本监督语义分割模型可以实现高度泛化的像素语义对齐能力,这对于开放世界分割至关重要。在使用大规模图像-文本数据进行训练后,MixReorg模型可以直接应用于分割任意类别的视觉对象,而无需进一步微调。我们提出的框架在流行的zero-shot语义分割基准测试中表现出色,在PASCAL VOC 2012,PASCAL Context,MS COCO和ADE 20 K上分别以5.0%,6.2%,2.5%和3.4%mIoU的显着幅度优于GroupViT。
1.7 Continual Road-Scene Semantic Segmentation via Feature-Aligned Symmetric Multi-Modal Network
基于特征对齐对称多模网络的连续道路场景语义分割
https://arxiv.org/abs/2308.04702
结合LiDAR和颜色数据的最先进的多模态语义分割方法通常是在不对称信息共享方案之上设计的,并假设这两种模态总是可用的。遗憾的是,这种强假设在现实世界的场景中可能不成立,其中传感器容易发生故障或可能面临不利条件(夜间,雨,雾等)。这使得所获取的信息不可靠。此外,这些架构在持续学习场景中往往会失败。在这项工作中,我们重新框架的任务的多模态语义分割强制执行一个紧密耦合的特征表示和对称的信息共享计划,这使得我们的方法,即使当输入模态之一是失踪。这使得我们的模型即使在安全关键设置中也是可靠的,例如自动驾驶。我们在SemanticKITTI数据集上评估我们的方法,将其与我们最接近的竞争对手进行比较。我们还介绍了一个特设的持续学习计划,并在一个类增量的持续学习的情况下,证明了该方法的有效性,也在这种设置的结果。
1.8 Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation
基于语义感知时间累加的时空标记剪枝
https://arxiv.org/abs/2308.04549
由于其令人印象深刻的性能,Transformers已经成为计算机视觉社区的主要支柱。然而,不友好的计算成本阻碍了它们在视频识别领域的潜力。为了优化的速度和准确性的权衡,我们提出了语义感知的时间累积分数(STA)修剪时空令牌一体化。STA评分考虑两个关键因素:时间冗余和语义重要性。前者描绘了一个特定的区域,基于它是否是一个新的发生或看到的实体,通过聚合令牌到令牌的相似性在连续的帧,而后者评估每个令牌的基础上,其对整体预测的贡献。因此,具有较高STA分数的令牌携带更多的时间冗余以及较低的语义,从而被修剪。基于STA得分,我们能够逐步修剪令牌,而不引入任何额外的参数或需要进一步的重新训练。我们直接将STA模块应用于现成的ViT和VideoSwin主干,并且在Kinetics-400和Something-Something V2上的经验结果实现了超过30%的计算减少,精度下降可以忽略不计~0.2%。代码发布于https://github.com/Mark12Ding/STA。
1.9 Unsupervised Camouflaged Object Segmentation as Domain Adaptation
领域自适应的无监督伪装目标分割
https://arxiv.org/abs/2308.04528
由于缺乏人类标签,用于无监督图像分割的深度学习仍然具有挑战性。常见的想法是训练分割头,其中基于自监督主干的表示生成的逐像素伪标签的监督。通过这样做,模型性能在很大程度上取决于目标数据集的分布与预训练数据集(例如,ImageNet)。在这项工作中,我们研究了一个新的任务,即无监督伪装对象分割(UCOS),其中目标对象拥有一个共同的罕见属性,即,伪装不出所料,我们发现,最先进的无监督模型在适应UCOS方面的斗争,由于通用和伪装对象的属性之间的领域差距。为此,我们制定的UCOS作为一个无源无监督域适应任务(UCOS-DA),其中源标签和目标标签是缺席的整个模型训练过程。具体来说,我们定义了一个由在ImageNet上预训练的自监督Vision Transformers组成的源模型。另一方面,目标域包括简单线性层(即,我们的目标模型)和未标记的伪装对象。然后,我们设计了一个管道的前景背景对比自对抗域适应,以实现强大的UCOS。因此,我们的基线模型实现了卓越的分割性能相比,竞争的无监督模型的UCOS基准,与训练集的规模只有十分之一的监督COS对应。
1.10 Assessing the performance of deep learning-based models for prostate cancer segmentation using uncertainty scores
使用不确定性分数评估基于深度学习的前列腺癌分割模型的性能
https://arxiv.org/abs/2308.04653
本研究的重点是比较深度学习方法在MRI图像前列腺分割中的分割和不确定性量化。目的是改善前列腺癌检测和诊断的工作流程。七个不同的U-网为基础的架构,增加了蒙特卡洛辍学,评估自动分割的中心区,外周区,过渡区,和肿瘤,与不确定性估计。在这项研究中表现最好的模型是Attention R2 U-Net,实现了76.3%的平均交集(IoU)和85%的Dice相似系数(DSC),用于分割所有区域。此外,与其他模型相比,注意力R2 U-Net表现出最低的不确定性值,特别是在过渡区和肿瘤的边界。