一、分割|语义相关(19篇)(中)
1.7 Boosting Few-shot 3D Point Cloud Segmentation via Query-Guided Enhancement
基于查询引导增强的Few-Shot三维点云分割算法
https://arxiv.org/abs/2308.03177
尽管对 3D 点云分割进行了广泛的研究,但有效地将通用模型适应新类别仍然是一个艰巨的挑战。 本文提出了一种改进点云少样本分割(PC-FSS)模型的新方法。 与直接利用支持原型中的分类信息来识别查询样本中的新类的现有 PC-FSS 方法不同,我们的方法确定了两个关键方面,通过减少支持原型和查询特征之间的上下文差距来显着提高模型性能。 具体来说,我们(1)调整支持背景原型以匹配查询上下文,同时删除可能模糊查询样本中前景和背景的无关线索,以及(2)在查询特征的指导下整体纠正支持原型以模拟后者没有语义差距 到查询目标。 我们提出的设计与特征提取器无关,使它们很容易适用于任何基于原型的方法。 S3DIS 和 ScanNet 上的实验结果展示了显着的实际效益,因为我们的方法在保持高效率的同时实现了显着改进。
1.8 Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error
CAL-SFDA:具有可区分预期校准误差的无源领域自适应语义分割
https://arxiv.org/abs/2308.03003
域自适应语义分割的流行引发了对源域数据泄露的担忧,源域的私有信息可能会无意中暴露在目标域中。 为了规避对源数据的要求,无源域适应已成为一种可行的解决方案,它利用自我训练方法来伪标记高置信度区域并使模型适应目标数据。 然而,由于过度自信和类别不平衡问题,获得的置信度分数往往存在很大偏差,这使得模型选择和优化都存在问题。 在本文中,我们提出了一种新颖的校准引导的无源域自适应语义分割(Cal-SFDA)框架。 核心思想是根据分割预测估计预期校准误差(ECE),作为模型对未标记目标域的泛化能力的有力指标。 估计的 ECE 分数反过来又有助于源训练和目标适应阶段的模型训练和公平选择。 在源域上的模型预训练期间,我们通过利用 LogSumExp 技巧并使用 ECE 分数来选择用于适应的最佳源检查点,以确保 ECE 目标的可微性。 为了在不需要标签的情况下在目标域上进行 ECE 估计,我们训练了一个用于 ECE 估计的价值网,并在其 BatchNorm 层上应用统计预热以确保稳定性。 估计的 ECE 分数有助于确定预测的可靠性,并通过积极引导适应进度和抑制潜在的错误累积来实现类平衡伪标记。 对两个广泛使用的合成到真实传输任务的大量实验表明,在公平的模型选择标准下,所提出的方法超越了之前最先进的 mIoU 高达 5.25%。
1.9 Cross-modal & Cross-domain Learning for Unsupervised LiDAR Semantic Segmentation
无监督LiDAR语义分割的跨模式跨域学习
https://arxiv.org/abs/2308.02883
近年来,人们在配对 2D 图像和 3D LiDAR 数据上研究了跨模态域自适应,以减轻目标域中 3D LiDAR 语义分割 (3DLSS) 的标记成本。 然而,在这种设置中,仍然需要付出额外的努力来收集源域中的配对 2D 和 3D 数据。 由于 2D-3D 投影可以使 3D 模型从 2D 模型中学习语义信息,因此我们询问是否可以进一步消除对源 3D 数据的需求,而仅依赖于源 2D 图像。 为了回答这个问题,本文研究了一种新的 3DLSS 设置,其中提供带有语义注释的 2D 数据集(源)以及配对但未注释的 2D 图像和 3D LiDAR 数据(目标)。 为了在这种情况下实现 3DLSS,我们提出了跨模态和跨域学习(CoMoDaL)。 具体来说,我们的 CoMoDaL 旨在建模 1)不配对的源 2D 图像和目标 3D LiDAR 数据之间的模态间跨域蒸馏,以及 2)目标 2D 图像和 3D LiDAR 数据对之间的域内跨模态引导。 在 CoMoDaL 中,我们建议应用多种约束,例如点到像素和原型到像素对齐,通过构建两种模态的混合样本来关联不同模态和域中的语义。 多个数据集上的实验结果表明,在所提出的设置中,开发的 CoMoDaL 可以在没有标记 LiDAR 数据监督的情况下实现分割。 还进行消融以提供更多分析。 代码将公开。
1.10 Semi-supervised Learning for Segmentation of Bleeding Regions in Video Capsule Endoscopy
基于半监督学习的视频胶囊内窥镜出血区域分割
https://arxiv.org/abs/2308.02869
在现代诊断技术领域,视频胶囊内窥镜 (VCE) 因其在诊断各种胃肠道 (GI) 疾病(包括不明原因出血)方面的高效性和非侵入性而脱颖而出。 重要的是,为了成功诊断和治疗这些疾病,准确识别 VCE 图像中的出血区域至关重要。 虽然基于深度学习的方法已成为自动分析 VCE 图像的强大工具,但它们通常需要具有全面注释的大型训练数据集。 获取这些标记数据集往往非常耗时、成本高昂,并且需要大量的领域专业知识。 为了缓解这个问题,我们采用了半监督学习 (SSL) 方法来分割 VCE 内的出血区域。 通过采用“Mean Teacher”方法,我们构建了一个配备 scSE 注意力块的学生 U-Net,以及具有相同架构的教师模型。 这些模型的参数在整个训练过程中交替更新。 我们使用 Kvasir-Capsule 数据集进行实验,其中包含各种胃肠道出血情况。 值得注意的是,我们自己开发了该数据集的分割注释。 我们的实验结果认可了基于 SSL 的分割策略的有效性,证明了其能够减少模型训练对大量注释的依赖,而不会影响识别的准确性。
1.11 NP-SemiSeg: When Neural Processes meet Semi-Supervised Semantic Segmentation
NP-SemiSeg:当神经过程满足半监督语义分割时
https://arxiv.org/abs/2308.02866
半监督语义分割涉及在训练时将像素级标签分配给未标记的图像。 这在广泛的现实应用中非常有用,在这些应用中收集像素级标签在时间或成本上是不可行的。 当前的半监督语义分割方法是通过模型输出的按类概率分布来预测每个像素的伪标签。 然而,如果预测的概率分布不正确,则会导致分割结果不佳,这可能会对医学图像或自动驾驶汽车等安全关键系统产生连锁反应。 因此,了解模型不知道什么非常重要,这主要是通过不确定性量化来实现的。 最近,神经过程(NP)在半监督图像分类中得到了探索,它们已成为一种计算效率高且有效的不确定性量化方法。 在这项工作中,我们通过将 NP 应用于半监督语义分割向前迈出了一步,从而产生了一种称为 NP-SemiSeg 的新模型。 我们在公共基准 PASCAL VOC 2012 和 Cityscapes 上通过不同的训练设置对 NP-SemiSeg 进行了实验评估,结果验证了其有效性。
1.12 Few-shot Class-Incremental Semantic Segmentation via Pseudo-Labeling and Knowledge Distillation
基于伪标注和知识提取的Few-Shot类增量式语义分割
https://arxiv.org/abs/2308.02790
我们解决了从少数示例中学习语义分割模型新类的问题,由于以下两个原因,这是具有挑战性的。 首先,很难从有限的新数据中学习来捕获底层的类别分布。 其次,保留现有课程的知识并避免灾难性遗忘具有挑战性。 为了从有限的数据中学习,我们提出了一种伪标记策略来增强少量训练注释,以便更有效地学习新类别。 给定一个或几个用新类别标记的图像和一组更大的未标记图像,我们通过从粗到细的伪标记方法分两步将知识从标记图像转移到未标记图像。 具体来说,我们首先将每个标记图像与其在场景级别的未标记图像集中的最近邻居进行匹配,以获得具有相似场景布局的图像。 接下来,通过应用在少数镜头注释上学习到的分类器来获得该邻域内的伪标签。 此外,我们对标记和未标记数据使用知识蒸馏来保留现有类的知识。 我们将上述步骤集成到具有统一学习目标的单个卷积神经网络中。 对 Cityscapes 和 KITTI 数据集的大量实验验证了所提出的方法在自动驾驶领域的有效性。
1.13 Guided Distillation for Semi-Supervised Instance Segmentation
用于半监督实例分割的引导式蒸馏算法
https://arxiv.org/abs/2308.02668
尽管实例分割方法已经有了相当大的改进,但主导范例是依赖完全注释的训练图像,而获取这些图像非常繁琐。 为了减轻这种依赖并提高结果,半监督方法利用未标记的数据作为附加训练信号,限制对标记样本的过度拟合。 在这种背景下,我们提出了新颖的设计选择,以显着改进师生蒸馏模型。 特别是,我们(i)通过引入新颖的“引导老化”阶段来改进蒸馏方法,以及(ii)评估不同的实例分割架构以及主干网络和预训练策略。 与之前仅在学生模型的老化阶段使用监督数据的工作相反,我们还使用教师模型的指导来利用老化阶段的未标记数据。 我们改进的蒸馏方法比以前最先进的结果有了显着的改进。 例如,在 Cityscapes 数据集上,当对 10% 的图像使用标签时,我们将 mask-AP 从 23.7 改进到 33.9;在 COCO 数据集上,当仅对 1% 的图像使用标签时,我们将 mask-AP 从 18.3 改进到 34.1 训练数据。