CVPR 2024:分割一切模型SAM泛化能力差?域适应策略给解决了

简介: 【4月更文挑战第24天】CVPR 2024 论文提出了解决图像分割基础模型 SAM 在分布偏移下泛化能力不足的问题,通过弱监督自训练策略增强模型适应性和计算效率。在多种图像分割任务上超越预训练 SAM 和现有适应方法,但弱标签质量和数量可能限制性能,且需大量计算资源。[Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation](https://arxiv.org/pdf/2312.03502.pdf)

随着人工智能技术的飞速发展,计算机视觉领域中的图像分割任务已经成为了一个热点研究方向。图像分割技术在医疗影像、自动驾驶、机器人视觉等多个领域都有着广泛的应用。然而,图像分割模型的泛化能力一直是研究者们关注的焦点。近期,由Haojie Zhang、Yongyi Su、Xun Xu和Kui Jia共同撰写的一篇论文《Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation》在CVPR 2024上发表,针对图像分割基础模型SAM(Segment-Anything Model)在分布偏移情况下的泛化能力不足的问题,提出了一种新的解决方案。

SAM模型作为一种先进的图像分割基础模型,通过在大规模数据集上进行训练,展现出了强大的零样本或少样本泛化能力。但是,研究者们发现,SAM模型在面对自然图像的损坏、伪装图像、医学图像等特定类型的图像时,性能表现并不理想。这种性能的下降主要是由于训练数据与测试数据之间存在的分布偏移所导致的。为了解决这一问题,研究者们提出了一种基于弱监督自训练的策略,以适应目标分布并提高模型的鲁棒性和计算效率。

在这项工作中,研究者们面临的主要挑战包括如何处理大规模源数据集、高计算成本以及错误伪标签的问题。为了克服这些挑战,他们提出了一种弱监督自训练架构,该架构通过锚点正则化和低秩微调来增强模型的适应能力和计算效率。研究者们还在目标域上引入了弱监督,例如稀疏的点注释,以提供更强的域适应线索。这些弱监督与SAM模型中的提示编码器天然兼容,使得自训练能够获得更加局部化和不那么模糊的伪预测。

通过在五种类型的下游分割任务上的验证,包括自然清洁/损坏图像、医学图像、伪装图像和机器人图像,研究者们的方法在几乎所有的测试任务中都超越了预训练的SAM模型和最新的领域适应方法。这一成果表明,所提出的方法在任务无关性方面具有显著的优势,并且在大多数下游任务中都取得了更好的性能。

然而,这项研究也存在一些局限性。首先,尽管所提出的方法在多个数据集上表现出色,但其在实际应用中的性能仍有待进一步验证。此外,由于采用了弱监督学习,模型的性能可能受限于弱标签的质量和数量。此外,该方法依赖于大量的计算资源,这可能会限制其在资源受限的环境中的应用。

论文地址:https://arxiv.org/pdf/2312.03502.pdf

目录
相关文章
|
10月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
1天前
|
机器学习/深度学习 异构计算
CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破
对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。
|
10月前
|
机器学习/深度学习 编解码 自然语言处理
SAM增强技术 | SAMAug提出Point Prompt增强,让SAM模型天天向上
SAM增强技术 | SAMAug提出Point Prompt增强,让SAM模型天天向上
291 1
|
10月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
10月前
|
机器学习/深度学习 编解码 数据可视化
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
|
人工智能 计算机视觉
分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型
分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型
268 0
|
机器学习/深度学习 自然语言处理 计算机视觉
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
133 0
|
计算机视觉 网络架构
视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
1368 0
|
机器学习/深度学习 编解码 人工智能
NeuraIPS 2022 | 最新类别感知对抗Transformer分割网络CASTformer
NeuraIPS 2022 | 最新类别感知对抗Transformer分割网络CASTformer
299 0
|
机器学习/深度学习 数据可视化 测试技术
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割(一)
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
257 0
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割(一)