CVPR 2024:分割一切模型SAM泛化能力差?域适应策略给解决了

简介: 【4月更文挑战第24天】CVPR 2024 论文提出了解决图像分割基础模型 SAM 在分布偏移下泛化能力不足的问题,通过弱监督自训练策略增强模型适应性和计算效率。在多种图像分割任务上超越预训练 SAM 和现有适应方法,但弱标签质量和数量可能限制性能,且需大量计算资源。[Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation](https://arxiv.org/pdf/2312.03502.pdf)

随着人工智能技术的飞速发展,计算机视觉领域中的图像分割任务已经成为了一个热点研究方向。图像分割技术在医疗影像、自动驾驶、机器人视觉等多个领域都有着广泛的应用。然而,图像分割模型的泛化能力一直是研究者们关注的焦点。近期,由Haojie Zhang、Yongyi Su、Xun Xu和Kui Jia共同撰写的一篇论文《Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation》在CVPR 2024上发表,针对图像分割基础模型SAM(Segment-Anything Model)在分布偏移情况下的泛化能力不足的问题,提出了一种新的解决方案。

SAM模型作为一种先进的图像分割基础模型,通过在大规模数据集上进行训练,展现出了强大的零样本或少样本泛化能力。但是,研究者们发现,SAM模型在面对自然图像的损坏、伪装图像、医学图像等特定类型的图像时,性能表现并不理想。这种性能的下降主要是由于训练数据与测试数据之间存在的分布偏移所导致的。为了解决这一问题,研究者们提出了一种基于弱监督自训练的策略,以适应目标分布并提高模型的鲁棒性和计算效率。

在这项工作中,研究者们面临的主要挑战包括如何处理大规模源数据集、高计算成本以及错误伪标签的问题。为了克服这些挑战,他们提出了一种弱监督自训练架构,该架构通过锚点正则化和低秩微调来增强模型的适应能力和计算效率。研究者们还在目标域上引入了弱监督,例如稀疏的点注释,以提供更强的域适应线索。这些弱监督与SAM模型中的提示编码器天然兼容,使得自训练能够获得更加局部化和不那么模糊的伪预测。

通过在五种类型的下游分割任务上的验证,包括自然清洁/损坏图像、医学图像、伪装图像和机器人图像,研究者们的方法在几乎所有的测试任务中都超越了预训练的SAM模型和最新的领域适应方法。这一成果表明,所提出的方法在任务无关性方面具有显著的优势,并且在大多数下游任务中都取得了更好的性能。

然而,这项研究也存在一些局限性。首先,尽管所提出的方法在多个数据集上表现出色,但其在实际应用中的性能仍有待进一步验证。此外,由于采用了弱监督学习,模型的性能可能受限于弱标签的质量和数量。此外,该方法依赖于大量的计算资源,这可能会限制其在资源受限的环境中的应用。

论文地址:https://arxiv.org/pdf/2312.03502.pdf

目录
相关文章
|
7月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
2月前
|
机器学习/深度学习 人工智能 算法
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
33 0
|
7月前
|
存储 算法 自动驾驶
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
|
测试技术 PyTorch TensorFlow
Yolov5-6.2 正式发布 | Yolov5 也可以训练分类模型啦,语义分割+实例分割很快到来
Yolov5-6.2 正式发布 | Yolov5 也可以训练分类模型啦,语义分割+实例分割很快到来
583 0
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
271 0
|
计算机视觉 网络架构
视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
1297 0
|
机器学习/深度学习 自然语言处理 计算机视觉
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一
123 0
|
机器学习/深度学习 编解码 人工智能
NeuraIPS 2022 | 最新类别感知对抗Transformer分割网络CASTformer
NeuraIPS 2022 | 最新类别感知对抗Transformer分割网络CASTformer
283 0
|
机器学习/深度学习
【多标签文本分类】融合CNN-SAM与GAT的多标签文本分类模型
【多标签文本分类】融合CNN-SAM与GAT的多标签文本分类模型
287 0
【多标签文本分类】融合CNN-SAM与GAT的多标签文本分类模型
|
机器学习/深度学习 算法 数据挖掘
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
764 0
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究