视觉GPT | SegGPT:大通用分割模型登场!利用视觉 prompt 分割万物

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 视觉GPT | SegGPT:大通用分割模型登场!利用视觉 prompt 分割万物

640.png


Title: SegGPT: Segmenting Everything In Context

Paper: https://arxiv.org/pdf/2304.03284.pdf

Code: https://github.com/baaivision/Painter

导读

图1.SegGPT 可以使用上下文示例指示不同任务,一个模型即可对所有内容进行分割。

前几天 Meta 发布了 Segment Anything Model (SAM),其表现出的“分割万物”能力让 CV 届掀起热潮。模型已公布,没体验过的朋友们赶紧去试试!

https://github.com/facebookresearch/segment-anything

紧接着,北京智源人工智能研究院也推出了通用分割大模型 SegGPT。与 SAM 的交互分割方式不同,该方法利用提示 (prompt) 完成任意目标的分割。本文将对 SegGPT 进行详细介绍。

SegGPT 将各种分割任务统一成一个通用的上下文学习框架,可用于分割上下文中的所有事物。SegGPT 的训练被制定为一个上下文着色问题,为每个数据样本随机分配颜色映射。目标是根据上下文完成不同的分割任务,而不是依赖于特定的颜色。

完成训练后,SegGPT 可以通过上下文推理执行图像或视频中的任意分割任务。SegGPT 在多种任务上进行了详细实验,包括少样本语义分割、视频目标分割、语义分割和全景分割。结果表明,SegGPT 在不同任务中均表现出强大的分割能力。

创作背景

图像分割技术是将图像中的有意义的概念(如前景、类别、目标实例等)定位和重新组织的过程。传统的分割模型针对特定的任务、类别、数据类型等进行训练,无法适应多样化的分割任务,并且需要昂贵的注释成本。

因此,本文提出的 SegGPT旨在训练一个通用模型,可以用于解决所有的分割任务。

SegGPT 通过将不同类型的分割数据转换为相同的图像格式,使得不同的分割任务统一到一个通用的上下文学习框架中。SegGPT 的训练被制定为一个上下文着色问题,每个数据样本具有随机的颜色映射。训练目标是根据上下文完成多样化的任务,而不是依赖特定的颜色。训练过程中使用的随机着色方案强制模型参考上下文信息来完成分配的任务,这使得训练方法更加灵活和通用。

完成训练后,SegGPT 可以通过上下文推断执行任意分割任务。为了有效地集成多个示例,我们还提出了一种简单而有效的上下文集合策略——特征集合。此外,SegGPT 还可以方便地作为专业模型使用,无需更新模型参数,只需调整 prompt 以适应专业用例,如域内 (in-domain) ADE20K 语义分割。

方法

图2. SegGPT 训练框架

SegGPTPainter 框架的一个特殊版本。SegGPT 可以使用通用的 Painter 对所有事物进行分割,因此被称为 SegGPT

该训练框架重新定义了视觉任务的输出空间为“图像”,并将不同的任务统一到同一个图像修复问题中,即随机遮盖任务输出图像并重建缺失的像素。为了保持简单性和通用性,我们没有对架构和损失函数进行修改,即仅使用了一个普通的 ViT 和一个简单的平滑  损失,但设计了一个新的随机着色方案以提高模型的泛化能力。

In-Context Coloring

传统的 Painter 框架中,每个任务的颜色空间是预定义的,这导致模型容易陷入多任务学习的解决方案中。例如,对于语义分割,一组颜色是预定义的,每个语义类别被分配一个固定的颜色。同样,在实例分割中,根据其位置类别分配实例对象的颜色,即颜色的数量等于空间位置的数量,这导致模型只依赖颜色本身来确定任务,而不是使用分割之间的关系。

为了解决这个限制,本文提出了一种新的 in-context coloring 技术,其基本思想是在相似的语境下对颜色进行重新映射,这样可以避免在预定义的颜色空间中受限制,使得模型学习到更多的上下文信息。

具体地说,in-context coloring 技术是通过以下步骤实现的:首先,从与输入图像共享类似语境的另一张图像中随机采样。然后,从目标图像中随机采样一组颜色,并将每种颜色映射到一个随机的颜色。这将导致相应像素的重新上色。最终得到两个成对的图像,这被定义为 in-context pair

此外,本文还引入了 mix-context 训练方法,即使用混合示例来训练模型。首先将具有相同颜色映射的多个图像拼接在一起。然后,将结果图像随机裁剪和调整大小,形成混合上下文训练样本。

通过这种方式,模型学习关注图像的上下文信息而不仅仅依赖于特定的颜色信息来确定任务。此外,我们还根据不同的数据类型定义了不同的上下文,例如对于语义分割,随机采样类别,对于实例分割,随机采样目标实例数量。同一图像的不同视角被视为上下文中的图像。在实现中,采样都是关于颜色的,例如相同的颜色可以指代相同的类别或实例。

Context Ensemble

图3. 上下文集成策略

SegGPT 在推理阶段可以实现任意上下文的分割任务。给定一个待测试的输入图像和一个目标图像,目标图像可以是单色(不包括背景)或多色,例如,在一个画面种分割多个感兴趣的类别或物体。通过将输入图像与示例图像拼接并输入 SegGPT,并得到相应的上下文预测。

为了提供更准确和具体的上下文,可以使用多个示例,例如,同一语义类别的几个示例或视频中的前几帧。为了有效利用多个示例,SegGPT 提出了两种上下文集成方法:空间集成和特征集成。

空间集成

将多个示例串联在n×n网格中,然后缩小到与单个示例相同的大小。

特征集成

将多个示例在批处理维度组合,并在每个注意力层之后对查询图像的特征进行平均。

这样,在推理过程中,查询图像就可以汇集多个示例的信息。

In-Context Tuning

图4. 根据不同任务规范进行上下文调整。

通过冻结整个模型并初始化一个可学习的图像张量作为输入上下文,仅更新这个可学习的图像张量来适应独特的用例。这个过程的训练过程保持不变,仍然使用相同的损失函数。调整完成后,可以将学习到的图像张量作为针对特定应用程序的一个即插即用的 key

通过这个功能,可以针对特定的数据集、场景、角色等训练一个定制的 prompt,而不会影响模型的通用性,这为许多应用开启了可能性。

实验

640.png

SegGPT 在两个基准测试中实现与 SOTA 模型相当或者更好的性能。对比通用模型 PainterSegGPT 取得了显著的优势。

相比于在 FSS-1000 上训练的专家模型,SegGPT 表现出极具竞争力的性能。值得注意的是,SegGPT 没有在 FSS-1000 数据集上进行训练,但仍然取得了显著的结果,这充分证明了它的有效性。

SegGPTRefineNet 等专家模型相比具有相媲美的性能。然而,与通用的 Painter 相比,我们的方法在 mIoU下降了10.3个点。这个观察结果可以通过引入随机颜色方案来解释,这使得模型更难以使用颜色作为领域任务的简单指示器。相反,模型需要依赖于上下文示例来确定任务,从而使优化变得更加困难。同样地,表格6显示了 SegGPTPainter 通用模型相比下降了9.0个 PQ 点

图5. 模型输入和输出可视化

总结

本文介绍了一种基于上下文视觉学习的通用分割模型 SegGPT,展示了如何设计合适的训练策略,充分利用上下文视觉学习的灵活性。

该模型在处理领域内和领域外的分割任务方面表现出强大的能力。然而,文章也指出了一些缺点,在上下文训练中引入了新的随机着色机制,使得训练任务本质上更加困难。

我们相信,SegGPT 在图像/视频分割领域中有潜力成为实现更多种类应用的有力工具。后续我们计划通过扩大模型规模来进一步提高性能,但这也带来了寻找更多数据的挑战。我们希望我们的工作能够激励社区继续探索计算机视觉中上下文学习的潜力。


写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎扫码与我交流,一起探讨更多有趣的话题!

目录
相关文章
|
15天前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
|
2月前
|
知识图谱
ARTIST的中文文图生成模型问题之通过GPT生成图像序列的问题如何解决
ARTIST的中文文图生成模型问题之通过GPT生成图像序列的问题如何解决
|
2月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
117 65
|
2月前
|
人工智能
ECCV 2024:让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性
【8月更文挑战第13天】在AI领域,视觉语言预训练(VLP)模型展现出了强大的图像与文本理解能力,但也易受多模态对抗样本攻击。为此,研究者提出了Cross-Clean-Adversarial Regional Diversification (CCAR-Div)策略,通过增强对抗样本多样性以提升VLP模型的对抗迁移性。此策略在对抗轨迹交集区域采样,增加样本多样性,并利用模态交互作用。经Flickr30K和MSCOCO数据集验证,CCAR-Div能有效提高跨模型与跨任务场景下的对抗迁移性,如使用ALBEF生成的对抗样本攻击TCL时,成功率高达95.58%。
120 60
|
27天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
1月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
62 10
|
2月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
32 1
|
2月前
|
人工智能 安全 测试技术
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
63 4
|
2月前
|
人工智能 测试技术
ACL 2024:对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
【8月更文挑战第6天】在ACL 2024会议上,研究人员提出GSM-Plus对抗性基准,旨在评估大型语言模型(LLMs)如GPT-3.5-Turbo在数学推理上的鲁棒性。通过对25个模型和4种提示技术的测试,结果显示模型们虽能在标准GSM8K数据集上取得好成绩,但在遇到问题变异时表现欠佳,提示技术提升作用有限,揭示了LLMs在数学理解深度上的局限。论文详述了这一发现及其对未来研究的意义。
55 2
|
2月前
|
数据采集 SQL 人工智能
如何基于gpt模型抢先打造成功的产品
如何基于gpt模型抢先打造成功的产品
下一篇
无影云桌面