华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」(1)

简介: 华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」

华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」

新智元新智元 2023-04-23 15:18 发表于北京



 新智元报道  

编辑:桃子 拉燕

【新智元导读】继SAM之后,威斯康辛麦迪逊、微软、港科大等机构的研究人员提出SEEM模型,通过不同的视觉提示和语言提示,一键分割图像、视频。


Meta的「分割一切」的横空出世,让许多人惊呼CV不存在了。
基于这一模型,众网友纷纷做了进一步工作,比如Grounded SAM。将Stable Diffusion、Whisper、ChatGPT结合使用,就能做到通过语音让一只狗变成一只猴子。而现在,不仅仅是语音,你可以通过多模态提示实现一次性分割所有地方的一切。具体怎么做?鼠标点一下,直接选中分割内容。张口一句话。随手一涂,完整的表情包就来了。甚至,还能分割视频。最新研究SEEM是由威斯康星大学麦迪逊分校、微软研究院等机构的学者共同完成。通过SEEM使用不同种类的提示,视觉提示(点、标记、框、涂鸦和图像片段)、以及语言提示(文本和音频)轻松分割图像。

论文地址:https://arxiv.org/pdf/2304.06718.pdf这个论文标题有意思的地方在于,与2022年上映的一部美国科幻电影「瞬息全宇宙」(Everything Everywhere All at Once)的名字非常相似。英伟达科学家Jim Fan表示,奥斯卡最佳论文标题奖颁给「Segment Everything Everywhere All at Once」拥有一个统一的、多功能的任务规范界面是扩大大型基础模型规模的关键。多模态提示是未来的方向。看过论文后,网友表示,CV现在也要开始拥抱大模型了,研究生未来出路在哪?

奥斯卡最佳标题论文


正是受到基于提示的LLMs通用接口发展的启发,研究人员提出了SEEM。如图所示,SEEM模型可以在没有提示的开放集中执行任何分割任务,比如语义分割、实例分割和全景分割。此外,它还支持任意组合的视觉,文本和引用区域提示,允许多功能和交互式的引用分割。在模型架构上,SEEM采用了常见的编码器-解码器架构。其独特的地方在于具有查询和提示之间复杂的交互。特征和提示被相应的编码器,或采样器编码到一个联合的视觉语义空间。可学习查询是随机初始化,SEEM解码器接受可学习查询、图像特征和文本提示作为输入和输出,包括类和掩码嵌入,用于掩码和语义预测。值得一提的是,SEEM模型有多轮交互。每一轮都包含一个人工循环和一个模型循环。在人工循环中,人工接收上一次迭代的掩码输出,并通过视觉提示给出下一轮解码的正反馈。在模型循环中,模型接收并更新未来预测的记忆提示。通过SEEM,给一个擎天柱卡车的图,就能分割任何目标图像上的擎天柱。通过用户输入的文本生成掩模,进行一键分割。另外,SEEM通过对引用图像的简单点击,或涂鸦,就能够对目标图像上有相似语义的对象进行分割。此外,SEEM非常了解解空间关系。左上行斑马被涂鸦后,也会分割出最左边的斑马。SEEM还可以将图像引用到视频掩码,不需要任何视频数据训练,都能完美分割视频。数据集和设置上,SEEM在三种数据集接受了训练:全景分割,引用分割和交互式分割。交互式分割在交互式分割上,研究者将SEEM与最先进的交互式分割模型进行了比较。作为一个通用模型,SEEM获得了RITM,SimpleClick等相当的性能。而且与SAM取得非常相似的性能,SAM还多用了50个分割数据进行训练。值得注意的是,与现有的交互式模型不同,SEEM是第一个不仅支持经典的分割任务,而且还支持广泛的多模态输入,包括文本、点、涂鸦、边界框和图像,提供了强大的组合能力。通用

相关文章
|
1月前
|
数据采集 人工智能 算法
微软最新 Sora 分析论文,从中可以看到 Sora 未来的发展方向在哪里?
【2月更文挑战第17天】微软最新 Sora 分析论文,从中可以看到 Sora 未来的发展方向在哪里?
36 2
微软最新 Sora 分析论文,从中可以看到 Sora 未来的发展方向在哪里?
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
38 0
|
2月前
|
物联网
ChilloutMix几个模型的区别——专注东方面孔人像生成
ChilloutMix几个模型的区别——专注东方面孔人像生成
172 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」(2)
华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」
217 0
|
11月前
|
人工智能 自然语言处理
最懂中国传统文化的AI绘画模型,画作有形更有神,传达儒释道思想
最懂中国传统文化的AI绘画模型,画作有形更有神,传达儒释道思想
356 0
|
11月前
|
机器学习/深度学习 人工智能 自动驾驶
AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升
AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升
101 0
|
11月前
|
人工智能 自然语言处理 算法
Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式(1)
Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式
166 0
|
11月前
|
机器学习/深度学习 人工智能 编解码
Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式(2)
Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式
234 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4
威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4
235 0
|
11月前
|
机器学习/深度学习 存储 人工智能
复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限
复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限

热门文章

最新文章