华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」（1）

2023-05-12 266

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」

新智元新智元 2023-04-23 15:18 发表于北京

新智元报道

编辑：桃子拉燕

【新智元导读】继SAM之后，威斯康辛麦迪逊、微软、港科大等机构的研究人员提出SEEM模型，通过不同的视觉提示和语言提示，一键分割图像、视频。

Meta的「分割一切」的横空出世，让许多人惊呼CV不存在了。
基于这一模型，众网友纷纷做了进一步工作，比如Grounded SAM。将Stable Diffusion、Whisper、ChatGPT结合使用，就能做到通过语音让一只狗变成一只猴子。而现在，不仅仅是语音，你可以通过多模态提示实现一次性分割所有地方的一切。具体怎么做？鼠标点一下，直接选中分割内容。张口一句话。随手一涂，完整的表情包就来了。甚至，还能分割视频。最新研究SEEM是由威斯康星大学麦迪逊分校、微软研究院等机构的学者共同完成。通过SEEM使用不同种类的提示，视觉提示（点、标记、框、涂鸦和图像片段）、以及语言提示（文本和音频）轻松分割图像。

论文地址：https://arxiv.org/pdf/2304.06718.pdf这个论文标题有意思的地方在于，与2022年上映的一部美国科幻电影「瞬息全宇宙」（Everything Everywhere All at Once）的名字非常相似。英伟达科学家Jim Fan表示，奥斯卡最佳论文标题奖颁给「Segment Everything Everywhere All at Once」拥有一个统一的、多功能的任务规范界面是扩大大型基础模型规模的关键。多模态提示是未来的方向。看过论文后，网友表示，CV现在也要开始拥抱大模型了，研究生未来出路在哪？

奥斯卡最佳标题论文

正是受到基于提示的LLMs通用接口发展的启发，研究人员提出了SEEM。如图所示，SEEM模型可以在没有提示的开放集中执行任何分割任务，比如语义分割、实例分割和全景分割。此外，它还支持任意组合的视觉，文本和引用区域提示，允许多功能和交互式的引用分割。在模型架构上，SEEM采用了常见的编码器-解码器架构。其独特的地方在于具有查询和提示之间复杂的交互。特征和提示被相应的编码器，或采样器编码到一个联合的视觉语义空间。可学习查询是随机初始化，SEEM解码器接受可学习查询、图像特征和文本提示作为输入和输出，包括类和掩码嵌入，用于掩码和语义预测。值得一提的是，SEEM模型有多轮交互。每一轮都包含一个人工循环和一个模型循环。在人工循环中，人工接收上一次迭代的掩码输出，并通过视觉提示给出下一轮解码的正反馈。在模型循环中，模型接收并更新未来预测的记忆提示。通过SEEM，给一个擎天柱卡车的图，就能分割任何目标图像上的擎天柱。通过用户输入的文本生成掩模，进行一键分割。另外，SEEM通过对引用图像的简单点击，或涂鸦，就能够对目标图像上有相似语义的对象进行分割。此外，SEEM非常了解解空间关系。左上行斑马被涂鸦后，也会分割出最左边的斑马。 SEEM还可以将图像引用到视频掩码，不需要任何视频数据训练，都能完美分割视频。数据集和设置上，SEEM在三种数据集接受了训练：全景分割，引用分割和交互式分割。交互式分割在交互式分割上，研究者将SEEM与最先进的交互式分割模型进行了比较。作为一个通用模型，SEEM获得了RITM，SimpleClick等相当的性能。而且与SAM取得非常相似的性能，SAM还多用了50个分割数据进行训练。值得注意的是，与现有的交互式模型不同，SEEM是第一个不仅支持经典的分割任务，而且还支持广泛的多模态输入，包括文本、点、涂鸦、边界框和图像，提供了强大的组合能力。通用