借着Meta发布的Segment Anything视觉大模型,作者团队做了一个最强Zero-Shot视觉应用:最强的Zero-Shot检测器,最强的Zero-Shot分割器,最强的Zero-Shot生成器,三合一模型简称为Grounded-SAM。
项目链接:https://github.com/IDEA-Research/Grounded-Segment-Anything
DSW链接:
三种类型的模型可以分开使用,也可以组合式使用,组建出强大的视觉工作流模型,整个工作流拥有了检测一切,分割一切,生成一切的能力。
经过了几天的迭代,Grounded-SAM迎来了第二波更新,这一波直接一步到位,直接集结了Whisper、ChatGPT、Stable Diffusion、Segment Anything四大领域的Foundation Models,作者团队做了一个只动嘴不动手的全自动化视觉工具。
BLIP + Grounded-SAM = 自动化标注器!
可以想象未来只需要语音交互就能够完成所有的视觉工作流任务,这是多么奇妙的一件事情啊!
Grounded SAM
Grounded-SAM + Stable Diffusion = 数据生成器!
借助Grounding DINO强大的Zero-Shot检测能力,Grounded SAM可以通过文本描述就可以找到图片中的任意物体,然后通过Segment Anything强大的分割能力,细粒度的分割出mask,最后还可以利用Stable Diffusion对分割出来的区域做可控的文图生成
单点式 -> 组合式
Grounding DINO例子
Grounded-Segment-Anything例子
Gradio APP
同时我们还提供了可视化网页,可以更方便的尝试各种例子。
更多例子
图像编辑功能
语音交互功能
多轮对话功能
3D全身人体网格恢复
Grounded-SAM未来的想象空间:
比如可控的自动的生成图像,构建新的数据集。
比如提供更强的基础模型与分割预训练。
比如引入GPT-4,进一步激发视觉大模型的潜力。
比如可以做为预打标工具。
......
欢迎体验和建议!
项目链接:https://github.com/IDEA-Research/Grounded-Segment-Anything