SAM:图像分割的里程碑

简介: SAM:图像分割的里程碑

Facebook的新模型称为SAM或Segment Anything Model,具有在计算机视觉行业中引起积极变革的潜力。这个突破性模型不同于以前使用的任何其他图像分割模型。


传统上,会为不同类型的图像,如人或汽车,分别训练不同的模型,但SAM通过提供通用分割解决方案,消除了需要单独模型的需求。SAM类似于自然语言处理行业中的GPT时代,具有用于各种图像分割任务的潜力,如情感分析或卫星图像分割。


Facebook慷慨地发布了SAM和用于训练它的数据集,其中包含超过1100万张图像和11亿个掩码,遵循宽松的Apache 2.0许可证。这个开源计划对计算机视觉行业做出了重大贡献。SAM对计算机视觉行业的潜在影响以及它在图像分割中的重要性是不言而喻的。


如果您有兴趣在本地环境中使用SAM,GitHub存储库文档提供了详细的入门信息。


KadirNar创建了一个存储库,提供了SAM的简化(打包)版本,使我们更容易使用它:https://github.com/kadirnar/segment-anything-video


稍后,我们将使用KadirNar存储库在本地环境中使用SAM。


然而,在深入技术细节之前,让我们先看看Facebook提供的在线演示:https://segment-anything.com/demo在这里,您将看到一个页面,您可以上传您喜欢的任何图像或从他们的数据集中选择。我们将选择一个随机的图像来展示演示。


一旦选择或上传了图像,SAM就会开始工作。处理图像需要几秒钟的时间,但是当它完成时,您将看到您选择的对象已经完美地分割。


下面是我们使用的图像:


让我们看看图像分割的结果:

它完美地对我们的图像进行了分割。SAM的准确性确实令人印象深刻,很容易看出为什么这个模型如此革命性。


一旦你准备好自己尝试它,GitHub仓库文档提供了如何在本地环境中使用SAM的清晰步骤。


我建议使用KadirNar仓库来尝试SAM。此外,利用Google Colab可能会更有益,因为它可以消除不同库版本可能带来的问题。


让我们看看它是如何工作的!首先,我们需要使用pip安装metaseg。


!pip install metaseg -q

让我们看一下我们要处理的图像:


from IPython.display import Image
Image(“image.jpg”)

输出: 

接下来,我们需要导入SegAutoMaskGenerator,它使用model_type从图像中检测分段形状。

    autoseg_image = SegAutoMaskGenerator().save_image(
    source="image.jpg",
    model_type="vit_l", # vit_l, vit_h, vit_b
    points_per_side=16,
    points_per_batch=64,
    min_area=0,
    )

    参数“model_type”确定我们将使用的模型类型。


    Facebook提供了三种不同的模型:

    • default或vit_h:ViT-H SAM模型
    • vit_l:ViT-L SAM模型
    • vit_b:ViT-B SAM模型


    每种模型都有其优点。他们的官方博客提供了对每个模型的详细描述。

    一旦运行上述代码,分割图像将保存在您的当前目录中,让我们看看结果。

      from IPython.display import Image
      Image(“output.jpg”)

      输出:

      例如,在输出图像中选择任何蔬菜就是形状SAM给出的。



      声明:部分内容来源于网络,仅供读者学术交流之目的。文章版权归原作者所有。如有不妥,请联系删除。

      相关文章
      |
      2月前
      |
      数据采集 人工智能 自然语言处理
      Meta SAM3开源:让图像分割,听懂你的话
      Meta发布并开源SAM 3,首个支持文本、点、框等提示进行图像与视频分割的统一基础模型,突破传统限制,实现开放词汇概念的精准识别与跟踪,涵盖超400万独特概念,推动视觉分割新发展。
      1335 6
      |
      Web App开发 资源调度 JavaScript
      vue element plus 安装
      vue element plus 安装
      456 0
      |
      3月前
      |
      SQL 人工智能 分布式计算
      活动速递|VeloxCon China 将于12月13日在北京举办,议题征集已开放!
      Velox 首届中国大会(VeloxCon China 2025)将于 2025 年 12 月 13 日在北京举办!
      |
      小程序 容器
      【微信小程序】-- WXML 模板语法 - 条件渲染 -- wx:if & hidden (十一)
      【微信小程序】-- WXML 模板语法 - 条件渲染 -- wx:if & hidden (十一)
      |
      11月前
      |
      人工智能 开发者
      3步,0代码!一键部署DeepSeek-V3、DeepSeek-R1
      阿里云PAI Model Gallery支持一键部署DeepSeek-V3、DeepSeek-R1模型,用户可在平台上零代码实现从训练到部署再到推理的全过程,简化开发流程。通过登录PAI控制台,选择Model Gallery,找到并部署所需模型,如“DeepSeek-R1-Distill-Qwen-7B”,享受高效便捷的AI应用体验。部署成功后可获取调用信息,快速集成到业务中。
      616 13
      |
      机器学习/深度学习 PyTorch 算法框架/工具
      深度学习之格式转换笔记(一):模型文件pt转onnx转tensorrt格式实操成功
      关于如何将深度学习模型从PyTorch的.pt格式转换为ONNX格式,然后再转换为TensorRT格式的实操指南。
      2587 0
      深度学习之格式转换笔记(一):模型文件pt转onnx转tensorrt格式实操成功
      |
      5月前
      |
      机器学习/深度学习 存储 算法
      Trinity-RFT:构建智能体持续学习的自动化强化微调工厂
      大型语言模型作为智能体在真实环境中持续交互学习面临诸多挑战。 Trinity-RFT 是通义实验室推出的强化微调框架,旨在实现智能体的持续进化。它通过探索、训练与经验池的解耦设计,支持多样化训练模式,提升资源利用率和学习稳定性。同时,Trinity-RFT 提供灵活的数据处理与算法模块化功能,降低应用与研究门槛,助力迈向终身学习与自主进化的智能体时代。
      530 2
      |
      数据处理 开发者 异构计算
      ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
      今天我们把ComfyUI工具和多模态LLM结合,在魔搭的免费算力上搭建出支持单图理解,多图理解,视频理解的WebUI界面,更好的支持开发者快速搭建一个视频/图片页面打标器。
      ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
      |
      机器学习/深度学习 自然语言处理 算法
      【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标
      【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标
      |
      11月前
      |
      机器学习/深度学习 数据采集 编解码
      视频生成框架EasyAnimate正式开源!
      视频生成框架EasyAnimate正式开源!
      438 0

      热门文章

      最新文章