SAM:图像分割的里程碑

简介: SAM:图像分割的里程碑

Facebook的新模型称为SAM或Segment Anything Model,具有在计算机视觉行业中引起积极变革的潜力。这个突破性模型不同于以前使用的任何其他图像分割模型。


传统上,会为不同类型的图像,如人或汽车,分别训练不同的模型,但SAM通过提供通用分割解决方案,消除了需要单独模型的需求。SAM类似于自然语言处理行业中的GPT时代,具有用于各种图像分割任务的潜力,如情感分析或卫星图像分割。


Facebook慷慨地发布了SAM和用于训练它的数据集,其中包含超过1100万张图像和11亿个掩码,遵循宽松的Apache 2.0许可证。这个开源计划对计算机视觉行业做出了重大贡献。SAM对计算机视觉行业的潜在影响以及它在图像分割中的重要性是不言而喻的。


如果您有兴趣在本地环境中使用SAM,GitHub存储库文档提供了详细的入门信息。


KadirNar创建了一个存储库,提供了SAM的简化(打包)版本,使我们更容易使用它:https://github.com/kadirnar/segment-anything-video


稍后,我们将使用KadirNar存储库在本地环境中使用SAM。


然而,在深入技术细节之前,让我们先看看Facebook提供的在线演示:https://segment-anything.com/demo在这里,您将看到一个页面,您可以上传您喜欢的任何图像或从他们的数据集中选择。我们将选择一个随机的图像来展示演示。


一旦选择或上传了图像,SAM就会开始工作。处理图像需要几秒钟的时间,但是当它完成时,您将看到您选择的对象已经完美地分割。


下面是我们使用的图像:


让我们看看图像分割的结果:

它完美地对我们的图像进行了分割。SAM的准确性确实令人印象深刻,很容易看出为什么这个模型如此革命性。


一旦你准备好自己尝试它,GitHub仓库文档提供了如何在本地环境中使用SAM的清晰步骤。


我建议使用KadirNar仓库来尝试SAM。此外,利用Google Colab可能会更有益,因为它可以消除不同库版本可能带来的问题。


让我们看看它是如何工作的!首先,我们需要使用pip安装metaseg。


!pip install metaseg -q

让我们看一下我们要处理的图像:


from IPython.display import Image
Image(“image.jpg”)

输出: 

接下来,我们需要导入SegAutoMaskGenerator,它使用model_type从图像中检测分段形状。

    autoseg_image = SegAutoMaskGenerator().save_image(
    source="image.jpg",
    model_type="vit_l", # vit_l, vit_h, vit_b
    points_per_side=16,
    points_per_batch=64,
    min_area=0,
    )

    参数“model_type”确定我们将使用的模型类型。


    Facebook提供了三种不同的模型:

    • default或vit_h:ViT-H SAM模型
    • vit_l:ViT-L SAM模型
    • vit_b:ViT-B SAM模型


    每种模型都有其优点。他们的官方博客提供了对每个模型的详细描述。

    一旦运行上述代码,分割图像将保存在您的当前目录中,让我们看看结果。

      from IPython.display import Image
      Image(“output.jpg”)

      输出:

      例如,在输出图像中选择任何蔬菜就是形状SAM给出的。



      声明:部分内容来源于网络,仅供读者学术交流之目的。文章版权归原作者所有。如有不妥,请联系删除。

      相关文章
      |
      6月前
      |
      机器学习/深度学习 编解码 人工智能
      SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
      SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
      336 0
      |
      6月前
      |
      机器学习/深度学习 编解码 PyTorch
      复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
      复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
      221 0
      |
      机器学习/深度学习 编解码 自然语言处理
      深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
      深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
      深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
      |
      机器学习/深度学习 编解码 人工智能
      深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
      深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
      深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
      |
      机器学习/深度学习 编解码 人工智能
      CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
      CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
      131 0
      |
      计算机视觉
      涨点Trick | 超越CWD、FGD和MGD,AMD蒸馏让目标检测对小目标更有效(二)
      涨点Trick | 超越CWD、FGD和MGD,AMD蒸馏让目标检测对小目标更有效(二)
      223 0
      |
      机器学习/深度学习 算法 数据可视化
      涨点Trick | 超越CWD、FGD和MGD,AMD蒸馏让目标检测对小目标更有效(一)
      涨点Trick | 超越CWD、FGD和MGD,AMD蒸馏让目标检测对小目标更有效(一)
      631 0
      |
      编解码 计算机视觉
      详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(二)
      详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(二)
      132 0
      |
      编解码 计算机视觉 异构计算
      详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(一)
      详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)(一)
      197 0
      |
      计算机视觉 网络架构
      视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
      视觉大模型系列 | MSA:一种简单强大的医学 SAM 适配器,轻松强化 SAM 到指定领域
      1231 0