ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍

简介: Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。

Part one :论文概述

论文标题: SAM3: Segment Anything with Concepts
作者团队: Anonymous authors
发布时间: ICLR2026
👉一键直达论文
👉Lab4AI大模型实验室论文阅读

01 摘要解析

SAM3(SegmentAnythingModel3)代表了图像和视频分割领域的重大突破,这是一个基于概念提示的统一模型,能够检测、分割和跟踪图像视频中的对象。其核心创新在于提出了可提示概念分割(PromptableConceptSegmentation,,PCS),支持通过短名词短语(如“黄色校车”)、图像范例或二者组合作为提示,为所有匹配对象实例返回分割掩码和唯一标识。传统方法相比,SAM3在图像和视频PCS任务上实现了2倍的性能提升,同时在交互式视觉分割任务中也改进了前代SAM的能力

02 研究背景与动机

计算机视觉中寻找和分割视觉场景中任何对象的能力是多模态AI的基础,支撑着机器人技术、内容创作、增强现实、数据注释和科学领域的应用。虽然SAM系列引入了通过交互式提示分割图像视频中对象的概念,但SAM1和SAM2主要关注视觉提示(点、框、掩码),且每个提示仅分割单个对象实例,存在明显局限:

  • 任务范围窄: 仅聚焦单提示单目标实例分割,无法处理“分割场景中所有某类概念目标”,如视频中所有“猫”;
  • 提示类型受限: SAM1、SAM2以视觉提示为主,对文本概念的泛化能力不足;
  • 开放性不足: 难以应对开放词汇表场景下的歧义问题(如“小窗户”的主观性边界定义)。为解决上述问题,SAM3扩展出提示性概念分割(PCS)任务,填补“概念级全实例分割”的技术空白。

03 可提示概念分割(PCS)

PCS任务的核心目标是:给定一张图像或时长≤30秒的短视频,模型根据概念提示(短名词短语、图像示例或两者结合),完成检测、分割、跟踪符合概念的对象。 该类任务的本质是开放词汇,它具有固有的模糊性或歧义。许多概念存在多种解释,例如“小窗户”是主观的(小vs大)且边界模糊(有百叶窗vs无百叶窗)。

SAM3研究团队通过三大方式缓解: 一是在SA-Co基准的Gold子集为每个数据点收集3名位专家的标注,允许“多有效解释” ;二是在数据标注阶段制定清晰指南,减少标注歧义;三是在模型中引入“歧义模块”,学习概念的不同合理解释

04 架构设计

SAM3基于SAM2与DETR架构扩展,SAM3采用检测器与跟踪器共享视觉编码器的双路径架构。PE是SAM3的“多模态特征中枢”,负责统一编码图像、文本、图像示例的特征,为检测器与跟踪器提供对齐的视觉-语言嵌入。检测器基于DETR范式设计,核心创新是“解耦识别与定位”,解决传统DETR中“单个目标查询需同时负责‘目标是否存在(识别)’与‘目标在哪里(定位)’”的矛盾。跟踪器继承SAM2的Transformer编解码器架构,核心是实现“检测器新目标检测+跟踪器掩码传播+实例匹配更新”的闭环流程,确保视频帧间实例ID的一致性与掩码精度。

简单来说就是,SAM3能理解点或者框圈出来的物体(exemplar),也能理解提示概念(a penguin)。

05 四阶段数据引擎

为解决PCS任务 “数据稀缺且概念覆盖不足” 的问题,研究团队构建了四阶段数据引擎,通过与SAM3、人类标注员和AI标注员的反馈循环迭代地生成注释数据。数据引擎分四个阶段演进,每个阶段增加AI模型的使用,将人类努力导向最具挑战性的失败案例,同时扩展视觉领域覆盖范围。

  • 阶段1:人类验证。 该阶段的目标是建立“人工标注基准”,为后续AI标注器训练提供高质量数据。
  • 阶段2:人类+AI验证。 使用第一阶段收集的人工标注数据微调Llama3.2,得到两个AI验证器:一是“掩码验证器(MVAI)”,判断掩码与概念提示的匹配度;二是“完整性验证器(EVAI)”,判断掩码是否覆盖所有实例。
  • 阶段3:扩展与领域扩展。 该阶段聚焦“长尾概念”与“多领域数据”,使用AI模型挖掘日益挑战性的案例,将领域覆盖扩展到15个数据集,通过从可用alt-text中提取NP扩展概念覆盖。
  • 阶段4:视频标注。 该阶段将数据引擎扩展到视频,聚焦“视频特有挑战”(如遮挡、快速运动、帧间实例关联)。

这种数据引擎设计使标注吞吐量翻倍,最终产生了包含400万个独特短语和5200万个掩码的高质量训练数据集,以及包含3800万个短语和14亿个掩码的合成数据集。

06 实验设计与结果分析

应用研究团队在图像/视频PCS、少样本迁移、目标计数、复杂查询分割等任务上验证SAM3性能,详细结果可见论文原文。

Part Two: 论文原文阅读

您可以跳转到Lab4AI平台上去阅读论文原文。

👉Lab4AI大模型实验室论文阅读

目前,SAM3论文的复现工作还在招募中,欢迎各位感兴趣的朋友报名参与复现创作,我们提供一定额度的H800算力作为奖励。

Lab4AI大模型实验室已经提供🔥SAM2论文的一键复现🔥,您无需准备代码、模型、数据、环境,即可一键快速体验:👉Lab4AI大模型实验室论文复现

  • Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;
  • 支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
4月前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本、点、框等提示进行图像与视频分割的统一基础模型,突破传统限制,实现开放词汇概念的精准识别与跟踪,涵盖超400万独特概念,推动视觉分割新发展。
2212 6
|
4月前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
1746 59
Meta SAM3开源:让图像分割,听懂你的话
|
4月前
|
人工智能 Linux C++
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
VideoLLaMA 3是2025年发布的前沿多模态模型,深度融合视觉、音频与语言,支持长视频、高分辨率图像理解及视听融合推理。基于Llama 3架构,具备强大时空因果分析能力,适用于复杂视频理解任务,已在Lab4AI平台开放复现。
339 1
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
|
4月前
|
机器学习/深度学习 人工智能 算法
7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”
Lab4AI.cn提供免费的AI翻译和AI导读工具辅助论文阅读;支持投稿复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新。
251 3
7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”
|
4月前
|
机器学习/深度学习 人工智能 计算机视觉
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
FBRT-YOLO提出专用于航拍图像的实时目标检测模型,通过轻量化设计、增强多尺度融合与小目标优化,在保证高精度的同时显著提升速度,实现复杂场景下更优的性能平衡。
436 0
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
|
4月前
|
编解码 人工智能 文字识别
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
DeepSeek-OCR开源即获7k+星,首创“上下文光学压缩”技术,仅用100视觉token超越传统OCR模型256token性能,压缩比达10-20倍,精度仍超97%。30亿参数实现单卡日处理20万页,显著降低大模型长文本输入成本,重新定义高效文档理解新范式。
488 2
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
|
5月前
|
存储 搜索推荐 数据库
🚀 RAGFlow Docker 部署全流程教程
RAGFlow是开源的下一代RAG系统,融合向量数据库与大模型,支持全文检索、插件化引擎切换,适用于企业知识库、智能客服等场景。支持Docker一键部署,提供轻量与完整版本,助力高效搭建私有化AI问答平台。
4000 8
|
Ubuntu Linux Docker
Ubuntu22.04上Docker的安装
通过以上详细的安装步骤和命令,您可以在Ubuntu 22.04系统上顺利安装
10525 12
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
3065 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!

热门文章

最新文章