华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」(2)

简介: 华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」

分割通过对所有分割任务预先训练的一组参数,研究者可以直接评估它在通用分割数据集上的性能。SEEM实现了比较好的全景视图,实例和语义分割性能。研究人员对SEEM有四个期望目标:1. 多功能性:通过引入多功能提示引擎处理不同类型的提示,包括点、框、涂鸦、遮罩、文本和另一图像的引用区域;2. 复合性:通过学习一个联合视觉-语义空间,为视觉和文本提示组合即时查询进行推理;3. 交互性:通过整合可学习的记忆提示,通过掩码引导的交叉注意力保留对话历史信息;4. 语义感知:通过使用文本编码器对文本查询和遮罩标签进行编码,实现开放词汇表的分割。和SAM区别Meta提出的SAM模型,可以在一个统一框架prompt encoder内,指定一个点、一个边界框、一句话,一键分割出物体。SAM具有广泛的通用性,即具有了零样本迁移的能力,足以涵盖各种用例,不需要额外训练,就可以开箱即用地用于新的图像领域,无论是水下照片,还是细胞显微镜。研究者就三个分割任务(边缘检测、开放集和交互式分割)的交互和语义能力对SEEM和SAM进行了比较。在开放集分割上,同样需要高水平的语义,并且不需要交互。与SAM相比,SEEM涵盖了更广泛的交互和语义层次。SAM只支持有限的交互类型,比如点和边界框,而忽视了高语义任务,因为它本身不输出语义标签。对于SEEM,研究者点出了两个亮点:首先,SEEM有一个统一的提示编码器,将所有的视觉和语言提示编码到一个联合表示空间中。因此,SEEM可以支持更通用的用法,它有可能扩展到自定义提示。其次,SEEM在文本掩码和输出语义感知预测方面做得很好。

作者介绍


论文一作Xueyan Zou她目前是威斯康星大学麦迪逊分校的计算机科学系博士生,导师是Yong Jae Lee教授。在此之前,Zou在加州大学戴维斯分校度过了三年时光,由同一位导师指导,并与Fanyi Xiao博士密切合作。她在香港浸会大学获得了学士学位,由PC Yuen教授和褚晓文教授指导。

Jianwei Yang

Yang是Redmond微软研究院深度学习组的高级研究员,由高剑峰博士指导。Yang的研究主要集中在计算机视觉、视觉与语言和机器学习。他主要研究不同层次的结构化视觉理解,以及如何进一步利用它们通过语言和环境的体现与人类进行智能交互。在2020年3月加入微软之前,Yang在佐治亚理工学互动计算学院获得了计算机科学博士学位,他的导师是Devi Parikh教授,他还与Dhruv Batra教授密切合作。高剑峰高剑峰是微软研究院的杰出科学家和副总裁,IEEE会员,以及ACM杰出会员。目前,高剑峰领导着深度学习小组。该小组的任务是推动深度学习的最先进技术及其在自然语言和图像理解方面的应用,并在对话模型和方法方面取得进展。研究主要包括,用于自然语言理解和生成的神经语言模型、神经符号计算、视觉语言的基础和理解、对话式人工智能等等。2014年到2018年,高剑峰在微软人工智能与研究部和Redmond微软研究院的深度学习技术中心(DLTC)担任商业人工智能的合作伙伴研究经理。2006年到2014年,高剑峰在自然语言处理组担任首席研究员。Yong Jae LeeLee是威斯康星大学麦迪逊分校计算机科学系的副教授。他在2021年秋季加入威斯康星大学麦迪逊分校之前,曾在Cruise担任过一年的人工智能客座教师,在此之前,他在加州大学戴维斯分校担任了6年的助理和副教授。他还曾在卡内基梅隆大学的机器人研究所做了一年的博士后研究员。他于2012年5月在德克萨斯大学奥斯汀分校获得博士学位,师从Kristen Grauman,并于2006年5月在伊利诺伊大学厄巴纳-香槟分校获得学士学位。他还曾作为微软研究院的暑期实习生与Larry Zitnick和Michael Cohen一起工作。目前,Lee的研究集中在计算机视觉和机器学习。Lee对创建强大的视觉识别系统格外感兴趣,该系统可以在最少的人类监督下理解视觉数据。

目前,SEEM已经开放了演示demo:

https://huggingface.co/spaces/xdecoder/SEEM快上手试试吧。参考资料:

https://twitter.com/DrJimFan/status/1649835393163091969

https://www.reddit.com/r/MachineLearning/comments/12lf2l3/r_seem_segment_everything_everywhere_all_at_once/

https://t.co/U6so7iuxpv

相关文章
|
存储 Linux 网络安全
手把手教你在天翼云部署一台FortiGate云主机
手把手教你在天翼云部署一台FortiGate云主机
|
JSON JavaScript API
【开源打印组件】vue-plugin-hiprint初体验
本文介绍对vue-plugin-hiprint部分重要代码的解析,这是一个很好的开源插件,能够自己自定义打印模板,通过后端传来的数据进行渲染打印,官方也提供了许多的api供开发者使用。界面采用了antdesign。实现了免预览的直接打印。
4773 1
【开源打印组件】vue-plugin-hiprint初体验
|
2月前
|
人工智能 监控 前端开发
大模型应用:基于安诊儿AntAngelMed模型+FastAPI构建慢病管理AI助手.86
本项目基于安诊儿AntAngelMed医疗大模型(临床一致率达88.9%),结合FastAPI后端与轻量前端,构建7×24小时慢病AI助手。支持糖尿病、高血压等居家咨询,提供专业、可读、结构化建议,并实时统计Token消耗,兼顾实用性与成本可控性。
486 2
|
3月前
|
人工智能 Linux API
阿里云/本地部署OpenClaw 及Token成本狂降96%:claude-mem与OpenViking开源记忆神器+大模型优化方案分享
OpenClaw在处理长周期、多步骤、多工具任务时,普遍面临两大致命问题:**记忆混乱导致幻觉频发**、**Token爆炸导致成本失控**。传统方案通过无脑拼接历史对话、工具日志、执行记录来维持上下文,导致95%都是冗余信息,不仅让AI逻辑错乱,还让API费用呈指数级上涨。本文详细讲解两款开源神器——claude-mem(单智能体记忆优化)与OpenViking(多智能体上下文管理),通过三层检索、文件系统式记忆、按需加载等工程手段,实现**任务完成率大幅提升、Token成本狂降96%**,同时提供2026年阿里云、MacOS/Linux/Windows11部署OpenClaw流程,以及阿里云
1610 2
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1599 61
|
8月前
|
人工智能 开发者
从技术到品牌:一个AI指令,让开发者也能写出动人的品牌故事
开发者常擅技术却困于品牌叙事。本文分享一套结构化AI指令,结合DeepSeek、通义千问等国产工具,将品牌故事拆解为可执行模块,助力技术人快速生成有温度、有逻辑的品牌故事框架,实现从代码到共鸣的跨越。
670 5
|
前端开发 JavaScript 调度
harmonyOS基础-认识UIAbility
本文介绍了UIAbility的概念、页面跳转与数据传递、生命周期以及启动模式。UIAbility是包含用户界面的应用组件,用于与用户交互,支持单实例、多实例和指定实例三种模式。文章详细解析了页面跳转方法(如`pushUrl`和`replaceUrl`)、参数传递及返回逻辑,并深入探讨了UIAbility的生命周期回调(如`onCreate`、`onForeground`等)。通过合理配置启动模式和生命周期管理,开发者可优化应用性能与用户体验。
824 24
|
安全 持续交付 云计算
揭秘云计算中的容器化技术及其优势
揭秘云计算中的容器化技术及其优势
791 1
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
机器学习/深度学习 人工智能 算法
强化学习在复杂环境中的应用与挑战
【8月更文第9天】强化学习(Reinforcement Learning, RL)是一种机器学习方法,通过智能体与环境的交互来学习最优策略。近年来,随着计算能力的提升和算法的进步,强化学习被广泛应用于各种复杂环境下的任务,如机器人导航、游戏策略优化等。本文将探讨强化学习在这些领域中的应用案例,并分析所面临的挑战及其潜在的解决方案。
1239 4

热门文章

最新文章