华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」(2)

简介: 华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」

分割通过对所有分割任务预先训练的一组参数,研究者可以直接评估它在通用分割数据集上的性能。SEEM实现了比较好的全景视图,实例和语义分割性能。研究人员对SEEM有四个期望目标:1. 多功能性:通过引入多功能提示引擎处理不同类型的提示,包括点、框、涂鸦、遮罩、文本和另一图像的引用区域;2. 复合性:通过学习一个联合视觉-语义空间,为视觉和文本提示组合即时查询进行推理;3. 交互性:通过整合可学习的记忆提示,通过掩码引导的交叉注意力保留对话历史信息;4. 语义感知:通过使用文本编码器对文本查询和遮罩标签进行编码,实现开放词汇表的分割。和SAM区别Meta提出的SAM模型,可以在一个统一框架prompt encoder内,指定一个点、一个边界框、一句话,一键分割出物体。SAM具有广泛的通用性,即具有了零样本迁移的能力,足以涵盖各种用例,不需要额外训练,就可以开箱即用地用于新的图像领域,无论是水下照片,还是细胞显微镜。研究者就三个分割任务(边缘检测、开放集和交互式分割)的交互和语义能力对SEEM和SAM进行了比较。在开放集分割上,同样需要高水平的语义,并且不需要交互。与SAM相比,SEEM涵盖了更广泛的交互和语义层次。SAM只支持有限的交互类型,比如点和边界框,而忽视了高语义任务,因为它本身不输出语义标签。对于SEEM,研究者点出了两个亮点:首先,SEEM有一个统一的提示编码器,将所有的视觉和语言提示编码到一个联合表示空间中。因此,SEEM可以支持更通用的用法,它有可能扩展到自定义提示。其次,SEEM在文本掩码和输出语义感知预测方面做得很好。

作者介绍


论文一作Xueyan Zou她目前是威斯康星大学麦迪逊分校的计算机科学系博士生,导师是Yong Jae Lee教授。在此之前,Zou在加州大学戴维斯分校度过了三年时光,由同一位导师指导,并与Fanyi Xiao博士密切合作。她在香港浸会大学获得了学士学位,由PC Yuen教授和褚晓文教授指导。

Jianwei Yang

Yang是Redmond微软研究院深度学习组的高级研究员,由高剑峰博士指导。Yang的研究主要集中在计算机视觉、视觉与语言和机器学习。他主要研究不同层次的结构化视觉理解,以及如何进一步利用它们通过语言和环境的体现与人类进行智能交互。在2020年3月加入微软之前,Yang在佐治亚理工学互动计算学院获得了计算机科学博士学位,他的导师是Devi Parikh教授,他还与Dhruv Batra教授密切合作。高剑峰高剑峰是微软研究院的杰出科学家和副总裁,IEEE会员,以及ACM杰出会员。目前,高剑峰领导着深度学习小组。该小组的任务是推动深度学习的最先进技术及其在自然语言和图像理解方面的应用,并在对话模型和方法方面取得进展。研究主要包括,用于自然语言理解和生成的神经语言模型、神经符号计算、视觉语言的基础和理解、对话式人工智能等等。2014年到2018年,高剑峰在微软人工智能与研究部和Redmond微软研究院的深度学习技术中心(DLTC)担任商业人工智能的合作伙伴研究经理。2006年到2014年,高剑峰在自然语言处理组担任首席研究员。Yong Jae LeeLee是威斯康星大学麦迪逊分校计算机科学系的副教授。他在2021年秋季加入威斯康星大学麦迪逊分校之前,曾在Cruise担任过一年的人工智能客座教师,在此之前,他在加州大学戴维斯分校担任了6年的助理和副教授。他还曾在卡内基梅隆大学的机器人研究所做了一年的博士后研究员。他于2012年5月在德克萨斯大学奥斯汀分校获得博士学位,师从Kristen Grauman,并于2006年5月在伊利诺伊大学厄巴纳-香槟分校获得学士学位。他还曾作为微软研究院的暑期实习生与Larry Zitnick和Michael Cohen一起工作。目前,Lee的研究集中在计算机视觉和机器学习。Lee对创建强大的视觉识别系统格外感兴趣,该系统可以在最少的人类监督下理解视觉数据。

目前,SEEM已经开放了演示demo:

https://huggingface.co/spaces/xdecoder/SEEM快上手试试吧。参考资料:

https://twitter.com/DrJimFan/status/1649835393163091969

https://www.reddit.com/r/MachineLearning/comments/12lf2l3/r_seem_segment_everything_everywhere_all_at_once/

https://t.co/U6so7iuxpv

相关文章
|
缓存 API 开发者
魔搭社区牵手FastChat&vLLM,打造极致LLM模型部署体验
FastChat是一个开放平台,用于训练、服务和评估基于LLM的ChatBot。
|
JSON JavaScript API
【开源打印组件】vue-plugin-hiprint初体验
本文介绍对vue-plugin-hiprint部分重要代码的解析,这是一个很好的开源插件,能够自己自定义打印模板,通过后端传来的数据进行渲染打印,官方也提供了许多的api供开发者使用。界面采用了antdesign。实现了免预览的直接打印。
4155 1
【开源打印组件】vue-plugin-hiprint初体验
|
9月前
|
前端开发 JavaScript 调度
harmonyOS基础-认识UIAbility
本文介绍了UIAbility的概念、页面跳转与数据传递、生命周期以及启动模式。UIAbility是包含用户界面的应用组件,用于与用户交互,支持单实例、多实例和指定实例三种模式。文章详细解析了页面跳转方法(如`pushUrl`和`replaceUrl`)、参数传递及返回逻辑,并深入探讨了UIAbility的生命周期回调(如`onCreate`、`onForeground`等)。通过合理配置启动模式和生命周期管理,开发者可优化应用性能与用户体验。
584 24
|
10月前
|
云安全 存储 运维
阿里云安全体检功能评测报告
阿里云安全体检功能评测报告
258 7
|
10月前
|
计算机视觉
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
809 8
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
|
算法 API 计算机视觉
图像处理之角点检测与亚像素角点定位
图像处理之角点检测与亚像素角点定位
297 1
|
SQL API
金融行业 · 大模型挑战赛 |用大模型理解金融市场
2024金融行业大模型挑战赛即将开启,旨在推动大型语言模型在金融领域的应用。比赛提供金融多轮问答数据集,参赛者需使用GLM-4模型API,通过SQL、API等技术解决金融问题,涵盖数据查询、统计分析及复杂问题处理。赛事分初赛、复赛和决赛,总奖金20万元。报名时间为2024年12月2日至2025年2月6日。
1002 16
金融行业 · 大模型挑战赛 |用大模型理解金融市场
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
307 25
|
10月前
|
存储 自然语言处理 自动驾驶
基于LLM打造沉浸式3D世界
基于LLM打造沉浸式3D世界
|
人工智能 自然语言处理 物联网
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
LLM2CLIP 为多模态学习提供了一种新的范式,通过整合 LLM 的强大功能来增强 CLIP 模型。
641 3
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力

热门文章

最新文章