港大阿里“视觉AI任意门”,一键向场景中无缝传送物体

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: 本文主要展示了阿里和港大的AI版「任意门」,实现零样本的图像嵌入。

点两下鼠标,就能把物体无缝「传送」到照片场景中,光线角度和透视也能自动适应。

阿里和港大的这个AI版「任意门」,实现了零样本的图像嵌入。

有了它,网购衣服也可以直接看上身效果了。

因为功能和任意门十分相似,所以研发团队给它起的名字就叫AnyDoor。

AnyDoor一次能够传送多个物体。

不仅如此,它还能移动图像里的已有物品。

有网友看了之后赞叹到,或许接下来就会进化到(把物体传入到)视频了。

零样本生成逼真效果

相对于已有的类似模型,AnyDoor具有零样本操作能力,无需针对具体物品调整模型。

除了这些需要进行参数调节的模型之外,AnyDoor相对于其他Reference类模型也更为准确。

实际上,其他的Reference类模型只能做到保持语义一致性。

通俗地说,如果要传送的物体是一只猫,其他模型只能保证结果中也有一只猫,但相似度无法保证。

我们不妨把AnyDoor的效果放大看看,是不是看不出什么破绽?

用户评价的结果也证实,AnyDoor在质量和准确度方面表现均优于现有模型(满分4分)。

而对于已有图像中物体的移动、换位,甚至改变姿态,AnyDoor也能出色完成。

那么,AnyDoor是如何实现这些功能的呢?

工作原理

要想实现物体的传送,首先就要对其进行提取。

不过在将包含目标物体的图像送入提取器之前,AnyDoor首先会对其进行背景消除。

然后,AnyDoor会进行自监督式的物体提取并转换成token。

这一步使用的编码器是以目前最好的自监督模型DINO-V2为基础设计的。

为了适应角度和光线的变化,除了提取物品的整体特征,还需要额外提取细节信息。

这一步中,为了避免过度约束,团队设计了一种用高频图表示特征信息的方式。

将目标图像与Sobel算子等高通滤波器进行卷积,可以得到含高频详情的图像。

同时,AnyDoor利用Hadamard对图像中的RGB色彩信息进行提取。

结合这些信息和过滤边缘信息的遮罩,得到了只含高频细节的HF-Map。

最后一步就是将这些信息进行注入。

利用获取到的token,AnyDoor通过文生图模型对图像进行合成。

具体来说,AnyDoor使用的是带有ControlNet的Stable Diffusion。

AnyDoor的工作流程大致就是这样。而在训练方面,也有一些特殊的策略。

△AnyDoor使用的训练数据集

尽管AnyDoor针对的是静态图像,但有一部分用于训练的数据是从视频当中提取出来的。

对于同一物体,视频当中可以提取出包含不同背景的图像。

将物体与背景分离后标注配对,就形成了AnyDoor的训练数据。

不过虽然视频数据有利于学习,但还存在质量问题需要解决。

于是团队设计了自适应时间步采样策略,在不同时刻分别采集变化和细节信息。

通过消融实验结果可以看出,随着这些策略的加入,CLIP和DINO评分均逐渐升高。

团队简介

论文的第一作者是香港大学博士生陈汐(Xi Chen),他曾经是阿里巴巴集团算法工程师。

陈汐的导师Hengshuang Zhao是本文的通讯作者,研究领域包括机器视觉、机器学习等。

此外,阿里方面还有来自达摩院、菜鸟集团的研究人员也参与了这一项目。

论文地址:

https://arxiv.org/abs/2307.09481


本文转发自量子位公众号。

相关文章
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1552 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
3月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1577 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
3月前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
470 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
324 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
2月前
|
传感器 人工智能 机器人
科技云报到:找到真场景,抓住真需求,这样的具身智能才是好AI
科技云报到:找到真场景,抓住真需求,这样的具身智能才是好AI
160 1
|
3月前
|
传感器 人工智能 监控
建筑施工安全 “智能防线”!AI 施工监测系统,全方位破解多场景隐患难题
AI施工监测系统通过多场景识别、智能联动与数据迭代,实现材料堆放、安全通道、用电、大型设备及人员行为的全场景智能监管。实时预警隐患,自动推送告警,联动现场处置,推动建筑安全从“人工巡查”迈向“主动防控”,全面提升施工安全管理水平。
561 15
|
3月前
|
人工智能
四大公益场景,20万奖金!AI开源公益创新挑战赛邀你一起「小有可为」
四大公益场景,20万奖金!AI开源公益创新挑战赛邀你一起「小有可为」
211 8
|
2月前
|
自然语言处理 数据挖掘 关系型数据库
ADB AI指标分析在广告营销场景的方案及应用
ADB Analytic Agent助力广告营销智能化,融合异动与归因分析,支持自然语言输入、多源数据对接及场景模板化,实现从数据获取到洞察报告的自动化生成,提升分析效率与精度,推动数据驱动决策。
|
3月前
|
人工智能 边缘计算 搜索推荐
AI产品测试学习路径全解析:从业务场景到代码实践
本文深入解析AI测试的核心技能与学习路径,涵盖业务理解、模型指标计算与性能测试三大阶段,助力掌握分类、推荐系统、计算机视觉等多场景测试方法,提升AI产品质量保障能力。
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
449 30

热门文章

最新文章