开源版哆啦A梦任意门:魔搭社区AnyDoor最佳实践

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: AnyDoor是一种基于扩散模型的图像生成模型,以非常和谐的方式将目标对象传送到用户制定位置的新场景的能力。过程中不需要为每个对象调整参数,只需要训练一次,并在推理阶段适用于各种不同的对象-场景组合。

一 引言

AnyDoor是一种基于扩散模型的图像生成模型,以非常和谐的方式将目标对象传送到用户制定位置的新场景的能力。过程中不需要为每个对象调整参数,只需要训练一次,并在推理阶段适用于各种不同的对象-场景组合。

AnyDoor这样的具有挑战型的zero shot的图像生成方法需要针对特定的目标对象进行特征化,我们用细节特征补充过去常用的ID特征,细节特征保持了目标的纹理细节,并允许适配场景的通用的局部的变化(例如,光线、方向、姿势等),支持对象和不同的周围环境场景的适配。同时,我们进一步的从视频数据中获取知识,通过视频数据观察单个目标对象的沿着时间轴各种形式,来保障了AnyDoor模型的鲁棒性和概括性。

AnyDoor的整体Pipeline如下图所示,首先采用分割模块从目标图像中去掉背景,然后使用ID提取器获取对象的身份信息,然后通过高通滤波器处理无背景的目标图像,形成hf-map并和所需位置的场景信息拼接在一起。然后采用细节提取器获取目标图像的纹理细节,作为ID提取器的补充。最后讲ID token和detail map注入到通过视频等信息训练好的预训练模型,从而生成最终的合成图片,其中目标对象与其周围环境场景顺利融合,同时目标对象配合场景有适当的局部变化,其中火焰和雪花分别指可学习参数和冻结参数。

该技术上线后,短时间内成为github global trending榜No.1,期待AnyDoor这样的AI技术,成为大家的哆啦A梦,完成童年梦想!

二、模型体验

魔搭创空间地址:https://modelscope.cn/studios/damo/AnyDoor-online

mask后的桌面(场景)和小鸭子(目标)

mask后的女子(场景)和衣服(目标)

三、环境准备

环境配置与安装

  1. python 3.8及以上版本
  2. pytorch 1.12及以上版本,推荐2.0及以上版本
  3. 建议使用CUDA 11.4及以上

本文主要演示的模型推理代码可在魔搭社区免费实例PAI-DSW的配置下运行(显存24G) :

第一步:点击模型右侧Notebook快速开发按钮,选择GPU环境

第二步:新建Notebook

第三步:环境依赖最新的modelscope的library

!git clone https://github.com/modelscope/modelscope.git
%cd modelscope
!pip install .


四、模型推理

模型推理代码:

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
ref_image = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/image_anydoor_fg.png'
ref_mask = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/image_anydoor_fg_mask.png'
bg_image = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/image_anydoor_bg.png'
bg_mask = 'https://modelscope.oss-cn-beijing.aliyuncs.com/test/images/image_anydoor_bg_mask.png'
anydoor_pipline = pipeline(
    Tasks.image_to_image_generation, model='damo/AnyDoor_models')
out = anydoor_pipline((ref_image, ref_mask, bg_image, bg_mask))
image = out['output_img']
image.save('output/image_anydoor_gen.png')


快来体验任意门(AnyDoor)吧!

点击链接:modelscope.cn/studios/damo/AnyDoor-online/

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
4天前
|
数据可视化 Swift 开发者
零一万物开源Yi系列“理科状元”Yi-9B,消费级显卡可跑,魔搭社区最佳实践
零一万物发布并开源了Yi系列中的“理科状元”——Yi-9B,可在魔搭体验
|
4天前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
4天前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
4天前
|
数据可视化 物联网 测试技术
零一万物Yi-1.5系列模型发布并开源!34B/9B/6B 多尺寸魔搭社区推理微调最佳实践教程来啦!
Yi-1.5是Yi的升级版本。 它使用 500B tokens的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。
|
4天前
|
算法 数据可视化 数据挖掘
网络社区检测(社群发现)分析女性参加社交活动和社区节点着色可视化
网络社区检测(社群发现)分析女性参加社交活动和社区节点着色可视化
|
4天前
|
机器学习/深度学习 算法 安全
2024.3.20隐语训练营第3讲笔记:详解隐私计算框架及技术要点
隐语架构是一个分层设计,支持不同技术路线,确保高内聚、低耦合,增强开放性。它包括产品层(如SecretPad和SecretNote)、算法层(如PSI和PIR协议)、计算层(RayFed和SPU)、资源层(KUSCIA)和互联互通及跨域管控机制。该架构旨在提供高性能、易用的隐私计算解决方案,支持MPC、TEE、SCQL等,并允许不同背景的研究人员参与。
57 0
|
8月前
|
自然语言处理 测试技术 编译器
社区供稿 | 姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0 再创榜单新高,魔搭开源可体验!
使用自然语言生成高质量的代码是大模型落地中的高频需求。近日,IDEA研究院封神榜团队正式开源最新的代码大模型Ziya-Coding-34B-v1.0,我们在HumanEval Pass@1的评测上,取得了75.5的好成绩,超过了GPT-4(67.0)的得分,也成为目前已知开源模型新高。
|
8月前
|
人工智能 异构计算 Python
智谱AI数学课代表MathGLM魔搭首发,社区体验推理教程来啦!
GLM家族又发布了一个新成员 数学模型 MathGLM ,以提升大语言模型的数学推理能力。它可以在不使用计算器工具的情况下,高效执行复杂算术运算,解答中文数学应用题,已经在魔搭社区全球首发开源啦!
|
4天前
|
自然语言处理 算法 Swift
浪潮信息开源 源2.0 基础大模型,魔搭社区最佳实践教程来啦!
浪潮信息发布源2.0基础大模型,参数量包括1026亿、518亿、21亿三个大模型,从源2.0的论文上可以看到,源2.0不仅在数理逻辑、数学计算、代码生成能力上,再次超强进化,还在算法、数据、算力方面,提出了三项创新。
|
4天前
|
人工智能 自然语言处理 算法
准确写汉字的文生图AnyText,魔搭社区最佳实践来啦!
AnyText模型所涉及的文字生成技术为电商海报、Logo设计、创意涂鸦、表情包等新型AIGC应用提供了可能性。