InstantStyle,无需训练,风格保留文生图

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。

引言


InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。

image.png


将内容与图像分离。受益于 CLIP 全局特征的良好表征,从图像特征中减去内容文本特征后,可以显式地解耦样式和内容。

image.png


仅注入样式块:根据经验,深层网络的每一层都会捕获不同的语义信息,在工作中关键观察是存在两种特定的注意力层处理风格。具体来说,InstantStyle分别找到向上的blocks.0.attentions.1和向下的blocks.2.attentions.1捕捉风格(颜色、材质、氛围)和空间布局(结构、构图)。

image.png


下面是一些示例:

image.png

image.png


InstantStyle项目也登上了Github global Trending榜!恭喜项目组!

image.png


InstantStyle体验最佳实践


魔搭社区体验地址:

https://modelscope.cn/studios/instantx/InstantStyle


风格迁移:

  image.png

image.png

prompt:a girl, masterpiece, best quality, high quality

image.png

image.png

prompt:a cat, masterpiece, best quality, high quality


风格迁移+controlnet

image.png

image.png

image.png

prompt:a Chinese girl, masterpiece, best quality, high quality


InstantStyle推理代码:

环境安装和模型下载:

!git clone https://github.com/InstantStyle/InstantStyle.git
%cd InstantStyle
!git clone https://www.modelscope.cn/AI-ModelScope/IP-Adapter.git
!mv IP-Adapter/models models
!mv IP-Adapter/sdxl_models sdxl_models


模型推理:


import torch
from diffusers import StableDiffusionXLPipeline
from modelscope import snapshot_download
from PIL import Image

from ip_adapter import IPAdapterXL

base_model_path = snapshot_download("AI-ModelScope/stable-diffusion-xl-base-1.0")
image_encoder_path = "sdxl_models/image_encoder"
ip_ckpt = "sdxl_models/ip-adapter_sdxl.bin"
device = "cuda"

# load SDXL pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
    base_model_path,
    torch_dtype=torch.float16,
    add_watermarker=False,
)

# reduce memory consumption
pipe.enable_vae_tiling()

# load ip-adapter
# target_blocks=["block"] for original IP-Adapter
# target_blocks=["up_blocks.0.attentions.1"] for style blocks only
# target_blocks = ["up_blocks.0.attentions.1", "down_blocks.2.attentions.1"] # for style+layout blocks
ip_model = IPAdapterXL(pipe, image_encoder_path, ip_ckpt, device, target_blocks=["up_blocks.0.attentions.1"])

image = "./assets/0.jpg"
image = Image.open(image)
image.resize((512, 512))

# generate image variations with only image prompt
images = ip_model.generate(pil_image=image,
                            prompt="a cat, masterpiece, best quality, high quality",
                            negative_prompt= "text, watermark, lowres, low quality, worst quality, deformed, glitch, low contrast, noisy, saturation, blurry",
                            scale=1.0,
                            guidance_scale=5,
                            num_samples=1,
                            num_inference_steps=30, 
                            seed=42,
                            #neg_content_prompt="a rabbit",
                            #neg_content_scale=0.5,
                          )

images[0].save("result.png")


WebUI-Demo搭建

clone创空间代码:

git clone https://www.modelscope.cn/studios/instantx/InstantStyle.git
cd InstantStyle
python app.py


前端web应用展现:

image.png


点击即可体验~

https://modelscope.cn/studios/instantx/InstantStyle/

相关文章
|
3月前
|
并行计算 Linux 计算机视觉
还在手工标注数据集?快来试一试自动化多模型标注大模型-gui交互式标注(部署运行教程-高效生产力)
还在手工标注数据集?快来试一试自动化多模型标注大模型-gui交互式标注(部署运行教程-高效生产力)
81 0
|
8月前
|
人工智能 前端开发 Serverless
【图生图】一键部署3D卡通风格模型
本实验将3D卡通风格图像开源模型部署在阿里云函数计算上,让您可以把人物图像实时处理成3D卡通版图像,快来为自己生成可爱的3D卡通风格头像吧!本实验答疑钉钉群:29290019867。
131 0
|
6月前
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
165 0
|
3月前
|
机器学习/深度学习 JSON 自然语言处理
python自动化标注工具+自定义目标P图替换+深度学习大模型(代码+教程+告别手动标注)
python自动化标注工具+自定义目标P图替换+深度学习大模型(代码+教程+告别手动标注)
48 0
|
7月前
|
机器学习/深度学习 数据采集 PyTorch
图片风格自动分析模型
图片风格自动分析模型
97 0
|
9月前
|
数据可视化 数据挖掘 Linux
转录组下游分析丨利用limma包进行差异表达分析,结果可视化绘制火山图和热图
转录组下游分析丨利用limma包进行差异表达分析,结果可视化绘制火山图和热图
|
9月前
|
机器学习/深度学习 编解码 数据可视化
ConvNeXt V2:与屏蔽自动编码器共同设计和缩放ConvNets,论文+代码+实战
ConvNeXt V2:与屏蔽自动编码器共同设计和缩放ConvNets,论文+代码+实战
|
10月前
|
人工智能 自然语言处理 文字识别
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
133 0
|
11月前
|
人工智能 自然语言处理 数据可视化
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源
398 0
|
12月前
|
人工智能 自然语言处理
Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学
Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学