InstantStyle,无需训练,风格保留文生图

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。

1. 引言


InstantStyle 是一个通用框架,它采用两种简单但有效的技术来实现风格和内容与参考图像的有效分离。

image.png


将内容与图像分离。受益于 CLIP 全局特征的良好表征,从图像特征中减去内容文本特征后,可以显式地解耦样式和内容。

image.png


仅注入样式块:根据经验,深层网络的每一层都会捕获不同的语义信息,在工作中关键观察是存在两种特定的注意力层处理风格。具体来说,InstantStyle分别找到向上的blocks.0.attentions.1和向下的blocks.2.attentions.1捕捉风格(颜色、材质、氛围)和空间布局(结构、构图)。

image.png


下面是一些示例:

image.png

image.png


InstantStyle项目也登上了Github global Trending榜!恭喜项目组!

image.png


2. InstantStyle体验最佳实践


魔搭社区体验地址

风格迁移:

  image.png

image.png

prompt:a girl, masterpiece, best quality, high quality

image.png

image.png

prompt:a cat, masterpiece, best quality, high quality


风格迁移+controlnet

image.png

image.png

image.png

prompt:a Chinese girl, masterpiece, best quality, high quality


InstantStyle推理代码:

环境安装和模型下载:

!git clone https://github.com/InstantStyle/InstantStyle.git
%cd InstantStyle
!git clone https://www.modelscope.cn/AI-ModelScope/IP-Adapter.git
!mv IP-Adapter/models models
!mv IP-Adapter/sdxl_models sdxl_models


模型推理:


import torch
from diffusers import StableDiffusionXLPipeline
from modelscope import snapshot_download
from PIL import Image

from ip_adapter import IPAdapterXL

base_model_path = snapshot_download("AI-ModelScope/stable-diffusion-xl-base-1.0")
image_encoder_path = "sdxl_models/image_encoder"
ip_ckpt = "sdxl_models/ip-adapter_sdxl.bin"
device = "cuda"

# load SDXL pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
    base_model_path,
    torch_dtype=torch.float16,
    add_watermarker=False,
)

# reduce memory consumption
pipe.enable_vae_tiling()

# load ip-adapter
# target_blocks=["block"] for original IP-Adapter
# target_blocks=["up_blocks.0.attentions.1"] for style blocks only
# target_blocks = ["up_blocks.0.attentions.1", "down_blocks.2.attentions.1"] # for style+layout blocks
ip_model = IPAdapterXL(pipe, image_encoder_path, ip_ckpt, device, target_blocks=["up_blocks.0.attentions.1"])

image = "./assets/0.jpg"
image = Image.open(image)
image.resize((512, 512))

# generate image variations with only image prompt
images = ip_model.generate(pil_image=image,
                            prompt="a cat, masterpiece, best quality, high quality",
                            negative_prompt= "text, watermark, lowres, low quality, worst quality, deformed, glitch, low contrast, noisy, saturation, blurry",
                            scale=1.0,
                            guidance_scale=5,
                            num_samples=1,
                            num_inference_steps=30, 
                            seed=42,
                            #neg_content_prompt="a rabbit",
                            #neg_content_scale=0.5,
                          )

images[0].save("result.png")


WebUI-Demo搭建

clone创空间代码:

git clone https://www.modelscope.cn/studios/instantx/InstantStyle.git
cd InstantStyle
python app.py


前端web应用展现:

image.png


点击即可体验~


相关文章
|
人工智能 搜索推荐 物联网
InstantID:一张照片,无需训练,秒级个人写真生成
InstantID 是由InstantX项目组推出的一种SOTA的tuning-free方法,只需单个图像即可实现 ID 保留生成,并支持各种下游任务。
|
存储 人工智能 自然语言处理
Scepter Studio-万能图片生成工作台
一句“A cute girl”这样的提示词,到底在Scepter studio上可以生成多少张不同风格的图片?答案是:无限
|
机器学习/深度学习 人工智能 数据安全/隐私保护
免费交互式大模型在线图像去除水印.擦除.替换和增强照片项目代码(免费在线图像修复工具)
免费交互式大模型在线图像去除水印.擦除.替换和增强照片项目代码(免费在线图像修复工具)
|
10月前
|
人工智能 自然语言处理 计算机视觉
StyleStudio:支持图像风格迁移的文生图模型,能将融合参考图像的风格和文本提示内容生成风格一致的图像
StyleStudio 是一种文本驱动的风格迁移模型,能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术,解决了风格过拟合、控制限制和文本错位等问题,提升了风格迁移的质量和文本对齐的准确性。
369 8
StyleStudio:支持图像风格迁移的文生图模型,能将融合参考图像的风格和文本提示内容生成风格一致的图像
|
缓存 移动开发 Rust
前端构建工具 Mako 开源了
Hi,我是 sorrycc,Mako 的主要负责人之一,也是 Umi、Dva、Father 等库的作者。 很开心,Mako 终于开源了! Github 地址:https://github.com/umijs/mako/ 今天和大家正式介绍下他。
535 3
|
8月前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
5408 119
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
12月前
|
编解码 物联网 计算机视觉
实战 | 猫猫、少女、FLUX、ControlNet
魔搭社区集结了来自多个组织的 FLUX ControlNet 模型,魔搭社区的开源项目 DiffSynth-Studio 为这些模型提供了支持,今天就随我们一起,体验一下这些 FLUX ControlNet 模型的神奇生成能力。
|
11月前
|
编解码 人工智能 调度
Meissonic:高效高分辨率文生图重大革新
Meissonic的新模型,仅1b参数可实现高质量图像生成,能在普通电脑上运行,未来有望支持无线端文本到图像的生成。
|
机器学习/深度学习 编解码 人工智能
阿里云百炼的模型怎么选择并体验
本模块为您提供大模型服务平台百炼中支持的模型类型,便于您快速根据自己的需求选择所需模型!
1915 5

热门文章

最新文章