导读
Stability AI团队近期发布开放模型SDXL 1.0,这是文本到图像生成模型的下一个迭代。继SDXL 0.9的有限、仅供研究发布之后,SDXL的完整版本是目前最好的开源图像生成模型。从Stability的Discord,我们了解到SDXL 的一些最令人兴奋的功能,包括:
- 最高质量的文本到图像模型:SDXL 生成被盲测人员认为在各种风格、概念和类别中总体质量和美观性最佳的图像。与其他领先模型相比,SDXL 的整体质量显着提升。
- 表达自由:一流的真实感,以及以几乎任何艺术风格生成高质量艺术作品的能力。独特的图像是在没有模特赋予任何特定“感觉”的情况下制作的,确保了风格的绝对自由。
- 增强的智能:一流的能力,能够生成图像模型难以渲染的概念,例如手和文本,或空间排列的物体和人(例如,蓝色框顶部的红色框)更简单的提示 :与其他生成图像模型不同,SDXL 只需要几个单词即可创建复杂、详细且美观的图像。不再需要限定词段落。
- 更准确:SDXL 中的提示不仅简单,而且更符合提示的意图。SDXL 改进的 CLIP 模型可以非常有效地理解文本。这种准确性允许我们做更多的工作来直接从文本中获得完美的图像,甚至在使用稳定扩散闻名的更高级功能或微调之前也是如此。
- 稳定扩散的所有灵活性:SDXL 专为复杂的图像设计工作流程而设计,包括生成文本或基础图像、修复(使用蒙版)、修复等。SDXL 还可以针对概念进行微调并与controlnet一起使用。其中一些功能将由 Stability 即将发布。
魔搭社区也第一时间进行了适配,大家可以在魔搭notebook上使用免费GPU资源来体验,先上一张社区体验官的“卖家秀”,大家看看效果可还行 →_→
【promts】Beautiful and cute girl, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, art station Seraflur, blind box, super detail, 8k
环境配置与安装
本文在ModelScope的Notebook的免费环境(PAI-DSW)配置下运行(可单卡运行,推理显存15G)
服务器连接与环境准备
1、进入ModelScope首页:modelscope.cn,进入我的Notebook
2、选择GPU环境
3、进入Terminal,先查看一下GPU的使用情况
使用SDXL 1.0, ModelScope需要升级到github上最新的master版本(预计8月1号发布版本),进入Notebook的Terminal环境,更新ModelScope版本,并升级依赖:
git clone https://github.com/modelscope/modelscope.git cd modelscope pip install . pip install invisible_watermark safetensors pip install diffusers==0.18.0
模型链接及下载
stable-diffusion-xl-base-1.0
模型链接:https://modelscope.cn/models/AI-ModelScope/stable-diffusion-xl-base-1.0/summary
使用notebook进行模型weights下载(飞一样的速度,可以达到百兆每秒):
from modelscope.hub.snapshot_download import snapshot_download model_dir = snapshot_download('AI-ModelScope/stable-diffusion-xl-base-1.0', revision='v1.0.0')
模型推理
版本更新前,需要在Notebook的Terminal里面执行
from modelscope.utils.constant import Tasks from modelscope.pipelines import pipeline import cv2 pipe = pipeline(task=Tasks.text_to_image_synthesis, model='AI-ModelScope/stable-diffusion-xl-base-1.0', use_safetensors=True, model_revision='v1.0.0') prompt = 'Beautiful and cute girl, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, art station Seraflur, blind box, super detail, 8k' output = pipe({'text': prompt}) cv2.imwrite('result.png', output['output_imgs'][0])
推理运行显存:15G
效果体验
Prompt:best quality, Chinese landscape, rich details, high resolution, masterpiece
Prompt:stars in the eyes, colored hair, Starry sky adorns hair, (lots of big colorful Bubble), (pearl), (Galaxy), depth of field
Prompt:A portrait of a bipedal cat wearing 19th century men's clothing
Prompt:Hubble ultra deep field sky, moonlit hills, glowing creek babbling brook, ultra high detail, high resolution, 8k, HDR
Prompt:A dog is playing with a ball.