SDXL 1.0 介绍和优缺点总结

简介: 2023年7月26日:Stability. AI 发布SDXL 1.0,这是对其生成模型的又一次重大更新,带来了突破性的变化。

2023年7月26日:Stability. AI 发布SDXL 1.0,这是对其生成模型的又一次重大更新,带来了突破性的变化。

SDXL 1.0包括两种不同的模型:

sdxml -base-1.0:生成1024 x 1024图像的基本文本到图像模型。基本模型使用OpenCLIP-ViT/G和CLIP-ViT/L进行文本编码。

sdxml -refiner-1.0:一个图像到图像的模型,用于细化基本模型的潜在输出,可以生成更高保真度的图像。细化模型只使用OpenCLIP-ViT/G模型。

SDXL 1.0的refiner是基于OpenCLIP-ViT/G的具有6.6B参数模是目前可用的最强大的开放访问图像模型之一。

base模型在第一阶段创建(有噪声的)结果,然后由专门为最后去噪步骤设计的refiner模型进一步处理(基本模型也可以作为一个模块单独使用),以下是一个官方的样例

这种两阶段架构可以在不牺牲速度或要求过多计算资源的情况下实现更高质量图像的生成。在具有8GB VRAM的消费类gpu上SDXL 1.0应该运行良好。

本文不打算介绍更多的模型相关信息,只介绍一些大家可能忽略的问题:

图像质量

默认情况下,SDXL 1.0可以本地生成1024 x 1024的图像。仅这一点就比以前的版本有了很大的改进。SDXL 1.0特别适合鲜艳和准确的颜色。现在还可以生成图像与适当的照明,阴影和对比度,例如:

 Prompt:
 anime artwork An astronaut riding a white horse . anime style, key visual, vibrant, studio anime, highly detailed

 Negative prompt:
 photo, deformed, black and white, realism, disfigured, low contrast

除此之外,内容主体通常被放置在图像的中心,使其成为主要焦点。对于初学者来说,这个功能会更加实用,因为生成的图像可以直接使用了。

SDXL 1.0的基础模型要比SD 1.5和SD 2.1更好,特别是在包含艺术风格的提示时。当以提示时,图像的构图基本保持一致,而艺术风格则有所不同。例如:

 Prompt:
 An astronaut riding a white horse, art by Vincent van Gogh

 Negative prompt:
 photo, deformed, black and white, realism, disfigured, low contrast

文本编码器和提示

SDXL 1.0现在使用两种不同的文本编码器对输入提示符进行编码。根据他们的论文,该方法已被证明是有效的模型来理解两个不同概念之间的差异。例如:

The Red Square ——一个著名的地点,red square-特定颜色的形状

SDXL 1.0现在只需要几个单词就可以生成高质量的文本。通过调用某些限定词和长提示来获得美观图像的日子已经过去了。

但是CLIP的77个令牌限制仍然是包含在SDXL 1.0中。

高级控制

组合控件(如T2I和ControlNet)目前还不支持,但是官网已经确定正在开发中。在未来用户应该能够在工作流程中无缝地使用这些功能。

水印

SDXL 1.0内置不可见水印功能。如果输入不正确(接受BGR而不是RGB作为输入),水印特性有时会导致不想要的图像伪影。

在使用某些调度器和VAE (0.9 vs 1.0)时,生成的图像中可能会产生问题。但是其中一些问题的原因是已知,所以将来可能会修复。

另外水印这个事会让鉴别更加简单,依靠AI生成内容的行业可能会有很大的影响。

生态

由于SDXL 1.0基于不同的体系结构,所以现有插件必须重新训练和重新集成他们的工作。因此,必须重新构建整个生态系统,这需要大量的时间和资源。

内存消耗

SDXL 1.0的新架构由一个3.5B参数的基本文本到图像模型和一个6.6B参数的图像到图像精细模型组成。虽然8G的GPU可以使用但是相比以前的模型还是需要更高的内存(VRAM)需要图像生成和微调,更多的参数也意味着更长的推理时间

没有标准流程

《Stable Diffusion》的主要问题之一是没有关于正确操作方式的标准。大多数流行的框架和web都有自己的实现,不能跨不同的平台/框架使用。

所以对于新手来说,在自己的工作中适应和使用它是非常复杂的事情。大多数情况下,相同的提示符和设置会在不同的平台/框架上生成两个不同的图像。

陡峭的学习曲线

SD的学习曲线对于普通用户来说是相当陡峭的,特别是对于没有任何编程知识的美工。并且每次个更新后,以前有效的相同提示符现在不再有效。用户必须重新学习构建提示符的新方法,以及如何使用新更新的工具,这也是一个很大的问题。

结论

Stable Diffusion XL 1.0的发布标志着生成人工智能领域的新时代。这也证明了开源项目对社区和背后的公司都有好处。在短短几个月的时间里,它们取得了很大的进步,未来一定会达到一个新的高度。

并且目前看到的好消息是 AUTOMATIC1111的stable-diffusion-webui已经可以支持sdxl1.0了。

https://avoid.overfit.cn/post/9883a9325ffd45e8bfb84546eb9e1b03

作者:Ng Wai Foong

目录
相关文章
|
5月前
|
人工智能 JSON 缓存
CrewAI 上手攻略:多 Agent 自动化处理复杂任务,让 AI 像员工一样分工协作
CrewAI 是一个基于 Python 的自主 AI 智能体编排框架,可构建“虚拟团队”协同完成复杂任务。通过定义角色明确的 Agents、任务流 Tasks、协作流程 Processes 及可用工具 Tools,实现研究、写作、开发等多环节自动化。适用于长链条工作流,如研报生成、竞品分析、软件开发等,支持异步执行、人工介入与结构化输出,集成主流大模型与工具生态,是处理复杂知识型任务的高效选择。(238 字)
1017 0
CrewAI 上手攻略:多 Agent 自动化处理复杂任务,让 AI 像员工一样分工协作
|
4月前
|
存储 关系型数据库 MySQL
阿里云数据库多少钱? 阿里云数据库RDS 价格整理:最新 MySQL、SQL Server、PostgreSQL 和 MariaDB 收费标准
在云服务器选型市场中,2核8G、4核16G、8核32G是最具代表性的三类配置,均遵循1:4的CPU与内存黄金配比,覆盖了从个人开发者入门到中小企业核心业务的全场景需求。2核8G适合轻量应用部署,4核16G适配中负载业务运行,8核32G则能支撑高并发、大数据量处理场景。对于有云服务器需求的用户而言,清晰掌握这三类配置的收费标准、活动价格及影响因素,是精准选型、控制成本的关键。下面结合最新的行业信息,用通俗易懂的话汇总梳理这三类配置的核心价格信息,同时说明影响价格的关键因素,为用户提供全面参考。
|
JavaScript API 开发者
vue自定义Hooks函数使用和封装思想
【8月更文挑战第8天】vue自定义Hooks函数使用和封装思想
638 1
|
人工智能 计算机视觉
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。
1080 20
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
|
机器学习/深度学习 人工智能 机器人
一周AI大事件
一周AI大事件
|
机器学习/深度学习 人工智能 自然语言处理
【AI智能助手】与人类互动的下一代人工智能技术
【AI智能助手】与人类互动的下一代人工智能技术
4892 0
|
人工智能
ChatGPT 常见错误原因及解决方案:报错、回答不完整等
最近,由人工智能实验室 OpenAI 发布的对话式大型语言模型 ChatGPT 火得一塌糊涂。它可以与人类轻松地对话,无论是多么奇葩的问题 ChatGPT 都不在话下。在体验 ChatGPT 的同时我们也会遇到各种各样的问题,这里我总结了其对话过程中可能会发生的错误以及如何去解决它们。
216835 5
ChatGPT 常见错误原因及解决方案:报错、回答不完整等
|
Ubuntu Linux Shell
10-23|如何查看linux当前时间
10-23|如何查看linux当前时间
|
图形学
Qt&Vtk-003-读取jpg、png、dicom等格式图片
本文其实才能算是真正的Qt与Vtk结合,具体实现JPG、PNG、TIFF、DICOM、BMP及一个3D Cube显示。
937 1
Qt&Vtk-003-读取jpg、png、dicom等格式图片