SDXL 1.0 介绍和优缺点总结

简介: 2023年7月26日:Stability. AI 发布SDXL 1.0,这是对其生成模型的又一次重大更新,带来了突破性的变化。

2023年7月26日:Stability. AI 发布SDXL 1.0,这是对其生成模型的又一次重大更新,带来了突破性的变化。

SDXL 1.0包括两种不同的模型:

sdxml -base-1.0:生成1024 x 1024图像的基本文本到图像模型。基本模型使用OpenCLIP-ViT/G和CLIP-ViT/L进行文本编码。

sdxml -refiner-1.0:一个图像到图像的模型,用于细化基本模型的潜在输出,可以生成更高保真度的图像。细化模型只使用OpenCLIP-ViT/G模型。

SDXL 1.0的refiner是基于OpenCLIP-ViT/G的具有6.6B参数模是目前可用的最强大的开放访问图像模型之一。

base模型在第一阶段创建(有噪声的)结果,然后由专门为最后去噪步骤设计的refiner模型进一步处理(基本模型也可以作为一个模块单独使用),以下是一个官方的样例

这种两阶段架构可以在不牺牲速度或要求过多计算资源的情况下实现更高质量图像的生成。在具有8GB VRAM的消费类gpu上SDXL 1.0应该运行良好。

本文不打算介绍更多的模型相关信息,只介绍一些大家可能忽略的问题:

图像质量

默认情况下,SDXL 1.0可以本地生成1024 x 1024的图像。仅这一点就比以前的版本有了很大的改进。SDXL 1.0特别适合鲜艳和准确的颜色。现在还可以生成图像与适当的照明,阴影和对比度,例如:

 Prompt:
 anime artwork An astronaut riding a white horse . anime style, key visual, vibrant, studio anime, highly detailed

 Negative prompt:
 photo, deformed, black and white, realism, disfigured, low contrast

除此之外,内容主体通常被放置在图像的中心,使其成为主要焦点。对于初学者来说,这个功能会更加实用,因为生成的图像可以直接使用了。

SDXL 1.0的基础模型要比SD 1.5和SD 2.1更好,特别是在包含艺术风格的提示时。当以提示时,图像的构图基本保持一致,而艺术风格则有所不同。例如:

 Prompt:
 An astronaut riding a white horse, art by Vincent van Gogh

 Negative prompt:
 photo, deformed, black and white, realism, disfigured, low contrast

文本编码器和提示

SDXL 1.0现在使用两种不同的文本编码器对输入提示符进行编码。根据他们的论文,该方法已被证明是有效的模型来理解两个不同概念之间的差异。例如:

The Red Square ——一个著名的地点,red square-特定颜色的形状

SDXL 1.0现在只需要几个单词就可以生成高质量的文本。通过调用某些限定词和长提示来获得美观图像的日子已经过去了。

但是CLIP的77个令牌限制仍然是包含在SDXL 1.0中。

高级控制

组合控件(如T2I和ControlNet)目前还不支持,但是官网已经确定正在开发中。在未来用户应该能够在工作流程中无缝地使用这些功能。

水印

SDXL 1.0内置不可见水印功能。如果输入不正确(接受BGR而不是RGB作为输入),水印特性有时会导致不想要的图像伪影。

在使用某些调度器和VAE (0.9 vs 1.0)时,生成的图像中可能会产生问题。但是其中一些问题的原因是已知,所以将来可能会修复。

另外水印这个事会让鉴别更加简单,依靠AI生成内容的行业可能会有很大的影响。

生态

由于SDXL 1.0基于不同的体系结构,所以现有插件必须重新训练和重新集成他们的工作。因此,必须重新构建整个生态系统,这需要大量的时间和资源。

内存消耗

SDXL 1.0的新架构由一个3.5B参数的基本文本到图像模型和一个6.6B参数的图像到图像精细模型组成。虽然8G的GPU可以使用但是相比以前的模型还是需要更高的内存(VRAM)需要图像生成和微调,更多的参数也意味着更长的推理时间

没有标准流程

《Stable Diffusion》的主要问题之一是没有关于正确操作方式的标准。大多数流行的框架和web都有自己的实现,不能跨不同的平台/框架使用。

所以对于新手来说,在自己的工作中适应和使用它是非常复杂的事情。大多数情况下,相同的提示符和设置会在不同的平台/框架上生成两个不同的图像。

陡峭的学习曲线

SD的学习曲线对于普通用户来说是相当陡峭的,特别是对于没有任何编程知识的美工。并且每次个更新后,以前有效的相同提示符现在不再有效。用户必须重新学习构建提示符的新方法,以及如何使用新更新的工具,这也是一个很大的问题。

结论

Stable Diffusion XL 1.0的发布标志着生成人工智能领域的新时代。这也证明了开源项目对社区和背后的公司都有好处。在短短几个月的时间里,它们取得了很大的进步,未来一定会达到一个新的高度。

并且目前看到的好消息是 AUTOMATIC1111的stable-diffusion-webui已经可以支持sdxl1.0了。

https://avoid.overfit.cn/post/9883a9325ffd45e8bfb84546eb9e1b03

作者:Ng Wai Foong

目录
相关文章
|
19天前
|
数据可视化 PyTorch 算法框架/工具
使用PyTorch搭建VGG模型进行图像风格迁移实战(附源码和数据集)
使用PyTorch搭建VGG模型进行图像风格迁移实战(附源码和数据集)
207 1
|
12天前
|
机器学习/深度学习 人工智能 算法
在进行YOLOv3模型部署时,有哪些常见的硬件平台选择和它们的优缺点是什么?
在进行YOLOv3模型部署时,有哪些常见的硬件平台选择和它们的优缺点是什么?
|
2天前
|
机器学习/深度学习 编解码 PyTorch
【YOLOv8改进】HAT(Hybrid Attention Transformer,)混合注意力机制 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO系列的改进方法和实战应用,包括卷积、主干网络、注意力机制和检测头的创新。提出的Hybrid Attention Transformer (HAT)结合通道注意力和窗口自注意力,激活更多像素以提升图像超分辨率效果。通过交叉窗口信息聚合和同任务预训练策略,HAT优化了Transformer在低级视觉任务中的性能。实验显示,HAT在图像超分辨率任务上显著优于现有方法。模型结构包含浅层和深层特征提取以及图像重建阶段。此外,提供了HAT模型的PyTorch实现代码。更多详细配置和任务说明可参考相关链接。
|
8月前
|
机器学习/深度学习 监控 算法
目标检测算法的优缺点及适用场景
目标检测算法的优缺点及适用场景
240 0
|
19天前
|
存储 机器学习/深度学习 自然语言处理
Mini but Mighty | 简直就是微调ViT神器,有了Mimi微调方法,别的不用选了!又稳又快!
Mini but Mighty | 简直就是微调ViT神器,有了Mimi微调方法,别的不用选了!又稳又快!
79 0
|
19天前
|
机器学习/深度学习 并行计算 算法
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
77 0
|
19天前
|
人工智能 Linux iOS开发
Midjourney的优缺点
Midjourney的优缺点
246 0
|
机器学习/深度学习 缓存 移动开发
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
|
机器学习/深度学习 缓存 人工智能
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解
|
编解码 数据库
详细分析ResNet | 用CarNet教你如何一步一步设计轻量化模型(二)
详细分析ResNet | 用CarNet教你如何一步一步设计轻量化模型(二)
161 0