Stable Diffusion XL 1.0 闪亮登场,给你不一样的色彩体验。
在大模型开启的 AIGC 时代,由明星 AI 初创公司 Stability AI 打造的文本到图像生成模型 Stable Diffusion 可谓风靡全球。
虽然从文本到图像的生成模型并不少,但 Stable Diffusion 是最受欢迎的开源模型。各路开发者也基于 Stable Diffusion 模型进行二创,推出各种各样、花式繁多的 AIGC 应用。
刚刚,Stability AI 正式推出了 Stable Diffusion XL(SDXL)1.0。文本到图像生成模型,又完成了进化过程中的一次重要迭代。
这是 Stability AI 最新的旗舰图像模型,也是当前图像生成领域最好的开源模型。
在 SDXL 1.0 版本发布之前,Stability AI 在六月份推出的 SDXL 0.9 仅作研究用途。但从今天起,SDXL 1.0 将通过 Stability AI 的 API 开源开放给开发者,普通人也可以通过消费级应用 Clipdrop 和 DreamStudio 访问。
如何马上体验到 SDXL 1.0?目前有几种渠道:
- Clipdrop:https://clipdrop.co/stable-diffusion
- DreamStudio:https://dreamstudio.ai/generate
- Stability AI Platform:https://platform.stability.ai/
- Github:https://github.com/Stability-AI/generative-models
此外,鉴于与亚马逊的密切合作关系,SDXL 1.0 已经登陆亚马逊云科技的基础模型托管服务 Amazon Bedrock,而且还会登陆 Amazon SageMaker JumpStart。
SDXL 1.0,什么进化了?
1. 生成概念与风格更具挑战的作品
SDXL 1.0 几乎能够生成任何艺术风格的高质量图像,并且是实现逼真效果的最佳开源模型。用户可以在没有任何特定的「灵感」的情况下进行提示,确保风格的绝对自由,生成各具特色的图像。SDXL 1.0 在色彩的鲜艳度和准确度方面做了很好的调整,对比度、光线和阴影都比上一代更好,并全部采用原生 1024x1024 分辨率。
除此之外,SDXL 1.0 可以生成图像模型难以渲染的概念,例如手、文本以及空间的排列。
图源:Stability AI 官网
图源:Stability AI 官网
2. 语言更简洁、更智能
SDXL 1.0 只需几句话就能创建复杂、细致、美观的图像。用户不再需要用华丽的辞藻进行修饰就能够获得想要的高质量图像。
它甚至能够区分「The Red Square」(红场,一个著名景点)和「red square」(红色正方形)。
3. 微调和高级控制
有了 SDXL 1.0 ,根据自定义数据对模型进行微调比以往任何时候都要容易。可生成自定义 LoRA 或检查点,减少数据处理的需要。Stability AI 正在利用专门用于 SDXL 的 T2I / ControlNet 构建下一代任务特定结构、样式和组成控制。这些功能目前处于测试预览阶段,可以随时关注微调的更新。SDXL 1.0 上的图像控制也即将推出。
自 4 月 13 日发布 SDXL beta 版本以来,ClipDrop 用户已经使用该模型生成超过 3500 万张图片,而 Stability AI 的 Discord 社区平均每天生成 2 万张图片。
看看用户使用 SDXL 1.0 的效果吧。
推特:@pratzlowcode
从网友的图片生成效果来看,SDXL 1.0 在光线上把握更加精准,光线效果、色彩对比更加真实。
推特:@foxtrotfrog
可以看到,在色彩的运用上,SDXL 1.0 更加大胆,饱和度较高的情况下光线与阴影的细节依然在线。
推特:@ai_for_success
在这张图片中可以看到,景深较为合适,主体突出,色彩之间的过渡,甚至真实度都十分优秀。
推特:@sizubito
网友制作了 SDXL 0.9 与 SDXL 1.0 的对比图,左边为 SDXL 0.9 生成图像,右边为 SDXL 1.0 生成图像。可以明显看出二者对于色彩运用的差距。SDXL 1.0 的色彩更加丰富且真实,光效表现也更加出色。
也有网友在 SDXL 1.0 中使用 Midjourney 中的旧 prompt,评论中纷纷感叹,它的效果不比 Midjourney 差,甚至有些出乎意料的优秀。
SDXL 1.0 细节:Base 和 Refiner 模型
Stability AI 将 SDXL 1.0 与各种模型进行了对比测试:与 Stable Diffusion1.5/2.1、SDXL 0.9 等模型相比,人们更喜欢由 SDXL 1.0 生成的图像。
SDXL 1.0 也是所有开放式图像模型中参数量最多的模型之一,它建立在一个创新的新架构上,由一个 35 亿参数的基础模型和一个 66 亿参数的细化模型组成。
完整模型包括一个用于潜在扩散的专家混合管道:第一步,基础模型生成(噪声)潜在变量,然后用专门用于最终去噪步骤的细化模型对其进行进一步处理。
基础模型也可以作为独立模块使用。细化模型为基础模型的输出添加更精确的颜色、更高的对比度和更精细的细节。
这种两阶段架构可确保图像生成的稳健性,而且不会影响速度或需要过多的计算资源。SDXL 1.0 可在配备 8GB VRAM 的消费级 GPU 或随时可用的云实例上有效运行。
参考链接:https://stability.ai/blog/stable-diffusion-sdxl-1-announcement