探索 StableDiffusion:生成高质量图片学习及应用(上)

简介: 探索 StableDiffusion:生成高质量图片学习及应用(上)




本文主要介绍了 StableDiffusion在图片生成上的内容,然后详细说明了StableDiffusion 的主要术语和参数,并探讨了如何使用 prompt 和高级技巧(如图像修复、训练自定义模型和图像编辑)来生成高质量的图片。



介绍StableDiffusion


 StableDiffusion是什么


Stable Diffusion是一种潜在的文本到图像扩散模型,能够生成逼真的图像,只需任何文本输入,就可以自主自由创造漂亮的图像,使众多不会拍照的人在几秒钟内创造出惊人的图片。StableDiffusion可以生成不同的图片风格,比如:Anime  动画,realistic  写实,Landscape   风景,Fantasy  奇幻,Artistic  艺术。 还有很多其他的风格,都可以在网上看到。


 StableDiffusion主要术语


有一些图示来直观理解StableDiffusion,比较深奥,不过多解释:

https://zhuanlan.zhihu.com/p/599887666


  • 模型


https://stable-diffusion-art.com/models/

网上可以下载到的StableDiffusion模型非常多。只需要记得这些都是SD模型的微调版本即可,这些不同版本的StableDiffusion模型都是基于相同的算法和原理,并且都可以用于生成高质量的图像、音频、视频等数据。具体选择哪个版本取决于应用场景和具体需求。


以下是常见模型,以及说明:

也可以自己做模型的合并,在StableDiffusion的GUI界面如下操作即可:

  1. 使用 AUTOMATIC1111 GUI 合并两个模型,转到 Checkpoint Merger 选项卡,在 Primary model (A) 和 Secondary model (B) 中选择要合并的两个模型。
  2. 调整乘数 (M) 来调整两个模型的相对权重。将其设置为 0.5 将以相等重要性合并两个模型。
  3. 按下运行按钮后,新合并的模型就可以用了。


  • 微调模型:Embedding && Lora && Hypernetwork


  1. 1 CheckPoint:这些是真正稳定的扩散模型。它们包含生成图像所需的所有内容,不需要额外的文件。它们通常很大,大小为2-7 GB。本文的主题是它们。
  2. 2 Embedding:也称为Textual inversions。它们是定义新关键词以生成新对象或样式的小文件。通常为10-100 KB。您必须与CheckPoint模型一起使用。  
  3. 3 LoRA:它们是用于修改样式的检查点模型的小补丁文件。它们通常为10-200 MB。您必须与CheckPoint模型一起使用。也是用于给先有模型做一些微小的改变;可以对原有模型做补丁,然后通过关键词触发风格,人物。
  4. 4 Hypernetwork:它们是添加到CheckPoint模型的附加网络模块。它们通常为5-300 MB。您必须与CheckPoint模型一起使用。  


  • ControlNet 控制姿势


ControlNet是一种稳定的扩散模型,可以复制作品和人体姿势。想要使用的话再扩展中安装sd-webui-controlnet扩展即可。


正常情况下我们想要控制人物的姿势是十分困难的,并且姿势随机,而ControlNet解决了这个问题。它强大而多功能,可以与任何扩散模型一起使用。


主要作用:

  1. 1 边缘检测,家具摆放等
  2. 2 人体姿势复制


可用的模型以及说明:

  • 抽样算法


不同抽样算法的生成时间对比:


使用不同的抽样算法生成的图片:

a busy city street in a modern city


  • Stable Diffusion 主要参数列表



https://stable-diffusion-art.com/know-these-important-parameters-for-stunning-ai-images/#Sampling_methods


如何生成高质量的图片


 什么是prompt?


在StableDiffusion中,"prompt"是指为GPT模型提供输入的文本段落或句子。它是用来引导模型生成有意义、准确的响应的关键因素之一。


  • 好的Prompt结构


  1. 1 Subject (required)  主体
  2. 2 Medium   艺术类别
  3. 3 Style   艺术风格
  4. 4 Artist   艺术家
  5. 5 Website   艺术流派
  6. 6 Resolution   清晰度
  7. 7 Additional details   额外的细节  
  8. 8 Color   色彩


同时可以考虑满足以下的条件:

  1. 在描述主题时要详细和具体。
  2. 使用多个括号()来增强其强度,使用[]来降低。
  3. 艺术家的名字是一个非常强的风格修饰符,使用的时候要知道这个是什么风格。


  • Prompt风格参考


如果不确定要用什么风格,可以去下面的两个地址搜一下对应的风格

  1. 1 关键词检索(laion-aesthetic-6pls):https://laion-aesthetic.datasette.io/laion-aesthetic-6pls/images
  2. 2 艺术风格汇总list of artists for SD:https://rentry.org/artists_sd-v1-4
  3. prompt查询参考:https://stablediffusionweb.com/prompts
  4. 3 查找Tag:https://aitag.top/
  5. 4 摄影大师:https://docs.google.com/spreadsheets/d/16KKh1FQmd-r98K9aWPBux5m9lc9PCV_T1AWgU54qXm8/htmlview


  • Prompt调整权重


使用()增加权重,使用[]降低权重;



a (word) - 将对单词的权重增加1.1倍

a ((word)) - 将对单词的权重增加1.21倍(= 1.1 * 1.1)

a [word] - 将对单词的权重减少1.1倍

a (word:1.5) - 将对单词的权重增加1.5倍

a (word:0.25) - 将对单词的权重减少4倍(= 1 / 0.25)

a \(word\) - 在提示中使用字面上的()字符,转义,不使用权重


prompt也可以从某个点位开始考虑生成指定的内容:

[from:to:when]


示例:a [fantasy:cyberpunk:16] landscape

  1. 开始时,模型将绘制一幅fantasy景观。
  2. 在第16步之后,它将切换到绘制一幅cyberpunk:景观,继续从fantasy停止的地方绘制。

另外一种语法:[cow|horse] in a field

第1步,提示是“cow”。第2步是“horse”。第3步是“cow”,以此类推。



更多精彩内容,欢迎观看:

探索 StableDiffusion:生成高质量图片学习及应用(中):

https://developer.aliyun.com/article/1263238?groupCode=taobaotech

相关文章
|
人工智能 自然语言处理 前端开发
AI 绘画Stable Diffusion 研究(十)sd图生图功能详解-精美二维码的制作
AI 绘画Stable Diffusion 研究(十)sd图生图功能详解-精美二维码的制作
872 1
|
人工智能
【AI绘画】ControlNet 之 Reference only 锁定面部跑图
【AI绘画】ControlNet 之 Reference only 锁定面部跑图
927 0
|
算法 物联网 开发者
【手把手教程】无限场景风格LoRA与固定人物LoRA的融合-酷蛙FaceChain0826周记(GitHub已4K Star!)
酷蛙FaceChain项目计划后续联合社区的力量不断打磨该开源项目,解锁更多高阶玩法(比如人物表情包、人物连环画故事、虚拟试衣间……),并进行更深层次的算法创新,发表相应顶会论文。
|
4月前
|
数据处理 开发者 异构计算
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
今天我们把ComfyUI工具和多模态LLM结合,在魔搭的免费算力上搭建出支持单图理解,多图理解,视频理解的WebUI界面,更好的支持开发者快速搭建一个视频/图片页面打标器。
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
|
7月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】47. Pytorch图片样式迁移实战:将一张图片样式迁移至另一张图片,创作自己喜欢风格的图片【含完整源码】
【从零开始学习深度学习】47. Pytorch图片样式迁移实战:将一张图片样式迁移至另一张图片,创作自己喜欢风格的图片【含完整源码】
|
7月前
|
前端开发 异构计算 API
探索Stable Diffusion:从零开始的代码接入创意图像生成指南
探索Stable Diffusion,了解这一图像生成技术,适用于创意设计、内容生成和前端应用。本文从基本概念到实战,教你如何用Python和相关库搭建环境,通过GPU加速,生成基于文本提示的图像。学习多样性和风格融合技巧,解决实践中遇到的问题,如内存溢出和图像模糊。前端开发者可将模型部署为API,实现实时动态图像生成,提升用户体验。一起发掘Stable Diffusion在艺术和设计领域的无限潜力!
321 2
|
8月前
Stable Diffusion文生图-图生图-ControINet插件-线稿上色-生产全套表情包-3D Openpose-局部重绘-换衣服,换姿势人设三视图一键生成教程大全(二)
Stable Diffusion文生图-图生图-ControINet插件-线稿上色-生产全套表情包-3D Openpose-局部重绘-换衣服,换姿势人设三视图一键生成教程大全(二)
298 4
|
8月前
|
编解码 人工智能 自然语言处理
Stable Diffusion文生图-图生图-ControINet插件-线稿上色-生产全套表情包-3D Openpose-局部重绘-换衣服,换姿势人设三视图一键生成教程大全(一)
Stable Diffusion文生图-图生图-ControINet插件-线稿上色-生产全套表情包-3D Openpose-局部重绘-换衣服,换姿势人设三视图一键生成教程大全(一)
571 1
|
编解码 人工智能 算法
社区供稿 | AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里!
本文介绍了一种全新的基于SD生成先验的图像超分辨率和修复算法,在多个任务上都有着SOTA的表现。
绘梦相似,AIGC图生图:相似图像生成模型魔搭社区开源体验
日常我们在艺术创作和产品设计中,需要多张风格相似的图片