AI 绘画Stable Diffusion 研究(四)sd文生图功能详解(上)

简介: AI 绘画Stable Diffusion 研究(四)sd文生图功能详解(上)

大家好,我是风雨无阻。


通过前面几篇AI 绘画Stable Diffusion 研究系列的介绍,我们完成了Stable Diffusion整合包的安装、模型ControlNet1.1 安装、模型种类介绍与安装,相信看过教程的朋友们,手上已经有可以操作实践的Stable Diffusion 环境了。


那么本篇文章将给大家带来 Stable Diffusion 最重要也是使用最多的文生图功能介绍,由于内容比较多,这里会分成上、下两篇文章进行介绍。


今天为大家带来的是 AI 绘画Stable Diffusion 研究(四)sd文生图功能详解(上)。


大家进入到web ui 页面后,首先看到的是下面这个界面。



上图一目了然的标注了文生图界面大致的功能。

接下来,就详细讲解一下每个功能的使用方法和注意事项。


1、模型选择区域

模型对于 SD 绘图来说非常重要,不同的模型类型、质量会很大程度的决定最终的出图效果。


2、功能栏

包括了常见的 文生图、图生图、后期处理等常用功能。不同的功能页面也不同,在这里,我们先针对经常使用的文生图模块页面来进行讲解。


3、正向提示词

正向提示词prompt &tag**: 如果大家使用过 ChatGPT 就应该知道 Prompt 是什么。说的直白点就是我们想让 SD 帮忙生成什么样的图的描述,比如角色或场景等,**需要使用英文进行描述


正向Prompt &Tag 改善画质用的 Tag ,适用于二次元风格,可以考虑搭配不同的模型使用:

(masterpiece:1.2), best quality, masterpiece, highres, original, extremely detailed wallpaper.oerfect lighting,(extremely detailed CG:1.2), drawing, paintbrush


4、反向提示词

反向提示词 Prompt&Tag : 就是告诉SD 生成图里 ,不想出现的内容, 需要使用英文进行描述


通用反面 Tag,保底不出古神用的 Tag,适用于二次元风格,可以考虑搭配不同的模型使用:

NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality,(monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331),duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:l.331), mutated hands, (poorly drawnands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331),missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051),unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers.((extra arms and legs)))


5、生成按钮

调整完其他设置后,点击生成,开始生成图片,也可以不做调整。


6、采样迭代步数

AI 绘画的过程是将纯噪点图,变为高清图的一个过程,采样迭代步数,就是这个过程需要的步数,随着步数的增加,图片的细节也不断增多。


采样迭代步数不能设置太小,也不能设置太大。设置太小,图片效果就不好;设置太大, 生成图花的时间就越长,如果超过40 步以后,那么画面的变化是基本看不出来。


采样迭代步数,推荐 20-30 之间,通常28是一个不错的值。


7、采样方法

采用什么样的绘画方式算法,以及“画多少笔” 来绘图,一定程度上决定出图的质量。

以下是 每个采样方法,对应生成步数的效果。


如图:





综合以上参考,根据出图质量、采样步数的对比,对于新手朋友来说 推荐无脑使用:DPM adaptive 采样方法


8、出图显示区域

9、出图大小

出图大小 :默认 512**512 像素 ,因为模型训练时,都是使用这个尺寸,因此效果最好,所以一般保持默认即可,当然如果要出 3:2 的图,也可以设置为: 512* 768 , 768*512 。

根据自己的需要进行调整,也可以不用调整。出图越大,对于显卡要求越高。


10、出图数量

出图数量=总批次数x每批数量。

每批的数量越多:需要的显存越大。

总批次越多:根据实际经验,生成的图片质量要好一些,但是花的时间越长。

可根据自己的需求和电脑配置进行选择。


11、出图存储目录

可以查找历史出图


12、随机种子

模仿别人的图,需要进行调整,一般不用调整。


13、面部修复

面部修复,首先需要在设置中,按如下选项进行设置 :



然后依次点击:保存设置,重载前端,让其生效:


14、高分辨率修复

因为我们出图是512*512, 如果要放大,比如1024x1024 ,就需要勾选高分辨率修复功能。


A、放大算法选择推荐

真实风格推荐选择:R-ESRGAN 4x+


动漫风格推荐选择:R-ESRGAN 4x+ Anim


B、放大倍数

根据电脑配置进行选择

显卡显存高 选择 2-3倍

显卡显存不高,选择1.5-2倍


15、提示词引导系数(CFD Scale):

提示词引导系数,是控制提示词与生成的图像相关性 ,可以理解为 “越小AI越自由发挥” ,一般推荐数值为5-15之间,默认为 7 。

如果数值太大,会出现锐化、线条变粗的效果;

如果太小AI就自由发挥了,不看 Tag, 同时图像的饱和度也会偏低。


参考以下对比图:



16、随机种子:

随机种子是生成过程中所有随机性的源头, 每个种子都是一幅不一样的画。

默认的 -1 是代表每次都换一个随机种子,生成的每张图就不同。由随机种子,生成了随机的噪声图,再交给AI进行画出来。

使用固定的随机种子 ,可控制生成图与之前的图更相似。


17、保存

针对部署到本地的,意义不大。

如果针对部署到服务器上的,点击保存后,就可以下载。


18、打包下载

生成多张图的时候,图片会打包到压缩包内,就可以下载,本地基本用不到。


19、发送到图生图、发送到重绘、发送到后期处理,这三个功能,这里就先不做介绍。后边介绍图生图功能的时候再做详细说明。


20、图标功能介绍


图标1: 箭头 从提示词或上次生成的图片中,读取生成参数。

图标2: 清空提示词

图标3: 快捷显示隐藏扩展模型

图标4: 预设样式,保存反向提示词。


21、Tag 加权、减权用法简单说明

大家可能会经常看到别人发的 Tag 里面会有一些符号?比如大小括号等等。这些属于进阶用法,这里仅仅简单提及一下。

这里以 Tree 这个 Tag 作为例子进行说明。

(Tree) : 加权重,这是1.1倍。

((Tree)) :括号叠加,这是 1.1*1.1=1.21倍。

[Tree] :减权重,一般用的少。减权重也一般就用下面的指定倍数。

(Tree:1.5) 指定倍数,这里是1.5倍的权重,还可以 (Tree:0.9) 达到减权重的效果。


好了,今天的内容就到这里,下一篇将给大家详细讲解提示词的规则和写作技巧,敬请期待!



相关文章
|
2月前
|
人工智能 编解码 芯片
【AI绘画】你有多久没有打开SD了?
曾几何时,Stable Diffusion的复杂参数令人崩溃,如今即梦、可灵等AI工具已让生成图片变得轻而易举。哩布哩布发布2.0升级公告,看似迈向更易用的未来,却也悄然为那个钻研模型、拼接工作流的“拓荒时代”奏响终章。技术迭代飞快,但那份对创造的热爱与探索精神,永不褪色。
715 9
|
2月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
|
5月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
5月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 驱动:如何用AI直接生成矢量 Logo? 技术研究与工具选择
AI 技术革新品牌标志设计,通过深度学习分析数据,精准把握市场趋势,智能生成高辨识度 Logo。矢量格式(SVG)确保清晰不失真,适配各类展示场景。AI 工具高效便捷,支持个性化定制,助力品牌快速打造专业视觉形象,成为市场竞争中的有力武器。
351 0
|
人工智能 物联网
AI 绘画Stable Diffusion 研究(十七)SD lora 详解(上)
AI 绘画Stable Diffusion 研究(十七)SD lora 详解(上)
2773 0
|
机器学习/深度学习 自然语言处理
文生图模型-Stable Diffusion | AIGC
所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型【1月更文挑战第6天】
1812 0
|
人工智能 开发工具 git
【AI绘画】Stable Diffusion 客户端搭建
【AI绘画】Stable Diffusion 客户端搭建
397 0
【AI绘画】Stable Diffusion 客户端搭建
|
机器学习/深度学习 人工智能 算法
Stable Diffusion AI绘画
Stable Diffusion是人工智能领域的文本到图像生成模型,基于概率的连续扩散过程,学习数据潜在分布并生成新样本。模型使用Web UI进行交互,提供不同采样器如Euler和DPM++,后者常配以Karras算法。提示词对生成效果至关重要,可以利用GPT等生成提示词。用户还能调整参数如高清修复和批处理次数来影响生成的图像。此外,模型文件(ckpt/safetensors)和Lora微调模型需存放在正确目录以确保功能正常。