人工智能,丹青圣手,全平台(原生/Docker)构建Stable-Diffusion-Webui的AI绘画库教程(Python3.10/Pytorch1.13.0)

简介: 世间无限丹青手,遇上AI画不成。最近一段时间,可能所有人类画师都得发出一句“既生瑜,何生亮”的感叹,因为AI 绘画通用算法Stable Diffusion已然超神,无需美术基础,也不用经年累月的刻苦练习,只需要一台电脑,人人都可以是丹青圣手。

世间无限丹青手,遇上AI画不成。最近一段时间,可能所有人类画师都得发出一句“既生瑜,何生亮”的感叹,因为AI 绘画通用算法Stable Diffusion已然超神,无需美术基础,也不用经年累月的刻苦练习,只需要一台电脑,人人都可以是丹青圣手。

本次我们全平台构建基于Stable-Diffusion算法的Webui可视化图形界面服务,基于本地模型来进行AI绘画操作。

本地安装Stable-Diffusion-Webui

如果系统之前安装过Python3.10或者使用过Pytorch深度学习框架,那么推荐直接本地安装Stable-Diffusion-Webui,因为Stable-Diffusion的核心依赖库也是Pytorch。

首先拉取官方的项目:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
AI 代码解读

随后进入项目的目录:

cd stable-diffusion-webui
AI 代码解读

官方文档建议直接在目录中运行shell脚本:

./webui.sh
AI 代码解读

但事实上,shell脚本很容易在过程中报错,该项目的核心代码其实是launch.py,所以理论上,我们只需要正常运行launch.py文件即可。

首先确保本机的Python版本号大于等于3.10.9

关于Python3.10的安装,请移玉步至:一网成擒全端涵盖,在不同架构(Intel x86/Apple m1 silicon)不同开发平台(Win10/Win11/Mac/Ubuntu)上安装配置Python3.10开发环境 ,这里不再赘述。

另外确保Pytorch的版本号大于等于13.1.0,关于Pytorch,请移步:闻其声而知雅意,M1 Mac基于PyTorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)

随后安装相关的依赖库:

pip3 install -r requirements.txt  
pip3 install -r requirements_versions.txt
AI 代码解读

依赖文件中,有一个库可能会出问题,就是GFPGAN,它是腾讯开源的人脸识别模块,这里推荐使用GFPGAN官方网站(https://github.com/TencentARC/GFPGAN)的安装方式

# Install basicsr - https://github.com/xinntao/BasicSR  
# We use BasicSR for both training and inference  
pip install basicsr  
  
# Install facexlib - https://github.com/xinntao/facexlib  
# We use face detection and face restoration helper in the facexlib package  
pip install facexlib  
  
pip install -r requirements.txt  
python setup.py develop  
  
# If you want to enhance the background (non-face) regions with Real-ESRGAN,  
# you also need to install the realesrgan package  
pip install realesrgan
AI 代码解读

安装成功后,最好验证一下:

➜  ~ python3  
Python 3.10.9 (main, Dec 15 2022, 17:11:09) [Clang 14.0.0 (clang-1400.0.29.202)] on darwin  
Type "help", "copyright", "credits" or "license" for more information.  
>>> import gfpgan  
>>>
AI 代码解读

所有依赖安装成功后,就可以直接运行launch.py文件即可:

python3 launch.py
AI 代码解读

程序返回:

Python 3.10.9 (main, Dec 15 2022, 17:11:09) [Clang 14.0.0 (clang-1400.0.29.202)]  
Commit hash: 0cc0ee1bcb4c24a8c9715f66cede06601bfc00c8  
Installing requirements for Web UI  
Launching Web UI with arguments: --upcast-sampling --use-cpu interrogate  
Warning: caught exception 'Torch not compiled with CUDA enabled', memory monitor disabled  
No module 'xformers'. Proceeding without it.  
==============================================================================  
You are running torch 1.13.0.  
The program is tested to work with torch 1.13.1.  
To reinstall the desired version, run with commandline flag --reinstall-torch.  
Beware that this will cause a lot of large files to be downloaded, as well as  
there are reports of issues with training tab on the latest version.  
  
Use --skip-version-check commandline argument to disable this check.  
==============================================================================  
Loading weights [6ce0161689] from /Users/liuyue/wodfan/work/stable-diffusion-webui/models/Stable-diffusion/v1-5-pruned-emaonly.safetensors  
Creating model from config: /Users/liuyue/wodfan/work/stable-diffusion-webui/configs/v1-inference.yaml  
LatentDiffusion: Running in eps-prediction mode  
DiffusionWrapper has 859.52 M params.  
Applying cross attention optimization (InvokeAI).  
Textual inversion embeddings loaded(0):   
Model loaded in 8.2s (create model: 0.6s, apply weights to model: 5.0s, apply half(): 1.9s, move model to device: 0.5s).  
Running on local URL:  http://127.0.0.1:7860
AI 代码解读

Stable-Diffusion-Webui服务会运行在系统的7860端口上。

需要注意的是,如果本地系统不支持cuda模式,需要修改运行命令:

python3 launch.py --skip-torch-cuda-test --upcast-sampling --use-cpu interrogate
AI 代码解读

这里使用CPU来进行模型训练。

另外如果是M系列的Mac,其实是支持MPS模式的,但Stable Diffusion目前的最新版并不支持MPS,所以需要单独设置环境变量,关闭MPS模式:

export PYTORCH_ENABLE_MPS_FALLBACK=1
AI 代码解读

最后访问http://127.0.0.1:7860即可,本地构建Stable-Diffusion-Webui服务就完成了。

Docker构建Stable-Diffusion-Webui

如果不想太折腾,也可以使用Docker容器来构建Stable-Diffusion-Webui,同样地,需要拉取线上的Docker配置文件项目:

git clone https://github.com/AbdBarho/stable-diffusion-webui-docker.git
AI 代码解读

随后进入项目的目录:

stable-diffusion-webui-docker
AI 代码解读

接着运行命令下载相关的依赖镜像:

docker compose --profile download up --build
AI 代码解读

下载完成后,运行命令构建容器:

docker compose --profile auto up --build
AI 代码解读

这里需要注意的是,模型数据和输出文件夹会以/data和/output的形式挂载到容器中,如果想在宿主机往容器内传入模型或者其他图片,需要写入项目中的data目录。

过程中,可能会报错:

Found no NVIDIA driver on your system
AI 代码解读

这是因为容器内找不到NVIDIA的显卡驱动。

这里需要单独再启动一个容器服务:

docker run -ti --runtime=nvidia -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all allennlp/allennlp
AI 代码解读

总的来说,安装过程简单,但是调试比较费劲,一旦启动出问题,就得进入容器内部修改代码,或者反复修改Dockerfile文件,所以Docker比较适合封装业务改动频繁的容器,而不是依赖环境繁多并且版本需要反复调整的场景。

Stable-Diffusion-Webui图像绘制

配置好Stable-Diffusion-Webui环境之后,访问http://127.0.0.1:7860:

在Prompt文本框中填入引导词:

Tall buildings, people bustling, heavy traffic, staggered light and shadow, the beauty of the city is conspicuous before.
AI 代码解读

随后点击右侧Generate生成按钮即可,这里引导词的意思是:高楼林立,人群熙熙攘攘,车水马龙,光影交错,城市之美尽显眼前。

注意引导词需要使用逗号分隔。

后端开始进行训练:

To create a public link, set `share=True` in `launch()`.  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:24<00:00,  1.25s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:19<00:00,  1.00it/s]  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:34<00:00,  1.72s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:22<00:00,  1.11s/it]  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:22<00:00,  1.10s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:20<00:00,  1.00s/it]  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:22<00:00,  1.10s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:22<00:00,  1.13s/it]  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:22<00:00,  1.12s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:21<00:00,  1.07s/it]  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:21<00:00,  1.09s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:19<00:00,  1.03it/s]  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:20<00:00,  1.01s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:19<00:00,  1.03it/s]  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:20<00:00,  1.01s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:19<00:00,  1.02it/s]  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:22<00:00,  1.15s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:21<00:00,  1.07s/it]  
100%|██████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:21<00:00,  1.06s/it]  
Total progress: 100%|██████████████████████████████████████████████████████████████████████████████| 20/20 [00:20<00:00,  1.00s/it]
AI 代码解读

片刻之间,挥毫落纸如云烟。

遗憾的是,引导词不支持中文,但可以配置权重,数值从0.1~100,默认状态是1,低于1就是减弱,大于1就是加强:



(Tall buildings:1.1), people bustling(1.61),(heavy traffic:0.3),(staggered light and shadow:1.3)

AI 代码解读

Stable-Diffusion-Webui也支持Negative prompt(反向引导词)。

就是用文字描述你不想在图像中出现的东西:

对图片进行去噪处理,使其看起来更像你的提示词;同样使其看起来更像你的反向提示词。

同时观察正方向两者之间的差异,并利用它来产生一组对噪声图片的改变,将最终结果移向前者而远离后者。

默认通用反向引导词:

lowres,bad anatomy,bad hands,text,error,missing fingers,  
extra digit,fewer digits,cropped,worst quality,  
low quality,normal quality,jpeg artifacts,signature,  
watermark,username,blurry,missing arms,long neck,  
Humpbacked,missing limb,too many fingers,  
mutated,poorly drawn,out of frame,bad hands,  
owres,unclear eyes,poorly drawn,cloned face,bad face
AI 代码解读

除了引导词,还可以调整采样迭代步数 (Sampling Steps)。

系统先随机生成一个基础的图片,然后一步步的调整图片,向引导词 Prompt 靠拢

Sampling Steps参数就是告诉人工智能,这样的步骤应该进行多少次。

次数越多,每一步训练也就越小越精确。当然了,成本也会越高,同时每一次训练的时间也会成同比增长。

除了迭代步数,也可以自由地选择采样方法(Sampling method)

也就是让Stable-Diffusion-Webui具体使用用什么算法来训练图片模型。

默认算法是Euler a :富有创造力,不同步数可以生产出不同的图片。 但是超过30步左右基本就没有实质化的增益效果。

Euler算法:最简单的算法,训练速度也是最快的。

LMS算法:Euler的延伸算法,相对更稳定一点,30步就比较稳定了

PLMS:优化过的LMS算法

其他的一些参数:

生成批次Batch count/n\_iter:同样的配置,循环跑几次

每批数量 Batch size:同时生成多少个图像,增加这个值可以并行运行,但也需要更多的显卡显存。

提示词相关性 CFG Scale:图像与引导词匹配程度。增加这个值将导致图像更接近引导词,但过高会让图像色彩过于饱和。一般在5~15之间为好,7,9,12是3个常见的设置值。

宽度 X 高度 Width X Height:单位是像素,适当增加尺寸,后台会试图填充更多的细节进来。

Stable-Diffusion-Webui定制化模型

Stable-Diffusion-Webui默认下载的基础模型在项目目录的models/Stable-diffusion文件夹中:

/stable-diffusion-webui/models/Stable-diffusion
AI 代码解读

模型名称是v1-5-pruned-emaonly.safetensors,体积是4.27GB。

如果需要一些比较有个性定制化模型,可以在civitai.com平台进行挑选和下载,需要注意的是,该平台上的模型鱼龙混杂,良莠不齐,不能说是蔚为大观,但多多少少有点泥沙俱下的意思,所以最好不要在比较正式的公共(工作)环境打开该平台,否则结果可能会令人非常尴尬。

这里我们选择相对比较潮流的赛博朋克风格模型:synthwavepunk

将下载的模型放入models/Stable-diffusion目录。

随后重启Stable-Diffusion-Webui服务:

python3 launch.py --skip-torch-cuda-test --upcast-sampling --use-cpu interrogate
AI 代码解读

在页面表单中的Stable Diffusion checkpoint选项里选择对应的模型:

引导词:

concept art, 4k, intricate, pinup, a woman, beautiful face, embroidery, lace, hyper-realistic, highly detailed, octane render, concept art, smooth, 8k, dancing princess, snthwve style, nvinkpunk, by jeremy mann, by sandra chevrier, by dave mckean and richard avedon and maciej kuciara
AI 代码解读

训练结果:

好了,现在,你已经知晓那些网络上的漂亮小姐姐是怎么生成的了。

结语

也许我们只是偶尔被网络上那些酷炫而猎奇的AI生成图所吸引,但如果你真的动手去搭建、调试、甚至开始训练属于自己的绘画模型,相信我,你马上就会深陷其中,不能自拔,AI仿若可以满足你所有的幻想,欲望满溢,又欲言又止,分寸把握之精确,妙入毫颠。什么?你还在玩那些无聊的电子游戏?相信我,Stable-Diffusion-Webui才是最高级的精神享受,没有之一,也不可替代。

目录
打赏
0
1
0
1
1681
分享
相关文章
MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施
大模型训练中,MoE架构逐渐成为主流,但也面临资源利用率低、系统稳定性差、通信带宽瓶颈三大挑战。传统AI集群难以满足其需求,而“昇腾超节点”通过自研高速互联协议、软硬件协同调度、全局内存统一编址及系统稳定性提升等创新,实现384张卡协同工作,大幅提升训练效率与推理性能。相比传统方案,昇腾超节点将训练效率提升3倍,推理吞吐提升6倍,助力MoE模型在工业、能源等领域的规模化应用。5月19日的鲲鹏昇腾创享周直播将深度解析相关技术细节。
171 15
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
本文详细介绍了阿里云应用服务器如何助力传统J2EE应用实现智能化升级。文章分为三部分:第一部分阐述了传统J2EE应用在智能化转型中的痛点,如协议鸿沟、资源冲突和观测失明;第二部分展示了阿里云应用服务器的解决方案,包括兼容传统EJB容器与微服务架构、支持大模型即插即用及全景可观测性;第三部分则通过具体步骤说明如何基于EDAS开启J2EE应用的智能化进程,确保十年代码无需重写,轻松实现智能化跃迁。
345 41
破茧成蝶:传统J2EE应用无缝升级AI原生
本文探讨了技术挑战和解决方案,还提供了具体的实施步骤,旨在帮助企业顺利实现从传统应用到智能应用的过渡。
破茧成蝶:传统J2EE应用无缝升级AI原生
9.9K star!大模型原生即时通信机器人平台,这个开源项目让AI对话更智能!
"😎高稳定、🧩支持插件、🦄多模态 - 大模型原生即时通信机器人平台"
155 0
2025 AI 原生编程挑战赛 数据获取文档
本文介绍了参赛者如何配置阿里云服务以参加AI运维赛。首先开通阿里云日志服务,随后创建RAM用户并为其分配访问权限,包括控制台访问和AccessKey访问。接着为该用户授权,确保其具备读取数据的权限,并获取角色ARN。最后,可选地创建或重新生成AccessKey以用于后续的数据查询操作。整个流程帮助选手完成基础环境配置,以便使用阿里云日志服务进行数据分析。
破茧成蝶:阿里云应用服务器让传统J2EE应用无缝升级AI原生时代
一场跨越20年的技术对话:在杭州某科技园的会议室里,一场特殊的代码评审正在进行。屏幕上同时展示着2005年基于WebLogic开发的供应链系统和2025年接入DeepSeek大模型的智能调度方案——令人惊叹的是,二者的核心业务代码竟保持着惊人的一致性。"我们保住了20年积累的238个核心业务对象,就像修复传世名画时保留了每一笔历史痕迹。"企业CTO的感慨,揭开了阿里云应用服务器助力传统系统智能化转型的奥秘。
105 13
通义灵码2.0深度评测:AI原生研发时代的开发者革命
作为一名五年开发经验的程序员,我深刻感受到从手动编码到AI辅助编程的变革。通义灵码2.0基于Qwen2.5-Coder大模型,通过代码生成、多文件协同、单元测试和跨语言支持等功能,显著提升开发效率。它能生成完整工程代码,自动处理复杂业务逻辑与依赖关系;在系统升级和微服务改造中表现出色;自动生成高质量单元测试用例;还具备跨语言转换能力。尽管存在一些改进空间,但其高频迭代和功能优化展现了巨大潜力。通义灵码2.0正推动软件开发从“体力活”向“架构创造力”转型,是开发者不可错过的生产力工具。
通义灵码2.0深度评测:AI原生研发时代的开发者革命
课时5:阿里云容器服务:最原生的集成Docker和云服务
阿里云容器服务以服务化形式构建容器基础设施,大幅提升开发效率,简化应用部署流程。通过Docker容器和DevOps工具(如Jenkins),实现自动化部署与迭代,优化企业内部复杂部署问题。该服务支持GPU调度、混合云架构无缝迁移,并与阿里云产品体系无缝集成,提供安全防护、网络负载均衡等多重功能支持。凭借微服务架构,帮助企业突破业务瓶颈,提高资源利用率,轻松应对海量流量。
199 0
课时5:阿里云容器服务:最原生的集成Docker和云服务
从云原生到 AI 原生,谈谈我经历的网关发展历程和趋势
从云原生到 AI 原生,谈谈我经历的网关发展历程和趋势
通义灵码:开启 AI 原生研发新范式
通义灵码是基于通义大模型的AI研发辅助工具,提供代码智能生成、研发智能问答、多文件代码修改及自主执行等功能。它能根据自然语言描述快速生成高质量代码,解答技术问题,批量修改代码并自动执行任务,显著提升开发效率,降低开发门槛,引领AI原生研发新范式。尽管依赖网络,其高效、易用和多功能特性仍为开发者带来极大便利。
AI助理
登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问

你好,我是AI助理

可以解答问题、推荐解决方案等