StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)

简介: StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)

写在前面

从小就非常喜欢小樱!从小樱的动画到动漫书我都看了个遍,包括C妈几年前更新了(哇这么久了都)Clear Card

直到最近C妈终于更新完了 Clear Card 的漫画,听说好像新的视频在筹备了,我好期待!!!

微调完的LoRA生成的效果如下,其中几张

机器环境

页面提供

PyTorch 2.0

Python 3.8

Ubuntu 20

CUDA 11.8

CPU

内存 80GB

磁盘 100GB

显卡 3090 24GB * 1

实际环境

实际系统中的环境,有略微的不一样,但是不影响。

同时,项目中有一些指定的 CUDA 版本等问题:比如我是 CUDA12.0,但是项目要求 CUDA18.1。这些问题也需要自己思考处理一下,毕竟更换CUDA版本是一件比较麻烦的事情。


实际环境:


CUDA 12.0

其他的 大差不差 比如Python版本,这里是3.10,通过 Pyenv 管理多版本。

克隆项目

这里我们使用 kohya_ss来进行微调,它帮我们封装好了。

git clone https://github.com/bmaltais/kohya_ss.git

配置环境

这里使用 pyenv 对项目进行管理,对于 pyenv 的使用和安装,可以看我的其他文章。

cd kohya_ss
pyenv local 3.10
python -m venv env
source env/bin/activate

此时通过 ls 可以查看目录,大致如下:

安装依赖

./setup.sh
• 1

此时我们遇到问题,提示缺少 python3-tk

sudo apt update -y && sudo apt install -y python3-tk
• 1

安装成功后,我们重新执行 ./setup.sh

可以看到正在安装:cu118,我的CUDA版本不太对的上

  • 如果你安装不正常:那你可以看看我的思路(见 问题章节:CUDA安装异常)
  • 如果你安装正常:请忽略

此时我们会看到:

接下篇:https://developer.aliyun.com/article/1621176

目录
相关文章
|
2月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
39 0
|
2月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
38 0
|
18天前
|
机器学习/深度学习 存储 人工智能
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
谢赛宁团队提出REPA方法,通过将扩散模型中的噪声输入隐藏状态与外部预训练视觉编码器的干净图像表征对齐,显著提升扩散模型的训练效率和生成质量,为扩散模型在表征学习上的应用开辟新路径。
29 5
|
2月前
|
机器学习/深度学习 算法 物联网
大模型进阶微调篇(一):以定制化3B模型为例,各种微调方法对比-选LoRA还是PPO,所需显存内存资源为多少?
本文介绍了两种大模型微调方法——LoRA(低秩适应)和PPO(近端策略优化)。LoRA通过引入低秩矩阵微调部分权重,适合资源受限环境,具有资源节省和训练速度快的优势,适用于监督学习和简单交互场景。PPO基于策略优化,适合需要用户交互反馈的场景,能够适应复杂反馈并动态调整策略,适用于强化学习和复杂用户交互。文章还对比了两者的资源消耗和适用数据规模,帮助读者根据具体需求选择最合适的微调策略。
362 5
|
1月前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
2月前
|
物联网
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
37 1
|
2月前
|
人工智能 网络架构 开发者
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
【10月更文挑战第1天】《OLMoE: Open Mixture-of-Experts Language Models》一文介绍了OLMoE,这是一个完全开源的Mixture-of-Experts(MoE)语言模型,具有70亿参数量,但每个输入令牌仅需10亿参数进行推理,有效平衡了性能与成本。OLMoE由Allen Institute for AI等机构的研究者共同开发,其开源特性促进了大规模语言模型领域的合作与创新,降低了资源浪费,同时具备良好的可扩展性和效率,为研究和应用开辟了新可能。然而,其复杂性也可能带来训练和调优上的挑战。
55 2
|
3月前
Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B
【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666
77 4
|
4月前
|
算法 搜索推荐
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】Transformers大模型库(九):大模型微调之计算微调参数占比
【AI大模型】Transformers大模型库(九):大模型微调之计算微调参数占比
62 0