基于Qwen-3B-Raw的本地化SD Prompt生成器研究

简介: 本项目用NLP技术把人类的模糊美学意图,蒸馏成可重复、可微调、可部署的图像生成指令引擎。

基于本地部署的Qwen2.5-3b-Raw模型的本地化SD Prompt生成器研究

寒假闲来无事想接触接触AI绘图领域看看能不能画几张美图来赚点生活费,无意中了解到在Linux系统下性能开销会有所降低,于是手动在本地的5070ti笔电上部署了Ubuntu双系统,在使用comfyUI的sdxl绘图模型期间,深感正负提示词的编写不易,往往想画出无毛糙高质感的图片光想并填写提示词就得花掉10分钟甚至更多的时间,尝试利用云端大模型时发现风格难以固定,适用sdxl clip编码器中的75token片区限制的能力较差,每次调试时也极具耗费心力。由此,我产生了本地部署个sd prompt生成器的想法,并通过云端大模型的代码编写能力逐步推进。


在推进伊始时,我根据本地的12GB显存限制选择了qwen2.5-7b-instruct模型,但在通过脚本限制规范其输出时发觉7b频繁出现添词,输出占位符甚至拒绝输出的情况,我通过网络了解到构建LoRA微调可以有效减少幻觉的产生,于是我利用了云端大模型编写了560条训练JSON,但效果不佳,且时常出现爆显存的状况,于是我重新选择了qwen2.5-3b-raw模型,我意识到这只是个语义蒸馏的过程,并不需要高精度模型的支撑,我由此得以正常开展对3b微调,我利用数学随机组合的方式生成的JSON有效覆盖了绝大多数场景,最终在alpha=64,loss=0.47的情况下构造了一个几乎接近可用的本地sd prompt语义联想生成器。

我现已开源该项目,我的GitHub库地址如下:https://github.com/LianHe-BI/Basic-Qwen-3B-SD-Prompt-SOUL-ARCHITECT-v2.0-DEMO


内含我现有的详细开发成果,想具体了解的朋友可以看一看,同时我希望各位大佬能给予相关指正,本人感激不尽,目前已经尝试拆解sdxl的生成逻辑并在开发3.0版本,3.0的基础构想如下:

用户输入:6分日常构思 4分奇幻荒诞(训练时由flash模型自行想象)

中文意境构思→在正负面形成结束后自然概括(暂不计入训练中,防范语义理解错乱)

正面提示:[(前:3或4分地基 中:5或4分牵引 后:2分灵魂) 总token~75]

反面提示:[(前固化矩阵5分 + 后动态演化 5分)总token~50]

利用qwen-plus训练1600条样本,反补本地qwen-3b loss训练跌至0.3~0.4收手

引入历史记录联想索引(未来)

目录
相关文章
|
25天前
|
人工智能 Kubernetes 数据可视化
别再写"面条式文档"了!用AI给你的思维装个"图形渲染引擎"
别让线性文字限制了你的高维思考。本文揭示了大脑作为"图形处理器"的本质,提供了一套专业的AI指令,将复杂的逻辑思维"序列化"为清晰的拓扑结构,像渲染DOM树一样可视化你的知识体系,极大提升沟通与学习效率。
182 12
|
26天前
|
机器学习/深度学习 人工智能 JSON
大模型微调实战:从原理到落地的完整指南
本文系统讲解大模型微调的原理与实战,涵盖LoRA等高效方法,手把手教你用少量数据定制专属模型,结合数据准备、训练策略与效果评估,助力开发者低成本实现AI应用落地。
|
24天前
|
存储 人工智能 安全
推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI
Doo AI是一款简洁易用的开源AI模型本地部署工具,支持通义千问3/VL、LLaMA3.1等主流HF格式模型。下载即用,扫描→点击“加载”,可以快速、轻松完成部署;纯本地运行,隐私安全;支持文本对话、图像识别、RAG、角色提示词等实用功能。(239字)
382 4
推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI
|
25天前
|
自然语言处理 监控 物联网
大模型微调参数设置 —— 从入门到精通的调参指南
本文系统解析大模型微调核心参数:学习率、批次大小、训练轮次、权重衰减、LoRA秩等的作用机制与设置技巧,结合LLaMA-Factory实战演示,帮助初学者避开“黑箱”误区,在有限算力下实现高效、稳定微调。
|
1月前
|
数据采集 人工智能 IDE
告别碎片化日志:一套方案采集所有主流 AI 编程工具
本文介绍了一套基于MCP架构的轻量化、多AI工具代码采集方案,支持CLI、IDE等多类工具,实现用户无感、可扩展的数据采集,已对接Aone日志平台,助力AI代码采纳率分析与研发效能提升。
430 46
告别碎片化日志:一套方案采集所有主流 AI 编程工具
|
22天前
|
人工智能 自然语言处理 物联网
Qwen-Image 从推理到 LoRA 训练实战教程(AMD GPU × DiffSynth-Studio)
本课程由魔搭社区出品,详解如何在AMD GPU上基于DiffSynth-Studio框架高效部署、微调与训练Qwen-Image系列大模型(860亿参数)。涵盖文生图推理、LoRA画质增强、多语言提示理解、高一致性人像外延及多图融合编辑,并支持从零训练专属LoRA(如定制狗狗生成)。
563 40
|
25天前
|
数据采集 人工智能 监控
告别“垃圾进垃圾出”:打造高质量数据集的完整指南
本文深入解析AI时代“数据比算法更重要”的核心理念,系统阐述高质量数据集的定义、黄金标准(含16条可操作规范)与七步构建法,并提供自动化检查、基线验证及人工评审等实用评估手段,助力开发者高效打造可靠、合规、可持续迭代的优质训练数据。(239字)
269 12
|
26天前
|
机器学习/深度学习 文字识别 测试技术
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
阶跃星辰发布开源多模态小模型Step3-VL-10B,仅10B参数却媲美百亿级大模型,在视觉感知、逻辑推理、数学竞赛等任务中达同规模SOTA,支持端侧部署,推动智能终端交互革新。
227 6
|
23天前
|
人工智能 自然语言处理 C++
写小说时,Claude 4.0 和 4.5 的差别在哪里?
本文对比Claude Sonnet 4.0与4.5在小说创作中的实际表现,聚焦人物一致性、剧情连续性与长期可控性。基于Anthropic官方能力说明及多轮实测,指出4.5在多阶段续写、逻辑连贯性与风格稳定性上显著提升,更适配中长篇连载场景,助力AI写作从“能写”迈向“能长期写”。(239字)
|
26天前
|
JavaScript 前端开发

热门文章

最新文章