基于本地部署的Qwen2.5-3b-Raw模型的本地化SD Prompt生成器研究
寒假闲来无事想接触接触AI绘图领域看看能不能画几张美图来赚点生活费,无意中了解到在Linux系统下性能开销会有所降低,于是手动在本地的5070ti笔电上部署了Ubuntu双系统,在使用comfyUI的sdxl绘图模型期间,深感正负提示词的编写不易,往往想画出无毛糙高质感的图片光想并填写提示词就得花掉10分钟甚至更多的时间,尝试利用云端大模型时发现风格难以固定,适用sdxl clip编码器中的75token片区限制的能力较差,每次调试时也极具耗费心力。由此,我产生了本地部署个sd prompt生成器的想法,并通过云端大模型的代码编写能力逐步推进。
在推进伊始时,我根据本地的12GB显存限制选择了qwen2.5-7b-instruct模型,但在通过脚本限制规范其输出时发觉7b频繁出现添词,输出占位符甚至拒绝输出的情况,我通过网络了解到构建LoRA微调可以有效减少幻觉的产生,于是我利用了云端大模型编写了560条训练JSON,但效果不佳,且时常出现爆显存的状况,于是我重新选择了qwen2.5-3b-raw模型,我意识到这只是个语义蒸馏的过程,并不需要高精度模型的支撑,我由此得以正常开展对3b微调,我利用数学随机组合的方式生成的JSON有效覆盖了绝大多数场景,最终在alpha=64,loss=0.47的情况下构造了一个几乎接近可用的本地sd prompt语义联想生成器。
我现已开源该项目,我的GitHub库地址如下:https://github.com/LianHe-BI/Basic-Qwen-3B-SD-Prompt-SOUL-ARCHITECT-v2.0-DEMO
内含我现有的详细开发成果,想具体了解的朋友可以看一看,同时我希望各位大佬能给予相关指正,本人感激不尽,目前已经尝试拆解sdxl的生成逻辑并在开发3.0版本,3.0的基础构想如下:
用户输入:6分日常构思 4分奇幻荒诞(训练时由flash模型自行想象)
中文意境构思→在正负面形成结束后自然概括(暂不计入训练中,防范语义理解错乱)
正面提示:[(前:3或4分地基 中:5或4分牵引 后:2分灵魂) 总token~75]
反面提示:[(前固化矩阵5分 + 后动态演化 5分)总token~50]
利用qwen-plus训练1600条样本,反补本地qwen-3b loss训练跌至0.3~0.4收手
引入历史记录联想索引(未来)