在AI绘画领域,模型的理解力与表现力一直是研发的核心,效果好的模型参数大,参数小的模型效果差一直是困扰二次元AI模型爱好者的难题。在文生图领域,基于Transformer的DiT架构正逐渐成为主流。
近日,社区开源模型研究团队NewBieAI-Lab公开了其首个实验性文生图模型——NewBie image Exp0.1,一个专为二次元而生的3.5B 参数 Next-DiT 底模。除了扎实的底座设计,该模型在文本编码器组合与提示词(Prompt)结构化方面也进行了新的尝试,不仅支持自然语言输入,还引入了XML结构化Prompt以提升多角色场景的生成可控性,做到复杂提示理解、多人角色特征和指定动作不乱、16chvae色彩材质天花板,lora易炼,20 步出图,8G显存入门,4060 随便跑,再配合扎实的算力加持下的知识量,有望成为对高效二次元文生图新范式的一大探索。
硬核配置一表呈现
| 项目 | 配置信息 | 亮点 |
| 参数量 | 3.5B | 显存友好,3090 可 2K 实时出图 |
| 架构 | Next-DiT + NewBie 深度优化 | 收敛更快、细节更炸 |
| 文本编码器 | Gemma-3-4B-it + Jina CLIP v2 双编码器 | 复杂长提示、XML 结构化提示完美理解 |
| VAE | FLUX.1-dev 16 通道 | 皮肤、布料、金属质感都大大提高 |
| 训练数据 | 千万级动漫数据 + XML 结构化标注 | 角色属性解耦、多人场景稳如老狗 |
| 推理速度 | 28~32 步(res_multistep/seed2) | 比8B+ 模型快40%+ |
| 协议 | Apache-2.0 & newbie-nc-1.0 | 完全免费,权重可用于非商业用途 |
技术架构一图看懂
下面这张图就是项目的完整架构图,NewBie image Exp0.1并未止步于单一的技术路径,而是整合了当前社区中表现优异的多个组件,以提升生成的语义理解能力和画面质感。
- 文本编码器(Text Encoder)
Gemma3 与 Jina CLIP 的强强联手 为了实现更强的提示词理解和指令遵循能力,该模型采用了 Gemma3-4B-it 作为主要的文本编码器。模型利用了Gemma3倒数第二层的token embedding作为条件输入。同时,模型还引入了Jina CLIP v2 提取池化文本特征(pooled text features),并通过投影融合到模型的时间步/AdaLN条件通路中。这种组合策略使得模型能够更精准地捕捉复杂的文本描述。 - 图像潜在空间(VAE)
引入 FLUX.1-dev 16通道 VAE 在图像解码端,NewBie image Exp0.1 选择了 FLUX.1-dev 的 16通道 VAE。这一选择显著提升了生成图像的视觉质量,使其具备更丰富的色彩渲染能力和更细腻的纹理细节,有助于在生成高质量动漫图像时保持画面的平滑与精致。 - 训练数据与微调策略
该模型在大规模的高质量动漫数据语料库上进行了预训练,使其能够生成细节丰富且视觉效果出众的动漫风格图像。值得注意的是,研究团队在实验中对数据集的文本进行了格式化重构,采用了 XML结构化格式。经验证,这种处理方式不仅加快了模型的收敛速度,还有效提升了属性(Attribute)与元素(Element)的解耦能力。同时,相较传统的Dit模型,这种策略也提高了LoRa的训练速度,对爱好者更友好。 - 特色功能:XML结构化Prompt带来的精确控制
在多角色生成的场景中,传统的自然语言Prompt往往容易出现“属性串扰”(例如角色A的衣服穿到了角色B身上)的问题。NewBie image Exp0.1 提出了一种解决方案:支持 XML 结构化 Prompt。虽然模型依然支持传统的自然语言和标签(Tags)输入,但在处理复杂的多角色场景时,使用 XML 结构通常能带来更准确的生成结果。
通过如下的结构化定义,用户可以清晰地指定每个角色的外观、衣着、动作及其在画面中的位置,这种设计极大地增强了模型对复杂场景的注意力绑定(Attention Binding)能力,实现了对画面元素的精细控制:
{ "character_1": { "tags": "<appearance>...</appearance><clothing>...</clothing><position>center_left</position>" }, "character_2": { "tags": "<appearance>...</appearance><clothing>...</clothing><position>center_right</position>" } }
XML 结构化提示 vs 普通提示,差距有多大?
| 提示方式 | 角色区分 | 服装准确 | 位置控制 | 指定背景 | 指定动作 |
| 普通自然语言 | ★★★☆☆ | ★★★☆☆ | ★☆☆☆☆ | ★★★☆☆ | ★★☆☆☆ |
| XML 结构化提示 | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ |
| SDXL tag format | ★★☆☆☆ | ★★☆☆☆ | ★☆☆☆☆ | ★★☆☆☆ | ★☆☆☆☆ |
一键下载
- 模型:
https://www.modelscope.cn/models/NewBieAi-lab/NewBie-image-Exp0.1 - ComfyUI 一键节点(拖进来即用):
https://github.com/NewBieAI-Lab/ComfyUI-Newbie-V0.1
- 必装依赖(全开源):
| 模型 | 下载地址 |
| Gemma-3-4B-it | https://www.modelscope.cn/models/LLM-Research/gemma-3-4b-it |
| Jina CLIP v2 | https://www.modelscope.cn/models/jinaai/jina-clip-v2 |
| FLUX.1-dev VAE | https://www.modelscope.cn/models/black-forest-labs/FLUX.1-dev/tree/master/vae |
模型特点
3.30秒省流环节,总结Newbie模型的四大特点:
- 双文本编码器霸榜级理解力 Gemma-3-4B-it 提供超强语言理解 + Jina CLIP v2 提供视觉语义对齐,双剑合璧,哪怕你扔过去 500 字的 XML 复杂提示,也能精准解析每个角色、每件衣服、每个动作,同时,也保留了传统的tag format prompt使用形式,新人也能快速上手。
- Refiner 阶段,先去噪再理文本 先用 Noise Refiner 快速清理图像噪声,再用 Context Refiner 专门强化文本-图像对齐,彻底解决传统 DiT“细节糊了但提示没听懂”的痛点。
- 36 层 Joint Transformer 主干 + 3D RoPE 图像和文本 token 彻底打通训练,配合 3D RoPE 位置编码,多人场景位置控制精确到像素级,再也不怕左右角色串脸,而且训练速度也合适,LoRa可以做到10ep出丹。
- FLUX VAE 最终上色 16 通道 VAE 解码,色彩顺滑、材质真实,头发渐变、皮肤反光、布料褶皱直接起飞。
so,二次元创作者们,冲就完了!
点击跳转模型详情~
https://www.modelscope.cn/models/NewBieAi-lab/NewBie-image-Exp0.1?login=from_csdn