动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: NewBieAI-Lab推出实验性文生图模型NewBie image Exp0.1,3.5B参数Next-DiT架构,支持XML结构化Prompt,提升多角色生成准确性。双文本编码器+16通道VAE,细节质感出色,8G显存可运行,二次元创作新选择。



在AI绘画领域,模型的理解力与表现力一直是研发的核心,效果好的模型参数大,参数小的模型效果差一直是困扰二次元AI模型爱好者的难题。在文生图领域,基于Transformer的DiT架构正逐渐成为主流。


近日,社区开源模型研究团队NewBieAI-Lab公开了其首个实验性文生图模型——NewBie image Exp0.1,一个专为二次元而生的3.5B 参数 Next-DiT 底模。除了扎实的底座设计,该模型在文本编码器组合与提示词(Prompt)结构化方面也进行了新的尝试,不仅支持自然语言输入,还引入了XML结构化Prompt以提升多角色场景的生成可控性,做到复杂提示理解、多人角色特征和指定动作不乱、16chvae色彩材质天花板,lora易炼,20 步出图,8G显存入门,4060 随便跑,再配合扎实的算力加持下的知识量,有望成为对高效二次元文生图新范式的一大探索。



硬核配置一表呈现

项目 配置信息 亮点
参数量 3.5B 显存友好,3090 可 2K 实时出图
架构 Next-DiT + NewBie 深度优化 收敛更快、细节更炸
文本编码器 Gemma-3-4B-it + Jina CLIP v2 双编码器 复杂长提示、XML 结构化提示完美理解
VAE FLUX.1-dev 16 通道 皮肤、布料、金属质感都大大提高
训练数据 千万级动漫数据 + XML 结构化标注 角色属性解耦、多人场景稳如老狗
推理速度 28~32 步(res_multistep/seed2) 比8B+ 模型快40%+
协议 Apache-2.0 & newbie-nc-1.0 完全免费,权重可用于非商业用途


技术架构一图看懂

下面这张图就是项目的完整架构图,NewBie image Exp0.1并未止步于单一的技术路径,而是整合了当前社区中表现优异的多个组件,以提升生成的语义理解能力和画面质感。


  • 文本编码器(Text Encoder)
    Gemma3 与 Jina CLIP 的强强联手 为了实现更强的提示词理解和指令遵循能力,该模型采用了 Gemma3-4B-it 作为主要的文本编码器。模型利用了Gemma3倒数第二层的token embedding作为条件输入。同时,模型还引入了Jina CLIP v2 提取池化文本特征(pooled text features),并通过投影融合到模型的时间步/AdaLN条件通路中。这种组合策略使得模型能够更精准地捕捉复杂的文本描述。
  • 图像潜在空间(VAE)
    引入 FLUX.1-dev 16通道 VAE 在图像解码端,NewBie image Exp0.1 选择了 FLUX.1-dev 的 16通道 VAE。这一选择显著提升了生成图像的视觉质量,使其具备更丰富的色彩渲染能力和更细腻的纹理细节,有助于在生成高质量动漫图像时保持画面的平滑与精致。
  • 训练数据与微调策略
    该模型在大规模的高质量动漫数据语料库上进行了预训练,使其能够生成细节丰富且视觉效果出众的动漫风格图像。值得注意的是,研究团队在实验中对数据集的文本进行了格式化重构,采用了 XML结构化格式。经验证,这种处理方式不仅加快了模型的收敛速度,还有效提升了属性(Attribute)与元素(Element)的解耦能力。同时,相较传统的Dit模型,这种策略也提高了LoRa的训练速度,对爱好者更友好。
  • 特色功能:XML结构化Prompt带来的精确控制
    在多角色生成的场景中,传统的自然语言Prompt往往容易出现“属性串扰”(例如角色A的衣服穿到了角色B身上)的问题。NewBie image Exp0.1 提出了一种解决方案:支持 XML 结构化 Prompt。虽然模型依然支持传统的自然语言和标签(Tags)输入,但在处理复杂的多角色场景时,使用 XML 结构通常能带来更准确的生成结果。


通过如下的结构化定义,用户可以清晰地指定每个角色的外观、衣着、动作及其在画面中的位置,这种设计极大地增强了模型对复杂场景的注意力绑定(Attention Binding)能力,实现了对画面元素的精细控制:

{
  "character_1": {
    "tags": "<appearance>...</appearance><clothing>...</clothing><position>center_left</position>"
  },
  "character_2": {
    "tags": "<appearance>...</appearance><clothing>...</clothing><position>center_right</position>"
  }
}



XML 结构化提示 vs 普通提示,差距有多大?

提示方式 角色区分 服装准确 位置控制 指定背景 指定动作
普通自然语言 ★★★☆☆ ★★★☆☆ ★☆☆☆☆ ★★★☆☆ ★★☆☆☆
XML 结构化提示 ★★★★★ ★★★★★ ★★★★★ ★★★★★ ★★★★★
SDXL tag format ★★☆☆☆ ★★☆☆☆ ★☆☆☆☆ ★★☆☆☆ ★☆☆☆☆


一键下载

  • 模型:

    https://www.modelscope.cn/models/NewBieAi-lab/NewBie-image-Exp0.1
  • ComfyUI 一键节点(拖进来即用):

https://github.com/NewBieAI-Lab/ComfyUI-Newbie-V0.1

  • 必装依赖(全开源):
模型 下载地址
Gemma-3-4B-it https://www.modelscope.cn/models/LLM-Research/gemma-3-4b-it
Jina CLIP v2 https://www.modelscope.cn/models/jinaai/jina-clip-v2
FLUX.1-dev VAE https://www.modelscope.cn/models/black-forest-labs/FLUX.1-dev/tree/master/vae


模型特点

3.30秒省流环节,总结Newbie模型的四大特点:

  • 双文本编码器霸榜级理解力 Gemma-3-4B-it 提供超强语言理解 + Jina CLIP v2 提供视觉语义对齐,双剑合璧,哪怕你扔过去 500 字的 XML 复杂提示,也能精准解析每个角色、每件衣服、每个动作,同时,也保留了传统的tag format prompt使用形式,新人也能快速上手。
  • Refiner 阶段,先去噪再理文本 先用 Noise Refiner 快速清理图像噪声,再用 Context Refiner 专门强化文本-图像对齐,彻底解决传统 DiT“细节糊了但提示没听懂”的痛点。
  • 36 层 Joint Transformer 主干 + 3D RoPE 图像和文本 token 彻底打通训练,配合 3D RoPE 位置编码,多人场景位置控制精确到像素级,再也不怕左右角色串脸,而且训练速度也合适,LoRa可以做到10ep出丹。
  • FLUX VAE 最终上色 16 通道 VAE 解码,色彩顺滑、材质真实,头发渐变、皮肤反光、布料褶皱直接起飞。

so,二次元创作者们,冲就完了!



点击跳转模型详情~

https://www.modelscope.cn/models/NewBieAi-lab/NewBie-image-Exp0.1?login=from_csdn

目录
相关文章
|
6天前
|
云安全 人工智能 自然语言处理
|
11天前
|
人工智能 Java API
Java 正式进入 Agentic AI 时代:Spring AI Alibaba 1.1 发布背后的技术演进
Spring AI Alibaba 1.1 正式发布,提供极简方式构建企业级AI智能体。基于ReactAgent核心,支持多智能体协作、上下文工程与生产级管控,助力开发者快速打造可靠、可扩展的智能应用。
958 35
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
605 4
|
7天前
|
机器学习/深度学习 人工智能 数据可视化
1秒生图!6B参数如何“以小博大”生成超真实图像?
Z-Image是6B参数开源图像生成模型,仅需16GB显存即可生成媲美百亿级模型的超真实图像,支持中英双语文本渲染与智能编辑,登顶Hugging Face趋势榜,首日下载破50万。
499 25
|
14天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
846 59
Meta SAM3开源:让图像分割,听懂你的话
|
3天前
|
弹性计算 网络协议 Linux
阿里云ECS云服务器详细新手购买流程步骤(图文详解)
新手怎么购买阿里云服务器ECS?今天出一期阿里云服务器ECS自定义购买流程:图文全解析,阿里云服务器ECS购买流程图解,自定义购买ECS的设置选项是最复杂的,以自定义购买云服务器ECS为例,包括付费类型、地域、网络及可用区、实例、镜像、系统盘、数据盘、公网IP、安全组及登录凭证详细设置教程:
192 114
|
11天前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
544 48
大厂CIO独家分享:AI如何重塑开发者未来十年
|
6天前
|
存储 自然语言处理 测试技术
一行代码,让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略
本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试,用真实数据复刻事故现场,助力开发者规避“查询雪崩”,为您的业务保驾护航。
363 24

热门文章

最新文章