Nucleus-Image 17B开源：首个MoE架构文生图扩散模型，仅激活2B参数即超越Imagen 4-阿里云开发者社区

Nucleus-Image 17B开源：首个MoE架构文生图扩散模型，仅激活2B参数即超越Imagen 4

2026-04-21 317

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： NucleusAI开源17B参数MoE扩散模型Nucleus-Image，首创稀疏专家架构，前向仅激活约2B参数；纯预训练即达SOTA，在GenEval等三大基准上超越Imagen 4等闭源模型，完全开源（Apache 2.0），支持商业使用。

NucleusAI开源了Nucleus-Image，一个拥有17B 参数的文本到图像扩散模型。该模型首次将稀疏混合专家（Sparse MoE）架构引入扩散模型领域，每次前向传播仅激活约2B参数，在GenEval、DPG-Bench和OneIG-Bench三项基准上匹配或超越GPT Image 1、Imagen 4等闭源模型，且完全来自预训练，未使用任何DPO或RLHF。

开源地址：

ModelScope：Nucleus-Image
Github: https://github.com/WithNucleusAI/Nucleus-Image

01 核心特性

首个高质量MoE扩散模型　17B参数仅激活约2B，大模型容量、小模型推理成本，首次验证稀疏MoE在扩散模型中的可行性。

纯预训练即达SOTA　无DPO、无RL、无偏好调优，GenEval 0.87、DPG-Bench 88.79（第一）、OneIG-Bench 0.522，超越Imagen 4。

解耦路由机制　将路由与时间步调制解耦，解决LLM式路由在扩散模型中导致专家同质化的根本问题。

文本KV缓存加速　文本token仅提供KV、不进MoE主干，KV张量计算一次即可跨全部去噪步骤复用，一行代码开启。

完全开源　权重采用Apache 2.0许可证，支持商业使用，首个完全开源MoE扩散模型。

02 核心技术与训练

解耦路由：MoE扩散稳定训练的关键

DiT的自适应调制使不同时间步下表示范数相差一个数量级，直接复用LLM式路由会导致logits被时间步尺度主导，专家特化丧失。Nucleus-Image将路由与计算解耦：路由器接收 [x_norm ‖ t_emb]（内容决定路由，时间步为加性通道），专家接收完全调制后的 x_mod 保持条件表达能力。解耦路由下专家按空间和语义身份清晰特化，耦合路由则训练不稳定且专家同质化。

文本token作为纯KV参与者

与Flux、SD3双流架构不同，文本token完全不进入MoE主干，仅在联合注意力中贡献KV。路由仅在图像token上操作，简化负载均衡；文本KV无时间步依赖，计算一次即可跨全部去噪步骤复用。

渐进稀疏化

将专家容量因子与分辨率课程学习耦合：256²阶段容量因子8.0保证梯度稳定，1024²阶段降至4.0/2.0实现激进稀疏化，浅层保持广泛混合、深层窄化特化。

Muon + WSM调度

抛弃EMA影子权重和固定学习率衰减，采用Muon+AdamW混合优化器，训练结束后对最近N个检查点做逆平方根加权平均，N=16时GenEval提升+3.2分。

训练数据

7亿张图像、15亿条描述，经多阶段过滤、感知去重和美学评分。每张图像标注质量层级（A1–A5）和课程桶（B1–B8），训练中逐步向高质量倾斜。从第零步起即采用多宽高比分桶训练。64块H100上训练，每GPU一个专家，配合定制Triton核和Flash Attention 3。

03 性能表现

以下所有分数均来自基础模型（无RL、无DPO、无偏好调优），1024×1024分辨率，50步推理，CFG 8.0。

GenEval 组合生成基准　总分0.87，与Qwen-Image和CogView 4并列第一。在6个子项中表现全面：Single 0.99、Two Obj 0.95、Colors 0.92、Position 0.85、Attr. Bind 0.71。其中空间位置子项（0.85）尤为突出，SD3.5 Large和FLUX.1 Dev在该项上分别仅得0.34和0.22，空间布局理解正是MoE专家特化特别擅长捕获的能力。

DPG-Bench 密集提示遵循基准　总分88.79，排名第一，领先第二名Qwen-Image（88.32）0.47分。在6个维度中拿下4项第一：实体93.08、属性92.20、其他93.62、总分88.79，仅在Relation（93.56，差1.29）和Global（85.10，差9.21）两项上未登顶。

OneIG-Bench方面，Nucleus-Image得分0.522，超越Imagen 4（0.515）和Recraft V3（0.502），风格子项表现突出（0.430）。

04 推理代码：

使用diffusers进行推理的脚本如下：

import torch
from diffusers import DiffusionPipeline, TextKVCacheConfig
pipe = DiffusionPipeline.from_pretrained(
    "NucleusAI/NucleusMoE-Image", torch_dtype=torch.bfloat16
).to("cuda")
pipe.transformer.enable_cache(TextKVCacheConfig())  # cache text KV across steps
image = pipe(
    prompt="A weathered lighthouse on a rocky coastline at golden hour, "
           "waves crashing against the rocks, seagulls overhead, "
           "dramatic amber-and-violet clouds",
    width=1344, height=768,
    num_inference_steps=50, guidance_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42),
).images[0]
image.save("nucleus_output.png")

开箱支持的宽高比：1:1（1024²）、16:9、9:16、4:3、3:4、3:2、2:3。

05 总结

Nucleus-Image通过稀疏MoE架构在文生图扩散模型中实现了容量与计算的解耦，以17B参数的知识容量和约2B参数的推理成本，在多项基准上达到或超越当前最强闭源模型。解耦路由、文本KV缓存、渐进稀疏化等一系列架构创新为MoE在扩散模型中的应用提供了完整的技术方案。作为首个完全开源的高质量MoE扩散基座模型，Nucleus-Image为社区的后训练优化、可控生成和更高分辨率扩展提供了坚实的起点。

链接：https://modelscope.cn/models/NucleusAI/Nucleus-Image

Nucleus-Image 17B开源：首个MoE架构文生图扩散模型，仅激活2B参数即超越Imagen 4

01 核心特性

02 核心技术与训练

03 性能表现

04 推理代码：

05 总结

ModelScope模型即服务

热门文章

最新文章

相关电子书