在大语言模型的技术版图中,自回归(AR)架构长期占据主导地位,而扩散模型则被视作一条充满挑战的“非共识”路线。LLaDA2.0 已经成功证明了扩散语言模型(dLLM)规模化至 100B 参数的可行性,但生成速度与生成质量的平衡始终是横亘在扩散模型面前的核心难题。
今天,蚂蚁研究院正式发布 LLaDA2.1,通过可纠错编辑机制,首次让扩散语言模型在保持高质量的同时,将推理速度推至 892 TPS的新高度,让扩散语言模型从“研究探索”向“真正可用”迈进了一大步。
技术报告:https://huggingface.co/papers/2602.08676
GitHub地址:https://github.com/inclusionAI/LLaDA2.X
模型权重:https://modelscope.cn/collections/inclusionAI/LLaDA21
从“学术研究”到真正可用、甚至效率更优的强大工具,这一飞跃,源于以下三大技术亮点 ——
创新“可纠错编辑”机制 Error-Correcting Editable, ECE
作为实现飞跃的最核心创新,它赋予了扩散模型一种前所未有的“智慧”——像人类专家一样“起草-编辑”。
传统自回归模型像是一个不允许带草稿纸、不允许带提纲的考生,它下笔无悔,不允许修改自己写好的答案。LLaDA2.1 从根本上重构了这一范式。团队提出了 Token-to-Token(T2T)编辑机制,让模型具备「起草-编辑」的双重能力,在毫秒级的闪电采样中完成“草稿”到“正卷”的转身:
- 起草阶段:模型以较低的置信度阈值快速并行生成初始草稿;
- 编辑阶段:模型启动自我纠错,对已生成的 Token 进行回溯检查和迭代修正。
图 1:传统吸收态范式 vs LLaDA2.1 可纠错编辑机制
这种设计让扩散模型首次拥有了类似人类的「修改草稿」能力,解决了并行生成的误差累积问题,为高速解码奠定了理论基础。
灵活“双模式”设计Speedy Mode vs Quality Mode
基于可纠错编辑机制,LLaDA2.1 提供了两种截然不同的运行模式,将速度与生成的选择权交还给用户:
Speedy Mode(极速模式)
采用激进的低阈值策略进行 M2T 解码,以最大化并行度生成初始草稿,随后依赖 T2T 编辑机制进行精炼修正。这一模式实现了快速的推理速度,在代码生成等结构化任务中,仅带来可接受的性能折损。
Quality Mode(质量模式)
采用保守的高阈值策略,优先保证解码的精确性。在这一模式下,LLaDA2.1 在 33 项基准测试上全面超越 LLaDA2.0,并超越同类型扩散语言模型:
- 代码能力:HumanEval+ 89.63%,CRUXEval-O 87.50%
- 数学推理:AIME 2025 63.33%,GSM-Plus 89.69%
- 智能体任务:BFCL v3 75.61%,IFEval 83.55%
双模式设计让用户真正成为速度与质量的决策者 —— 需要实时响应时选择 Speedy Mode,需要精确输出时则可以切换 Quality Mode,满足不同场景下的真实需求。
业界首个 dLLM 大规模 RL 框架
如果说“可纠错编辑”让模型变得“可用”,那么强化学习则让模型变得更“聪明”、更“可靠”,体感更强。LLaDA2.1 实现了首个专为 dLLM 设计的大规模强化学习框架。
图 2:LLaDA2.1 训练与推理框架概览
扩散模型的策略优化面临一个根本性障碍:序列级对数似然无法直接计算。在 100B 规模的扩散模型上跑通 RL 绝非易事。它不仅需要极强的工程底层支撑,要求从块状扩散(Block-diffusion)的条件概率转移视角,提出稳定的梯度估计算法,即 EBPO(ELBO-based Block-level Policy Optimization):
- 使用 Evidence Lower Bound (ELBO) 作为似然的合理代理;
- 结合 Vectorized Likelihood Estimation,实现边界估计的并行计算;
EBPO 不仅提升了训练效率,更为 dLLM 的后训练优化提供了稳定、可扩展的解决方案。这一突破让强化学习首次能够稳定地扩展到扩散语言模型的后训练阶段,显著提升了模型的指令遵循能力和人类意图对齐度。
性能表现
LLaDA2.1 开源两个版本:
LLaDA2.1 在保持高质量生成的同时,实现了突破性的推理速度 —— 892 TPS,是传统自回归模型的数倍。在多个生成场景中,它都能以闪电般的速度完成;尤其是在代码领域,平均达到了 600-700 的 TPS,让用户体验如丝般流畅。
图 3:LLaDA2.1 在 Mini 和 Flash 系列上的吞吐量对比
表 1:在不同场景上,LLaDA2.1 在 Mini 和 Flash 系列上的吞吐量
892 TPS 意味着什么?相当于每秒生成近 900 个 token,足以支撑实时交互、大规模部署等工业级应用场景。
这一速度飞跃的背后,正是可纠错编辑机制的支撑 —— 正因为模型具备自我修正的能力,才敢在初始阶段采用激进的低阈值策略快速生成,而不必担心错误累积导致质量崩塌。
最佳实践
使用Transformers推理
import torch import torch.nn.functional as F from modelscope import AutoModelForCausalLM, AutoTokenizer model_path = "inclusionAI/LLaDA2.1-mini" device = "auto" model = AutoModelForCausalLM.from_pretrained( model_path, trust_remote_code=True, device_map=device, ) model = model.to(torch.bfloat16) model.eval() tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True) prompt = """Calculate 1+5-28*0.5-200=?""" input_ids = tokenizer.apply_chat_template( [{"role": "user", "content": prompt}], add_generation_prompt=True, tokenize=True, return_tensors="pt", ) generated_tokens = model.generate( inputs=input_ids, eos_early_stop=True, gen_length=512, block_length=32, threshold=0.5, editing_threshold=0, temperature=0.0, ) generated_answer = tokenizer.decode( generated_tokens[0], skip_special_tokens=True, ) print(generated_answer)
显存占用:
LLaDA2.1 的意义不仅在于 892 TPS 的速度数字,更在于它证明了:通过技术创新,扩散语言模型完全可以在保持并行生成优势的同时,克服质量与速度的传统权衡。
可纠错编辑机制的引入,让 dLLM 第一次拥有了“自我修正”的智慧;双模式设计让用户真正成为速度与质量的决策者;强化学习框架则为扩散模型的后训练开辟了新的可能性。
诚挚邀请社区开发者体验 LLaDA2.1,也欢迎有志于探索 LLaDA 模型的同学加入团队,共同探索扩散语言模型的边界。
点击即可跳转模型合集https://modelscope.cn/collections/inclusionAI/LLaDA21