LLaDA2.1 正式开源,可纠错编辑机制让 100B 扩散模型突破 892 TPS 速度极限

简介: 蚂蚁研究院发布LLaDA2.1,首创“可纠错编辑(ECE)”机制,突破扩散语言模型(dLLM)速度与质量瓶颈:推理达892 TPS,支持极速/质量双模式,并集成业界首个dLLM强化学习框架EBPO。开源即用,迈向真正可用的下一代大模型。

在大语言模型的技术版图中,自回归(AR)架构长期占据主导地位,而扩散模型则被视作一条充满挑战的“非共识”路线。LLaDA2.0 已经成功证明了扩散语言模型(dLLM)规模化至 100B 参数的可行性,但生成速度与生成质量的平衡始终是横亘在扩散模型面前的核心难题。

今天,蚂蚁研究院正式发布 LLaDA2.1,通过可纠错编辑机制,首次让扩散语言模型在保持高质量的同时,将推理速度推至 892 TPS的新高度,让扩散语言模型从“研究探索”向“真正可用”迈进了一大步。

技术报告:https://huggingface.co/papers/2602.08676

GitHub地址:https://github.com/inclusionAI/LLaDA2.X

模型权重:https://modelscope.cn/collections/inclusionAI/LLaDA21

从“学术研究”到真正可用、甚至效率更优的强大工具,这一飞跃,源于以下三大技术亮点 ——


创新“可纠错编辑”机制 Error-Correcting Editable, ECE

作为实现飞跃的最核心创新,它赋予了扩散模型一种前所未有的“智慧”——像人类专家一样“起草-编辑”。

传统自回归模型像是一个不允许带草稿纸、不允许带提纲的考生,它下笔无悔,不允许修改自己写好的答案。LLaDA2.1 从根本上重构了这一范式。团队提出了 Token-to-Token(T2T)编辑机制,让模型具备「起草-编辑」的双重能力,在毫秒级的闪电采样中完成“草稿”到“正卷”的转身:

  • 起草阶段:模型以较低的置信度阈值快速并行生成初始草稿;
  • 编辑阶段:模型启动自我纠错,对已生成的 Token 进行回溯检查和迭代修正。

图 1:传统吸收态范式 vs LLaDA2.1 可纠错编辑机制


这种设计让扩散模型首次拥有了类似人类的「修改草稿」能力,解决了并行生成的误差累积问题,为高速解码奠定了理论基础。

灵活“双模式”设计Speedy Mode vs Quality Mode

基于可纠错编辑机制,LLaDA2.1 提供了两种截然不同的运行模式,将速度与生成的选择权交还给用户:


Speedy Mode(极速模式)

采用激进的低阈值策略进行 M2T 解码,以最大化并行度生成初始草稿,随后依赖 T2T 编辑机制进行精炼修正。这一模式实现了快速的推理速度,在代码生成等结构化任务中,仅带来可接受的性能折损。


Quality Mode(质量模式)

采用保守的高阈值策略,优先保证解码的精确性。在这一模式下,LLaDA2.1 在 33 项基准测试上全面超越 LLaDA2.0,并超越同类型扩散语言模型:

  • 代码能力:HumanEval+ 89.63%,CRUXEval-O 87.50%
  • 数学推理:AIME 2025 63.33%,GSM-Plus 89.69%
  • 智能体任务:BFCL v3 75.61%,IFEval 83.55%


双模式设计让用户真正成为速度与质量的决策者 —— 需要实时响应时选择 Speedy Mode,需要精确输出时则可以切换 Quality Mode,满足不同场景下的真实需求。


业界首个 dLLM 大规模 RL 框架

如果说“可纠错编辑”让模型变得“可用”,那么强化学习则让模型变得更“聪明”、更“可靠”,体感更强。LLaDA2.1 实现了首个专为 dLLM 设计的大规模强化学习框架。

图 2:LLaDA2.1 训练与推理框架概览


扩散模型的策略优化面临一个根本性障碍:序列级对数似然无法直接计算。在 100B 规模的扩散模型上跑通 RL 绝非易事。它不仅需要极强的工程底层支撑,要求从块状扩散(Block-diffusion)的条件概率转移视角,提出稳定的梯度估计算法,即 EBPO(ELBO-based Block-level Policy Optimization):

  • 使用 Evidence Lower Bound (ELBO) 作为似然的合理代理;
  • 结合 Vectorized Likelihood Estimation,实现边界估计的并行计算;


EBPO 不仅提升了训练效率,更为 dLLM 的后训练优化提供了稳定、可扩展的解决方案。这一突破让强化学习首次能够稳定地扩展到扩散语言模型的后训练阶段,显著提升了模型的指令遵循能力和人类意图对齐度。


性能表现

LLaDA2.1 开源两个版本:

LLaDA2.1 在保持高质量生成的同时,实现了突破性的推理速度 —— 892 TPS,是传统自回归模型的数倍。在多个生成场景中,它都能以闪电般的速度完成;尤其是在代码领域,平均达到了 600-700 的 TPS,让用户体验如丝般流畅。

图 3:LLaDA2.1 在 Mini 和 Flash 系列上的吞吐量对比


表 1:在不同场景上,LLaDA2.1 在 Mini 和 Flash 系列上的吞吐量


892 TPS 意味着什么?相当于每秒生成近 900 个 token,足以支撑实时交互、大规模部署等工业级应用场景。


这一速度飞跃的背后,正是可纠错编辑机制的支撑 —— 正因为模型具备自我修正的能力,才敢在初始阶段采用激进的低阈值策略快速生成,而不必担心错误累积导致质量崩塌。


最佳实践

使用Transformers推理

import torch
import torch.nn.functional as F
from modelscope import AutoModelForCausalLM, AutoTokenizer
model_path = "inclusionAI/LLaDA2.1-mini"
device = "auto"
model = AutoModelForCausalLM.from_pretrained(
    model_path, trust_remote_code=True, device_map=device,
)
model = model.to(torch.bfloat16)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
prompt = """Calculate 1+5-28*0.5-200=?"""
input_ids = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    add_generation_prompt=True,
    tokenize=True,
    return_tensors="pt",
)
generated_tokens = model.generate(
    inputs=input_ids,
    eos_early_stop=True,
    gen_length=512,
    block_length=32,
    threshold=0.5,
    editing_threshold=0,
    temperature=0.0,
)
generated_answer = tokenizer.decode(
    generated_tokens[0],
    skip_special_tokens=True,
)
print(generated_answer)


显存占用:

LLaDA2.1 的意义不仅在于 892 TPS 的速度数字,更在于它证明了:通过技术创新,扩散语言模型完全可以在保持并行生成优势的同时,克服质量与速度的传统权衡。


可纠错编辑机制的引入,让 dLLM 第一次拥有了“自我修正”的智慧;双模式设计让用户真正成为速度与质量的决策者;强化学习框架则为扩散模型的后训练开辟了新的可能性。


诚挚邀请社区开发者体验 LLaDA2.1,也欢迎有志于探索 LLaDA 模型的同学加入团队,共同探索扩散语言模型的边界。


点击即可跳转模型合集https://modelscope.cn/collections/inclusionAI/LLaDA21


目录
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
2月11日,蚂蚁百灵团队开源全模态大模型Ming-flash-omni-2.0(基于Ling-2.0 MoE架构),在视觉理解、语音交互与图像编辑三大领域实现代际跃迁,达开源领先水平。支持多模态统一生成与深度编辑,模型权重与代码已开放。
471 4
 蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
|
1月前
|
人工智能 文字识别 物联网
ModelScope魔搭社区发布月报 -- 26年2月
临近年关,ModelScope迎来春节模型发布潮:Qwen3、GLM-4.7、MiniMax M2.1等大模型密集上新;AIGC生图、语音合成、具身智能全面突破;OpenAPI、OAuth、Gallery等生态基建同步升级,加速AI开源普惠。(239字)
349 7
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
PPO 应用 —— 大模型偏好优化的核心场景与落地思路
本文详解PPO算法在大模型RLHF落地中的核心应用:聚焦对话风格、客服话术、内容生成、安全合规、垂直领域及多模态六大场景,强调“偏好定制化”价值。全程无代码,提供4步落地法与3大实操要点,助力企业高效实现大模型优化。(239字)
|
1月前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
301 8
|
20天前
|
人工智能 语音技术 云计算
书尖 AI 功能实测|阿里云 AI 技术加持,与喜马拉雅听书体验深度对比
在阿里云AI赋能下,书尖AI实测展现三大优势:1.2亿册全品类书库、双人互动式AI播客、2分钟极速提炼书籍精华,并依托阿里云TTS实现自然听书体验。相较喜马拉雅,其AI深度解读与定制化能力更胜一筹。(239字)
|
12天前
|
数据采集 人工智能 数据可视化
《基于 DeepSeek 百万token上下文的实证研究:全窗口真实工程压力测试与统计分析》
本项目基于 DeepSeek 于 2026 年 2 月推出的 “新长文本模型”(上下文窗口扩展至1,000,000 tokens,API 端仍保持 V3.2 版本),通过构建非AI/IT领域的完整项目流程,进行了全程、全负载实证工程测试。在单一连续上下文中实现了端到端的闭环。
|
1月前
|
人工智能 自然语言处理 API
2026年阿里云无影云电脑部署OpenClaw(Clawdbot)新手保姆级教程
2026年,AI自动化办公进入全民普及阶段,OpenClaw(前身为Clawdbot、Moltbot)作为开源AI代理平台,凭借“自然语言指令驱动、多工具协同、零编程门槛”的核心优势,成为新手解锁自动化办公的首选工具。它无需复杂操作,仅需输入日常口语化指令,就能自动完成文档整理、邮件处理、日程规划、代码生成等重复性工作,堪称“私人AI数字员工”,彻底解放双手、提升效率。
914 4
|
1月前
|
JSON 文字识别 API
百度文心开源0.9B参数 PaddleOCR-VL-1.5,全球首个支持异形框定位的文档解析模型!
百度文心开源新一代文档解析模型PaddleOCR-VL-1.5:仅0.9B参数,在OmniDocBench v1.5达94.5%精度,全球首个支持异形框定位,精准识别倾斜、弯折、反光等“歪文档”,集成印章识别、多语种(含藏语/孟加拉语)及古籍解析能力,推理速度超MinerU2.5达43%。(239字)
462 2
|
1月前
|
存储 数据采集 人工智能
大模型微调常见术语解析:新手也能看懂的入门指南
本文通俗解析大模型微调核心术语:涵盖预训练模型、LoRA/QLoRA等轻量方法、学习率/批次大小等训练参数,以及过拟合、数据投毒等效果与安全要点,助新手快速入门并安全实践。(239字)
|
1月前
|
缓存 自然语言处理 API
美团开源 LongCat-Flash-Lite:实现轻量化 MoE 高效推理
美团LongCat团队开源68.5B MoE大模型LongCat-Flash-Lite,创新采用N-gram Embedding架构,推理仅激活2.9B–4.5B参数,却在Agent工具调用、代码生成等任务上大幅领先;支持256K长上下文,API生成速度达500–700 token/s,MIT协议开源。
406 6

热门文章

最新文章