LLaDA2.1 正式开源,可纠错编辑机制让 100B 扩散模型突破 892 TPS 速度极限

简介: 蚂蚁研究院发布LLaDA2.1,首创“可纠错编辑(ECE)”机制,突破扩散语言模型(dLLM)速度与质量瓶颈:推理达892 TPS,支持极速/质量双模式,并集成业界首个dLLM强化学习框架EBPO。开源即用,迈向真正可用的下一代大模型。

在大语言模型的技术版图中,自回归(AR)架构长期占据主导地位,而扩散模型则被视作一条充满挑战的“非共识”路线。LLaDA2.0 已经成功证明了扩散语言模型(dLLM)规模化至 100B 参数的可行性,但生成速度与生成质量的平衡始终是横亘在扩散模型面前的核心难题。

今天,蚂蚁研究院正式发布 LLaDA2.1,通过可纠错编辑机制,首次让扩散语言模型在保持高质量的同时,将推理速度推至 892 TPS的新高度,让扩散语言模型从“研究探索”向“真正可用”迈进了一大步。

技术报告:https://huggingface.co/papers/2602.08676

GitHub地址:https://github.com/inclusionAI/LLaDA2.X

模型权重:https://modelscope.cn/collections/inclusionAI/LLaDA21

从“学术研究”到真正可用、甚至效率更优的强大工具,这一飞跃,源于以下三大技术亮点 ——


创新“可纠错编辑”机制 Error-Correcting Editable, ECE

作为实现飞跃的最核心创新,它赋予了扩散模型一种前所未有的“智慧”——像人类专家一样“起草-编辑”。

传统自回归模型像是一个不允许带草稿纸、不允许带提纲的考生,它下笔无悔,不允许修改自己写好的答案。LLaDA2.1 从根本上重构了这一范式。团队提出了 Token-to-Token(T2T)编辑机制,让模型具备「起草-编辑」的双重能力,在毫秒级的闪电采样中完成“草稿”到“正卷”的转身:

  • 起草阶段:模型以较低的置信度阈值快速并行生成初始草稿;
  • 编辑阶段:模型启动自我纠错,对已生成的 Token 进行回溯检查和迭代修正。

图 1:传统吸收态范式 vs LLaDA2.1 可纠错编辑机制


这种设计让扩散模型首次拥有了类似人类的「修改草稿」能力,解决了并行生成的误差累积问题,为高速解码奠定了理论基础。

灵活“双模式”设计Speedy Mode vs Quality Mode

基于可纠错编辑机制,LLaDA2.1 提供了两种截然不同的运行模式,将速度与生成的选择权交还给用户:


Speedy Mode(极速模式)

采用激进的低阈值策略进行 M2T 解码,以最大化并行度生成初始草稿,随后依赖 T2T 编辑机制进行精炼修正。这一模式实现了快速的推理速度,在代码生成等结构化任务中,仅带来可接受的性能折损。


Quality Mode(质量模式)

采用保守的高阈值策略,优先保证解码的精确性。在这一模式下,LLaDA2.1 在 33 项基准测试上全面超越 LLaDA2.0,并超越同类型扩散语言模型:

  • 代码能力:HumanEval+ 89.63%,CRUXEval-O 87.50%
  • 数学推理:AIME 2025 63.33%,GSM-Plus 89.69%
  • 智能体任务:BFCL v3 75.61%,IFEval 83.55%


双模式设计让用户真正成为速度与质量的决策者 —— 需要实时响应时选择 Speedy Mode,需要精确输出时则可以切换 Quality Mode,满足不同场景下的真实需求。


业界首个 dLLM 大规模 RL 框架

如果说“可纠错编辑”让模型变得“可用”,那么强化学习则让模型变得更“聪明”、更“可靠”,体感更强。LLaDA2.1 实现了首个专为 dLLM 设计的大规模强化学习框架。

图 2:LLaDA2.1 训练与推理框架概览


扩散模型的策略优化面临一个根本性障碍:序列级对数似然无法直接计算。在 100B 规模的扩散模型上跑通 RL 绝非易事。它不仅需要极强的工程底层支撑,要求从块状扩散(Block-diffusion)的条件概率转移视角,提出稳定的梯度估计算法,即 EBPO(ELBO-based Block-level Policy Optimization):

  • 使用 Evidence Lower Bound (ELBO) 作为似然的合理代理;
  • 结合 Vectorized Likelihood Estimation,实现边界估计的并行计算;


EBPO 不仅提升了训练效率,更为 dLLM 的后训练优化提供了稳定、可扩展的解决方案。这一突破让强化学习首次能够稳定地扩展到扩散语言模型的后训练阶段,显著提升了模型的指令遵循能力和人类意图对齐度。


性能表现

LLaDA2.1 开源两个版本:

LLaDA2.1 在保持高质量生成的同时,实现了突破性的推理速度 —— 892 TPS,是传统自回归模型的数倍。在多个生成场景中,它都能以闪电般的速度完成;尤其是在代码领域,平均达到了 600-700 的 TPS,让用户体验如丝般流畅。

图 3:LLaDA2.1 在 Mini 和 Flash 系列上的吞吐量对比


表 1:在不同场景上,LLaDA2.1 在 Mini 和 Flash 系列上的吞吐量


892 TPS 意味着什么?相当于每秒生成近 900 个 token,足以支撑实时交互、大规模部署等工业级应用场景。


这一速度飞跃的背后,正是可纠错编辑机制的支撑 —— 正因为模型具备自我修正的能力,才敢在初始阶段采用激进的低阈值策略快速生成,而不必担心错误累积导致质量崩塌。


最佳实践

使用Transformers推理

import torch
import torch.nn.functional as F
from modelscope import AutoModelForCausalLM, AutoTokenizer
model_path = "inclusionAI/LLaDA2.1-mini"
device = "auto"
model = AutoModelForCausalLM.from_pretrained(
    model_path, trust_remote_code=True, device_map=device,
)
model = model.to(torch.bfloat16)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
prompt = """Calculate 1+5-28*0.5-200=?"""
input_ids = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    add_generation_prompt=True,
    tokenize=True,
    return_tensors="pt",
)
generated_tokens = model.generate(
    inputs=input_ids,
    eos_early_stop=True,
    gen_length=512,
    block_length=32,
    threshold=0.5,
    editing_threshold=0,
    temperature=0.0,
)
generated_answer = tokenizer.decode(
    generated_tokens[0],
    skip_special_tokens=True,
)
print(generated_answer)


显存占用:

LLaDA2.1 的意义不仅在于 892 TPS 的速度数字,更在于它证明了:通过技术创新,扩散语言模型完全可以在保持并行生成优势的同时,克服质量与速度的传统权衡。


可纠错编辑机制的引入,让 dLLM 第一次拥有了“自我修正”的智慧;双模式设计让用户真正成为速度与质量的决策者;强化学习框架则为扩散模型的后训练开辟了新的可能性。


诚挚邀请社区开发者体验 LLaDA2.1,也欢迎有志于探索 LLaDA 模型的同学加入团队,共同探索扩散语言模型的边界。


点击即可跳转模型合集https://modelscope.cn/collections/inclusionAI/LLaDA21


目录
相关文章
|
15天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
29722 102
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
5天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4238 0
|
11天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
5963 16
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
10天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4248 9
|
12天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5313 17
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
12天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
5801 5
|
14天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
7569 17
|
7天前
|
存储 人工智能 API
OpenClaw(Clawdbot)本地部署详细步骤与2026年OpenClaw一键部署官方教程参考
在AI办公自动化与智能代理工具日益普及的当下,OpenClaw作为原Clawdbot(曾用名Moltbot)迭代升级后的开源AI代理平台,凭借多渠道通信集成、大模型灵活调用及自动化任务执行等核心能力,成为个人处理日常事务与小型团队推进协作的得力助手。无论是追求数据自主可控的本地部署,还是倾向于7×24小时稳定运行的云端部署,用户都能找到适配的实现路径。2026年阿里云针对OpenClaw推出的预置镜像一键部署方案,更是大幅降低了云端使用门槛。本文将详细拆解OpenClaw的本地安装流程与阿里云快速部署步骤,同时补充注意事项与问题排查方法,助力不同需求的用户顺利搭建专属AI助手。
2337 1

热门文章

最新文章