LLaDA2.0-Uni 开源: 打破 AR 桎梏,dLLM定义原生多模态统一新范式

简介: LLaDA2.0-Uni是全球首个开源的多模态MoE离散扩散大模型(dLLM),以16B参数统一实现图像理解、生成与编辑。突破性采用全离散扩散建模,摆脱自回归依赖,支持并行解码与任意分辨率;语义视觉Token+定制Diffusion Decoder,8步即出高质量图。已在21项基准登顶,全面开源。

近日LLaDA 2.0 系列的首个多模态 MoE 模型LLaDA2.0-Uni正式开源。LLaDA2.0-Uni 是统一的离散扩散大语言模型(dLLM),专为原生多模态理解与生成而设计。

核心突破:不同于常规的自回归路径,LLaDA2.0-Uni 采用全离散扩散建模,彻底打破了文本单向生成与图像全局扩散之间的底层范式壁垒,为构建视觉-语言原生统一的多模态架构提供了全新的解法。

全能表现:一个模型,搞定一切。无论是图像理解、图像生成还是图像编辑,LLaDA2.0-Uni 在三大领域均已达到统一模型的领先水准。

全面开源:

GitHub:https://github.com/inclusionAI/LLaDA2.0-Uni

模型

Hugging Face:https://huggingface.co/inclusionAI/LLaDA2.0-Uni

ModelScope:https://modelscope.cn/models/inclusionAI/LLaDA2.0-Uni

论文:

https://arxiv.org/abs/2604.20796

架构设计

LLaDA2.0-Uni 采用 LLaDA-2.0-mini 作为 dLLM 骨干网络,这是一个总参数量为 16B 的 MoE 模型。模型架构具体设计:

  • 极简统一离散扩散建模:

依托 LLaDA 2.0 的 MoE 基座,将多模态理解与生成任务深度整合为统一的分块掩码预测(block-wise mask prediction)范式。通过纯粹的掩码预测目标进行全离散扩散建模,彻底打破了传统多模态模型对自回归(AR)范式的依赖,并原生具备并行解码的极速推理优势。

  • 语义离散视觉表征:

彻底摆脱传统 VQ 方法依赖像素重建的局限,将图像转化为纯粹的语义离散 Token。通过将旋转位置编码(RoPE)与灵活的尺寸设计巧妙结合,在实现零架构改动的前提下,原生解锁了对任意分辨率的完美支持。

  • 极致高效的定制化 Diffusion Decoder:

为语义离散 Token 专属设计了高保真 Diffusion Decoder。配合少步蒸馏技术大幅优化解码效率,仅需 8 步推理即可实现高质量、细节丰富的视觉生成。

LLaDA2.0-Uni 性能表现解析

多模态理解能力 在多模态理解方面,LLaDA2.0-Uni 在 21 个权威基准上表现优异,在通用 VQA、逻辑推理与 OCR/文档理解三大核心场景中均表现出顶尖水准,性能足以媲美专有视觉语言模型(VLMs)。

  • 通用与复杂推理:

综合实力基准 MMBench-EN 高达 81.5 分,通用 VQA 任务 MMStar 斩获 64.1 分,数学推理 MathVista-mini 达 68.1 分。

  • 高难度视觉解析:

面对复杂的排版与文字,DocVQA 取得 89.5 分的优异成绩,OCRBench 达到 75.7 分,展现了精准的细粒度特征捕捉能力。

图像生成能力 我们通过多维度的测试(通用生成、文字渲染、基于推理的生成)对 LLaDA 2.0-Uni 进行了全面评估。模型展现出超越强基线的卓越表现:

  • 语义对齐:

在通用基准中展现了强大的组合生成实力。其 GenEval上获得0.89的分数,并在DPG-Bench 斩获 87.76 高分。在UniGenBench以及One-IG-En评测榜单上也位于前列。

  • 文本渲染:

在极具挑战的 CVTG-2K 评测中取得 0.765 分,并在多区域复杂文本生成中保持了极高的稳定性。

  • 推理类生成:

在开启“思维链生成模式”后,模型在 WISE-Bench 上的得分达到 0.78,生动印证了逻辑前置对复杂图像生成质量的显著提升。

图像编辑能力 在图像编辑领域,LLaDA 2.0-Uni 展现了极高的稳定性与超强的能力:

  • 高保真双语响应:

在 GEdit 基准测试中,中英文指令(英 6.61 / 中 6.66)均获得高分。特别是在“感知质量”子项表现强劲,证明了模型具备在完美保留原图视觉质感的前提下,精准执行编辑指令的“无损级”修改能力。

  • 多参考复杂编辑:

在极度考验多图能力的 MICo-Bench 评测中获得 47.1 分,成功超越现有基线模型。

进阶能力:从「理解与生成」到「推理与思考」

思维链生成(Chain-of-Thought Generation) 多模态大模型不应只是被动的“画笔”,更应是具备逻辑的“创作者”。LLaDA2.0-Uni具备“先思考,再生成”的底层能力。这意味着,生成图像不再是简单的像素概率堆砌,而是一场经过严密推演的创作过程。

在推理类多模态生成基准 WISE-Bench 上,LLaDA2.0-Uni 常规状态下便展现出 0.68 的强劲竞争力;而值得一提的是,当引入“思维链生成”后,模型性能直接迎来了额外 10% 的显著跃升,综合得分飙升至 0.78。

交错生成与推理(Interleaved Generation & Reasoning) 尽管目前许多统一模型已初步具备图文交错生成(Interleaved Generation)的能力,但这往往局限于形式上的“图文排版”。如何在此基础上,利用图文交错推理来解决复杂的逻辑问题,不仅是下一代多模态大模型的核心演进方向,更是实现“理解与生成”相互促进、闭环演进的关键途径。

LLaDA2.0-Uni 在该方向上迈出了重要一步,它可以在逻辑推演的过程中,自发地生成中间态的图像来辅助认知与表达,真正实现了从“形式上的交错”向“认知深度上的交错”的跨越。

总结

LLaDA2.0-Uni 代表了多模态模型的新范式。通过离散扩散架构,它实现了单一训练目标下的理解与生成统一,并为图文交错生成与深度推理打下了坚实的底层基石。研究团队正在将 LLaDA2.0-Uni 与高性能推理框架 SGLang 进行深度集成以进一步加速推理,将很快面向社区。期待与社区一起,推动下一代统一基础模型的发展。

https://github.com/inclusionAI/LLaDA2.0-Uni

魔搭社区672 搭子 · 509 讨论 圈子

目录
相关文章
|
8天前
|
缓存 人工智能 自然语言处理
我对比了8个Claude API中转站,踩了不少坑,总结给你
本文是个人开发者耗时1周实测的8大Claude中转平台横向评测,聚焦Claude Code真实体验:以加权均价(¥/M token)、内部汇率、缓存支持、模型真实性及稳定性为核心指标。
3217 20
|
20天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
17489 59
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
22小时前
|
SQL 人工智能 弹性计算
阿里云发布 Agentic NDR,威胁检测与响应进入智能体时代
欢迎前往阿里云云防火墙控制台体验!
1147 2
|
3天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
1609 7
|
15天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
3145 29
|
2天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
1173 3
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
3天前
|
机器学习/深度学习 缓存 测试技术
DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型
DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。
1670 6
|
5天前
|
人工智能 测试技术 API
阿里Qwen3.6-27B正式开源:网友直呼“太牛了”!
阿里云千问3.6系列重磅开源Qwen3.6-27B稠密大模型!官网:https://t.aliyun.com/U/JbblVp 仅270亿参数,编程能力媲美千亿模型,在SWE-bench等权威基准中表现卓越。支持多模态理解、本地部署及OpenClaw等智能体集成,已开放Hugging Face与ModelScope下载。

热门文章

最新文章