LLaDA2.0-Uni 开源: 打破 AR 桎梏,dLLM定义原生多模态统一新范式

简介: LLaDA2.0-Uni是全球首个开源的多模态MoE离散扩散大模型(dLLM),以16B参数统一实现图像理解、生成与编辑。突破性采用全离散扩散建模,摆脱自回归依赖,支持并行解码与任意分辨率;语义视觉Token+定制Diffusion Decoder,8步即出高质量图。已在21项基准登顶,全面开源。

近日LLaDA 2.0 系列的首个多模态 MoE 模型LLaDA2.0-Uni正式开源。LLaDA2.0-Uni 是统一的离散扩散大语言模型(dLLM),专为原生多模态理解与生成而设计。

核心突破:不同于常规的自回归路径,LLaDA2.0-Uni 采用全离散扩散建模,彻底打破了文本单向生成与图像全局扩散之间的底层范式壁垒,为构建视觉-语言原生统一的多模态架构提供了全新的解法。

全能表现:一个模型,搞定一切。无论是图像理解、图像生成还是图像编辑,LLaDA2.0-Uni 在三大领域均已达到统一模型的领先水准。

全面开源:

GitHub:https://github.com/inclusionAI/LLaDA2.0-Uni

模型

Hugging Face:https://huggingface.co/inclusionAI/LLaDA2.0-Uni

ModelScope:https://modelscope.cn/models/inclusionAI/LLaDA2.0-Uni

论文:

https://arxiv.org/abs/2604.20796

架构设计

LLaDA2.0-Uni 采用 LLaDA-2.0-mini 作为 dLLM 骨干网络,这是一个总参数量为 16B 的 MoE 模型。模型架构具体设计:

  • 极简统一离散扩散建模:

依托 LLaDA 2.0 的 MoE 基座,将多模态理解与生成任务深度整合为统一的分块掩码预测(block-wise mask prediction)范式。通过纯粹的掩码预测目标进行全离散扩散建模,彻底打破了传统多模态模型对自回归(AR)范式的依赖,并原生具备并行解码的极速推理优势。

  • 语义离散视觉表征:

彻底摆脱传统 VQ 方法依赖像素重建的局限,将图像转化为纯粹的语义离散 Token。通过将旋转位置编码(RoPE)与灵活的尺寸设计巧妙结合,在实现零架构改动的前提下,原生解锁了对任意分辨率的完美支持。

  • 极致高效的定制化 Diffusion Decoder:

为语义离散 Token 专属设计了高保真 Diffusion Decoder。配合少步蒸馏技术大幅优化解码效率,仅需 8 步推理即可实现高质量、细节丰富的视觉生成。

LLaDA2.0-Uni 性能表现解析

多模态理解能力 在多模态理解方面,LLaDA2.0-Uni 在 21 个权威基准上表现优异,在通用 VQA、逻辑推理与 OCR/文档理解三大核心场景中均表现出顶尖水准,性能足以媲美专有视觉语言模型(VLMs)。

  • 通用与复杂推理:

综合实力基准 MMBench-EN 高达 81.5 分,通用 VQA 任务 MMStar 斩获 64.1 分,数学推理 MathVista-mini 达 68.1 分。

  • 高难度视觉解析:

面对复杂的排版与文字,DocVQA 取得 89.5 分的优异成绩,OCRBench 达到 75.7 分,展现了精准的细粒度特征捕捉能力。

图像生成能力 我们通过多维度的测试(通用生成、文字渲染、基于推理的生成)对 LLaDA 2.0-Uni 进行了全面评估。模型展现出超越强基线的卓越表现:

  • 语义对齐:

在通用基准中展现了强大的组合生成实力。其 GenEval上获得0.89的分数,并在DPG-Bench 斩获 87.76 高分。在UniGenBench以及One-IG-En评测榜单上也位于前列。

  • 文本渲染:

在极具挑战的 CVTG-2K 评测中取得 0.765 分,并在多区域复杂文本生成中保持了极高的稳定性。

  • 推理类生成:

在开启“思维链生成模式”后,模型在 WISE-Bench 上的得分达到 0.78,生动印证了逻辑前置对复杂图像生成质量的显著提升。

图像编辑能力 在图像编辑领域,LLaDA 2.0-Uni 展现了极高的稳定性与超强的能力:

  • 高保真双语响应:

在 GEdit 基准测试中,中英文指令(英 6.61 / 中 6.66)均获得高分。特别是在“感知质量”子项表现强劲,证明了模型具备在完美保留原图视觉质感的前提下,精准执行编辑指令的“无损级”修改能力。

  • 多参考复杂编辑:

在极度考验多图能力的 MICo-Bench 评测中获得 47.1 分,成功超越现有基线模型。

进阶能力:从「理解与生成」到「推理与思考」

思维链生成(Chain-of-Thought Generation) 多模态大模型不应只是被动的“画笔”,更应是具备逻辑的“创作者”。LLaDA2.0-Uni具备“先思考,再生成”的底层能力。这意味着,生成图像不再是简单的像素概率堆砌,而是一场经过严密推演的创作过程。

在推理类多模态生成基准 WISE-Bench 上,LLaDA2.0-Uni 常规状态下便展现出 0.68 的强劲竞争力;而值得一提的是,当引入“思维链生成”后,模型性能直接迎来了额外 10% 的显著跃升,综合得分飙升至 0.78。

交错生成与推理(Interleaved Generation & Reasoning) 尽管目前许多统一模型已初步具备图文交错生成(Interleaved Generation)的能力,但这往往局限于形式上的“图文排版”。如何在此基础上,利用图文交错推理来解决复杂的逻辑问题,不仅是下一代多模态大模型的核心演进方向,更是实现“理解与生成”相互促进、闭环演进的关键途径。

LLaDA2.0-Uni 在该方向上迈出了重要一步,它可以在逻辑推演的过程中,自发地生成中间态的图像来辅助认知与表达,真正实现了从“形式上的交错”向“认知深度上的交错”的跨越。

总结

LLaDA2.0-Uni 代表了多模态模型的新范式。通过离散扩散架构,它实现了单一训练目标下的理解与生成统一,并为图文交错生成与深度推理打下了坚实的底层基石。研究团队正在将 LLaDA2.0-Uni 与高性能推理框架 SGLang 进行深度集成以进一步加速推理,将很快面向社区。期待与社区一起,推动下一代统一基础模型的发展。

https://github.com/inclusionAI/LLaDA2.0-Uni

魔搭社区672 搭子 · 509 讨论 圈子

目录
相关文章
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型应用:轻量化视觉语言模型(VLM):基于Qwen2-VL多模态模型实践.87
超紧凑视觉语言模型(如Qwen2-VL-2B)以仅20亿参数、约4GB体积,实现本地化图文理解与生成,支持CPU/入门GPU实时推理,兼顾精度与轻量部署,推动多模态AI走向终端、离线与普惠应用。
460 2
|
25天前
|
机器学习/深度学习 人工智能 图形学
🦞快在轻量化服务器上部署你的视觉龙虾吧——支持视觉识别到3D打印
彭博士打造的“视觉龙虾”系统,融合多视角3D重建、点云深度学习与参数化建模,支持手机拍照或自然语言输入,秒级生成可3D打印的STL模型。依托OpenClaw智能编排与阿里云轻量化部署,真正实现“想法→照片/文字→3D模型→实物”的端到端闭环,让3D打印零门槛。(239字)
365 8
🦞快在轻量化服务器上部署你的视觉龙虾吧——支持视觉识别到3D打印
|
15天前
|
人工智能 测试技术 调度
移动端 RPA 的架构重构:基于多模态视觉大模型的自动化调度系统压测复盘
本文复盘企业级移动端RPA重构实践,介绍如何以“侠客工坊”AI数字员工平台替代传统坐标录制方案:基于多模态大模型实现视觉语义决策、高并发多机型调度、零代码编排、异常自愈及MCP协议集成,显著提升自动化鲁棒性与运维效率。
136 10
|
16天前
|
消息中间件 缓存 API
DeepSeek-V4 核心能力落地与实战应用指南:从底层机制到多智能体架构复盘
本文以SaaS架构师视角,深度解析DeepSeek-V4在真实生产环境中的工程落地:聚焦上下文缓存优化、强约束JSON输出、多智能体协同调度,并分享高并发下的三大避坑实战指南,助力开发者高效构建AI原生应用。
472 6
|
2月前
|
人工智能 JavaScript 机器人
OpenClaw 阿里云轻量服务器部署+QQ机器人搭建|零代码命令速通+常见问题解答
2026年,OpenClaw(原Clawdbot)凭借轻量化部署、多平台接入与灵活的Skill扩展能力,成为个人与团队搭建专属AI助手的首选工具。对于新手而言,阿里云轻量服务器是部署OpenClaw的最优选择——成本低、稳定性强、7×24小时在线,搭配QQ可快速搭建能聊天、执行指令、自动处理任务的AI机器人,满足日常沟通、信息查询、任务管理等需求。
355 8
|
15天前
|
自然语言处理 数据可视化 测试技术
在ModelScope上实现模型评测与压测服务化:PivotEval
魔搭推出PivotEval模型评测服务,一键完成模型效果与性能压测。无需搭建环境、下载数据集或写脚本,只需提供API地址并选择基准(如MMLU、GSM8K等),平台自动执行评测,生成交互式可视化报告,支持在线分享与本地复现。
184 4
在ModelScope上实现模型评测与压测服务化:PivotEval
|
28天前
|
数据采集 人工智能 机器人
戴盟联合数十家头部机构,发布全球最大规模含触觉全模态物理世界数据集
4月15日,戴盟机器人发布全球最大含触觉全模态具身数据集Daimon-Infinity,年内规模将达数百万小时、近十亿条数据。首批10000小时高质量开源数据已上线魔搭社区,覆盖80+真实场景、2000+任务,显著提升模型训练效率10倍。
270 2
戴盟联合数十家头部机构,发布全球最大规模含触觉全模态物理世界数据集
|
22天前
|
人工智能 运维 前端开发
Kimi K2.6开源:编码能力比肩闭源顶级模型,支持300智能体协同
Moonshot AI开源Kimi K2.6,主打长时编码、智能体协同与前端设计生成。在Terminal-Bench 2.0、SWE-Bench Pro等基准上达开源SOTA,逼近GPT-5.4与Claude Opus 4.6;智能体集群扩展至300个子智能体、4000协调步。
894 6

热门文章

最新文章