万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度

简介: 蚂蚁inclusionAI发布开源万亿参数思考模型Ring-2.5-1T,首创混合线性注意力架构,实现“快、深、长”三大突破:推理吞吐提升3倍+,IMO/CMO达金牌水平,可在Claude Code中连续2小时开发可运行的迷你操作系统。MIT协议完全开源。

一个能拿 IMO 金牌、能自己写操作系统、还开源的万亿参数思考模型,到底强在哪里?

最近大模型圈的军备竞赛已经从"谁参数多"进化到了"谁思考深"。就在今天,蚂蚁inclusionAI 团队正式发布并开源了 Ring-2.5-1T——号称全球首个基于混合线性注意力架构的万亿参数思考模型


基本信息

Ring-2.5-1T 是 Ring-1T 的升级版,由 inclusionAI(蚂蚁集团旗下团队)打造。核心亮点三个字:快、深、长

  • :生成效率极高,32K 以上生成长度下,访存开销降低 10 倍以上,吞吐提升 3 倍以上。
  • :深度思考能力强悍,IMO 2025 拿到 35/42 分(金牌水平),CMO 2025 拿到 105/126 分,远超金牌线。
  • :长程执行能力突出,能在 Claude Code 里连续干活 2 小时写出一个能跑的迷你操作系统。


而且——完全开源,MIT 协议


📎 开源链接

  • GitHub:https://github.com/inclusionAI/Ring-V2.5
  • ModelScope:https://modelscope.cn/models/inclusionAI/Ring-2.5-1T
  • IMO/CMO 详细解答:https://github.com/inclusionAI/Ring-V2.5/tree/main/examples


架构创新

Ring-2.5-1T 的底层架构是 Ling 2.5,核心创新是混合线性注意力机制


在通用智能体时代,深度思考(deep thinking)长程执行(long-horizon agent)正成为语言基座的基本工作范式。这一转变对基座模型在长程推理解码效率上的架构能力提出了极高要求。作为迈向智能体模型(agentic model)架构的关键一步,Ling 2.5 架构在 Ling 2.0 架构基础上引入了混合线性注意力架构。通过增量训练方式,将 Ling 2.0 架构的 GQA 升级为 1:7 的 MLA + Lightning Linear结构。具体而言,我们基于此前发布的 Ring-flash-linear-2.0 技术路线,将部分 GQA 层改造为 Lightning Linear Attention,以显著提升长程推理场景下的吞吐能力。为进一步压缩 KV Cache,我们将其余 GQA 层近似转换为 MLA ,并对其中的 QK Norm 、Partial RoPE 等特性进行了针对性适配,以增强 Ling 2.5 架构在混合注意力架构下的表达能力。

  • Lightning Linear Attention 层负责"跑量":用线性复杂度扛住长序列生成,大幅提升吞吐。
  • MLA 层负责"压缩":进一步压缩 KV Cache 的显存占用,同时通过 QK Norm、Partial RoPE 等技巧保持模型的表达能力。


改造之后,激活参数从 51B 涨到了 63B,但推理效率反而大幅提升。官方测试显示,即便对比激活参数只有 32B 的 Kimi K2 架构,Ling 2.5 在长序列场景下的吞吐仍然有明显优势,而且生成越长,优势越大——这对思考模型和智能体场景来说简直是量身定做。

1T规模下的 Ling 2.5架构


改造后,Ring-2.5-1T 的激活参数量从 51B 提升至 63B。但在混合线性注意力架构的支持下,其推理效率相比 Ling 2.0 仍实现了大幅提升。即便与激活参数仅为 32B 的 KIMI K2 架构相比,1T 规模下的 Ling 2.5 架构在长程推理场景下的吞吐依然具有显著优势;且生成长度越长,吞吐优势越明显

单机 8 卡 H20-3e ,batch size = 64 ,

不同生成长度下的解码吞吐(decode throughput)对比


单机 8 卡 H200 ,batch size = 64 ,

不同生成长度下的解码吞吐(decode throughput)对比


架构创新

深度思考:数学竞赛金牌选手

思考模型的核心能力当然是"思考"。Ring-2.5-1T 在训练策略上做了两个关键升级:

1. 引入 Dense Reward 机制

在 RLVR(基于验证器的强化学习)基础上,引入了 dense reward 来评估推理过程的严谨性,而不只是看最终答案对不对。这让模型学会了"好好推理",而不是"蒙对答案"。


2. 大规模全异步智能体 RL 训练

通过 fully-async agentic RL 训练框架,让模型能在复杂环境中进行长程自主决策和执行。


效果成绩单:

竞赛

满分

Ring-2.5-1T 得分

参考线

IMO 2025

42

35

金牌水平

CMO 2025

126

105

金牌线 78 / 国家集训队线 87


团队还公开了 IMO 和 CMO 的详细解答,有兴趣的同学可以去 GitHub 仓库看看它的证明过程,据说在推理严谨性和高阶证明技巧的使用上比 Ring-1T 有质的飞跃。

现已公开 Ring-2.5-1T 在 IMO 2025 与 CMO 2025 中的详细解答,完整内容可通过以下链接查看:https://github.com/inclusionAI/Ring-V2.5/tree/main/examples


长程执行:在 Claude Code 里写了个操作系统

光会做数学题还不够。团队把 Ring-2.5-1T 接入了 Claude Code 和 OpenClaw 智能体框架,测试它的长程软件开发能力。

他们给了模型一个相当硬核的任务:从零开发一个微型操作系统 TinyOS,要求包括:

  • GRUB 引导 + Multiboot 标准
  • 32 位保护模式
  • 屏幕输出、键盘中断处理、内存分页
  • 完整的 Makefile 和链接脚本
  • 能用 QEMU 实际运行


Ring-2.5-1T 在 Claude Code 中连续运行了 2 小时 8 分钟,独立完成了整个任务。


这个案例非常直观地展示了思考模型在长程、多步骤、需要全局规划的软件工程任务中的潜力。

📎0b2egmafyaaai4abix4ovfuvam6dlqzqaxaa.f10002.mp4

研究团队尝试继续让 Ring-2.5-1T 丰富 TinyOS 的功能,输入如下 prompt:

好的,现在你继续开发,实现好 bash 的功能,使得使用 qemu 可以登录到一个 bash 命令界面,以执行一些简单的命令,比如 ls、pwd、cat 等。


最终开发的 TinyOS 如下视频所示:

📎0bc3haaagaaaz4aejkmoozuvaogdam4aaaya.f10002.mp4

研究团队将 Ring-2.5-1T 接入到个人 AI 助理 OpenClaw,帮助阅读 AI infra 文献,并用 JAVA 代码展示技术逻辑。

📎0bc35aadaaaacyak5omonnuvb2gdgduaamaa.f10002.mp4

模型效果


为评估 Ring-2.5-1T 的深度思考和长程执行能力,选取了具有代表性的开源思考模型(DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking)和闭源API(GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking)作为参考。 Ring-2.5-1T 在数学、代码、逻辑等高难推理任务(IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2)和智能体搜索、软件工程、工具调用等长程任务执行(Gaia2-search、Tau2-bench、SWE-Bench Verified)上均达到了开源领先水平。


另外还测试了深度思考模式(heavy thinking mode),通过在推理过程中扩展并行思考与总结,实现测试时扩展,从而有效提升推理的深度与广度。


模型实战

下载模型

🤖 ModelScope(国内加速):https://modelscope.cn/models/inclusionAI/Ring-2.5-1T

pip install modelscope
modelscope download inclusionAI/Ring-2.5-1T

部署推理

目前官方推荐使用 SGLang 进行部署,支持 BF16 和 FP8 精度。由于是万亿参数 MoE 模型,需要多机多卡部署(示例配置为 4 节点 × 8 卡,TP=8, PP=4)。

# 克隆定制版 SGLang
git clone -b ling_2_5 git@github.com:antgroup/sglang.git
cd sglang && pip install -e "python"
# 启动推理服务(以 4 节点为例)
SGLANG_USE_MODELSCOPE=truepython -m sglang.launch_server --model-path $MODEL_PATH \
  --tp-size 8 --pp-size 4 --dp-size 1 \
  --trust-remote-code --nnodes 4 --node-rank 0

上下文窗口支持 128K,通过 YaRN 可扩展到 256K。

体验入口

Ling Studio(https://ling.tbox.cn/chat)和 ZenMux(https://zenmux.ai/)的在线体验和 API 服务即将上线。


一些诚实的局限性

官方也坦诚地指出了当前版本的不足:

  • Token 效率还有优化空间,生成内容可能偏冗长。
  • 指令遵循能力有待加强,复杂指令下可能出现偏差。
  • 面向真实复杂任务的长程交付能力仍在持续打磨中。
  • 训练仍在进行中,完整技术报告将随下一版本发布。


写在最后

Ring-2.5-1T 的发布释放了几个重要信号:

第一,混合线性注意力架构在万亿参数规模上是可行的。 这为思考模型和智能体时代的基座架构指出了一条明确的技术路线——不只是堆参数,还要在架构层面解决效率瓶颈。

第二,开源思考模型的能力边界在快速拓展。 从数学竞赛金牌到长程软件开发,Ring-2.5-1T 展示了开源模型在深度推理和自主执行上的巨大潜力。

第三,智能体化是大模型的下一个主战场。 Ring-2.5-1T 原生适配 Claude Code 等智能体框架的设计思路,说明模型厂商已经在为"AI 自己干活"的时代做准备了。


对于开发者来说,一个万亿参数、MIT 开源、架构创新、且在多个 benchmark 上达到开源 SOTA 的思考模型,无论是用来研究还是做应用,都值得关注和尝试。


点击即可跳转模型链接https://modelscope.cn/models/inclusionAI/Ring-2.5-1T

目录
相关文章
|
2月前
|
机器学习/深度学习 存储 自然语言处理
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
Ling-2.5-1T是蚂蚁集团inclusionAI推出的开源即时大模型(MIT协议),以“效率×效果”为核心:万亿参数、63B激活,首创混合线性注意力架构,支持百万token上下文;推理吞吐大幅提升,AIME任务仅需1/3 token即达前沿思考模型水平。ModelScope可下载。
595 4
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
|
2月前
|
机器学习/深度学习 编解码 JSON
FantasyWorld 正式开源!一次前向传播,同时生成视频与 3D 几何——视频世界模型的新范
高德地图发布「FantasyWorld」——新一代几何一致世界模型,单次前向即可生成高质量视频与3D场景(深度图、点云、相机轨迹),无需后处理或逐场景优化。ICLR 2026录用,WorldScore榜首,已开源代码与模型。
508 6
|
2月前
|
安全 网络安全 数据安全/隐私保护
2026年OpenClaw(Clawdbot)服务器安全配置指南:从部署到加固步骤
OpenClaw(原Clawdbot、Moltbot)作为高权限AI自动化工具,其私有化部署特性意味着服务器的安全直接关系到数据隐私与系统稳定。2026年,随着AI Agent技术的普及,针对云服务器的暴力破解、权限滥用、端口扫描等攻击手段愈发频繁。阿里云作为国内领先的云服务平台,提供了多层次的安全防护机制,结合OpenClaw的特性进行针对性加固,能有效抵御各类安全风险。
1666 4
|
2月前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
491 8
|
2月前
|
机器学习/深度学习 自然语言处理 API
Qwen3-Coder-Next开源!推动小型混合模型在智能体编程上的边界
Qwen团队开源Qwen3-Coder-Next:基于Qwen3-Next-80B的轻量级编程智能体模型,采用混合注意力+MoE架构,通过可执行任务合成与强化学习训练,在SWE-Bench Verified达70%+,以仅3B激活参数媲美10–20倍大模型,兼顾高性能与低成本部署。(239字)
1662 4
|
3月前
|
机器学习/深度学习 测试技术 数据中心
九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代
2026年首日,九坤创始团队成立的至知创新研究院开源IQuest-Coder-V1系列代码大模型,涵盖7B至40B参数,支持128K上下文与GQA架构,提供Base、Instruct、Thinking及Loop版本。采用创新Code-Flow训练范式,模拟代码演化全过程,提升复杂任务推理能力,在SWE-Bench、LiveCodeBench等基准领先。全阶段checkpoint开放,支持本地部署与微调,助力研究与应用落地。
1192 2
|
2月前
|
机器学习/深度学习 人工智能 算法
自进化≠自我刷题,Agent 真正的突破口是「自己造环境」?——6 位领域学者 · 7 大议题 · 2 万字圆桌观点实录
AI AMA首期聚焦“Agent自进化”,由魔搭等联合发起,邀请翟云鹏主持及5位顶会作者深度对谈。围绕定义、泛化能力、反馈信号、评估体系等7大议题,探讨Agent如何突破“从零开始”瓶颈,实现类人经验积累与策略优化。(239字)
276 6
|
5月前
|
机器学习/深度学习 算法 物联网
Mcore Bridge:迈向Megatron训练"零门槛"时代
魔搭社区推出Mcore-Bridge与Megatron-SWIFT,显著降低大模型训练门槛。支持safetensors格式、一键启动、无需权重转换,兼容MoE等架构,实现高性能与易用性统一,让Megatron训练开箱即用。
1009 10
|
2月前
|
机器学习/深度学习 自然语言处理 API
Qwen3.5:迈向原生多模态智能体
除夕夜,通义千问发布Qwen3.5-397B-A17B:全球首个原生多模态MoE大模型,总参3970亿、仅激活170亿参数,性能媲美万亿模型;支持201种语言、超强视觉理解与GUI智能体能力,已开源至GitHub与ModelScope。
3449 4
Qwen3.5:迈向原生多模态智能体
|
2月前
|
人工智能 算法 测试技术
Boss直聘开源Nanbeige4.1-3B:小模型全能新标杆
Boss直聘南北阁实验室发布Nanbeige4.1-3B:一款仅3B参数的“小而全”统一模型,首次在同规模中系统整合强推理、人类偏好对齐与深度搜索Agent能力,性能超越Qwen3-32B等大模型,已开源权重、技术报告及合成数据。
834 4

热门文章

最新文章

下一篇
开通oss服务