一个能拿 IMO 金牌、能自己写操作系统、还开源的万亿参数思考模型,到底强在哪里?
最近大模型圈的军备竞赛已经从"谁参数多"进化到了"谁思考深"。就在今天,蚂蚁inclusionAI 团队正式发布并开源了 Ring-2.5-1T——号称全球首个基于混合线性注意力架构的万亿参数思考模型。
基本信息
Ring-2.5-1T 是 Ring-1T 的升级版,由 inclusionAI(蚂蚁集团旗下团队)打造。核心亮点三个字:快、深、长。
- 快:生成效率极高,32K 以上生成长度下,访存开销降低 10 倍以上,吞吐提升 3 倍以上。
- 深:深度思考能力强悍,IMO 2025 拿到 35/42 分(金牌水平),CMO 2025 拿到 105/126 分,远超金牌线。
- 长:长程执行能力突出,能在 Claude Code 里连续干活 2 小时写出一个能跑的迷你操作系统。
而且——完全开源,MIT 协议。
📎 开源链接
- GitHub:https://github.com/inclusionAI/Ring-V2.5
- ModelScope:https://modelscope.cn/models/inclusionAI/Ring-2.5-1T
- IMO/CMO 详细解答:https://github.com/inclusionAI/Ring-V2.5/tree/main/examples
架构创新
Ring-2.5-1T 的底层架构是 Ling 2.5,核心创新是混合线性注意力机制。
在通用智能体时代,深度思考(deep thinking)与长程执行(long-horizon agent)正成为语言基座的基本工作范式。这一转变对基座模型在长程推理解码效率上的架构能力提出了极高要求。作为迈向智能体模型(agentic model)架构的关键一步,Ling 2.5 架构在 Ling 2.0 架构基础上引入了混合线性注意力架构。通过增量训练方式,将 Ling 2.0 架构的 GQA 升级为 1:7 的 MLA + Lightning Linear结构。具体而言,我们基于此前发布的 Ring-flash-linear-2.0 技术路线,将部分 GQA 层改造为 Lightning Linear Attention,以显著提升长程推理场景下的吞吐能力。为进一步压缩 KV Cache,我们将其余 GQA 层近似转换为 MLA ,并对其中的 QK Norm 、Partial RoPE 等特性进行了针对性适配,以增强 Ling 2.5 架构在混合注意力架构下的表达能力。
- Lightning Linear Attention 层负责"跑量":用线性复杂度扛住长序列生成,大幅提升吞吐。
- MLA 层负责"压缩":进一步压缩 KV Cache 的显存占用,同时通过 QK Norm、Partial RoPE 等技巧保持模型的表达能力。
改造之后,激活参数从 51B 涨到了 63B,但推理效率反而大幅提升。官方测试显示,即便对比激活参数只有 32B 的 Kimi K2 架构,Ling 2.5 在长序列场景下的吞吐仍然有明显优势,而且生成越长,优势越大——这对思考模型和智能体场景来说简直是量身定做。
1T规模下的 Ling 2.5架构
改造后,Ring-2.5-1T 的激活参数量从 51B 提升至 63B。但在混合线性注意力架构的支持下,其推理效率相比 Ling 2.0 仍实现了大幅提升。即便与激活参数仅为 32B 的 KIMI K2 架构相比,1T 规模下的 Ling 2.5 架构在长程推理场景下的吞吐依然具有显著优势;且生成长度越长,吞吐优势越明显。
单机 8 卡 H20-3e ,batch size = 64 ,
不同生成长度下的解码吞吐(decode throughput)对比
单机 8 卡 H200 ,batch size = 64 ,
不同生成长度下的解码吞吐(decode throughput)对比
架构创新
深度思考:数学竞赛金牌选手
思考模型的核心能力当然是"思考"。Ring-2.5-1T 在训练策略上做了两个关键升级:
1. 引入 Dense Reward 机制
在 RLVR(基于验证器的强化学习)基础上,引入了 dense reward 来评估推理过程的严谨性,而不只是看最终答案对不对。这让模型学会了"好好推理",而不是"蒙对答案"。
2. 大规模全异步智能体 RL 训练
通过 fully-async agentic RL 训练框架,让模型能在复杂环境中进行长程自主决策和执行。
效果成绩单:
竞赛 |
满分 |
Ring-2.5-1T 得分 |
参考线 |
IMO 2025 |
42 |
35 |
金牌水平 |
CMO 2025 |
126 |
105 |
金牌线 78 / 国家集训队线 87 |
团队还公开了 IMO 和 CMO 的详细解答,有兴趣的同学可以去 GitHub 仓库看看它的证明过程,据说在推理严谨性和高阶证明技巧的使用上比 Ring-1T 有质的飞跃。
现已公开 Ring-2.5-1T 在 IMO 2025 与 CMO 2025 中的详细解答,完整内容可通过以下链接查看:https://github.com/inclusionAI/Ring-V2.5/tree/main/examples
长程执行:在 Claude Code 里写了个操作系统
光会做数学题还不够。团队把 Ring-2.5-1T 接入了 Claude Code 和 OpenClaw 智能体框架,测试它的长程软件开发能力。
他们给了模型一个相当硬核的任务:从零开发一个微型操作系统 TinyOS,要求包括:
- GRUB 引导 + Multiboot 标准
- 32 位保护模式
- 屏幕输出、键盘中断处理、内存分页
- 完整的 Makefile 和链接脚本
- 能用 QEMU 实际运行
Ring-2.5-1T 在 Claude Code 中连续运行了 2 小时 8 分钟,独立完成了整个任务。
这个案例非常直观地展示了思考模型在长程、多步骤、需要全局规划的软件工程任务中的潜力。
📎0b2egmafyaaai4abix4ovfuvam6dlqzqaxaa.f10002.mp4
研究团队尝试继续让 Ring-2.5-1T 丰富 TinyOS 的功能,输入如下 prompt:
好的,现在你继续开发,实现好 bash 的功能,使得使用 qemu 可以登录到一个 bash 命令界面,以执行一些简单的命令,比如 ls、pwd、cat 等。
最终开发的 TinyOS 如下视频所示:
📎0bc3haaagaaaz4aejkmoozuvaogdam4aaaya.f10002.mp4
研究团队将 Ring-2.5-1T 接入到个人 AI 助理 OpenClaw,帮助阅读 AI infra 文献,并用 JAVA 代码展示技术逻辑。
📎0bc35aadaaaacyak5omonnuvb2gdgduaamaa.f10002.mp4
模型效果
为评估 Ring-2.5-1T 的深度思考和长程执行能力,选取了具有代表性的开源思考模型(DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking)和闭源API(GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking)作为参考。 Ring-2.5-1T 在数学、代码、逻辑等高难推理任务(IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2)和智能体搜索、软件工程、工具调用等长程任务执行(Gaia2-search、Tau2-bench、SWE-Bench Verified)上均达到了开源领先水平。
另外还测试了深度思考模式(heavy thinking mode),通过在推理过程中扩展并行思考与总结,实现测试时扩展,从而有效提升推理的深度与广度。
模型实战
下载模型
🤖 ModelScope(国内加速):https://modelscope.cn/models/inclusionAI/Ring-2.5-1T
pip install modelscope modelscope download inclusionAI/Ring-2.5-1T
部署推理
目前官方推荐使用 SGLang 进行部署,支持 BF16 和 FP8 精度。由于是万亿参数 MoE 模型,需要多机多卡部署(示例配置为 4 节点 × 8 卡,TP=8, PP=4)。
# 克隆定制版 SGLang git clone -b ling_2_5 git@github.com:antgroup/sglang.git cd sglang && pip install -e "python" # 启动推理服务(以 4 节点为例) SGLANG_USE_MODELSCOPE=truepython -m sglang.launch_server --model-path $MODEL_PATH \ --tp-size 8 --pp-size 4 --dp-size 1 \ --trust-remote-code --nnodes 4 --node-rank 0
上下文窗口支持 128K,通过 YaRN 可扩展到 256K。
体验入口
Ling Studio(https://ling.tbox.cn/chat)和 ZenMux(https://zenmux.ai/)的在线体验和 API 服务即将上线。
一些诚实的局限性
官方也坦诚地指出了当前版本的不足:
- Token 效率还有优化空间,生成内容可能偏冗长。
- 指令遵循能力有待加强,复杂指令下可能出现偏差。
- 面向真实复杂任务的长程交付能力仍在持续打磨中。
- 训练仍在进行中,完整技术报告将随下一版本发布。
写在最后
Ring-2.5-1T 的发布释放了几个重要信号:
第一,混合线性注意力架构在万亿参数规模上是可行的。 这为思考模型和智能体时代的基座架构指出了一条明确的技术路线——不只是堆参数,还要在架构层面解决效率瓶颈。
第二,开源思考模型的能力边界在快速拓展。 从数学竞赛金牌到长程软件开发,Ring-2.5-1T 展示了开源模型在深度推理和自主执行上的巨大潜力。
第三,智能体化是大模型的下一个主战场。 Ring-2.5-1T 原生适配 Claude Code 等智能体框架的设计思路,说明模型厂商已经在为"AI 自己干活"的时代做准备了。
对于开发者来说,一个万亿参数、MIT 开源、架构创新、且在多个 benchmark 上达到开源 SOTA 的思考模型,无论是用来研究还是做应用,都值得关注和尝试。
点击即可跳转模型链接https://modelscope.cn/models/inclusionAI/Ring-2.5-1T