大模型领域正在形成一个清晰的分野:思考模型(thinking model) 追求极限智能,而 即时模型(instant model) 则在效率和效果之间寻找最优解。前者像深思熟虑的学者,后者像反应敏捷的实干家。
Ling-2.5-1T 就是即时模型的新标杆。该模型由蚂蚁集团 inclusionAI 团队推出,是百灵(Ling)家族迄今最强的instant model,用约 1/4 的 token 消耗,逼近前沿思考模型的推理水平。
Ling-2.5-1T 完全开源(MIT 协议),在ModelScope 可下载
模型地址: https://modelscope.cn/models/inclusionAI/Ling-2.5-1T
模型特点
万亿参数,63B 激活
Ling-2.5-1T 拥有 1T 总参数,其中 63B 为激活参数(前代为 51B)。预训练语料从 20T token 扩展至 29T token,知识底座更加厚实。
混合线性注意力架构
这是本次升级最值得关注的技术亮点。Ling 2.5 在前代 GQA(分组查询注意力)基础上,引入了 MLA + Lightning Linear Attention 的混合架构:
- 部分 GQA 层改造为 Lightning Linear Attention,大幅提升长文本场景下的解码吞吐;
- 其余 GQA 层近似转换为 MLA(多头线性注意力),进一步压缩 KV Cache;
- 同时针对 QK Norm、Partial RoPE 等特性做了适配优化。
实际效果如何? 即便激活参数从 51B 增加到 63B,推理效率反而大幅提升。在 H200 和 H20 硬件上的实测数据显示,Ling 2.5 架构在长序列生成场景下的吞吐优势尤为明显——生成越长,优势越大。
百万 token 上下文窗口
训练上下文窗口扩展至 256K token,并通过 YaRN 外推稳定支持最高 1M token 的超长上下文处理。在大海捞针(NIAH)测试中,Ling-2.5-1T 在百万级上下文窗口内均表现优异。
在 RULER、MRCR 等超长上下文基准中,它超越了采用 MLA/DSA 架构的 Kimi K2.5 和 DeepSeek V3.2,不过与 GPT-5.2、Gemini 3 Pro 等闭源 API 模型仍有差距,后续版本会持续优化。
单机8卡H20-3e,batch size = 64,
不同生成长度下的解码吞吐(decode throughput)对比
单机8卡H200,batch size = 64,
不同生成长度下的解码吞吐(decode throughput)对比
高效推理:用更少 token 做更多事
Ling-2.5-1T 延续了 演进式思维链 的后训练方法,并将强化学习奖励升级为兼顾"正确性"与"过程冗余"的复合指标。
一组直观的数据:在 AIME 2026(最新高难数学基准)上,Ling-2.5-1T 平均输出约 5890 token,而前沿思考模型通常需要 15K-23K token 才能达到类似水平。这意味着它用不到 1/3 的输出量,就能逼近深度推理的效果。
偏好对齐大幅提升
在 RLHF 阶段,团队引入了双向强化学习反馈机制:
- 惩罚端:联合专家构建细粒度惩罚项,精准打击逻辑谬误、事实幻觉和机械文风;
- 奖励端:摒弃"长度导向",转向基于有效信息增益的奖励建模。
结果是模型显著抑制了"空洞辞藻"和"说教倾向",输出信息密度更高、逻辑更真实。
在指令遵循方面,通过 Agent-based 校验机制(Rubric + Code 断言构成的硬性校验奖励),IFEval 等基准上的多重约束执行准确率大幅提升。
原生智能体交互能力
基于大规模高保真交互环境进行 Agentic RL 训练后,Ling-2.5-1T 可直接适配 Claude Code、OpenCode、OpenClaw 等主流 Agent 产品,在通用工具调用基准 BFCL-V4 上达到开源领先水平。
模型评测
根据官方评测,与 DeepSeek V3.2、Kimi K2.5、GPT 5.2 等主流大尺寸即时模型对比,Ling-2.5-1T 在复杂推理和指令遵循两个维度具有明显优势。
与前代 Ling-1T 相比,则是全方位的能力提升——知识、推理、Agent 交互、指令遵循、长文本处理各项基准均有显著进步。
模型实战
部署方案
推荐使用 SGLang 进行部署。 团队已为 SGLang 提供了专门的分支支持:
# 环境准备git clone -b ling_2_5 git@github.com:antgroup/sglang.gitcd sglangpip install --upgrade pippip install -e "python"
# 环境准备 git clone -b ling_2_5 git@github.com:antgroup/sglang.git cd sglang pip install --upgrade pip pip install -e "python"
多节点部署示例(4 节点,每节点 8 卡):
# 节点 0 SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \ --model-path $MODEL_PATH \ --tp-size 8 --pp-size 4 --dp-size 1 \ --trust-remote-code \ --dist-init-addr $MASTER_IP:2345 \ --port $PORT --nnodes 4 --node-rank 0 # 节点 1-3 类似,修改 --node-rank 即可
调用方式(标准 OpenAI 兼容接口):
curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "auto", "messages": [{"role": "user", "content": "你的问题"}] }'
硬件配置建议
由于模型总参数为 1T(激活 63B),部署需要多机多卡环境。参考配置:
场景 |
推荐配置 |
高性能推理 |
4 节点 × 8 卡 H200,TP=8, PP=4 |
性价比方案 |
4 节点 × 8 卡 H20,TP=8, PP=4 |
混合线性注意力架构使得 KV Cache 占用显著降低,长序列场景下的显存效率远优于纯 GQA 架构。
使用案例
写作与内容生成
偏好对齐的提升让 Ling-2.5-1T 在写作场景下体验明显改善:
- 输出更加"言之有物",减少了空洞套话;
- 支持复杂指令约束下的创作(如同时满足内容框架、细节要求、格式规范和字数限制);
- 内置 AntV 可视化框架知识,可直接生成高质量的数据报表和 PPT 演示。
📎0b2eziadeaaaeuafye4smjuvbswdglfaamqa.f10002.mp4
长文本场景
Ling-2.5-1T 的长文本能力是一大亮点,推荐场景:
- 金融财报分析:可以处理数值密集型的长篇财报,完成信息抽取、指标计算和深度分析;
- 法律文书处理:能在严格遵循 10+ 项格式、内容、字数等约束的条件下,有条理地回答复杂法律问题;
- 超长上下文:虽然支持 1M token,但 256K 以内的效果最为稳定,超长场景建议做好内容分段和关键信息标注。
prompt:Berkeley Lights 公司 2019H2 与 2020H1 财报对比的案例,展示了模型可以对一篇数值密集型的金融财报进行信息抽取汇总,并能对重点财务衍生指标进行复杂计算,并得到财报的深度分析结论。
📎0bc3eubqwaadi4agik4ruzuvgjodbmsqgcya.f10002.mp4
Agent / 编程场景
Ling-2.5-1T 在 Agent 场景下的表现值得一试:
- Claude Code / OpenCode 适配:模型已针对这些框架做了专门优化,意图理解和操作连贯性显著提升;
- 完整项目生成:官方演示中,模型能在单次会话中从零生成包含前后端分离架构的完整可运行项目(如 MiniAlipay);
- 游戏/可视化:一句话生成 Flappy Bird 游戏、蒸汽波风格翻牌游戏、数据可视化 Dashboard 等,代码质量较高。
Prompt:请你写一个 minialipay,前后端分离架构 + 内存数据库存储,支持基础的用户登录、转账等功能,并且有新春特色的集五福功能,欢庆春节主题。
📎0bc3haab4aaazuag57esszuvaogddy4aahqa.f10002.mp4
更多精彩示例,详见官方展示 Ling-2.5-1T,普惠智能,即时响应
Ling-2.5-1T 代表了一种务实的技术路线:不追求无限堆算力的深度推理,而是在效率和效果之间找到更优的平衡点。万亿参数、百万上下文、开源 MIT 协议——这些关键词的组合,让它成为当前开源即时模型中极具竞争力的选择。
对于需要高吞吐、长上下文处理、Agent 交互能力的团队和开发者来说,Ling-2.5-1T 值得认真评估和尝试。
点击即可跳转模型链接:https://modelscope.cn/models/inclusionAI/Ling-2.5-1T