蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"

简介: Ling-2.5-1T是蚂蚁集团inclusionAI推出的开源即时大模型(MIT协议),以“效率×效果”为核心:万亿参数、63B激活,首创混合线性注意力架构,支持百万token上下文;推理吞吐大幅提升,AIME任务仅需1/3 token即达前沿思考模型水平。ModelScope可下载。

大模型领域正在形成一个清晰的分野:思考模型(thinking model) 追求极限智能,而 即时模型(instant model) 则在效率和效果之间寻找最优解。前者像深思熟虑的学者,后者像反应敏捷的实干家。

Ling-2.5-1T 就是即时模型的新标杆。该模型由蚂蚁集团 inclusionAI 团队推出,是百灵(Ling)家族迄今最强的instant model,用约 1/4 的 token 消耗,逼近前沿思考模型的推理水平。

Ling-2.5-1T 完全开源(MIT 协议),在ModelScope 可下载

模型地址: https://modelscope.cn/models/inclusionAI/Ling-2.5-1T


模型特点

万亿参数,63B 激活

Ling-2.5-1T 拥有 1T 总参数,其中 63B 为激活参数(前代为 51B)。预训练语料从 20T token 扩展至 29T token,知识底座更加厚实。


混合线性注意力架构

这是本次升级最值得关注的技术亮点。Ling 2.5 在前代 GQA(分组查询注意力)基础上,引入了 MLA + Lightning Linear Attention 的混合架构:

  • 部分 GQA 层改造为 Lightning Linear Attention,大幅提升长文本场景下的解码吞吐;
  • 其余 GQA 层近似转换为 MLA(多头线性注意力),进一步压缩 KV Cache;
  • 同时针对 QK Norm、Partial RoPE 等特性做了适配优化。


实际效果如何? 即便激活参数从 51B 增加到 63B,推理效率反而大幅提升。在 H200 和 H20 硬件上的实测数据显示,Ling 2.5 架构在长序列生成场景下的吞吐优势尤为明显——生成越长,优势越大。

百万 token 上下文窗口

训练上下文窗口扩展至 256K token,并通过 YaRN 外推稳定支持最高 1M token 的超长上下文处理。在大海捞针(NIAH)测试中,Ling-2.5-1T 在百万级上下文窗口内均表现优异。


在 RULER、MRCR 等超长上下文基准中,它超越了采用 MLA/DSA 架构的 Kimi K2.5 和 DeepSeek V3.2,不过与 GPT-5.2、Gemini 3 Pro 等闭源 API 模型仍有差距,后续版本会持续优化。

单机8卡H20-3e,batch size = 64,

不同生成长度下的解码吞吐(decode throughput)对比

单机8卡H200,batch size = 64,

不同生成长度下的解码吞吐(decode throughput)对比

高效推理:用更少 token 做更多事

Ling-2.5-1T 延续了 演进式思维链 的后训练方法,并将强化学习奖励升级为兼顾"正确性"与"过程冗余"的复合指标。

一组直观的数据:在 AIME 2026(最新高难数学基准)上,Ling-2.5-1T 平均输出约 5890 token,而前沿思考模型通常需要 15K-23K token 才能达到类似水平。这意味着它用不到 1/3 的输出量,就能逼近深度推理的效果。


偏好对齐大幅提升

在 RLHF 阶段,团队引入了双向强化学习反馈机制

  • 惩罚端:联合专家构建细粒度惩罚项,精准打击逻辑谬误、事实幻觉和机械文风;
  • 奖励端:摒弃"长度导向",转向基于有效信息增益的奖励建模。


结果是模型显著抑制了"空洞辞藻"和"说教倾向",输出信息密度更高、逻辑更真实。

在指令遵循方面,通过 Agent-based 校验机制(Rubric + Code 断言构成的硬性校验奖励),IFEval 等基准上的多重约束执行准确率大幅提升。

原生智能体交互能力

基于大规模高保真交互环境进行 Agentic RL 训练后,Ling-2.5-1T 可直接适配 Claude Code、OpenCode、OpenClaw 等主流 Agent 产品,在通用工具调用基准 BFCL-V4 上达到开源领先水平。

模型评测

根据官方评测,与 DeepSeek V3.2、Kimi K2.5、GPT 5.2 等主流大尺寸即时模型对比,Ling-2.5-1T 在复杂推理指令遵循两个维度具有明显优势。

与前代 Ling-1T 相比,则是全方位的能力提升——知识、推理、Agent 交互、指令遵循、长文本处理各项基准均有显著进步。


模型实战

部署方案

推荐使用 SGLang 进行部署。 团队已为 SGLang 提供了专门的分支支持:

# 环境准备git clone -b ling_2_5 git@github.com:antgroup/sglang.gitcd sglangpip install --upgrade pippip install -e "python"

# 环境准备
git clone -b ling_2_5 git@github.com:antgroup/sglang.git
cd sglang
pip install --upgrade pip
pip install -e "python"

多节点部署示例(4 节点,每节点 8 卡):

# 节点 0
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path $MODEL_PATH \
  --tp-size 8 --pp-size 4 --dp-size 1 \
  --trust-remote-code \
  --dist-init-addr $MASTER_IP:2345 \
  --port $PORT --nnodes 4 --node-rank 0
# 节点 1-3 类似,修改 --node-rank 即可

调用方式(标准 OpenAI 兼容接口):

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "auto",
    "messages": [{"role": "user", "content": "你的问题"}]
  }'

硬件配置建议

由于模型总参数为 1T(激活 63B),部署需要多机多卡环境。参考配置:

场景

推荐配置

高性能推理

4 节点 × 8 卡 H200,TP=8, PP=4

性价比方案

4 节点 × 8 卡 H20,TP=8, PP=4

混合线性注意力架构使得 KV Cache 占用显著降低,长序列场景下的显存效率远优于纯 GQA 架构。

使用案例

写作与内容生成

偏好对齐的提升让 Ling-2.5-1T 在写作场景下体验明显改善:

  • 输出更加"言之有物",减少了空洞套话;
  • 支持复杂指令约束下的创作(如同时满足内容框架、细节要求、格式规范和字数限制);
  • 内置 AntV 可视化框架知识,可直接生成高质量的数据报表和 PPT 演示。

📎0b2eziadeaaaeuafye4smjuvbswdglfaamqa.f10002.mp4

长文本场景

Ling-2.5-1T 的长文本能力是一大亮点,推荐场景:

  • 金融财报分析:可以处理数值密集型的长篇财报,完成信息抽取、指标计算和深度分析;
  • 法律文书处理:能在严格遵循 10+ 项格式、内容、字数等约束的条件下,有条理地回答复杂法律问题;
  • 超长上下文:虽然支持 1M token,但 256K 以内的效果最为稳定,超长场景建议做好内容分段和关键信息标注。

prompt:Berkeley Lights 公司 2019H2 与 2020H1 财报对比的案例,展示了模型可以对一篇数值密集型的金融财报进行信息抽取汇总,并能对重点财务衍生指标进行复杂计算,并得到财报的深度分析结论。

📎0bc3eubqwaadi4agik4ruzuvgjodbmsqgcya.f10002.mp4


Agent / 编程场景

Ling-2.5-1T 在 Agent 场景下的表现值得一试:

  • Claude Code / OpenCode 适配:模型已针对这些框架做了专门优化,意图理解和操作连贯性显著提升;
  • 完整项目生成:官方演示中,模型能在单次会话中从零生成包含前后端分离架构的完整可运行项目(如 MiniAlipay);
  • 游戏/可视化:一句话生成 Flappy Bird 游戏、蒸汽波风格翻牌游戏、数据可视化 Dashboard 等,代码质量较高。

Prompt:请你写一个 minialipay,前后端分离架构 + 内存数据库存储,支持基础的用户登录、转账等功能,并且有新春特色的集五福功能,欢庆春节主题。

📎0bc3haab4aaazuag57esszuvaogddy4aahqa.f10002.mp4

更多精彩示例,详见官方展示 Ling-2.5-1T,普惠智能,即时响应


Ling-2.5-1T 代表了一种务实的技术路线:不追求无限堆算力的深度推理,而是在效率和效果之间找到更优的平衡点。万亿参数、百万上下文、开源 MIT 协议——这些关键词的组合,让它成为当前开源即时模型中极具竞争力的选择。


对于需要高吞吐、长上下文处理、Agent 交互能力的团队和开发者来说,Ling-2.5-1T 值得认真评估和尝试。


点击即可跳转模型链接:https://modelscope.cn/models/inclusionAI/Ling-2.5-1T

目录
相关文章
|
20天前
|
机器学习/深度学习 人工智能 资源调度
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
蚂蚁inclusionAI发布开源万亿参数思考模型Ring-2.5-1T,首创混合线性注意力架构,实现“快、深、长”三大突破:推理吞吐提升3倍+,IMO/CMO达金牌水平,可在Claude Code中连续2小时开发可运行的迷你操作系统。MIT协议完全开源。
269 21
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
|
20天前
|
人工智能 算法 测试技术
Boss直聘开源Nanbeige4.1-3B:小模型全能新标杆
Boss直聘南北阁实验室发布Nanbeige4.1-3B:一款仅3B参数的“小而全”统一模型,首次在同规模中系统整合强推理、人类偏好对齐与深度搜索Agent能力,性能超越Qwen3-32B等大模型,已开源权重、技术报告及合成数据。
575 4
|
19天前
|
人工智能 自然语言处理 JavaScript
Deepseek百万 Token 窗口的极限实践:一位非专业人员使用实录
摘要:此文非技术评测,而是一份关于Deepseek最新百万token窗口的真实工程“长程思考”实录。本人非AI与计算机专业,从事生物医学与心理学工作,人文爱好者。利用十天时间,通过浏览器deepseek云端模型百万token对话窗口,实现了一套从本地环境设置、工具流搭建、数据建库与向量化的整个工程。本文记录了主要的过程与指标。 时间:2026 年 2 月
|
20天前
|
缓存 架构师 前端开发
MiniMax M2.5 开源,低成本Agent时代来了!社区Day0部署、工具调用、推理&提示词参数实战来啦!
2月13日,MiniMax发布M2.5大模型,108天内三连更!编程(SWE-Bench 80.2%)、搜索(BrowseComp 76.3%)、办公场景全面领先,开源权重已上线ModelScope,支持API调用、本地部署及工具调用。
1912 7
|
1月前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
305 8
|
20天前
|
机器学习/深度学习 自然语言处理 API
Qwen3.5:迈向原生多模态智能体
除夕夜,通义千问发布Qwen3.5-397B-A17B:全球首个原生多模态MoE大模型,总参3970亿、仅激活170亿参数,性能媲美万亿模型;支持201种语言、超强视觉理解与GUI智能体能力,已开源至GitHub与ModelScope。
2076 4
Qwen3.5:迈向原生多模态智能体
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
2月11日,蚂蚁百灵团队开源全模态大模型Ming-flash-omni-2.0(基于Ling-2.0 MoE架构),在视觉理解、语音交互与图像编辑三大领域实现代际跃迁,达开源领先水平。支持多模态统一生成与深度编辑,模型权重与代码已开放。
489 4
 蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
|
19天前
|
机器学习/深度学习 人工智能 编解码
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
355 4
|
20天前
|
人工智能 语音技术 芯片
MiniCPM-o 4.5 CookBook:9B 参数玩转多模态全双工交互
MiniCPM-o 4.5是9B参数多模态大模型,支持图像、视频、音频、文本输入与高质量文/语音输出。具备领先视觉理解(OpenCompass平均77.6分)、实时中英双语语音对话、全双工流式交互、高精度OCR及30+语言能力,适配CPU/GPU/国产芯片,支持本地部署与微调。(239字)
364 4
|
14天前
|
机器学习/深度学习 人工智能 边缘计算
转行AI需谨慎:那些半途而废的人,都忽略了这几点。
2025年AI岗位需求暴增543%,但超六成转行者半年内放弃。本文揭示五大陷阱:盲目跟风忽视赛道适配、混淆工具使用与真实能力、碎片化学习缺实战闭环、急功近利轻视伦理、为高薪而非兴趣出发,并指出科学路径才是破局关键。(239字)
407 12

热门文章

最新文章