蚂蚁百灵双响开源:万亿旗舰 Ling-2.6-1T 与 高效 Agent 主力 Ling-2.6-flash

简介: 蚂蚁百灵开源双模型:Ling-2.6-1T(万亿参数旗舰)专注复杂任务多步执行与高智效比;Ling-2.6-flash(104B/7.4B激活)主打极致推理速度与Agent场景,Token效率达业界领先。二者兼顾“强智能”与“真落地”,全面支持生产级AI工作流。

随着大模型从"单轮问答"走向真实业务系统,行业的关注点正在发生变化。过去模型竞争更多围绕参数规模和榜单分数展开;但在真实生产环境中,开发者和企业真正关心的是:

  • 能否在复杂上下文中稳定理解任务?
  • 能否精准遵循指令、可靠调用工具?
  • 能否在多步骤工作流中持续执行?
  • 能否在成本、延迟、Token 消耗可控的前提下交付可用结果?

围绕这一趋势,蚂蚁百灵团队本次同步开源两款模型:

Ling-2.6-1T:万亿级综合旗舰,面向复杂任务,强调多步执行稳定性与高智效比

Ling-2.6-flash:总参 104B、激活 7.4B 的 Instruct 模型,主打极致推理效率与 Agent 场景表现。

Ling-2.6-1T:面向复杂任务的万亿旗舰模型

Ling-2.6-1T 不是为了单纯追求更长的思考链,或制造更强的"参数规模体感",而是面向真实复杂任务,系统性优化模型的智效比、指令执行、工具适配、长上下文承接、工程任务处理等核心能力。

它要解决三个问题:

  1. 更低 Token 开销下保持强综合智能:依托 MLA 与 Linear Attention 的 Hybrid 架构创新,结合抑制"过程冗余"的强化奖励策略,在保持 1T 参数能力上限的同时,减少对冗长思考链的依赖,以更高效的"快思考"机制直达结果。
  2. 复杂任务中实现更可靠的多步执行:强化对指令、工具、上下文与中间状态的持续把控,提升噪声环境下的推理与精准作答能力。
  3. 让万亿模型真正进入开发者和企业的生产工作流:具备从代码生成到缺陷修复的完整工程落地能力,并与主流 Agent 框架高度兼容。

换言之,Ling-2.6-1T 追求的不只是"更强",而是在真实使用中做到更高效、更落地、更智能。

模型表现

高智效比,进入第一梯队

在 Artificial Analysis 评测中,Ling-2.6-1T 以约 16M output tokens 达到约 34 分 Intelligence Index,进入图中的高吸引力区间。

  • 相比 Ling 系列早期旗舰 Ling-1T,能力实现明显跃迁;
  • 已展现出与 GPT-5.4(Non-Reasoning)同档的综合智能表现;
  • 相较部分依赖更高 token 消耗换取更高分数的模型,Ling-2.6-1T 在效率与能力之间更均衡。

更关键的是,Ling-2.6-1T 仅用 16M tokens 跑完完整评测,在同类模型中展现出极突出的 Token Efficiency,体现出更低成本、更高吞吐、更强落地性的综合优势。

复杂任务执行能力:多个执行类基准开源 SOTA

在推理、代码、工具调用、多步任务执行等维度,Ling-2.6-1T 展现出均衡的综合能力:

  • 高难推理:AIME26 取得 87.40,显著领先 GPT-5.4、GLM-5、DeepSeek-V3.2、Kimi-K2.5 等非思考模型;
  • Agent 执行:SWE-bench Verified 72.20、TAU2-Bench 78.36、Claw-Eval 51.00、BFCL-V4 70.64、PinchBench 87.40,均位列第一梯队;
  • 长上下文与指令遵循:MRCR (16K-256K) 80.37、IFBench 57.00,在多重约束下的执行准确率与逻辑一致性表现稳定。

在 Artificial Analysis Agentic Index 与 Coding Index 上,Ling-2.6-1T 也已进入头部模型梯队。

应用效果

Ling-2.6-1T 的目标是成为"复杂工作流中的核心模型"——既能理解复杂目标、拆解任务路径,也能在多样化 Agent harness、开发工具链与真实业务流程中稳定推进执行。

写代码生成游戏

复杂slide制作

网页搭建和设计表现

Ling-2.6-flash:更快响应、更强执行、更高 Token Efficiency

Ling-2.6-flash 是一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。它选择了一条不同的技术路径:不靠更长输出换取更高分数,而是围绕推理效率、Token 效率与 Agent 场景表现做系统性优化。

核心能力体现在三方面:

  1. 混合线性架构,释放推理效率:4 卡 H20 条件下推理速度最快可达 340 tokens/s,Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍。
  2. Token 效率优化,提升智效比:Artificial Analysis 完整评测仅消耗 15M tokens,约为 Nemotron-3-Super 等模型的 1/10。
  3. 面向 Agent 场景定向增强:在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等评测中,即使面对激活参数更大的模型,依然能够取得相近甚至 SOTA 级别的表现。

模型表现

输出速度第一梯队

在 Artificial Analysis 榜单的 Output Speed 维度,对比同参数量级别的主流模型,Ling-2.6-flash 以 215 tokens/s 的输出速度处于第一梯队。

智效比突出

在 Intelligence vs. Output Tokens 对比中,Ling-2.6-flash 以 15M output tokens 实现了 26 分 Intelligence Index,落在"最具吸引力象限"——而 Nemotron-3-Super 等模型需要 110M+ tokens 才能跑完同类评测。约 1/10 的 token 消耗,做到能力对齐。

Agent 场景对标 SOTA

针对当前需求最旺盛的 Agent 应用,Ling-2.6-flash 在工具调用、多步规划与任务执行能力上持续打磨。通用知识、数学推理、代码、长文本理解维度也保持同尺寸 SOTA 水准,整体保障全场景下稳健、优质的性能产出。

在多个代表性榜单上的核心数据:

应用效果

Ling-2.6-flash 已在多个真实开发框架中完成可用性验证,包括 Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw 等。

网页生成

Ling-2.6-flash 兼具高审美表达与高速代码生成能力,能够准确理解并调用前端组件与图标库,尤其适合单页面演示和原型制作中的快速验证。

INT4 量化版本在 DGX Spark 上运行

基于 Ling-2.6-flash & DGX Spark 构建的业界 SOTA Hermes 一体机方案,展示低门槛本地化部署能力。

Kilo Code 中的风格化网页生成

在 Kilo Code 中,Ling-2.6-flash 不只是代码生成器,更能将视觉指令快速转化为高质量界面。结合 Kilo Code 的工程底座,它能够胜任个性化视觉风格生成、报刊级排版,以及周刊、报告等办公内容的即时生成,实现兼顾速度与设计质感的“输入即成品”

Prompt 驱动的工作流执行

仅凭 Prompt,Ling-2.6-flash 即可胜任多步骤文本任务执行,在指令遵循、文风调整与实时生成方面表现突出,生成内容自然流畅。

autonovel 长篇小说写作

autonovel 是一款长篇小说写作助手,可覆盖世界观设定、角色构建、大纲生成到正文创作的全流程。基于 Ling-2.6-flash,autonovel 进一步提升了长篇创作的生成效率、上下文一致性与剧情推演能力,在超长文本生成、伏笔衔接和内容精修等环节表现突出。通过 200+ tokens/s 的极速生成,仅需几十分钟即可产出百万字长稿作品。

ModelScope API-Inference 体验

ModelScope API-Inference 已第一时间接入Ling-2.6-1T、Ling-2.6-flash,提供免费额度体验最新模型效果,进入对应模型详情页即可获得调用方法。

以 Ling-2.6-1T 为例:

从 Ling-2.6-1T 到 Ling-2.6-flash,百灵团队这次双料重磅开源的核心思路是一致的:不只是"更强",而是更高效、更落地、更智能。

  • 需要承接复杂工作流、多步执行、长上下文场景 → 选 Ling-2.6-1T
  • 需要高频 Agent 调用、低延迟、低成本部署 → 选 Ling-2.6-flash

两款模型互为补充,欢迎大家试用、反馈和交流。

点击 查看模型合集

https://www.modelscope.cn/organization/inclusionAI

目录
相关文章
|
1月前
|
人工智能 测试技术 Apache
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。
1032 12
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
|
3月前
|
人工智能 安全 测试技术
OpenClaw出事后开发者怒了,48小时造出省99%成本的AI技能共享系统-EvoMap
上周五(2月14号),OpenClaw创始人 Peter Steinberger 宣布加入OpenAI。 这个拥有20万+GitHub星的开源项目,创始人被OpenAI收编了。 但真正让开发者社区炸锅的,不是这件事本身。 而是同一天,ClawHub上大量中文开发者被集体封号。 封号理由极其荒谬——ClawHavoc恶意Skill事件后平台启动自动审核,大量中文开发者被误伤。 据反馈,系统把中文编码
|
10天前
|
SQL 运维 分布式计算
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS中。提供SQL健康分、服务/运行指标、SQL Pattern分析及优化建议五大维度监控,助力用户实时掌握请求量、并发、延时、错误率等关键数据,实现精细化治理与性能优化。(239字)
85 5
 如何做好SQL质量监控
|
3月前
|
存储 API 数据库
投稿 | Zvec: 开箱即用、高性能的嵌入式向量数据库
Zvec 是一款开源(Apache 2.0)轻量级嵌入式向量数据库,专为终端侧设计,具备开箱即用、资源可控、极致性能与完整向量能力四大优势,支持标量-向量混合查询、CRUD、崩溃恢复等生产级特性,让端侧RAG如SQLite般简单可靠。(239字)
598 7
|
4月前
|
机器学习/深度学习 存储 人工智能
国内首个全国产化千亿参数细粒度 MoE:开源!
TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。
394 2
国内首个全国产化千亿参数细粒度 MoE:开源!
|
1月前
|
人工智能 JSON Java
Spring AI Alibaba + MCP:调用MCP市场公开服务实操
本文详细讲解Spring Ai Alibaba调用MCP市场公开服务的全流程,以高德地图MCP服务为例,包含API-Key申请、客户端配置、代码实操,助力开发者快速掌握Spring Ai Alibaba与MCP服务对接技巧。
413 7
Spring AI Alibaba + MCP:调用MCP市场公开服务实操

热门文章

最新文章