美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!

简介: 美团LongCat团队发布并开源LongCat-Flash-Thinking-2601,升级支持“重思考模式”,在智能体搜索、工具调用等任务中达开源SOTA。具备强泛化与抗噪能力,支持在线免费体验,助力开发者高效落地复杂应用场景。

近日,美团 LongCat 团队正式对外发布并开源 LongCat-Flash-Thinking-2601。作为已发布的 LongCat-Flash-Thinking 模型的升级版,LongCat-Flash-Thinking-2601在Agentic Search(智能体搜索)Agentic Tool Use(智能体工具调用)TIR(工具交互推理)等核心评测基准上,均达到开源模型 SOTA 水平

该模型尤其在工具调用上表现出卓越的泛化能力,在依赖工具调用的随机复杂任务中性能超越了 Claude,可大幅度降低真实场景下新工具的适配训练成本;同时它是首个完整开源并支持在线免费体验「重思考模式」的模型,同时启动 8 个大脑飞速运转,确保思考周全、决策可靠。

目前该功能已经可以在 https://longcat.ai 网站免费体验(仅选择深度思考功能时会触发重思考模式)。



全新升级的「重思考」模式,让模型学会了“深思熟虑”再行动,遇到高难度问题时,模型会把思考过程拆成并行思考和总结归纳两步来做:

并行思考阶段,模型会同时独立梳理出好几条推理路径,就跟人面对难题时会琢磨不同解法一个道理,还会特意保证思路的多样性,生怕漏掉最优解;

总结归纳阶段,对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。

除此之外,研究团队还专门设计了额外的强化学习环节,针对性打磨模型的总结归纳能力,让 LongCat-Flash-Thinking-2601 真正实现“想清楚再行动”。


经过全面严谨的评估显示,LongCat-Flash-Thinking-2601 模型在编程、数学推理、智能体工具调用、智能体搜索维度表现全面领先:


  • 编程能力:LongCat-Flash-Thinking-2601 在 LCB 评测中取得 82.8 分,OIBench EN 评测获 47.7 分,成绩处于同类模型第一梯队,展现出扎实的代码基础能力。
  • 数学推理能力:在开启重思考模式后表现突出,LongCat-Flash-Thinking-2601 在 AIME-25 评测中获 100.0 分(满分),IMO-AnswerBench 中以 86.8 分达到当前 SOTA。
  • 智能体工具调用能力:在 τ²-Bench 评测中拿到 88.2 分,VitaBench 评测中获得 29.3 分,均获得开源 SOTA 水平,在多领域工具调用场景下表现优异,适配实际应用需求。
  • 智能体搜索能力:在 BrowseComp 任务中取得 73.1 分(全模型最优),RW Search 评测获 79.5 分,LongCat-Flash-Thinking-2601 具备强劲的信息检索与场景适配能力,达到开源领先水平


同时,为了更好的测试智能体模型的泛化能力,研究团队提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务。每个生成的任务都配备了对应的工具集与可执行环境。

由于这类环境中的工具配置具有高度随机性,研究团队通过评估模型在该类环境中的性能表现,来衡量其泛化能力。实验结果表明,LongCat-Flash-Thinking-2601 在绝大多数任务中保持领先性能,印证了其在智能体场景下强大的泛化能力。



传统智能体大多只在几个简单模拟环境里训练,就像士兵只练过靶场,到了真实“战场”就掉链子。而基于“环境扩展+多环境强化学习”核心技术,为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,每套集成60余种工具并形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验证明,训练环境越丰富,模型在未知场景中的泛化能力越强。得益于这套方案,LongCat-Flash-Thinking-2601 在智能体搜索、智能体工具调用等核心基准测试中稳居前列,尤其在复杂随机的分布外任务中性能优于Claude

同时研究团队针对性扩展自研强化学习基础设施(DORA),在保留原有高效异步训练特性的基础上实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率,筑牢能力根基。此外,研究团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞,让这套全流程方案持续赋能模型,稳居智能体能力第一梯队。


稳定上涨的多环境混合强化学习训练曲线


多环境强化学习训练下不同 OOD 测试集上的 RL Scaling 表现  


现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,研究团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习(Curriculum Learning)的方式循序渐进去做模型的训练,在训练过程中逐步增加噪声的类型与强度——如果类比成教小孩骑车,首先在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。

可以看到,带噪声环境下未经过稳健训练的模型的表现会出现大幅衰减,Claude 也无法适应全部的噪声类型。而经过这套系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/ Noise 组)拥有了强大的环境适应能力,哪怕在复杂、不理想的场景中,也能良好发挥、高效完成任务。


带噪声 / 无噪声评测集下的模型表现对比


为降低开发者使用门槛,美团 LongCat 团队同步开放模型权重、推理代码与在线体验能力,支持从快速试用至深度开发的全流程需求:


开源平台:

  • GitHubhttps://github.com/meituan-longcat/LongCat-Flash-Thinking-2601
  • ModelScopehttps://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601


在线体验与调用:

  • 官网https://longcat.ai
  • API开放平台https://longcat.chat/platform/usage


欢迎开发者下载、部署并体验 LongCat-Flash-Thinking-2601,同时也欢迎您在LongCat API 开放平台申请免费调用额度


点击直达模型链接~

https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601

目录
相关文章
|
20天前
|
机器学习/深度学习 文字识别 测试技术
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
阶跃星辰发布开源多模态小模型Step3-VL-10B,仅10B参数却媲美百亿级大模型,在视觉感知、逻辑推理、数学竞赛等任务中达同规模SOTA,支持端侧部署,推动智能终端交互革新。
219 6
|
23天前
|
机器学习/深度学习 存储 人工智能
国内首个全国产化千亿参数细粒度 MoE:开源!
TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。
162 2
国内首个全国产化千亿参数细粒度 MoE:开源!
|
23天前
|
API 语音技术
阶跃星辰原生语音推理模型登顶全球权威语音模型榜!开源!
阶跃星辰开源语音推理模型Step-Audio-R1.1登顶全球权威榜单,以96.4%准确率超越Grok、Gemini等,支持“边说边思考”,实现高智能实时交互,现已开放体验。
175 1
 阶跃星辰原生语音推理模型登顶全球权威语音模型榜!开源!
|
1月前
|
机器学习/深度学习 测试技术 数据中心
九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代
2026年首日,九坤创始团队成立的至知创新研究院开源IQuest-Coder-V1系列代码大模型,涵盖7B至40B参数,支持128K上下文与GQA架构,提供Base、Instruct、Thinking及Loop版本。采用创新Code-Flow训练范式,模拟代码演化全过程,提升复杂任务推理能力,在SWE-Bench、LiveCodeBench等基准领先。全阶段checkpoint开放,支持本地部署与微调,助力研究与应用落地。
833 2
|
22天前
|
JSON 人工智能 API
从对话到Agent:大模型工具调用能力的量化评测
大模型向Agent进化,工具调用是关键。本文介绍EvalScope评测框架,通过双重验证机制,量化评估模型“会不会用、能不能用好”工具,助力开发者打造可靠AI应用。
214 4
|
23天前
|
编解码 物联网 测试技术
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
774 1
|
22天前
|
人工智能 决策智能
多智能体军事协同系统:智能化防务体系中的关键技术框架
多智能体军事协同系统是智能化防务的重要理论方向,通过分布式感知、决策一致与协同控制,构建高效、鲁棒的系统协同模型。本文从概念、技术基础到发展趋势进行系统解析,探讨其在提升整体作战效能、推动系统智能演进中的理论价值,为相关研究提供参考。(238字)
145 2
|
2月前
|
缓存 前端开发 测试技术
GLM-4.7开源!交出“生产级代码”
智谱今日发布并开源GLM-4.7,专注Coding场景,显著提升编程、推理与工具协同能力,在多项基准测试中位居开源模型前列。已上线z.ai与智谱清言,支持API调用。
1500 3
|
1月前
|
人工智能 测试技术 开发者
AI Coding后端开发实战:解锁AI辅助编程新范式
本文系统阐述了AI时代开发者如何高效协作AI Coding工具,强调破除认知误区、构建个人上下文管理体系,并精准判断AI输出质量。通过实战流程与案例,助力开发者实现从编码到架构思维的跃迁,成为人机协同的“超级开发者”。
1633 106
|
20天前
|
存储 人工智能 缓存
别再把大脑当成 /dev/null 了!用这套AI指令给记忆装个 "Redis 缓存层"
本文将大脑记忆比作数据库存储,指出传统记忆的"无索引"缺陷。通过一套"记忆架构师AI指令",利用数据预处理、建立索引和持久化策略(遗忘曲线),帮助开发者构建高效、稳固的知识记忆系统,实现认知的"架构升级"。
409 4

热门文章

最新文章