AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒

简介: 清华、人大、面壁智能与OpenBMB联合推出4B参数智能体模型AgentCPM-Explore,在8大长程任务上实现同尺寸SOTA,性能比肩30B+大模型。支持百轮稳定交互、全流程开源,重塑端侧AI潜能。

当全行业还在争论 30B 能否挑战万亿参数时,OpenBMB给出了一个更激进的答案: 4B。没有万亿参数的算力堆砌,没有百万级数据的暴力灌入,清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的 AgentCPM-Explore 智能体模型基于仅 4B 参数的模型,在深度探索类任务上取得同尺寸模型 SOTA、越级赶上甚至超越 8B 级 SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果,真正让大模型的长程任务处理能力有望部署于端侧。

💡AgentCPM-Explore 核心亮点一览

  • 打破参数壁垒:首个具备 GAIA、Xbench、Browsercomp 等 8 个长难智能体任务处理能力的 4B 端侧模型,重新定义小模型性能天花板;
  • 长程深度探索:最高可实现超过 100 轮不重复且稳定的环境交互,持续深度探索直至任务准确完成;
  • 全流程开源:在开源模型的基础上进一步开源配套的工具沙盒统一管理调度平台 AgentDock、全异步强化学习训练框架 AgentRL、智能体能力一键式测评平台 AgentToLeaP,支持社区全流程复现与自定义扩展。


🔗相关链接

Github:https://github.com/OpenBMB/AgentCPM

模型:https://modelscope.cn/models/OpenBMB/AgentCPM-Explore

更高能力密度端侧智能体模型SOTA表现

AgentCPM-Explore在GAIA、HLE、Browsercomp、Browsercomp(ZH)、WebWalker、FRAMES、Xbench-DeepResesarch、Seal-0 主流智能体评测基准上均展现出 极致的参数效能比,不仅取得同尺寸模型 SOTA,而且越级赶上甚至超越两倍参数量(8B 级)SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果。

表1:8 个智能体评测任务榜单


在 Xbench-DeepResearch 上 AgentCPM-Explore 的表现超越了 OpenAI-o3,Claude-4.5-Sonnet 等闭源大模型,显著超越了不同量级 SOTA 模型的表现趋势线,展现出了更高的能力密度。

图1:Xbench 数据集模型表现效果分析(注:深度搜索任务通常存在较大的采样波动(可达 20%)。AgentCPM-Explore(及 MiroThinker)采用了高标准的 Avg@8 ,相比业界的单次/3 次设定,可将波动误差控制在 2% 以内,提供最真实、可复现的性能对比)

更宽能力边界深挖端侧智能体模型极致潜能

4B 端侧模型在 GAIA 上有希望做对几乎全部的题目!如图,基于 AgentDock 和 AgentRL 基建下的稳定的后训练,AgentCPM-Explore 实现了相较于 Qwen3-4B-thinking-2507 的成倍效果跃升,在允许多次尝试的情况下,能够解决 GAIA 文本任务中 95% 以上的题目。由此可见,小模型并非“能力受限”,而是“潜力被低估”。在正确的训练框架下,端侧模型完全具备解决绝大多数复杂难题的潜质。

图2:原模型 Qwen3-4B-thinking-2507 与经过后训练的 AgentCPM-Explore 能力边界一览

更多智能行为端侧智能体模型展现“类人”思考逻辑

在深度探索任务中,AgentCPM-Explore 打破了小模型“只会死记硬背”的刻板印象。如视频所示,面对“美国历届总统的出生地中,哪两个城市之间东西相距最远?”这一复杂难题,它像一位经验丰富的人类研究员一样思考:

  • 它会“质疑”: 拒绝盲信工具。当发现“Brookline, MA”被列为最东端时,它判断摘要可能遗漏了关键信息,果断要求重新核查全量数据;
  • 它能“求真”: 不满足于被压缩的二手信息,主动寻找完整版原始数据,确保决策基于事实全貌;
  • 它懂“变通”: 搜索不通就爬表,路径不对就搜库。从通用搜索到 GitHub 精准定位,它能根据反馈实时调整战术;
  • 它很“执着”: 面对连续的搜索无果不气馁,而是不断寻找替代信源,直到挖掘出最可靠的数据源。

全流程开源基建支持自定义扩展

该工作不仅开源了模型,更开源了 从 Base 模型(GAIA 25.24%)进化至 SOTA 模型(GAIA 63.90%)的全流程代码。通过以下三大基建,开发者可以轻松复现性能翻倍的训练过程,并快速实现私有化部署与自定义扩展。

1、AgentDock:工具沙盒统一管理调度平台

  • 高并发工具集成: 原生支持 16 个 MCP 服务及百余种工具。通过多版本轮询与负载均衡机制,支持核心高频使用工具 100+QPS 高并发调用。
  • 健全容错机制: 实现输出标准化、自动重试、服务自愈及备用工具自动切换,确保长程任务持续运行的稳定性。
  • 统一沙盒管理: 实现任务分发、容器编排与动态路由的统一管控。智能体所在客户端仅需关注“能力接口”,无需处理复杂的网络与并发细节,支持工具热插拔与弹性扩缩容。


2、AgentRL:极简高效的异步强化学习框架

  • 零门槛接入: 只需标准 ChatCompletions 接口即可无缝接入训练流程。
  • 极简代码架构: 核心实现仅 7 个文件、1000+ 行代码,极大降低学习与二开门槛,方便快速验证新想法。
  • 全异步训推同卡: 支持采样与训练在同一 GPU 上全异步流水线运行,极致压榨硬件性能。
  • 解耦与并行: 训采完全解耦,采样进程可独立扩缩容。兼容 PyTorch 原生并行及 FSDP2/Tensor Parallel/Context Parallel,轻松支持 128K+ 长文本训练。


3、AgentToLeaP:智能体能力一键式评测平台

  • 一键全自动化: 支持 GAIA、HLE 等 8 个主流榜单的一键测评,一行命令即可启动全流程评测。
  • 模块化扩展: 评测集独立管理,结果统一输出。开发者可参考文档,轻松接入自定义测试集。


端侧模型性能“以小博大”的关键点

4B 模型有限的参数容量在面对长周期、多交互的智能体任务时,容错空间极低。AgentCPM在实战中发现提升小模型智能体性能的三大核心挑战,并探索出了行之有效的应对方法。

以“模型融合”破解 SFT 过拟合。小模型在 SFT 阶段极易陷入“死记硬背”,研究团队实验发现,仅调整Prompt 中无关的工具描述,模型性能就会大幅下滑。这是典型的过拟合:模型牺牲了通用决策能力,记住了特定的任务模式。 研究团队采用参数融合技术,将训练后的“专用模型”与训练前的“通用模型”进行加权融合。其背后的机制在于:通专模型一致的泛化参数得以保留,互补的专业能力得以强化,而因过拟合产生的随机噪音参数则在融合中相互抵消。实测显示,融合后的模型在智能体任务上性能提升约 7%,有效实现了通专能力的平衡。


以“信号去噪”修正 RL 奖励偏差。智能体任务的轨迹动辄数十步,小模型对长链路中的负面信号极其敏感。一旦长序列在最后一步出错,传统 RL 会将惩罚回传至整条链路,导致中间正确的推理步骤也被“误杀”,致使模型训练崩塌。 研究团队实施严格的奖励信号去噪。筛选真正具备策略更新价值的轨迹,对于长步骤但最终失败的样本,不进行全轨迹惩罚,避免负面信号污染模型已学到的正确推理逻辑,保护小模型脆弱的训练。


以“信息精炼”对抗推理长文干扰。在模型推理时,网页返回的冗长噪音对小模型影响极大。对比实验表明,使用不同能力的模型(如 Qwen3-4B vs DeepSeek-v3.1)对上下文进行摘要,最终 GAIA 性能差异可达 10%。 研究团队引入上下文信息精炼机制,利用上下文管理工具或多模型协作的方式专门负责网页内容的过滤与摘要,在信息进入 4B 模型前完成信息过滤。通过构建高质量的“学习环境”,让小模型能聚焦于关键信息的处理,避免在海量噪声中迷失。


更多细节内容官方将在技术报告中详细描述。


点击即可跳转模型链接:https://modelscope.cn/models/OpenBMB/AgentCPM-Explore

目录
相关文章
|
19天前
|
人工智能 机器人 程序员
去年我用一张Excel表"规划"学习,结果把自己逼进了ICU——直到我学会让AI帮我排兵布阵
本文以作者因"完美计划表"累倒入院的亲身经历切入,分享了一套让AI担任私人学习规划师的完整指令模板。通过"目标拆解""遗忘曲线复习""弹性时间"三大机制,解决目标模糊、复习逃避、计划崩溃等常见学习痛点,并提供上班族、学生、转行者三种典型场景的实战案例。
261 18
|
20天前
|
安全 测试技术 API
MiniMax 开源新评测集:定义Coding Agent 的生产级标准
Coding Agent常因“过程违规”遭诟病,如无视指令、破坏规范。MiniMax推出OctoCodingBench,首创面向工程可靠性的过程评估体系,揭示当前模型在多规则协同下成功率极低,呼吁行业关注“过程正确性”,推动Agent从能用走向可用。
281 5
|
20天前
|
人工智能 自然语言处理 PyTorch
构建AI智能体:九十四、Hugging Face 与 Transformers 完全指南:解锁现代 NLP 的强大力量
Hugging Face 是领先的自然语言处理开源平台,提供 Transformers 等核心库,支持数千种预训练模型,涵盖文本分类、生成、问答等任务。其 Pipeline 工具简化了模型调用,AutoClass 实现架构自动识别,助力开发者高效构建 AI 应用。
341 10
|
23天前
|
自然语言处理 物联网 计算机视觉
从 Image-to-LoRA 到 In-Context Edit
阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。
326 6
|
20天前
|
数据采集 人工智能 IDE
告别碎片化日志:一套方案采集所有主流 AI 编程工具
本文介绍了一套基于MCP架构的轻量化、多AI工具代码采集方案,支持CLI、IDE等多类工具,实现用户无感、可扩展的数据采集,已对接Aone日志平台,助力AI代码采纳率分析与研发效能提升。
387 46
告别碎片化日志:一套方案采集所有主流 AI 编程工具
|
27天前
|
SQL 人工智能 分布式计算
从工单、文档到结构化知识库:一套可复用的 Agent 知识采集方案
我们构建了一套“自动提取 → 智能泛化 → 增量更新 → 向量化同步”的全链路自动化 pipeline,将 Agent 知识库建设中的收集、提质与维护难题转化为简单易用的 Python 工具,让知识高效、持续、低门槛地赋能智能体。
297 36
|
16天前
|
机器学习/深度学习 存储 人工智能
国内首个全国产化千亿参数细粒度 MoE:开源!
TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。
140 2
国内首个全国产化千亿参数细粒度 MoE:开源!
|
23天前
|
监控 搜索推荐 物联网
一文读懂LoRA微调原理:大模型高效适配的核心逻辑
通过冻结大模型参数、仅训练少量低秩矩阵,实现高效微调:成本低、周期短、不破坏通用能力。适配医疗、金融等垂直场景,支持多任务复用与边缘部署,成为大模型落地首选技术。
一文读懂LoRA微调原理:大模型高效适配的核心逻辑
|
22天前
|
运维 安全 API
内网系统IP离线数据库搭建与维护完整方案
本方案面向无外网内网环境,提供IP离线数据库全生命周期部署指南,涵盖规划、搭建、维护与应急,支持内网IP自定义映射、高并发查询与安全合规,实现数据自主可控、运维闭环,适配多规模企业架构。