MiniMax 开源新评测集:定义Coding Agent 的生产级标准

简介: Coding Agent常因“过程违规”遭诟病,如无视指令、破坏规范。MiniMax推出OctoCodingBench,首创面向工程可靠性的过程评估体系,揭示当前模型在多规则协同下成功率极低,呼吁行业关注“过程正确性”,推动Agent从能用走向可用。

在 Coding Agent 的实际应用中,我们观察到一个反复出现,却常被忽略的的现象:用户对 Agent 的不满,往往不是因为它“做不到”,而是因为它“做得不好”。


通过整理用户体感反馈,我们发现最高频的抱怨集中在:Agent 不遵循明确给出的指令。比如用户在系统提示中明确要求“不要使用 emoji”,Agent 却在代码注释里加上笑脸;用户要求“先备份再修改”,Agent 直接 [rm-rf] 删除文件;用户在项目文档中规定了命名规范,Agent 却自行其是。


这些问题的共同特征是:任务最终可能完成了,但过程违反了规范。用户要的不只是“能跑的代码”,还有“符合团队协作规范的代码”。


为什么Coding Agent需要新的Bench

如果我们认为,遵循过程规范的 Coding Agent ,才能被放心地引入真实的软件工程流程中。那么目前主流 Code Agent 的评估体系就出现了明显的盲区。随着 Claude Code、Codex、Cursor、Windsurf 等 Agent 产品的普及,社区正在形成一套面向 Agent 的仓库协议体系。项目不再只是一堆代码,同时也包含了多层次协作模式的说明:

  • [CLAUDE.md]/[AGENTS.md]告诉 Agent “这个项目怎么玩”——命名约定、测试流程、禁用的危险操作等
  • Skills:封装可复用的工作流(如“生成 API 文档”),Agent 需要正确识别触发时机并按规范调用
  • Memory:跨会话保存用户偏好和任务进度,Agent 需要基于历史状态继续工作,而非从头开始


这些机制的出现,本质上是在构建一个多层级的指令系统。举个例子,当用户说“帮我重构这个模块”时,Agent 需要同时满足多个层级的约束:系统层面的安全规则(不能直接删代码)、当前用户的即时指令(重构到什么程度)、仓库中明确写下的工程规范,以及历史记忆中已经做出的决策(延续还是推翻)。更复杂的情况是,这些指令源之间可能冲突。用户临时说“这次就先不写测试了”,但 [AGENTS.md] 里明确要求“每次提交必须有测试覆盖”——Agent 该听谁的?


然而一个尴尬的问题是,当前的学术榜单,无论是 SWE-bench verified,还是各类基于 terminal 环境的测试,其核心理念几乎都是 Outcome-based Metrics (结果导向指标):测试是否通过? Bug是否修复?这种结果导向的评估方式,根本无法刻画模型在沙盒环境下的输出过程,更不用说复杂现实场景的真实交互体验,最终导致了评估和真实使用场景的错位。


OctoCodingBench:面向工程可靠性的过程评估

要解决这个问题,评估范式本身需要发生根本性转变——需要关注输出过程本身。

基于这一动机,MiniMax研究团队引入了 OctoCodingBench,从 Check-level 准确率(CSR)、 Instance-level 成功率(ISR)两个维度来进行评估,旨在充分观测模型的完成任务时出现的过程指令不遵循问题,以尽可能接近真实用户体验。

其中,CSR用来衡量Coding Agent遵循了多大比例的规则,ISR则用来衡量Coding Agent是否遵循了每条规则。

一个合格的 Coding Agent,需要在完成任务的同时遵循:

  • System Prompt 中的全局约束(语言、格式、安全规则)
  • User Query 的多轮指令更新
  • System Reminder 提供的脚手架指令
  • Repository 规范文件 (如 [CLAUDE.md]/[AGENTS.md])中的代码风格、提交规范
  • Skills 文档的正确调用流程
  • Memory/Preferences 中记录的用户偏好和项目状态


基于该评测集,MiniMax研究团队针对现有的开源闭源模型进行了广泛的评估,发现了一些很有启发性的实验结果:

  • 所有模型的 Check-level 准确率(CSR)可以达到 80%+,但 Instance-level 成功率(ISR)只有 10%-30%。换句话说,模型在单项约束上表现不错,但一旦要求“全部规则同时满足”,成功率就断崖式下跌。
  • 绝大模型模型的指令遵循能力会随着轮次的变多逐渐下降。这印证了“过程合规”在长流程任务中的脆弱性。

不同交互轮次下ISR的变化


  • 现阶段模型表现普遍未能达到生产级要求,过程合规仍是盲区:

    从榜单数据来看,即便是表现最强劲的 Claude 4.5 Opus,其 Instance-level 成功率(ISR)也仅为 36.2%。这意味着,在近三分之二的任务中,模型虽然可能写出了能跑的代码,但在过程规范上依然存在违规。这一低分现状明确揭示了一个事实:Coding Agent 的“过程规范遵循”尚未被业界充分关注和优化,目前的模型严重偏科于“结果正确”,而忽视了“过程正确”。
  • 开源模型正在快速追赶闭源模型:

    观察榜单可以发现,MiniMax M2.1 和DeepSeek V3.2的 ISR 分别达到了26.1%和26%,已经超过了公认强大的闭源模型Claude 4.5 Sonnet (22.8%) 和 Gemini 3 Pro (22.9%),开源模型已经展现出了极强的竞争力。

未来的研究方向

研究团队认为,下一代 Coding Agent 的训练,需要引入 Process Supervision(过程监督) :

  • 细粒度的过程监督:不只监督模型的“测试通过”,还要监督模型“遵循命名规范”、“正确使用 Skills”、“没有泄露 System 信息”等;
  • 层级化的指令遵循:在训练数据中标注指令冲突场景,让模型学会在冲突情况下如何遵从指令层次的优先级行动;
  • 可验证的 Checklist:把“指令遵循”从模糊的整体印象,拆解成可自动化检查的原子约束,既能用于评估,也能用于 RL 信号构建。


Coding Agent 的能力边界,正在从“能否写出能跑的代码”,转向“能否在复杂约束下协作式地完成任务”。这也映射出产品哲学的深层转变:Agent 不是要替代人类开发者,而是要成为懂规矩、守纪律的团队成员。


因此,过程规范(Process Specification)才是 Coding Agent 进化的核心命题。


当我们开始关注过程而非仅仅结果,当我们让评估体系能够捕捉“违规但成功”的危险模式,Coding Agent 才能真正从 Demo 走向生产环境。


OctoCodingBench 是一次基础设施层面的尝试,研究团队期待与社区一起,沿着这个方向继续向前推进。


数据集链接:

https://www.modelscope.cn/datasets/MiniMax/OctoCodingBench


点击可跳转模型链接:

https://www.modelscope.cn/datasets/MiniMax/OctoCodingBench


目录
相关文章
|
19天前
|
人工智能 机器人 程序员
去年我用一张Excel表"规划"学习,结果把自己逼进了ICU——直到我学会让AI帮我排兵布阵
本文以作者因"完美计划表"累倒入院的亲身经历切入,分享了一套让AI担任私人学习规划师的完整指令模板。通过"目标拆解""遗忘曲线复习""弹性时间"三大机制,解决目标模糊、复习逃避、计划崩溃等常见学习痛点,并提供上班族、学生、转行者三种典型场景的实战案例。
261 18
|
20天前
|
人工智能 自然语言处理 PyTorch
构建AI智能体:九十四、Hugging Face 与 Transformers 完全指南:解锁现代 NLP 的强大力量
Hugging Face 是领先的自然语言处理开源平台,提供 Transformers 等核心库,支持数千种预训练模型,涵盖文本分类、生成、问答等任务。其 Pipeline 工具简化了模型调用,AutoClass 实现架构自动识别,助力开发者高效构建 AI 应用。
341 10
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒
清华、人大、面壁智能与OpenBMB联合推出4B参数智能体模型AgentCPM-Explore,在8大长程任务上实现同尺寸SOTA,性能比肩30B+大模型。支持百轮稳定交互、全流程开源,重塑端侧AI潜能。
239 7
AgentCPM-Explore开源,4B 参数突破端侧智能体模型性能壁垒
|
26天前
|
存储 缓存 调度
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
在大模型推理迈向“智能体时代”的今天,KVCache 已从性能优化手段升级为系统级基础设施,“显存内缓存”模式在长上下文、多轮交互等场景下难以为继,而“以存代算”的多级 KVCache 架构虽突破了容量瓶颈,却引入了一个由模型结构、硬件平台、推理引擎与缓存策略等因素交织而成的高维配置空间。如何在满足 SLO(如延迟、吞吐等服务等级目标)的前提下,找到“时延–吞吐–成本”的最优平衡点,成为规模化部署的核心挑战。
438 38
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
|
23天前
|
人工智能 数据可视化 物联网
《显卡 4090 就能跑!小白也能炼出私有大模型》
大模型微调是AI落地的关键技术,通过定向训练让通用模型在特定领域“从会到精”。本文详解微调原理、LoRA/QLoRA等高效方法,并提供评估与实操建议,助力新手快速上手,实现低成本、高精度的模型定制。
327 4
|
23天前
|
自然语言处理 物联网 计算机视觉
从 Image-to-LoRA 到 In-Context Edit
阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。
327 6
|
2月前
|
人工智能 物联网 测试技术
ModelScope魔搭社区发布月报 -- 25年12月
魔搭社区12月重磅更新DeepSeek 3.2、Mistral-3等模型,Z-Image-Turbo引领文生图生态,平台全面升级加速开源模型落地。
352 8
|
16天前
|
编解码 物联网 测试技术
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
648 1
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
构建AI智能体:九十、图解大模型核心三大件 — 输入编码、注意力机制与前馈网络层
本文深入解析了大模型三大核心技术:输入编码、多头自注意力机制和前馈网络层,从应用视角阐述了它们的工作原理和协同效应。输入编码负责将文本转换为富含语义和位置信息的数学表示;多头自注意力机制通过多专家团队模式建立全局依赖关系,解决长距离依赖问题;前馈网络层则通过非线性变换进行深度语义消歧。文章通过可视化示例展示了词向量的语义关系建模、注意力权重的分布模式以及前馈网络的语义过滤功能,形象地说明了大模型如何通过这三层架构实现"广泛联系-深度加工"的认知过程。
153 5
|
15天前
|
存储 人工智能 安全
深度揭秘 ooderAgent MIT 开源框架
在人工智能技术快速发展的今天,AI Agent系统已成为实现复杂任务协作的重要架构。ooderAgent(全称ooder SuperAgent)作为一套基于MIT协议的开源企业级AI能力分发与自动化协作框架,通过创新的Agent架构和SKILL管理机制,为企业提供了从简单任务到复杂流程的全场景自动化解决方案。该框架由ooder团队开发,采用SpringCloud分布式架构,于2026年1月发布最新版本v0.6.2,目前已在企业级AI应用领域展现出重要的技术价值。 本研究旨在全面剖析ooderAgent框架的技术特点与技术价值,重点关注其在技术架构设计、应用能力边界、技术创新突破以及商业价值创造