Claw-Eval开源:300个真实任务,端到端评测AI智能体的完成度、安全性与鲁棒性

简介: Claw-Eval是面向自主Agent的端到端评测框架,突破“只看结果”局限,聚焦任务执行全过程——可追溯、合规、容错。基于300个人工验证的真实任务,从完成度、安全性、鲁棒性三维度评估14个前沿模型,开源数据集、排行榜及代码。

随着大模型从"回答问题"走向"执行任务",Agent评测正在成为能力评估的关键方向。一个Agent可能给出看似合理的结果,却在执行过程中遗漏关键步骤、调用错误接口甚至违反任务约束——只看最终答案已经不够。Claw-Eval是一个面向自主Agent的端到端评测框架,关注的不只是任务有没有完成,更关注任务是如何被完成的:过程是否可追溯,行为是否合规,异常发生后能否恢复。300个人工验证任务,从完成度、安全性和鲁棒性三个维度评估14个前沿模型。


开源地址

  • 数据集:https://modelscope.cn/datasets/claw-eval/Claw-Eval
  • 排行榜:https://claw-eval.github.io/#/
  • GitHub:https://github.com/claw-eval/claw-eval

技术框架:轻量运行层+真实任务

Agent 生态正在快速发展,不同系统在工具抽象、任务规划、上下文管理、重试机制、安全策略等方面都有各自实现。这些工程设计会直接影响 Agent 的行为,也会随着社区实践持续变化。

Claw-Eval 的选择是:运行层尽量轻量,任务本身足够真实。

在执行侧,Claw-Eval 保留了一套透明、可审计、可复现的"最大公约数"运行基座,通过 Setup → Execution → Judge 的生命周期,将模型行为、工具调用、服务端日志和环境快照完整记录下来。它不追求在默认运行层里加入复杂的工程增强,而是尽量减少运行时变量,让评测更稳定地观察模型本身在规划、工具使用、约束遵循、错误恢复和任务完成上的能力。

在任务侧,Claw-Eval 则尽可能贴近真实工作流:服务编排、多模态理解与生成、多轮专业对话,这些都是当前 Agent 落地中最常见、也最容易暴露问题的场景。

也就是说,Claw-Eval 的设计重点不是用复杂运行时"包装"Agent,而是用统一、轻量、可审计的执行基座承载真实任务,让不同模型在同一套可比条件下完成复杂工作流。


任务设计与评分体系

Claw-Eval 构建了 300 个经过人工验证的任务,覆盖 9 个细分类型,整体分为三大任务组:

  • 通用服务任务:包括查询、日程安排、跨服务协作、数据检索、金融合规和运营流程等,重点考察 Agent 在多工具、多服务环境中的任务拆解与执行能力。
  • 多模态任务:覆盖视频、文档、图像和代码生成视觉产物等场景。它不仅要求模型理解内容,还要求模型主动选择检查对象、生成结果,并确保最终产物符合任务要求。
  • 多轮专业对话任务:模拟咨询、分析和决策场景。Agent 需要在信息不完整的情况下主动提问、澄清条件,并逐步形成最终建议。

三类任务对应了当前 Agent 落地中的主要能力要求:会用工具、会处理复杂信息、会在多轮交互中完成目标。

评分围绕三个维度展开:

  • Completion — 任务是否完成,结果是否符合要求。
  • Safety — 执行过程是否遵守约束,是否避免不该发生的行为。
  • Robustness — 面对接口失败、服务延迟、临时错误时,是否能够恢复并继续执行。

同时报告Pass@3 (三次中至少成功一次,接近能力上限)和Pass^3 (三次全部成功,接近可靠性下限),区分"能力"与"稳定性"。


三个关键发现

论文实验覆盖了 14 个前沿模型,呈现出当前 Agent 能力评估中的几个重点问题。

只看对话轨迹并不可靠

实验中,普通 LLM Judge 即使看到完整对话记录和工具调用信息,仍然漏掉了 Claw-Eval 混合评测管线发现的 44% 安全违规和 13% 鲁棒性问题。这说明,Agent 评测不能只依赖文本记录,还需要结合服务端日志和环境快照。


能力不等于稳定性

Claw-Eval 同时报告 Pass@3 和 Pass^3:前者表示三次尝试中至少成功一次,更接近能力上限;后者表示三次尝试全部成功,更接近可靠性下限。在错误注入实验中,当 HTTP 429、HTTP 500、延迟峰值等问题出现时,Pass@3 相对稳定,但 Pass^3 最高下降 24 个百分点。这说明,一次成功不能代表稳定可用。


Agent 能力是多维的

不同模型在服务编排、多模态任务和多轮对话中的表现差异明显,没有一个模型能在所有任务类型上全面领先。尤其在多模态任务中,最高 Pass^3 只有 25.7%,说明多模态 Agent 仍然是当前模型的明显难点。

论文还发现,在多轮专业对话中,问得多不一定更好。真正影响结果的是问题质量,可以解释 76% 的 Pass^3 表现差异,而平均对话轮数与最终表现几乎没有相关性。这说明,一个好的 Agent 不只是会追问,更要知道当前最该问什么。



数据集使用

从魔搭下载数据集

modelscope download --dataset claw-eval/Claw-Eval --local_dir  claw-eval/Claw-Eval


评估脚本:

from datasets import load_dataset
# 加载全部划分
dataset = load_dataset("claw-eval/Claw-Eval")
# 加载特定划分
general = load_dataset("claw-eval/Claw-Eval", split="general")
multimodal = load_dataset("claw-eval/Claw-Eval", split="multimodal")
multi_turn = load_dataset("claw-eval/Claw-Eval", split="multi_turn")
# 查看样例
print(general[0])


每条任务包含唯一任务ID、任务指令、辅助文件列表、语言标识(en/zh)和任务领域分类。辅助文件可在data/fixtures.tar.gz中获取。


总结

Claw-Eval反映了Agent评测范式的转变:从看最终答案到看完整过程,从展示能力到验证可靠性,从单次成功到稳定、可审计、可复核的任务完成。对模型开发者来说,它帮助定位短板:工具调用、异常恢复还是多模态处理。对应用团队来说,它提供了更接近真实部署的判断标准:一个Agent是否值得上线,要看它能否在复杂环境中持续、安全、稳定地完成任务。Claw-Eval 的意义正在于:用轻量、统一、可审计的评测基座,结合真实复杂的任务场景,为更可信的自主智能体提供评估基础。


跳转模型链接

https://modelscope.cn/datasets/claw-eval/Claw-Eval


目录
相关文章
|
17天前
|
算法 测试技术 PyTorch
在 AMD ROCm DSW 上部署 Qwen3.6-27B-FP8:vLLM、MTP 解码加速与小并发压测
本文记录一次在 ModelScope DSW AMD GPU 实例上完成的 Qwen3.6-27B-FP8 推理实践。实验重点不是单纯证明模型可以启动,而是围绕 vLLM ROCm 服务、Qwen MTP 投机解码、near-8K 长上下文正确性验证、FP8 KV cache 和小并发 serving 压测,整理一套可复现、可复查、可继续扩展的 AMD GPU 大模型推理 baseline。
544 0
|
17天前
|
人工智能 安全 搜索推荐
我用 PAI/Codex 理解 Harness Engineering:Agent 工作环境到底怎么搭
从工程师视角出发,带你过一遍 Harness Engineering
252 2
 我用 PAI/Codex 理解 Harness Engineering:Agent 工作环境到底怎么搭
|
1月前
|
人工智能 API 开发工具
阿里云百炼Coding Plan订阅套餐说明:购买方式、售罄解决方法、token额度及使用规则指南
阿里云百炼Coding Plan是面向开发者的AI编程订阅服务,现仅开放Pro版(200元/月,9万次请求),每日9:30限量抢购。支持Qwen3.5-Plus、Kimi-k2.5、GLM-5等多模型,兼容Cursor、Qwen Code等工具。额度用尽即停,不转按量计费。阿里云百炼官网:https://t.aliyun.com/U/fPVHqY
|
1月前
|
物联网 测试技术
SenseNova U1开源:原生统一多模态理解与生成,8B参数达到同量级SOTA
商汤日日新开源SenseNova U1 Lite系列(8B参数),基于自研NEO-unify架构,原生统一多模态理解、推理与生成,摒弃VE/VAE,重构统一表征空间。性能达同量级开源SOTA,部分指标比肩大型闭源模型,并支持8步LoRA加速推理。
487 2
|
17天前
|
编解码 自然语言处理 文字识别
HiDream-O1开源:8B参数像素级统一Transformer
HiDream-O1-Image是HiDream.ai开源的8B参数像素级统一生成模型,摒弃VAE与分离文本编码器,首创UiT架构实现文本、图像、任务条件在共享token空间端到端联合建模。支持2048×2048高清生成、多镜头/多语言渲染、指令编辑与主体个性化,在GenEval等基准刷新SOTA。含50步未蒸馏版与28步Dev加速版,并集成推理驱动提示代理。
466 0
|
17天前
|
PyTorch API 调度
在 AMD ROCm DSW 上跑通 DeepSeek-V4-Flash:vLLM 兼容部署、长上下文验证与 8K 性能扫参
本文记录一次在 ModelScope DSW AMD GPU/ROCm 环境中部署 DeepSeek-V4-Flash 的工程实践:通过 vLLM、ROCm/AITER/PyTorch fallback 与兼容补丁建立可复现 baseline,并用短问答、2K/8K/32K needle retrieval 和 8K top-k 扫参验证正确性与性能边界。
565 1
在 AMD ROCm DSW 上跑通 DeepSeek-V4-Flash:vLLM 兼容部署、长上下文验证与 8K 性能扫参
|
17天前
|
安全 前端开发 中间件
AgentScope 2.0 发布:从"跑通 Demo"到"稳定落地",构建可靠智能体的工程底座
AgentScope 2.0 聚焦智能体真实场景落地,以“稳定运行、安全控制、灵活接入”为核心,升级模型容错、事件流式响应、细粒度权限管理、结构化上下文、Middleware扩展机制、Workspace环境抽象及服务化部署能力,打造可观察、可干预、可信赖的智能体工程底座。
888 1

热门文章

最新文章