字节推出VeAgentBench + veADK,打造可评估、可复现的智能体开发新范式

简介: 字节跳动推出VeAgentBench与veADK,打造智能体“开发-评估”闭环。VeAgentBench是覆盖教育、金融、法律等四大场景的开源评估基准,veADK为高效易用的开发框架,支持工具调用、RAG与记忆管理,助力AI智能体可度量、可复现、可落地。

在大模型时代,智能体(Agent)正成为连接 AI 与现实任务的关键桥梁。然而,“开发容易,评估难” 一直是智能体领域的痛点:你可能能写出一个会调用工具、会检索知识的 Agent,但如何知道它真的“靠谱”?如何让开发过程可度量、可比较、可复现?


如今,字节跳动推出的 VeAgentBench 数据集veADK(Volcengine Agent Development Kit) 给出了一个完整答案。

划重点:VeAgentBench 提供了标准化、场景化的评估基准,veADK 则提供了高性能、易上手的开发框架——二者结合,真正实现了 “开发-部署-评估”闭环。


什么是 VeAgentBench

VeAgentBench 是一个专为评估智能体能力而设计的开源基准数据集,由字节跳动研究团队于 2025 年 11 月 25 日 首次公开发布。

  • 总题量:484 道任务(首批公开 145 道)
  • 覆盖四大真实场景:
  1. 教育辅导(如:出数学题、批改错题)
  2. 金融分析(如:查询股价、分析公告影响)
  3. 法律援助(如:解释法条、检索案例)
  4. 个人助理(如:记录会议、查天气、管理日程)

每道题目不仅包含用户输入(input)和预期输出(expect_output),还明确标注了:

  • 所需工具调用(如 excel_toolweather_tool
  • 知识库依赖(如需 RAG 检索)
  • 记忆使用级别(是否需记住用户历史信息)

这使得 VeAgentBench 不仅是一个“题库”,更是一套多维度、场景化、可自动评估的智能体测试平台。

🔍 举例:一道法律题会要求 Agent 从知识库中准确提取“法律援助”的定义;而一道金融题则可能要求 Agent 先搜索公司事件,再调用股票 API 获取数据,最后输出分析结论——这种“链式任务”正是真实世界 Agent 的常态。


veADK:智能体全链路开发框架

光有数据集还不够,开发者还需要一个高效、稳定、可观测的开发框架。这就是 veADK(Volcengine Agent Development Kit)。

veADK 是一个开源的 Python 智能体开发工具包,已托管在 GitHub: 👉 https://github.com/volcengine/veadk-python

核心特性:

✅ 一键集成大模型,函数服务,MCP工具

支持 ARK 大模型、VeFaaS 无服务器部署、MCP 工具市场(如 Excel、天气、搜索等)


✅ 极简代码启动 Agent

只需几行代码 + 一个 config.yaml,即可运行一个具备工具调用能力的智能体:

from veadk import Agent
import asyncio
agent = Agent()
res = asyncio.run(agent.run("帮我出 5 道七年级有理数练习题"))
print(res)


✅ 命令行工具加速开发

  • veadk init:快速生成示例项目
  • veadk deploy:一键部署到 VeFaaS
  • veadk prompt:用 PromptPilot 自动优化系统提示词


✅ 完整测试与 CI/CD 支持

内置单元测试、pre-commit 规范,确保代码质量


✅ Apache 2.0 开源协议

可自由用于商业与非商业项目(注:VeAgentBench 数据集本身为 CC BY-NC 4.0,仅限非商业用途)


VeAgentBench 评估 Agent

VeAgentBench 的设计哲学是:“真实任务驱动评估”。


它评估 Agent 的四个核心维度:

维度 说明 示例
工具调用 能否正确选择并调用外部工具 查天气、读写 Excel
知识检索(RAG) 能否从文档中精准提取信息 解释法条、引用教材
记忆管理 能否利用上下文或历史信息 记住用户身份、错题记录
逻辑与推理 能否完成多步任务 先解方程,再代入计算


例如,在“教育辅导”子集中,Agent 不仅要会出题,还要能批改答案、指出错误、给出解析——这正是 VeAgentBench 从真实教学场景中抽象出的高价值任务。

开始使用

1. 安装 veADK

pip install veadk-python
pip install veadk-python[extensions]  # 安装扩展工具

2. 配置模型(以火山引擎 ARK 为例)

在项目根目录创建 config.yaml

model:
  agent:
    provider: openai
    name: doubao-seed-1-6-250615
    api_base: https://ark.cn-beijing.volces.com/api/v3/
    api_key: YOUR_API_KEY

3. 下载 VeAgentBench 数据集

git clone https://huggingface.co/datasets/bytedance-research/veAgentBench

4. 运行示例 Agent

python agents/educational_tutoring.py

运行后会自动生成 Trace 日志和评估结果,可与 VeAgentBench 标准答案对比。

使用须知

  • VeAgentBench 数据集:采用 CC BY-NC 4.0 协议,禁止商业用途(如产品集成、付费服务、投资决策等)。
  • veADK 框架:采用 Apache 2.0 协议,可自由用于商业项目。
  • 个人助理类 Agent 所需的 MCP 工具(如 Excel、天气)需在 火山引擎 MCP 市场 申请 API Key 并配置环境变量。


为什么值得关注?

VeAgentBench + veADK 的组合,首次将“智能体评估”从模糊的主观体验,转变为可量化、可复现的工程实践。对于以下人群尤其有价值:

  • AI 研究者:需要标准化 benchmark 来比较不同 Agent 架构
  • 开发者:希望快速构建具备工具调用能力的行业 Agent
  • 教育/金融/法律领域从业者:可基于示例 Agent 快速定制垂直场景解决方案
  • 开源爱好者:可参与贡献新场景、新工具、新评估维度


结语

智能体的未来,不在于“看起来多聪明”,而在于“在真实任务中多可靠”。

VeAgentBench 提供了尺子,veADK 提供了工具——现在,轮到你来打造真正有用的 Agent 了。

📌 项目地址:数据集: https:// modelscope.cn/datasets/ bytedance-research/veAgentBench
框架: https:// github.com/volcengine/v eadk-python
文档: https:// volcengine.github.io/ve adk-python/


欢迎 Star、Fork、PR,一起推动智能体走向实用化!

目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 程序员
StackOverflow已经死亡了吗
StackOverflow曾是程序员的“圣地”,但AI崛起正改变这一格局。ChatGPT等工具以高效即时的优势分流用户,使其面临流量下滑与社区文化挑战。而新兴的大模型实验室Lab4AI则融合算力、实践与协作,构建AI时代下的开发者新生态。从问答到实践,开发者社区正在进化。
268 2
StackOverflow已经死亡了吗
|
3月前
|
机器学习/深度学习 编解码 JSON
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
腾讯混元推出全新开源OCR模型HunyuanOCR,仅1B参数,基于原生多模态架构,实现端到端高效推理。在复杂文档解析、文字检测识别等多场景表现卓越,支持14种小语种翻译,广泛适用于票据抽取、视频字幕识别等应用,多项指标达业界SOTA水平。
609 8
|
3月前
|
人工智能 安全 搜索推荐
杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾
11月22日,杭州AI开源生态大会暨“魔搭社区”开发者中心启用仪式在云谷中心举行。大会汇聚超3000名开发者,发布“两张清单”与AI开源政策包,启用首个线下开发者空间,推动开放、共建、共创的AI生态发展。
569 10
|
2月前
|
数据采集 存储 编解码
智源RoboCOIN重磅开源!全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了
北京智源研究院联合多家机构发布全球首个“本体数最多、标注最精细、使用最便捷”的双臂机器人真机数据集RoboCOIN,覆盖15类机器人、18万条轨迹、421项任务,首创“层级能力金字塔”标注体系,推动具身智能迈向真实场景应用。
351 11
 智源RoboCOIN重磅开源!全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了
|
3月前
|
人工智能 API Python
Gemini 3 Nano Banana 的MCP服务器开发设计和 国内直连方案
基于Gemini 3 API开发的MCP绘图工具,支持在Coding客户端中边写代码边生成流程图。项目采用Python实现,兼容Gemini 2.5 Flash与3 Pro图像API,集成超时控制、国内直连路由转发功能,可高效调用AI生图。提供完整GitHub开源代码及在线试用地址,欢迎提交Issue交流。
|
2月前
|
人工智能 物联网 测试技术
ModelScope魔搭社区发布月报 -- 25年12月
魔搭社区12月重磅更新DeepSeek 3.2、Mistral-3等模型,Z-Image-Turbo引领文生图生态,平台全面升级加速开源模型落地。
335 8
|
3月前
|
人工智能 前端开发 JavaScript
新的LLM交互模式!大模型终于能自己生成交互式 UI 了
Google Research推出的Generative UI,让大模型不仅能生成内容,还能一键创建含地图、图表、小游戏等交互功能的完整网页。告别“文字墙”,迈向“内容即应用”的新时代,82.8%用户偏爱此创新体验。
902 8
|
2月前
|
人工智能 前端开发 测试技术
告别 GUI Agent 工程基建噩梦!阶跃星辰开源 4B 模型,本地轻松部署,玩转安卓应用
阶跃星辰开源GELab-Zero,首发4B GUI Agent模型及完整基建,支持一键部署,在多端性能达SOTA。同步推出真实场景评测基准AndroidDaily,推动GUI智能体规模化落地。
503 10
告别 GUI Agent 工程基建噩梦!阶跃星辰开源 4B 模型,本地轻松部署,玩转安卓应用
|
3月前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
1521 59
Meta SAM3开源:让图像分割,听懂你的话
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AgentEvolver:让智能体系统学会「自我进化」
AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver
1173 38

热门文章

最新文章