agents-hive 开源了:一个面向生产的Harness Agent 工程

简介: agents-hive 是开源的生产级 Agent 工程化系统,提供全链路执行回放、质量闭环迭代、多入口统一运行时及内建安全约束四大能力,助力开发者高效构建、调试与规模化运营商业级 Agent 应用。

agents-hive 正式开源啦!!!

它是一个完整的、经过生产验证的、可以直接用来构建和管理商业级 Agent 应用的工程化系统。

image.png

我们理解的 Agent Harness

在 agents-hive 的设计里,Harness 从来不是"让 Agent 跑起来的东西"。
Harness 是 Agent 的完整生命周期管理系统。

它是 Agent 的运行容器、安全边界、观测仪表盘、调试工作台和迭代引擎。
它的核心目标从来不是"怎么执行一次任务",而是"怎么让 100 个 Agent 7x24 小时稳定运行在生产环境里,并且越跑越好"。

基于这个理念,我们把 agents-hive 设计成了一个四层架构的完整工程体系:

image.png

agents-hive 的四大核心工程能力

全链路无死角执行回放

这是我们认为 Harness 最基础也最重要的能力。

image.png


agents-hive 会完整记录 Agent 执行过程的每一个状态和每一个动作,一个比特都不会少:

  • • 用户输入的原始消息、附件和格式
  • • 当时生效的系统 Prompt 完整版本
  • • 模型可见的工具列表、描述和 Schema
  • • 模型的每一次思考过程和推理步骤
  • • 工具调用的参数、返回值、耗时和错误
  • • 上下文压缩、记忆注入和状态变更的完整过程

当任务出现问题时,你不需要对着零散的日志猜测原因。
只需要点击一次"回放",就能精确复现当时的完整执行环境,像看电影一样一步步查看 Agent 的决策过程。


内置质量控制与迭代闭环

这是 agents-hive 区别于所有普通运行时的核心能力。

我们把 Agent 的优化从"玄学改 Prompt"变成了标准化的工程流程:

  • 自动失败采集:实时抓取所有异常执行,自动分类和打标签
  • 回归样本库:一键将高价值案例转为永久测试样本
  • 变更自动评测:每次修改 Prompt、工具或 Skill 后,自动运行全量回归测试
  • 精确效果分析:生成量化的效果对比报告,精确到每一类任务的成功率变化
  • 灰度发布与回滚:支持按比例灰度验证,发现问题一键回滚到任意历史版本

从此,Agent 的每一次改进都有数据支撑,每一次变更都可验证、可追溯。

统一多入口运行时

一次开发,全平台生效。

image.png

这意味着:

  • • 用户从任何入口发起的任务,都能在统一控制台查看和管理
  • • 工具调用、HITL 确认、任务进度在所有入口保持一致
  • • 权限控制、成本统计、质量治理能力自动覆盖所有渠道
  • • 出了问题,无论来自哪个入口,都能一键回放和调试

你只需要写一次业务逻辑,就能同时在所有平台运行。

生产级安全与约束体系

安全是生产级 Harness 的底线。

agents-hive 从设计之初就内置了完整的安全和约束机制:

  • Docker 沙箱隔离:所有工具执行都在独立容器中运行,完全隔离宿主机环境
  • 细粒度 RBAC 权限:支持按用户、角色、通道、任务维度配置工具权限
  • 多层级成本控制:会话级、用户级、任务级的 Token 配额和 API 费用限制
  • 智能熔断保护:自动终止运行超时、调用过频或费用超标的任务
  • 危险操作审批:所有有副作用的操作,必须经过人工确认才能执行

让你可以放心地把 Agent 放到生产环境 7x24 小时运行。



谁应该使用 agents-hive

agents-hive 特别适合这些开发者和团队:

  • • 正在将 Agent 从 Demo 推向生产环境的工程师
  • • 需要构建内部 AI 助手或自动化平台的企业团队
  • • 希望系统性地优化 Agent 质量和稳定性的开发者
  • • 需要同时在多个渠道部署 Agent 的产品团队
  • • 相信工程化是 Agent 落地唯一路径的技术人


GitHub 地址

https://github.com/chef-guo/agents-hive

最后

Agent 技术正在从概念走向落地。
而落地的关键,从来不是更聪明的模型,也不是更多的工具。
是更扎实的工程,是更可靠的系统,是能让我们放心地把工作交给 Agent 的信心。

这就是 agents-hive 想做的事。
我们希望通过这个开源项目,为所有 Agent 开发者提供一个生产级的工程底座,让大家不用再重复踩坑,不用再从零搭建基础设施,可以专注于创造真正有价值的 Agent 应用。

如果你认同这个理念,欢迎给项目点个 Star,也欢迎提交 Issue 和 PR,和我们一起把 agents-hive 做得更好。

欢迎进群交流~~~

image.png

相关文章
|
4月前
|
JSON 监控 安全
多Agent上生产的第一课:日志、轨迹、回放与责任归因
多Agent系统排查难?作者亲历生产事故后,提出五层可观测性体系:结构化日志(含参数/结果)、任务轨迹(还原数据流)、可解释回放、责任归因(结合推理链)、状态审计。最小方案仅需3天落地,让问题定位从“两小时盲猜”缩至“五分钟定位”。
476 1
|
2月前
|
人工智能 自动驾驶 安全
AI时代程序员必看!揭秘Harness Engineerin
当AI批量写代码,程序员会失业吗?OpenAI实验显示:3名工程师+1500个AI智能体,5个月完成100万行代码——人类零编码!关键不在模型,而在“Harness Engineering”系统工程法:以规格书、质检台、工具架构建AI“自动驾驶”体系,重塑程序员为架构师、规则者与工具锻造师。
|
2月前
|
人工智能 程序员 测试技术
从玩具到生产力:用真实项目讲透 AI Agent 的 Harness Engineering
这篇文章不讲 Prompt 技巧,也不推销某个 Skill,只想说清两件事——在企业工程环境里,如何把大模型 Harness(约束与治理)成一个能持续参与交付的协作者;以及大模型时代,程序员为什么正在从“亲手写代码的人”迁移成“定义目标、控节奏、做验收的人”。(文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。)
从玩具到生产力:用真实项目讲透 AI Agent 的 Harness Engineering
|
3月前
|
人工智能 安全 API
深入理解OpenClaw技术架构与实现原理(上)
本文深度剖析OpenClaw——当前最热门的个人AI助手系统,涵盖其本地优先、多端联动的总体架构,以及Gateway网关、Agentic Loop、定时任务、工具系统、Channels连接生态、上下文管理、SubAgent子智能体等16大核心模块。全文以AI-Coding实现为特色,强调安全沙箱、协议化设计与自进化能力,展现新一代软件构建范式的开山之作。
深入理解OpenClaw技术架构与实现原理(上)
|
21天前
|
机器学习/深度学习 自然语言处理 搜索推荐
大模型应用开发核心认知与技巧指引:从提示工程到智能Agent的完整实践.111
本文系统讲解大模型应用开发核心路径:从API调用基础,到提示工程(结构化指令、Few-shot、思维链CoT),再到高阶智能Agent(感知-思考-行动-反馈闭环)。强调“目标式编程”范式转变,聚焦如何驾驭大模型解决非结构化问题,助力开发者快速落地实用应用。
238 6
|
8月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
7830 109
|
2月前
|
负载均衡 并行计算 数据可视化
仅需1元马上拥有DeepSeek-V4-Pro,共两种方法,基于百炼只要1元,选择GPU要1600 元
阿里云推出DeepSeek-V4-Pro两种部署方案:一、通过百炼MaaS平台调用,5分钟即开即用,仅需1元(含100万免费token);二、在GPU云服务器上自建部署,满血版体验,约1600元/2小时。模型支持百万字超长上下文,性能国内领先;三、阿里云官方活动:https://t.aliyun.com/U/cyOqck 在活动中心查看

热门文章

最新文章