agents-hive 正式开源啦!!!
它是一个完整的、经过生产验证的、可以直接用来构建和管理商业级 Agent 应用的工程化系统。
我们理解的 Agent Harness
在 agents-hive 的设计里,Harness 从来不是"让 Agent 跑起来的东西"。
Harness 是 Agent 的完整生命周期管理系统。
它是 Agent 的运行容器、安全边界、观测仪表盘、调试工作台和迭代引擎。
它的核心目标从来不是"怎么执行一次任务",而是"怎么让 100 个 Agent 7x24 小时稳定运行在生产环境里,并且越跑越好"。
基于这个理念,我们把 agents-hive 设计成了一个四层架构的完整工程体系:
agents-hive 的四大核心工程能力
全链路无死角执行回放
这是我们认为 Harness 最基础也最重要的能力。
agents-hive 会完整记录 Agent 执行过程的每一个状态和每一个动作,一个比特都不会少:
- • 用户输入的原始消息、附件和格式
- • 当时生效的系统 Prompt 完整版本
- • 模型可见的工具列表、描述和 Schema
- • 模型的每一次思考过程和推理步骤
- • 工具调用的参数、返回值、耗时和错误
- • 上下文压缩、记忆注入和状态变更的完整过程
当任务出现问题时,你不需要对着零散的日志猜测原因。
只需要点击一次"回放",就能精确复现当时的完整执行环境,像看电影一样一步步查看 Agent 的决策过程。
内置质量控制与迭代闭环
这是 agents-hive 区别于所有普通运行时的核心能力。
我们把 Agent 的优化从"玄学改 Prompt"变成了标准化的工程流程:
- • 自动失败采集:实时抓取所有异常执行,自动分类和打标签
- • 回归样本库:一键将高价值案例转为永久测试样本
- • 变更自动评测:每次修改 Prompt、工具或 Skill 后,自动运行全量回归测试
- • 精确效果分析:生成量化的效果对比报告,精确到每一类任务的成功率变化
- • 灰度发布与回滚:支持按比例灰度验证,发现问题一键回滚到任意历史版本
从此,Agent 的每一次改进都有数据支撑,每一次变更都可验证、可追溯。
统一多入口运行时
一次开发,全平台生效。
这意味着:
- • 用户从任何入口发起的任务,都能在统一控制台查看和管理
- • 工具调用、HITL 确认、任务进度在所有入口保持一致
- • 权限控制、成本统计、质量治理能力自动覆盖所有渠道
- • 出了问题,无论来自哪个入口,都能一键回放和调试
你只需要写一次业务逻辑,就能同时在所有平台运行。
生产级安全与约束体系
安全是生产级 Harness 的底线。
agents-hive 从设计之初就内置了完整的安全和约束机制:
- • Docker 沙箱隔离:所有工具执行都在独立容器中运行,完全隔离宿主机环境
- • 细粒度 RBAC 权限:支持按用户、角色、通道、任务维度配置工具权限
- • 多层级成本控制:会话级、用户级、任务级的 Token 配额和 API 费用限制
- • 智能熔断保护:自动终止运行超时、调用过频或费用超标的任务
- • 危险操作审批:所有有副作用的操作,必须经过人工确认才能执行
让你可以放心地把 Agent 放到生产环境 7x24 小时运行。
谁应该使用 agents-hive
agents-hive 特别适合这些开发者和团队:
- • 正在将 Agent 从 Demo 推向生产环境的工程师
- • 需要构建内部 AI 助手或自动化平台的企业团队
- • 希望系统性地优化 Agent 质量和稳定性的开发者
- • 需要同时在多个渠道部署 Agent 的产品团队
- • 相信工程化是 Agent 落地唯一路径的技术人
GitHub 地址
https://github.com/chef-guo/agents-hive
最后
Agent 技术正在从概念走向落地。
而落地的关键,从来不是更聪明的模型,也不是更多的工具。
是更扎实的工程,是更可靠的系统,是能让我们放心地把工作交给 Agent 的信心。
这就是 agents-hive 想做的事。
我们希望通过这个开源项目,为所有 Agent 开发者提供一个生产级的工程底座,让大家不用再重复踩坑,不用再从零搭建基础设施,可以专注于创造真正有价值的 Agent 应用。
如果你认同这个理念,欢迎给项目点个 Star,也欢迎提交 Issue 和 PR,和我们一起把 agents-hive 做得更好。
欢迎进群交流~~~