agents-hive 开源了:一个面向生产的Harness Agent 工程

简介: agents-hive 是开源的生产级 Agent 工程化系统,提供全链路执行回放、质量闭环迭代、多入口统一运行时及内建安全约束四大能力,助力开发者高效构建、调试与规模化运营商业级 Agent 应用。

agents-hive 正式开源啦!!!

它是一个完整的、经过生产验证的、可以直接用来构建和管理商业级 Agent 应用的工程化系统。

image.png

我们理解的 Agent Harness

在 agents-hive 的设计里,Harness 从来不是"让 Agent 跑起来的东西"。
Harness 是 Agent 的完整生命周期管理系统。

它是 Agent 的运行容器、安全边界、观测仪表盘、调试工作台和迭代引擎。
它的核心目标从来不是"怎么执行一次任务",而是"怎么让 100 个 Agent 7x24 小时稳定运行在生产环境里,并且越跑越好"。

基于这个理念,我们把 agents-hive 设计成了一个四层架构的完整工程体系:

image.png

agents-hive 的四大核心工程能力

全链路无死角执行回放

这是我们认为 Harness 最基础也最重要的能力。

image.png


agents-hive 会完整记录 Agent 执行过程的每一个状态和每一个动作,一个比特都不会少:

  • • 用户输入的原始消息、附件和格式
  • • 当时生效的系统 Prompt 完整版本
  • • 模型可见的工具列表、描述和 Schema
  • • 模型的每一次思考过程和推理步骤
  • • 工具调用的参数、返回值、耗时和错误
  • • 上下文压缩、记忆注入和状态变更的完整过程

当任务出现问题时,你不需要对着零散的日志猜测原因。
只需要点击一次"回放",就能精确复现当时的完整执行环境,像看电影一样一步步查看 Agent 的决策过程。


内置质量控制与迭代闭环

这是 agents-hive 区别于所有普通运行时的核心能力。

我们把 Agent 的优化从"玄学改 Prompt"变成了标准化的工程流程:

  • 自动失败采集:实时抓取所有异常执行,自动分类和打标签
  • 回归样本库:一键将高价值案例转为永久测试样本
  • 变更自动评测:每次修改 Prompt、工具或 Skill 后,自动运行全量回归测试
  • 精确效果分析:生成量化的效果对比报告,精确到每一类任务的成功率变化
  • 灰度发布与回滚:支持按比例灰度验证,发现问题一键回滚到任意历史版本

从此,Agent 的每一次改进都有数据支撑,每一次变更都可验证、可追溯。

统一多入口运行时

一次开发,全平台生效。

image.png

这意味着:

  • • 用户从任何入口发起的任务,都能在统一控制台查看和管理
  • • 工具调用、HITL 确认、任务进度在所有入口保持一致
  • • 权限控制、成本统计、质量治理能力自动覆盖所有渠道
  • • 出了问题,无论来自哪个入口,都能一键回放和调试

你只需要写一次业务逻辑,就能同时在所有平台运行。

生产级安全与约束体系

安全是生产级 Harness 的底线。

agents-hive 从设计之初就内置了完整的安全和约束机制:

  • Docker 沙箱隔离:所有工具执行都在独立容器中运行,完全隔离宿主机环境
  • 细粒度 RBAC 权限:支持按用户、角色、通道、任务维度配置工具权限
  • 多层级成本控制:会话级、用户级、任务级的 Token 配额和 API 费用限制
  • 智能熔断保护:自动终止运行超时、调用过频或费用超标的任务
  • 危险操作审批:所有有副作用的操作,必须经过人工确认才能执行

让你可以放心地把 Agent 放到生产环境 7x24 小时运行。



谁应该使用 agents-hive

agents-hive 特别适合这些开发者和团队:

  • • 正在将 Agent 从 Demo 推向生产环境的工程师
  • • 需要构建内部 AI 助手或自动化平台的企业团队
  • • 希望系统性地优化 Agent 质量和稳定性的开发者
  • • 需要同时在多个渠道部署 Agent 的产品团队
  • • 相信工程化是 Agent 落地唯一路径的技术人


GitHub 地址

https://github.com/chef-guo/agents-hive

最后

Agent 技术正在从概念走向落地。
而落地的关键,从来不是更聪明的模型,也不是更多的工具。
是更扎实的工程,是更可靠的系统,是能让我们放心地把工作交给 Agent 的信心。

这就是 agents-hive 想做的事。
我们希望通过这个开源项目,为所有 Agent 开发者提供一个生产级的工程底座,让大家不用再重复踩坑,不用再从零搭建基础设施,可以专注于创造真正有价值的 Agent 应用。

如果你认同这个理念,欢迎给项目点个 Star,也欢迎提交 Issue 和 PR,和我们一起把 agents-hive 做得更好。

欢迎进群交流~~~

image.png

相关文章
|
14天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23497 12
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
3天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
1050 0
|
8天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
1963 4
|
18天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
5666 21
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
19天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
6777 16
|
7天前
|
前端开发 API 内存技术
对比claude code等编程cli工具与deepseek v4的适配情况
DeepSeek V4发布后,多家编程工具因未适配其强制要求的`reasoning_content`字段而报错。本文对比Claude Code、GitHub Copilot、Langcli、OpenCode及DeepSeek-TUI等主流工具的兼容性:Claude Code需按官方方式配置;Langcli表现最佳,开箱即用且无报错;Copilot与OpenCode暂未修复问题;DeepSeek-TUI尚处早期阶段。
1261 3
对比claude code等编程cli工具与deepseek v4的适配情况
|
7天前
|
人工智能 前端开发 测试技术
Qoder Skills 完全指南:从零开始,让 AI 按你的标准执行
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。