摘要
Hermes Agent 是 Nous Research 于 2026 年 2 月 25 日至 26 日开源发布的自主 AI 智能体,采用 MIT 许可证。该框架基于 Python 构建,旨在解决其创造者所称的“AI 失忆症”问题——即大语言模型(LLM)驱动的助手在会话之间会遗忘一切。其核心创新在于闭环学习回路(Closed Learning Loop) :在每次复杂任务结束后,智能体会自主编写可复用的技能文档(Skill),为会话历史建立跨会话召回索引,并构建持续演进的用户心理模型。项目在发布后四周内 GitHub 星标数突破 1 万,截至 2026 年 3 月下旬已达 17,400+,成为 Nous Research 有史以来采用率最高的开源项目。凭借五周内六个主要版本的快速迭代,它已从初始概念迅速演进为具备多平台生产级能力的智能体运行时。
背景:Nous Research 与 Hermes 模型家族
开发团队
Nous Research 是一家专注于大语言模型后训练(Post-training) 与微调的独立 AI 实验室。其核心产品线为 Hermes 模型系列——基于 Meta 的 Llama 架构进行微调的衍生模型,针对指令遵循(Instruction-Following)、智能体函数调用(Agentic Function-Calling)和复杂推理进行了优化。Hermes Agent 运行时本身是一个独立但互补的项目:它可以在任何 OpenAI 兼容的端点(Endpoint)上运行,而 Hermes 模型家族正是为智能体工作负载(Agentic Workloads)量身打造的。
模型技术栈
Hermes 3(2024 年 8 月) :基于 Llama 3.1 的三个规模(8B、70B、405B)进行微调,使用约 3.9 亿(390M)tokens 的合成生成响应数据(非人类反馈)进行训练。训练采用两阶段方法:监督微调(SFT,Supervised Fine-Tuning) followed by 直接偏好优化(DPO,Direct Preference Optimization),通过 Flash Attention 2 实现了 96% 的样本打包效率(Sample Packing Efficiency),序列长度为 8,192 tokens。模型采用 ChatML 分隔符(<|im_start|> / <|im_end|>)以兼容 OpenAI API,并在 hermes-function-calling-v1 数据集上训练以提升工具调用(Tool-Calling)的可靠性。其前代 Hermes 2 Pro 已达到 90% 的函数调用准确率,而 Hermes 3 进一步拉大了这一差距。
Hermes 4(2025 年 8 月) :引入了两项重大创新:
混合推理(Hybrid Reasoning) :模型可在标准响应和显式的思维链(Chain-of-Thought, enclosed in ... tags)之间切换,思维链长度可扩展至 16,000 tokens。用户可选择快速模式或深思模式——模型会根据选择自适应调整,而非对所有查询默认采用冗长推理。
DataForge:基于有向无环图(DAG,Directed Acyclic Graph) 的合成数据生成管线。DAG 中的每个节点执行结构到结构的转换(Struct-to-Struct Transformation),例如将维基百科文章转换为问答对或说唱歌曲。LLM 评判器(LLM Judge)对输出的连贯性、相关性、复杂度、风格和语调进行评估,迭代直至样本通过质量阈值。规模提升极为显著:Hermes 3 使用 100 万样本、12 亿 tokens;Hermes 4 使用约 500 万样本、600 亿(60B)tokens——样本量提升 5 倍,token 量提升 50 倍。
Hermes 4 技术报告通过实证验证了混合推理的有效性:在 AIME‘24 数学基准测试上,过度冗长推理(Overlong Reasoning)减少了 78.4%,而准确率仅损失 4.7%。在 MATH-500 上,405B 模型在混合模式下达到 96.3% 的准确率,而标准模式为 93.1%。
Hermes 4.3(36B) :尤为值得关注——它是在 ByteDance Seed 36B 而非 Llama 上进行微调的,打破了“所有 Hermes 模型均基于 Llama 架构”的假设。这标志着 Nous Research 正朝着模型无关(Model-Agnostic) 的后训练方法论迈进。
Atropos:强化学习训练框架
所有 Hermes 模型均通过 Atropos 进行训练,这是 Nous Research 开源的分布式强化学习(RL,Reinforcement Learning)框架。Atropos 并非标准的 RLHF(Reinforcement Learning from Human Feedback)——它是一个Rollout 处理器(Rollout Handler) ,管理可能数千个分布式工作节点(Distributed Workers)之间的异步协调,专门设计用于处理 LLM 输出高度可变的生成时间。在 Hermes 4 训练中,Atropos 驱动拒绝采样(Rejection Sampling) ,通过约 1,000 个任务特定的验证器(Task-Specific Verifiers)筛选高质量的推理轨迹。同一 Atropos 集成也出现在 Agent 运行时中,用于 RL 训练和轨迹捕获(Trajectory Capture)——这构成了从 Agent 使用直接回流到模型训练的完整数据管道。
核心架构
ReAct 循环基础
Hermes Agent 实现了经典的 ReAct(Reasoning + Acting,推理 + 行动) 模式:观察(Observation,读取终端输出、文件内容、工具结果)→ 推理(Reasoning,对照目标分析当前状态)→ 行动(Action,执行命令、调用工具)→ 循环。Agent 的核心循环在 run_agent.py 中作为 AIAgent 类实现,负责处理 Provider 选择、提示词构建、工具执行、重试与回退(Retries and Fallback)、回调(Callbacks)、上下文压缩(Context Compression)以及持久化同步。真正让 Hermes 与众不同的并非循环本身,而是围绕它的五层记忆系统、技能架构和用户建模。
五层记忆系统
Hermes Agent 维护五个截然不同的持久化层,其特性从临时性向永久性依次递进:
短期推理内存(Short-term Inference Memory) :即当前会话的标准 Transformer 上下文。此层数据在重启后不会保留;它与所有传统聊天机器人所依赖的基线状态一致——即无状态(Stateless) 。
持久化内存文件(Persistent Memory Files) :MEMORY.md(大小限制约为 2,200 个字符)和 USER.md(大小限制约为 1,375 个字符)是跨会话存续的扁平文件存储。当任一文件写满时,智能体会对条目进行整合(Consolidation) ——合并或丢弃低信号价值的事实,以维持字符限制,而非静默丢弃近期信息。
技能记忆 / 程序性记忆(Skill Memory / Procedural) :位于 ~/.hermes/skills/ 目录下的持久化 SKILL.md 文件,用于捕获复杂任务的分步解决方案。与检索零散片段的标准 RAG(Retrieval-Augmented Generation,检索增强生成)不同,技能(Skills)能保持对完整工作流的连贯程序性理解。当智能体完成以下任务时会自主创建技能:涉及 5 次以上工具调用的任务;遭遇错误并从中恢复的任务;收到用户修正反馈的任务;或发现了非平凡工作流(Non-Trivial Workflow)的任务。
Honcho 辩证式用户建模(Dialectic User Modeling) :与 Plastic Labs 的 Honcho 用户建模库集成。Honcho 异步运行:在会话运行和消息记录的过程中,后台推理模型会推导出关于用户心理的结构化结论——例如偏好、沟通风格、领域专业知识、工作模式——而不存储原始对话转录。其核心洞察在于存储结论,而非对话:例如存储“用户偏好 TypeScript”,而不是“用户在消息 #47 中说他们偏好 TypeScript”。Honcho 提供 5 个工具:honcho_profile(读取/更新对等卡片)、honcho_search(语义搜索)、honcho_context(会话上下文)、honcho_reasoning(LLM 合成推理)、honcho_conclude(创建/删除结论)。上下文检索延迟约为 200 毫秒。
FTS5 全文搜索(FTS5 Full-Text Search) :一个基于 SQLite 的可搜索数据库,涵盖所有历史交互记录,并辅以 LLM 驱动的摘要能力。这使得跨会话回忆(如“我上周二做了什么?”)成为可能——提供了向量检索或扁平文件都无法高效支持的时间维度上下文。
Honcho 双端对等架构(Dual-Peer Architecture)
Honcho 将用户和 AI 智能体视为具有持久状态的对等端点(Peers) 。四个工具在运行时向 Agent 暴露此能力:
用户和智能体的表征均在会话启动时注入系统提示词(System Prompt),使 Hermes 既了解对话对象是谁,也了解自己知道什么。
闭环学习回路
闭环学习回路将所有记忆层串联成一个复合循环:
- Agent 完成任务 → 写入 SKILL.md
- 后续相似任务 → 向量存储检索技能 → Agent 从经过验证的脚手架(Scaffold)起步,而非从零开始
- Honcho 观察用户 → 推导偏好事实 → 后续会话实现预个性化(Pre-personalized)
- FTS5 索引所有交互 → 跨会话时间线召回可用
- 周期性内部提示(Periodic Internal Nudges)促使 Agent 在上下文占满前持久化高价值知识
实战数据(来源于 Nous Research 黑客松):Skill 辅助任务相比冷启动(Cold-start)执行,Token 消耗降低 30% 至 85%。独立从业者报告:在三份自主生成的技能文档辅助下,类似研究任务完成速度加快40%。
SOUL.md 人格栈(Personality Stack)
Hermes Agent 通过三层人格系统将“它了解你的内容”与“它如何与你对话”分离开来:
- ~/.hermes/SOUL.md:全局人格文件,在每次会话启动时逐字注入系统提示词。控制所有交互中的沟通语调、直接程度和风格——如果某种行为应在所有部署中保持一致,则应放置于此。
- 人格覆盖(Personality Overlays) :临时会话级模式切换(预设包括“technical”、“creative”和“teacher”)。
- AGENTS.md:按工作目录(Working Directory)限定的项目级约定。
执行基础设施(Execution Infrastructure)
六种终端后端(Six Terminal Backends)
Hermes Agent 通过 BaseEnvironment 接口将 Agent 运行时与执行环境分离,提供六种实现:
配置仅在 ~/.hermes/config.yaml 中修改一行——切换后端时 Agent 代码无需任何更改。
多平台消息网关(Multi-Platform Messaging Gateway)
单一网关进程同时路由所有已连接平台间的交互。截至 v0.6.0,支持的平台包括:Telegram(含 Webhook 模式)、Discord、Slack(多工作区 OAuth)、WhatsApp、Signal、IMAP/SMTP 电子邮件、飞书/Lark 和企业微信。语音备忘录转录和跨平台对话连续性均已包含在内。这实现了一个关键用例:从移动端消息应用与 Agent 对话,同时它在远程云 VM 上执行任务。
模型 Provider 灵活性
Agent 是 Provider 无关(Provider-Agnostic) 的——这是 Nous Research 的明确设计选择。支持的端点包括:Nous Portal(400+ 模型)、OpenRouter(200+ 模型)、任何 OpenAI 兼容 API,以及通过 Ollama、vLLM 或 llama.cpp 进行的本地推理。我用的是Canopy Wave(canopywave.com)支持包括 GLM5.2、DeepSeek-V4-Flash、Kimi在内的前沿开源模型,可以选择适合自己的API。截至 2026 年 3 月,Hugging Face 已被添加为一级推理 Provider,提供按用例组织的 28 个精选模型。v0.6.0 版本增加了有序回退 Provider 链(Ordered Fallback Provider Chains) :当主 Provider 返回错误或不可达时,Hermes 自动尝试配置的备用方案。
- MCP 集成(双向)
Hermes Agent 中的 MCP(Model Context Protocol,模型上下文协议) 实现是双向的: - MCP Client 模式:启动时连接任何已配置的 MCP 服务器(本地 stdio 或远程 HTTP),自动发现工具,并将其注册为一级原生工具(First-Class Native Tools)。自动重连采用指数退避(Exponential Backoff) (1s → 2s → 4s → 8s → 16s,最多 5 次尝试)。
MCP Server 模式(v0.6.0 新增):通过 hermes mcp serve 将 Hermes 对话和会话暴露给任何 MCP 兼容客户端——Claude Desktop、Cursor、VS Code。客户端可通过标准协议浏览对话、读取消息、跨会话搜索以及管理附件。
agentskills.io 标准
标准定义
技能(Skills)遵循 agentskills.io 开放标准:一个包含 SKILL.md 文件的目录,文件带有 YAML 前置元数据(Frontmatter)和 Markdown 指令。该标准规定了最少的必填字段(name、description)和不受限制的 Markdown 正文(建议 5,000 tokens 以下)。可选的子目录(scripts/、references/、assets/)支持更复杂的程序性技能,包含辅助脚本和补充文件。
技能实现渐进式披露(Progressive Disclosure) :元数据首先加载到 Agent 的上下文索引中;完整内容在技能被激活时按需加载。这在保持整个技能库可发现的同时,最小化了 Token 消耗。
跨框架可移植性(Cross-Framework Portability)
技能系统最具有生态意义的方面或许是它的可移植性。截至 2026 年 3 月,超过 11 款工具已采用 agentskills.io 标准:Claude Code、Cursor、GitHub Copilot、Gemini CLI、VS Code、Amp、Goose、Roo Code、Kiro、Codex 和 OpenCode。为 Hermes Agent 编写的技能可直接用于 Claude Code。为 Cursor 编写的技能可直接用于 Hermes Agent。这种跨框架兼容性在智能体生态中极为罕见——大多数技能/插件系统都是框架特定的。
条件激活(Conditional Activation)
技能可基于当前会话中的工具可用性,通过前置元数据字段自动显示或隐藏自身:
- fallback_for_toolsets:当高级工具可用时技能隐藏,仅在不可用时作为免费/本地替代方案显示。
- requires_toolsets:除非特定工具集存在,否则技能隐藏。
这实现了优雅降级(Graceful Degradation) ——Agent 根据当前部署环境中可用的资源,呈现不同的技能选项。
研究与训练基础设施
Hermes Agent 不仅被设计为终端用户工具,更是未来模型训练的数据生成引擎:
批量轨迹生成(Batch Trajectory Generation) :运行并行工作节点(Parallel Workers)并带有检查点(Checkpointing),以规模化收集 Agent 交互数据。
Atropos RL 集成:用于训练 Hermes 模型的同一 Atropos 框架已嵌入运行时。运行复杂循环和多步 RPC 任务的 Agent 直接从实际使用中生成 RL 训练数据。
- CBench 环境: 长时域(Long-Horizon)Agent 基准测试集成,用于系统性评估。
- ShareGPT 导出:轨迹压缩并导出为 ShareGPT 格式,用于监督微调(SFT)管线。
这形成了一个飞轮(Flywheel) :Hermes Agent 使用生成训练数据 → Atropos 处理 → 训练出更好的 Hermes 模型 → Hermes Agent 变得更强大。
多智能体与子智能体架构
Hermes Agent 将子智能体委派(Subagent Delegation) 作为原生能力提供支持。子智能体拥有自己独立的对话、终端和 Python RPC 脚本,支持零上下文成本(Zero-Context-Cost)的并行管线。自 v0.5.0 起,子智能体拥有独立的迭代预算(Iteration Budget)——它们不再消耗父智能体的预算,从而防止复杂嵌套工作流中的过早终止。
通过 execute_code 进行的程序化工具调用(Programmatic Tool Calling)将多步管线折叠为单次推理调用:在后台运行 RPC 调用的子智能体直接执行代码,而父智能体仅评估最终输出,极大降低了 LLM 调用开销。
竞争格局
横向逐项对比(Head-to-Head Comparison)
Hermes 的制胜之处(Where Hermes Wins)
Hermes Agent 最显著的差异化优势在于其复合价值主张(Compounding Value Proposition) ——运行时间越长,它对操作员和运行环境的了解就越深入。对于希望智能体在数月内积累上下文信息的单个高杠杆操作员(Single High-Leverage Operator) (而非由团队向多样化最终用户部署智能体的场景),Hermes 的记忆架构在开源替代方案中没有可比的对手。
一个常被引用的基准测试具有架构层面的标志性意义:同一个底层模型(Opus 4.5)仅因智能体脚手架(Agent Scaffolding) 不同,就在 SWE-bench 上产生了 17 道题的得分差距。架构比模型选型更重要——这验证了 Hermes 在记忆与技能系统上的投入,而非仅仅提供裸模型访问。
Hermes 的不足之处(Where Hermes Falls Short)
多智能体编排(Multi-agent Orchestration) :Hermes 本质上是带有子智能体委派的单智能体框架。它缺乏 CrewAI 的基于角色的团队结构,也缺乏 LangGraph 的状态机控制。对于需要具有明确定制化的协调智能体团队(Coordinated Agent Crews)的用例,Hermes 并非合适之选。
企业就绪度(Enterprise Readiness) :截至 2026 年 3 月,无企业版、商业 SLA、访问控制。CrewAI 拥有 $1800 万融资和企业合同;LangGraph 拥有 LangSmith 可观测性和生产级检查点(Production-Grade Checkpointing)。
设置复杂度(Setup Complexity) :需要 Python 运行时、独立的模型服务器(Ollama 或 vLLM 用于本地推理)、配置文件管理以及跨多个 Provider 的 API Key 管理。单二进制(Single-Binary)替代方案完全消除了此类摩擦。
文档缺口(Documentation Gaps) :社区反馈一致指出,文档相对于框架的复杂度和快速发布节奏而言较为薄弱。
批判性分析: skeptics 的观点
并非所有对 Hermes Agent 的评估都是无条件正面的。一份详细的技术审查提出了实质性质疑:
技能作为结构化提示注入(Skills as Structured Prompt Injection) :审查者认为,Hermes 所宣传的“技能创建”本质上是对 Markdown 文件的CRUD 操作(Create, Read, Update, Delete) ,在运行时注入上下文。这是 “带有 CRUD 层的结构化提示注入,而非原生能力” 。渐进式披露设计被称赞为真正的优秀工程实践;营销框架则被认为是过度延伸。
记忆作为结构化笔记(Memory as Structured Note-Taking) :带边界限制的 MEMORY.md 和 USER.md 文件实现了与 Claude Code、OpenCode 及大多数带配置文件的工具相同的模式。实现本身工程扎实(原子写入、文件锁、注入扫描、字符预算),但称其“伴你成长”被描述为对持久化结构化笔记的营销延伸。
Llama 微调依赖:截至该审查发布时,每一款 Hermes 模型都是 Llama 微调版。与 Hermes 4 交互的感觉与 Llama 3.1 405B 无异——因为它本质上就是,只不过在其之上进行了针对性指令调优(Purpose-Built Instruction Tuning)。模型无关的 Agent 运行时部分缓解了这一问题,但发现 Llama 推理风格受限的开发者将在任何 Hermes 模型中体验到这一点。
Honcho 未经证实的宣称:Honcho 的辩证式用户建模在架构上具有新颖性,但无已发表的 A/B 测试或基准对比启用与停用 Honcho 时 Agent 的任务表现。理论上的心智模型(Theory-of-Mind)用户画像在 100 次会话标记处提升任务完成率的说法,仍然是一个开放的实证问题。
无遗忘机制(No Forgetting Mechanism) :Agent 无限累积记忆。没有衰减(Decay)、剪枝(Pruning)或陈旧性检测(Staleness Detection)。为旧工作流模式编写的技能可能与当前惯例冲突;Honcho 推导的用户事实可能过时。创造复合价值主张的记忆累积方式,同时也制造了复合一致性问题。
实用用例
基于实践者报告和社区文档,Hermes Agent 在以下场景中回报最为显著:
重复性开发工作流:每日 GitHub Issue 分类、自动摘要发布至 Slack、每周 Changelog 生成。FTS5 会话召回与技能复用的结合意味着 Agent 会跨会话改进自身的分类逻辑。
持久化编码助手:与关闭编辑器即丢失上下文的 IDE 嵌入式 Copilot 不同,Hermes 作为后台进程运行,在整个开发生命周期中维护项目上下文。
研究与分析管线:带有并行工作节点的批量轨迹生成(Batch Trajectory Generation)使得大规模研究任务能够在可控成本下进行,尤其在空闲时间几乎零成本的无服务器后端上。
自动化运维:Cron 定时任务(备份、每周审计、报告生成)投递至任何已连接的消息平台。自然语言调度(“每周一上午 9 点,总结上周的提交”)配合投递至 Telegram、Slack 或电子邮件。
模型训练数据生成:从事 LLM 开发的团队可以以轨迹捕获模式运行 Hermes,从真实运维任务中生成高质量训练数据,直接输入 Atropos RL 管线。
开放问题与未来轨迹
若干未决问题将决定 Hermes Agent 的长期发展轨迹:
agentskills.io 能否成为通用标准? 十一款工具采用同一技能格式令人瞩目。但标准化在压力下历来会碎片化——当供应商需要标准不支持的 features(认证、版本管理、依赖管理)时。SKILL.md 格式的有意极简主义(Deliberate Minimalism)使采用变得容易,但使演进变得困难。
技能库能否在大规模下保持连贯? 技能无限累积。旧技能可能过时;冲突的技能(一个说“使用 yarn”,另一个基于用户偏好变更说“使用 pnpm”)会产生一致性问题。agentskills.io 标准对技能生命周期管理或冲突解决未作任何规定。
Honcho 用户建模能否在实际上改善结果? 理论论证令人信服;实证证据尚付阙如。在有/无 Honcho 的情况下,在 30/60/90 天使用标记处对任务完成率的独立评估,要么会验证该架构,要么会揭示其为一个精心构建的用户面向叙事。
DataForge 的合成数据赌注:Hermes 4 使用的训练 tokens 是 Hermes 3 的 150 倍,全部为合成生成。LLM 评判器提供了质量过滤,但合成数据可能放大种子数据中的偏差。600 亿 tokens 的 DataForge 生成数据是否比 3.9 亿 tokens 的精心策划数据能训练出真正更好的 Agent,尚未完全解决——Hermes 4 的基准测试令人鼓舞,但基础模型也同时发生了变化。
企业采用路径:Hermes Agent 的当前架构针对单个高杠杆操作员进行了优化,而非具备访问控制、审计追踪、合规要求及团队级 Agent 管理的企业部署。Nous Research 是会朝着这些能力方向构建——还是将这一空间让给资金充足的竞争对手——将决定 Hermes 是保持为高级用户工具,还是成为企业平台。
结论
Hermes Agent 是 2026 年发布的开源 Agent 框架中架构最具雄心者。其闭环学习——五层记忆、自主技能创建、辩证式用户建模和 FTS5 会话搜索——代表了一个真正的架构押注:持久化、复合增长的上下文将比无状态算力更具价值。快速的发布节奏(五周六个主要版本)和社区采纳(17,400+ Stars)验证了这一设计方向的真实需求。
客观评估是:Hermes 处于 pre-1.0 的高潜力架构论证阶段。“伴你成长”的定位部分已实现(Skills 确实降低 Token 开销;会话搜索提供真实的跨会话召回),部分尚属愿景(Honcho 的用户建模缺乏实证验证;技能累积无剪枝机制)。对于运行数月而非数天的开发者和团队,复合优势在架构层面是真实的。对于需要经过实战检验的可靠性、企业级访问控制或原生多智能体编排的组织,该框架尚未就绪。其发展轨迹——考虑到 Nous Research 的模型训练专长以及连接 Agent 使用与模型改进的 Atropos 飞轮——指向一个不仅跨会话、而且跨模型代际持续可测优化的系统。