让长时运行的 AI 智能体真正“持续工作” ——基于 Anthropic 实验的工程化方法总结

简介: Anthropic 提出“初始化+编码”双智能体机制,破解长时任务失败难题:初始化智能体构建稳定环境(功能列表、脚本、git、进度日志);编码智能体每次仅实现一个功能,辅以端到端测试与git回溯,实现小步快跑、持续可靠推进。(239字)

背景:为什么长时智能体难以成功?

随着大模型能力提升,越来越多团队希望让 AI 承担跨越数小时甚至数天的任务,例如:

  • 构建完整 Web 应用
  • 持续调试系统
  • 多轮研究与分析
  • 长期自动化工程任务

但现实是:只要任务跨越多个上下文窗口,智能体就会出现遗忘、混乱、重复劳动甚至自我误导。
典型失败包括:

  • 一次性做太多(One-shot) → 上下文爆炸、代码半成品
  • 过早宣布完成 → 忽略大量未完成功能

这些问题本质上来自:
模型无法在跨会话的长期任务中保持稳定、可追踪的进展。

Anthropic 是如何解决这个问题的?

Anthropic 提出了一套非常工程化的解决方案:“初始化智能体 + 编码智能体”双智能体机制。

1. 初始化智能体(Initializer Agent)

  • 生成完整功能列表(200+ 项)
  • 创建 init.sh(启动环境)
  • 创建 claude-progress.txt(进度日志)
  • 初始化 git 仓库
    它的目标是:为未来所有会话建立一个稳定、可重复的开发环境。

2.编码智能体(Coding Agent)

每次会话只做一件事:

  • 选择一个未完成功能
  • 实现它
  • 测试它
  • 写 git commit
  • 更新进度文件

它的目标是:小步快跑、持续推进、永不破坏环境。

智能体每次会话都做了什么?

每次编码会话开始时,智能体会自动执行:

1.读取环境状态

  • pwd 查看目录
  • 阅读 git log
  • 阅读 claude-progress.txt
  • 阅读功能列表 JSON

2.启动项目

  • 运行 init.sh
  • 启动开发服务器

3.自检

  • 使用 Puppeteer MCP 做端到端测试
  • 确保环境干净、可运行

4.实现功能

  • 选择一个未完成功能
  • 编码、测试
  • 写 git commit
  • 更新进度文件

如果出现问题:

  • 自动 git revert 回到稳定状态

关键:哪些机制最有效

1. 功能列表是最重要的锚点

它让模型:

  • 不会一次性做太多
  • 不会过早宣布完成
  • 不会忘记任务范围
  • 不会破坏结构化数据

JSON 格式尤其稳定。

2. 增量式开发比模型能力更重要

长时任务的关键不是“聪明”,而是:

  • 小步快跑
  • 稳定推进
  • 保持环境干净

3. 端到端测试比单元测试更可靠

模型写单元测试容易漏掉关键问题。
但通过浏览器自动化测试:

  • 能发现 UI 逻辑错误
  • 能捕捉交互问题
  • 能模拟真实用户行为

显著提升质量。

4. git 是智能体的“外部记忆”

git log + 进度文件让模型能:

  • 快速理解当前状态
  • 避免重复劳动
  • 追踪历史决策
    这是跨会话最可靠的“记忆机制”。

总结:如何让智能体真正持续工作?

Anthropic 的实验告诉我们:
长时智能体的关键不是更强的模型,而是更好的工程机制。

要让智能体在多轮会话中持续推进任务,需要:

✔ 初始化智能体:建立稳定环境
功能列表、脚本、进度文件、初始 git。

✔ 编码智能体:增量式推进
每次只做一个功能,保持环境干净。

✔ 强制端到端测试
确保功能真正可用。

✔ git + 进度文件作为外部记忆
让智能体能跨会话理解项目状态。

目录
相关文章
|
1月前
|
人工智能 搜索推荐 测试技术
国家开始支持一人公司了,我做了一年的感想
深圳最高补贴 1000 万,OPC 写进政府工作报告。而我已经一个人做了快一年——没补贴没社区,用 AI 从零做了一个 SaaS。政策是好事,但真正的门槛不是工具,是持续执行力。
|
29天前
|
人工智能 算法 搜索推荐
告别空洞的 AI,我做了一个拥有“灵魂”的探险文案系统
这是一款融合AI效率与人文温度的“无限文案引擎”:基于20+维度自然/城市词库与诗意句式骨架,支持零代码个性化配置、断网不丢数据、一键生成千万级不重样文案,并可导出分享灵感库。
190 4
|
21天前
|
人工智能 IDE API
阿里云百炼Coding Plan 显示售罄抢不到怎么办?GLM-5等模型是全参数满血版的吗?
阿里云百炼Coding Plan提供GLM-5、Qwen3.5-Plus等**满血原版模型**(非量化阉割),仅计费方式不同。抢购建议直选Pro版+卡准每日9:30补货。若求稳,推荐直接使用百炼平台——开通即用、新用户赠100万Tokens,模型一致、按量付费更灵活。
|
2月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
27095 206
|
11天前
|
人工智能 API Go
Qoder 工程实践:Harness Engineering 指南
Harness 是一套面向 AI Agent 的工程化框架,通过将架构约束、规范文档和自动化验证(如依赖层级检查、质量规则)编码进代码仓库,为 Agent 构建“操作系统”。它以 AGENTS.md 为入口,用预验证替代盲目编码,以子代理分工、模型分级调度和交叉 Review 保障质量,并支持自我进化——从失败中学习、沉淀记忆、编译确定性脚本。让 Agent 不靠“记住”,而靠“看见”与“验证”可靠工作。
Qoder 工程实践:Harness Engineering 指南
|
11月前
|
传感器 人工智能 IDE
AI IDE正式上线!通义灵码开箱即用
作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。
5231 171
uni-app创建项目
uni-app创建项目
132 0
|
1月前
|
人工智能 Linux API
OpenClaw阿里云/本地保姆级部署使用教程!支持的ACP协议详解+免费大模型API配置+避坑指南
2026年开源AI代理框架OpenClaw在发布重磅版本,正式全面支持ACP(Agent Client Protocol)协议,彻底改写AI代理生态协作规则。这一更新让Codex、Claude Code、Gemini等顶级编码AI成为OpenClaw的一级子代理,实现跨模型无缝调度,中英日开发者社区瞬间引爆,单条更新推文最高斩获636万浏览、3699个点赞,标志着AI代理从各自为战的草莽时代,迈入协议统一、工程化落地的标准化新阶段。
1518 1
|
10天前
不太好用
代码写的有严重遗漏

热门文章

最新文章

下一篇
开通oss服务