让长时运行的 AI 智能体真正“持续工作” ——基于 Anthropic 实验的工程化方法总结

简介: Anthropic 提出“初始化+编码”双智能体机制,破解长时任务失败难题:初始化智能体构建稳定环境(功能列表、脚本、git、进度日志);编码智能体每次仅实现一个功能,辅以端到端测试与git回溯,实现小步快跑、持续可靠推进。(239字)

背景:为什么长时智能体难以成功?

随着大模型能力提升,越来越多团队希望让 AI 承担跨越数小时甚至数天的任务,例如:

  • 构建完整 Web 应用
  • 持续调试系统
  • 多轮研究与分析
  • 长期自动化工程任务

但现实是:只要任务跨越多个上下文窗口,智能体就会出现遗忘、混乱、重复劳动甚至自我误导。
典型失败包括:

  • 一次性做太多(One-shot) → 上下文爆炸、代码半成品
  • 过早宣布完成 → 忽略大量未完成功能

这些问题本质上来自:
模型无法在跨会话的长期任务中保持稳定、可追踪的进展。

Anthropic 是如何解决这个问题的?

Anthropic 提出了一套非常工程化的解决方案:“初始化智能体 + 编码智能体”双智能体机制。

1. 初始化智能体(Initializer Agent)

  • 生成完整功能列表(200+ 项)
  • 创建 init.sh(启动环境)
  • 创建 claude-progress.txt(进度日志)
  • 初始化 git 仓库
    它的目标是:为未来所有会话建立一个稳定、可重复的开发环境。

2.编码智能体(Coding Agent)

每次会话只做一件事:

  • 选择一个未完成功能
  • 实现它
  • 测试它
  • 写 git commit
  • 更新进度文件

它的目标是:小步快跑、持续推进、永不破坏环境。

智能体每次会话都做了什么?

每次编码会话开始时,智能体会自动执行:

1.读取环境状态

  • pwd 查看目录
  • 阅读 git log
  • 阅读 claude-progress.txt
  • 阅读功能列表 JSON

2.启动项目

  • 运行 init.sh
  • 启动开发服务器

3.自检

  • 使用 Puppeteer MCP 做端到端测试
  • 确保环境干净、可运行

4.实现功能

  • 选择一个未完成功能
  • 编码、测试
  • 写 git commit
  • 更新进度文件

如果出现问题:

  • 自动 git revert 回到稳定状态

关键:哪些机制最有效

1. 功能列表是最重要的锚点

它让模型:

  • 不会一次性做太多
  • 不会过早宣布完成
  • 不会忘记任务范围
  • 不会破坏结构化数据

JSON 格式尤其稳定。

2. 增量式开发比模型能力更重要

长时任务的关键不是“聪明”,而是:

  • 小步快跑
  • 稳定推进
  • 保持环境干净

3. 端到端测试比单元测试更可靠

模型写单元测试容易漏掉关键问题。
但通过浏览器自动化测试:

  • 能发现 UI 逻辑错误
  • 能捕捉交互问题
  • 能模拟真实用户行为

显著提升质量。

4. git 是智能体的“外部记忆”

git log + 进度文件让模型能:

  • 快速理解当前状态
  • 避免重复劳动
  • 追踪历史决策
    这是跨会话最可靠的“记忆机制”。

总结:如何让智能体真正持续工作?

Anthropic 的实验告诉我们:
长时智能体的关键不是更强的模型,而是更好的工程机制。

要让智能体在多轮会话中持续推进任务,需要:

✔ 初始化智能体:建立稳定环境
功能列表、脚本、进度文件、初始 git。

✔ 编码智能体:增量式推进
每次只做一个功能,保持环境干净。

✔ 强制端到端测试
确保功能真正可用。

✔ git + 进度文件作为外部记忆
让智能体能跨会话理解项目状态。

目录
相关文章
|
2月前
|
人工智能 搜索推荐 测试技术
国家开始支持一人公司了,我做了一年的感想
深圳最高补贴 1000 万,OPC 写进政府工作报告。而我已经一个人做了快一年——没补贴没社区,用 AI 从零做了一个 SaaS。政策是好事,但真正的门槛不是工具,是持续执行力。
|
2月前
|
人工智能 算法 搜索推荐
告别空洞的 AI,我做了一个拥有“灵魂”的探险文案系统
这是一款融合AI效率与人文温度的“无限文案引擎”:基于20+维度自然/城市词库与诗意句式骨架,支持零代码个性化配置、断网不丢数据、一键生成千万级不重样文案,并可导出分享灵感库。
263 4
|
2月前
|
人工智能 IDE API
阿里云百炼Coding Plan 显示售罄抢不到怎么办?GLM-5等模型是全参数满血版的吗?
阿里云百炼Coding Plan提供GLM-5、Qwen3.5-Plus等**满血原版模型**(非量化阉割),仅计费方式不同。抢购建议直选Pro版+卡准每日9:30补货。若求稳,推荐直接使用百炼平台——开通即用、新用户赠100万Tokens,模型一致、按量付费更灵活。
|
3月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
29201 253
|
12月前
|
传感器 人工智能 IDE
AI IDE正式上线!通义灵码开箱即用
作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。
5615 171
|
1月前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
25184 65
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
2月前
|
人工智能 Linux API
OpenClaw阿里云/本地保姆级部署使用教程!支持的ACP协议详解+免费大模型API配置+避坑指南
2026年开源AI代理框架OpenClaw在发布重磅版本,正式全面支持ACP(Agent Client Protocol)协议,彻底改写AI代理生态协作规则。这一更新让Codex、Claude Code、Gemini等顶级编码AI成为OpenClaw的一级子代理,实现跨模型无缝调度,中英日开发者社区瞬间引爆,单条更新推文最高斩获636万浏览、3699个点赞,标志着AI代理从各自为战的草莽时代,迈入协议统一、工程化落地的标准化新阶段。
1847 1
|
1月前
|
人工智能 API Go
Qoder 工程实践:Harness Engineering 指南
Harness 是一套面向 AI Agent 的工程化框架,通过将架构约束、规范文档和自动化验证(如依赖层级检查、质量规则)编码进代码仓库,为 Agent 构建“操作系统”。它以 AGENTS.md 为入口,用预验证替代盲目编码,以子代理分工、模型分级调度和交叉 Review 保障质量,并支持自我进化——从失败中学习、沉淀记忆、编译确定性脚本。让 Agent 不靠“记住”,而靠“看见”与“验证”可靠工作。
Qoder 工程实践:Harness Engineering 指南
|
2月前
|
人工智能 Linux API
从0到1打造AI工作团队:OpenClaw多Agent协作指南,2026年阿里云+本地部署保姆级流程步骤
Google Cloud高级AI产品经理、Awesome LLM Apps(99k+ stars)作者Shubham Saboo的生产级AI Agent团队实战方案,在2026年迎来了全新的落地升级。这款基于OpenClaw(Clawdbot)搭建的6人AI Agent协作系统,摆脱了传统单Agent的上下文局限,通过人格化设计、文件系统协作、长期记忆沉淀和自愈机制,实现了研究报告、内容创作、代码审查、邮件通讯等6项核心工作的全自动化运行。经过一个月实测,该系统每天能为使用者节省4-5小时的重复工作时间,月均运营成本不到400美元,更可通过阿里云云端部署实现7×24小时无休运行,也能在MacO
1909 1
|
1月前
不太好用
代码写的有严重遗漏

热门文章

最新文章