让长时运行的 AI 智能体真正“持续工作” ——基于 Anthropic 实验的工程化方法总结

简介: Anthropic 提出“初始化+编码”双智能体机制,破解长时任务失败难题:初始化智能体构建稳定环境(功能列表、脚本、git、进度日志);编码智能体每次仅实现一个功能,辅以端到端测试与git回溯,实现小步快跑、持续可靠推进。(239字)

背景:为什么长时智能体难以成功?

随着大模型能力提升,越来越多团队希望让 AI 承担跨越数小时甚至数天的任务,例如:

  • 构建完整 Web 应用
  • 持续调试系统
  • 多轮研究与分析
  • 长期自动化工程任务

但现实是:只要任务跨越多个上下文窗口,智能体就会出现遗忘、混乱、重复劳动甚至自我误导。
典型失败包括:

  • 一次性做太多(One-shot) → 上下文爆炸、代码半成品
  • 过早宣布完成 → 忽略大量未完成功能

这些问题本质上来自:
模型无法在跨会话的长期任务中保持稳定、可追踪的进展。

Anthropic 是如何解决这个问题的?

Anthropic 提出了一套非常工程化的解决方案:“初始化智能体 + 编码智能体”双智能体机制。

1. 初始化智能体(Initializer Agent)

  • 生成完整功能列表(200+ 项)
  • 创建 init.sh(启动环境)
  • 创建 claude-progress.txt(进度日志)
  • 初始化 git 仓库
    它的目标是:为未来所有会话建立一个稳定、可重复的开发环境。

2.编码智能体(Coding Agent)

每次会话只做一件事:

  • 选择一个未完成功能
  • 实现它
  • 测试它
  • 写 git commit
  • 更新进度文件

它的目标是:小步快跑、持续推进、永不破坏环境。

智能体每次会话都做了什么?

每次编码会话开始时,智能体会自动执行:

1.读取环境状态

  • pwd 查看目录
  • 阅读 git log
  • 阅读 claude-progress.txt
  • 阅读功能列表 JSON

2.启动项目

  • 运行 init.sh
  • 启动开发服务器

3.自检

  • 使用 Puppeteer MCP 做端到端测试
  • 确保环境干净、可运行

4.实现功能

  • 选择一个未完成功能
  • 编码、测试
  • 写 git commit
  • 更新进度文件

如果出现问题:

  • 自动 git revert 回到稳定状态

关键:哪些机制最有效

1. 功能列表是最重要的锚点

它让模型:

  • 不会一次性做太多
  • 不会过早宣布完成
  • 不会忘记任务范围
  • 不会破坏结构化数据

JSON 格式尤其稳定。

2. 增量式开发比模型能力更重要

长时任务的关键不是“聪明”,而是:

  • 小步快跑
  • 稳定推进
  • 保持环境干净

3. 端到端测试比单元测试更可靠

模型写单元测试容易漏掉关键问题。
但通过浏览器自动化测试:

  • 能发现 UI 逻辑错误
  • 能捕捉交互问题
  • 能模拟真实用户行为

显著提升质量。

4. git 是智能体的“外部记忆”

git log + 进度文件让模型能:

  • 快速理解当前状态
  • 避免重复劳动
  • 追踪历史决策
    这是跨会话最可靠的“记忆机制”。

总结:如何让智能体真正持续工作?

Anthropic 的实验告诉我们:
长时智能体的关键不是更强的模型,而是更好的工程机制。

要让智能体在多轮会话中持续推进任务,需要:

✔ 初始化智能体:建立稳定环境
功能列表、脚本、进度文件、初始 git。

✔ 编码智能体:增量式推进
每次只做一个功能,保持环境干净。

✔ 强制端到端测试
确保功能真正可用。

✔ git + 进度文件作为外部记忆
让智能体能跨会话理解项目状态。

目录
相关文章
|
3月前
|
人工智能 搜索推荐 测试技术
国家开始支持一人公司了,我做了一年的感想
深圳最高补贴 1000 万,OPC 写进政府工作报告。而我已经一个人做了快一年——没补贴没社区,用 AI 从零做了一个 SaaS。政策是好事,但真正的门槛不是工具,是持续执行力。
|
3月前
|
人工智能 算法 搜索推荐
告别空洞的 AI,我做了一个拥有“灵魂”的探险文案系统
这是一款融合AI效率与人文温度的“无限文案引擎”:基于20+维度自然/城市词库与诗意句式骨架,支持零代码个性化配置、断网不丢数据、一键生成千万级不重样文案,并可导出分享灵感库。
314 4
|
3月前
|
人工智能 IDE API
阿里云百炼Coding Plan 显示售罄抢不到怎么办?GLM-5等模型是全参数满血版的吗?
阿里云百炼Coding Plan提供GLM-5、Qwen3.5-Plus等**满血原版模型**(非量化阉割),仅计费方式不同。抢购建议直选Pro版+卡准每日9:30补货。若求稳,推荐直接使用百炼平台——开通即用、新用户赠100万Tokens,模型一致、按量付费更灵活。
|
4月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
29613 253
|
6月前
|
机器学习/深度学习 缓存 物联网
打造社交APP人物动漫化:通义万相wan2.x训练优化指南
本项目基于通义万相AIGC模型,为社交APP打造“真人变身跳舞动漫仙女”特效视频生成功能。通过LoRA微调与全量训练结合,并引入Sage Attention、TeaCache、xDIT并行等优化技术,实现高质量、高效率的动漫风格视频生成,兼顾视觉效果与落地成本,最终优选性价比最高的wan2.1 lora模型用于生产部署。(239字)
1987 106
|
传感器 人工智能 IDE
AI IDE正式上线!通义灵码开箱即用
作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。
5891 171
|
2月前
|
人工智能 API Go
Qoder 工程实践:Harness Engineering 指南
Harness 是一套面向 AI Agent 的工程化框架,通过将架构约束、规范文档和自动化验证(如依赖层级检查、质量规则)编码进代码仓库,为 Agent 构建“操作系统”。它以 AGENTS.md 为入口,用预验证替代盲目编码,以子代理分工、模型分级调度和交叉 Review 保障质量,并支持自我进化——从失败中学习、沉淀记忆、编译确定性脚本。让 Agent 不靠“记住”,而靠“看见”与“验证”可靠工作。
Qoder 工程实践:Harness Engineering 指南
|
3月前
|
人工智能 安全
HR如何用 AI 编写员工手册或管理制度?从法规拆解到制度汇编,一套流程搞定(附实战 Prompt)
企业制度汇编耗时易错:法规更新快、条款需合法可执行、制度间易冲突、民主程序要留证。AI可高效拆解法规、生成考勤/薪酬/绩效等制度初稿、检测条款冲突、输出修订对照表与签收模板,助HR将数周工作压缩至几天,提升合规性与效率
446 1
|
22天前
|
人工智能 弹性计算 API
Hermes Agent + Claude Code 协同编程开发:阿里云一键部署AI开发团队全教程
在AI驱动开发的新时代,单一智能体已难以覆盖从需求分析、任务拆解、代码编写到经验沉淀的全流程。Hermes Agent与Claude Code的组合,构建了一套类似“技术主管+资深工程师”的高效AI开发团队模式。前者负责统筹规划、记忆进化、任务调度,后者专注高质量编码、调试与实现,两者协同工作,可大幅提升开发效率与工程交付质量。
542 1
|
3月前
|
人工智能 Linux API
从0到1打造AI工作团队:OpenClaw多Agent协作指南,2026年阿里云+本地部署保姆级流程步骤
Google Cloud高级AI产品经理、Awesome LLM Apps(99k+ stars)作者Shubham Saboo的生产级AI Agent团队实战方案,在2026年迎来了全新的落地升级。这款基于OpenClaw(Clawdbot)搭建的6人AI Agent协作系统,摆脱了传统单Agent的上下文局限,通过人格化设计、文件系统协作、长期记忆沉淀和自愈机制,实现了研究报告、内容创作、代码审查、邮件通讯等6项核心工作的全自动化运行。经过一个月实测,该系统每天能为使用者节省4-5小时的重复工作时间,月均运营成本不到400美元,更可通过阿里云云端部署实现7×24小时无休运行,也能在MacO
2088 1