OpenAI 悄悄重写 Agents SDK:生产级 Agent 底座来了,LangChain 们还怎么活?

简介: OpenAI重磅发布全新Agents SDK:解耦“大脑”与“手脚”,内置harness控制流、多厂商沙盒、Manifest配置、快照恢复等生产级能力。900页保单100%提取、半数PR由Agent生成,LangChain时代正加速终结。

900 页保险单 100% 提取,一半 PR 出自 Agent。你还在手动调 LangChain 吗?

很多人已经开始感觉到不对劲了。

三个月前,GPT-5.4 带着原生 computer use 登场,模型能直接操作电脑了。但开发者很快发现一个问题:模型能点能敲,可 Agent 到底跑在哪台机器上?怎么保证它不乱删文件?怎么让它跑几个小时不断线?

这些基建问题,还是得自己东拼西凑。

今晚,OpenAI 把这个缺口堵上了。

不是小修小补,是把整个 Agents SDK 从底层重写了一遍。原生 harness、原生沙盒、Codex 同款文件系统工具,外加七家沙盒厂商一键接入。

一句话:OpenAI 把 Agent 的「运行环境」和「大脑」彻底解耦,然后把基建层直接铺到了所有人脚下。

这篇文章,我们从工程视角拆三件事:

这次到底改了什么
为什么说 LangChain 们无处可躲
你现在应该怎么做
目录

一、现象:GPT-5.4 能操作电脑了,但 Agent 没地方跑
二、本质变化:OpenAI 把「基建」和「算力」拆开了
三、核心机制拆解:harness + 沙盒 + Manifest
四、典型案例:900 页保单 100% 提取,一半 PR 来自 Agent
五、工程落地启示:你的 Agent 架构该升级了
六、趋势判断:第三方框架往哪走

一、现象:GPT-5.4 能操作电脑了,但 Agent 没地方跑
3 月初,GPT-5.4 带着原生 computer use 发布。模型能看屏幕、移动鼠标、点击输入,跟人一样操作电脑。

开发者当时就炸了。

但炸完之后是尴尬。模型是能操作电脑了,可 Agent 跑在哪台电脑上?用自己笔记本?那跑几小时的任务怎么办?用云服务器?环境怎么配?权限怎么隔离?跑崩了从哪恢复?

这些问题,OpenAI 当时一个都没解决。

开发者只能自己拼:LangChain 管流程、Docker 管隔离、Redis 管状态、再加一堆回调脚本。一套下来,还没写业务逻辑,基建已经堆了上千行。

这不是个例。过去一年,几乎所有做长周期 Agent 的团队都在重复造同一个轮子:一个能稳定运行几小时、几天、甚至几周的 Agent 运行时。

今晚,OpenAI 把这个轮子直接塞进了 SDK。

二、本质变化:OpenAI 把「基建」和「算力」拆开了
这次升级,核心就两件事。

第一件:给 Agent 配了一个完整的运行框架——harness。

配置化记忆、感知沙盒编排、文件系统工具(Codex 同款)、通过 MCP 调外部工具、通过 skills 渐进式披露信息、通过 AGENTS.md 自定义指令、用 shell 执行代码、用 apply_patch 编辑文件。

这套清单,熟悉 Claude Code 和 Cursor 的开发者一看就懂。OpenAI 把自家 Codex 过去一年踩过的坑、积累的最佳实践,全部产品化塞进了 SDK。

第二件:把 harness 和 compute 彻底分离。

harness 跑在你的可信基建里,负责模型调用、工具路由、审批流、状态追踪、暂停恢复。

compute 是一个独立的沙盒,专门负责读写文件、跑命令、装依赖、吐产物。

两层之间接口标准化。API key 和敏感凭证压根不会进入沙盒。沙盒里既没有密钥,也没有任何敏感数据。甚至可以断开网络,零对外流量。

这不是安全加固。这是架构范式的迁移。

以前,Agent = 模型 + 提示词 + 工具调用。
现在,Agent = harness(控制流) + sandbox(执行环境) + 模型。

本质是:OpenAI 不再只卖模型推理,开始卖 Agent 的生产级运行底座。

三、核心机制拆解:harness + 沙盒 + Manifest
这次发布,技术上有三个点值得深挖。

  1. Manifest:一份配置清单,解耦所有沙盒供应商

Manifest 描述 Agent 工作区的完整配置:要挂载哪些本地文件、从哪个云存储拉数据、产物写到哪里。AWS S3、GCS、Azure Blob、Cloudflare R2 全覆盖。

关键是,Manifest 和具体沙盒供应商解耦。今天用 E2B 写的 Agent,明天想换 Modal 跑,不改代码,只改一行配置。

官方给了最小示例,让一个 Agent 跑进本地沙盒,挂载财报目录,对比两年的财务指标,核心代码不到 20 行。

agent = SandboxAgent(
name="Dataroom Analyst",
model="gpt-5.4",
instructions="Answer using only files in data/. Cite source filenames.",
default_manifest=Manifest(entries={"data": LocalDir(src=dataroom)}),
)
20 行代码,完成一个能读文件、能分析、能引用来源的 Agent。以前用 LangChain 写,至少 100 行起。

  1. 快照与状态恢复:掉线续命

长跑任务最怕什么?沙盒容器挂了,所有进度丢失,从头再来。

这次 SDK 原生支持快照和状态恢复。Agent 跑到一半,整个状态序列化保存。沙盒崩了,从最近检查点恢复,继续跑。

这不是 checkpoint 回调,是原生内建。

  1. 多沙盒并行 + 子 Agent 隔离:分身作战

一个任务拆成十个子任务,十个子任务分别跑在十个独立沙盒里,互不干扰。每个子 Agent 有自己的隔离环境,主 Agent 负责协调和汇总。

扩展性问题,原生解决。

Agent 第一次有了「掉线续命」和「分身作战」的能力。

四、典型案例:900 页保单 100% 提取,一半 PR 来自 Agent
数字比观点更有说服力。

案例一:900 页保险理赔记录,100% 提取

FurtherAI CTO 披露,他们的 Agent 啃下了一份 900 多页的保险理赔记录,提取成功率 100%。保险业的人知道,这是业内最难啃的文档之一,以前跑到某一页崩掉是常态。

案例二:公司一半 PR 出自 Agent

Modal 技术团队成员透露,Ramp 已经用 Modal 跑了一支后台编码 Agent 大军,公司超过一半的 PR 都是这些 Agent 自己创建的。Stripe 也在今年早些时候披露,内部 AI Agent 每周产出超过 1000 个 PR。

两家公司的共同点:在拿到成熟 Agent 基建之后,业务团队的生产力出现了断层式跃迁。

案例三:代码量减少 6 倍

Tomoro AI 研发工程师给出了硬数字:相同能力的 Agent,这次需要的代码量比以前少了 6 倍。

案例四:发票对账,第一轮就跑通

Box 开发者关系负责人传了一份业务数据,配上 bash/python 作为工具,让 Agent 在沙盒里跑了一整套发票对账业务流程。第一轮试水就全跑通了。

这些案例说明一件事:以前只有头部公司才能攒出来的 Agent 基建,现在变成了 SDK 里开箱即用的默认配置。

五、工程落地启示:你的 Agent 架构该升级了
如果你现在还在用 LangChain 或自己手写 Agent 框架,这次发布应该让你重新思考三件事。

启示一:不要自己造 harness 轮子

harness 的核心是控制流、状态管理、工具路由、暂停恢复。这些逻辑非常通用,OpenAI 已经给出了官方实现。自己写的版本,大概率没有官方稳定,也没有官方迭代快。

除非你有极其特殊的编排需求,否则直接基于 OpenAI Agents SDK 往上搭业务。

启示二:沙盒选型变成配置问题

以前,选沙盒意味着改代码。换了沙盒供应商,工具调用层要重写。现在,Manifest 一层抽象,沙盒选型变成改一行配置。

建议:本地开发用 UnixLocalSandboxClient,测试用 E2B,生产环境按数据位置选 Modal 或 Runloop。哪家便宜、哪家离数据近,就切到哪家。

启示三:长跑任务必须用快照

很多人做 Agent 演示时跑几分钟没问题,一到生产跑几个小时就崩。原因是没有状态恢复能力。

新 SDK 原生支持快照,建议从第一天就把 checkpoint 机制用起来。不是等出了问题再加,是架构上就依赖它。

下面这张图概括了新的 Agent 架构:

b73e0795-e3a3-47b0-b863-61fa91db4f52.png

核心变化:Harness 管脑子,Sandbox 管手脚。中间用 Manifest 解耦。

六、趋势判断:第三方框架往哪走
这次发布,对 Agent 生态的冲击才刚刚显露。

LangChain、LangGraph、CrewAI、AutoGen 这些第三方框架,过去一年靠什么活着?靠补齐 OpenAI 原生 SDK 不够「生产可用」的那块空白。编排、记忆管理、护栏、追踪、多 Agent 协作,这些都是第三方的主战场。

现在,OpenAI 一次性把这些主战场全接管了。

harness 原生支持编排和暂停恢复,Manifest 原生支持工具和沙盒管理,快照原生支持状态持久化。

第三方框架的空间,被压缩到两个方向:

往上走:垂直场景的 Agent 编排(比如只做客服 Agent、只做编码 Agent)
往下走:专用沙盒、专用工具、专用存储
夹在中间做通用 Agent 框架的,地板已经被 OpenAI 自己踩实了。

另外,OpenAI 口中的「兼容所有沙盒服务商」,本身就是在把沙盒供应商纳入自己的生态位。今天还是合作伙伴,明天可能就是「组件供应商」。

当然,目前还不完美。新能力首发只上了 Python,TypeScript 还在排队。SDK 版本号仍然停留在 0.Y.Z。

但方向已经非常清晰了。

GPT-5.4 带着原生 computer use 登台,Agents SDK 给它配齐了真正的运行环境。下一步缺的,只是更多开发者把业务逻辑搭在这个基建之上。

相关文章
|
15天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34793 40
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
9天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
9643 29
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
4天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
1932 20
|
26天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45677 155
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
1天前
|
人工智能 自然语言处理 安全
|
9天前
|
机器学习/深度学习 存储 人工智能
还在手写Skill?hermes-agent 让 Agent 自己进化能力
Hermes-agent 是 GitHub 23k+ Star 的开源项目,突破传统 Agent 依赖人工编写Aegnt Skill 的瓶颈,首创“自我进化”机制:通过失败→反思→自动生成技能→持续优化的闭环,让 Agent 在实践中自主构建、更新技能库,持续自我改进。
1606 5
|
16天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
5741 26
|
6天前
|
IDE Java 编译器
【全网最详细】JDK17下载安装图文教程 | Java17编程环境搭建步骤详解
JDK 17是Java官方长期支持(LTS)版本,提供编译、调试、运行Java程序的完整工具链。具备高稳定性、强安全性及现代语言特性(如密封类、模式匹配),广泛用于企业开发、教学入门与生产环境,是学习和实践Java的首选基础工具。(239字)
1105 15
下一篇
开通oss服务