90%的提示词方法正在失效:GPT-5.5发布后的真相

简介: GPT-5.5发布后,传统提示词工程正快速失效:过度细化步骤反降效,OpenAI关停微调API,Karpathy宣告“提示词工程已死”。新范式转向Context与Harness Engineering——用Agent架构(Model+Harness)替代手写提示,聚焦目标定义、上下文编排与错误拦截机制。

标题:90%的提示词方法正在失效:GPT-5.5发布后的真相

昨天晚上复盘,我们组一个新人花了半天精心打磨了一段2000多字的提示词,代码生成准确率85%。我一分钟换了个写法,把步骤全部删掉,只留目标和约束,准确率飙到了94%。

那位新人一脸懵。

他很快就不用懵了——因为就在这个月,行业连续甩出了几个重磅信号。

5月10日,OpenAI正式宣布全面关停微调API,现有用户可用到2027年1月,之后彻底关闭。官方原因直白得让人破防:新一代基座模型在指令遵循和格式控制上已经足够强大,Prompt+RAG比微调更便宜、更快,覆盖绝大多数场景。

四天前,GPT-5.5更新后发布的新提示词指南给出了一条让很多人不适应的结论:直接将旧版模型的提示词套用到新模型上,效果可能不升反降。因为过度指定步骤反而会压缩模型的探索空间,新指南的核心逻辑是——只定义成功标准,不规定执行流程

再往前推一点,4月30日,Karpathy在红杉的炉边谈话里直接喊了一句不给人留面子的话:提示词工程已死,上下文工程崛起。他把当下趋势定义为“Software 3.0”——工作流从编写代码转向编排Agent,上下文窗口就是新的程序杠杆。

我跟这个转变正面刚了一回

 

上个月接手一个电商客服意图分类任务,传统做法是:写2000字提示词,里面塞满举例、异常边界、各种步骤约束,把模型当小学生一样手把手教。准确率是85%-90%浮动。

我把同一个任务交了给了一个用LangGraph搭建的Agent,提示词压到了500字以内,只在开头定义清楚目标和结果质量红线。Agent自己调用搜索工具去查歧义、通过上下文窗口管理历史对话、自主做多轮消歧。

上线跑了两周,Agent方案把人力标注量削减了62%。因为不只是分类更准了,Agent还会在遇到低置信度案例时主动反问用户进入澄清流程,把错误拦截在回答之前。

对比鲜明到让人怀疑以前的自己到底在忙什么。

不只是写提示词的方法变了

我看到有人开始焦虑:不写提示词,那AI应用怎么控制?

这个方向最近出了更系统化的答案。从Prompt Engineering,到Context Engineering,再到今年刚提出的Harness Engineering(驾驭工程)——给AI套马具,而不是教它背指令。

一个精辟的共识正在行业里成形:Agent = Model + Harness。模型负责智能,Harness负责约束、反馈和流程控制。HashiCorp联合创始人Mitchell说得更直接:Harness Engineering就是每当发现Agent犯错时,你就花时间去工程化一个解决方案,让它永远不再犯同样的错。

这才是2026年AI工程化的真实走向。我们需要的不是更牛逼的提示词写手,而是会设计Agent规则环境的人

开放讨论

  • 如果你组里有个自称“提示词工程师”的同事,你觉得Ta未来两年会被淘汰吗?还是这个角色会被重新定义成什么?
  • 你的业务场景里,有没有“怎么教AI都教不会”的案例?尝试过扔掉步骤、只定目标吗?

声明:图片由AI辅助生成

相关文章
|
2月前
|
存储 人工智能 JavaScript
Prompt、Context、Harness:AI Agent 工程的三层架构解析
2023年重“Prompt”(如何说),2025年重“Context”(看到什么),2026年跃升至“Harness”(系统级约束与验证)。三者非替代而是分层:Prompt优化表达,Context管理信息环境,Harness构建可信执行系统——模型是马,Harness才是缰绳、马鞍与路。
876 10
Prompt、Context、Harness:AI Agent 工程的三层架构解析
|
25天前
|
人工智能 自然语言处理 运维
聊聊 OpenClaw:可本地部署的通用型 AI 智能体介绍
OpenClaw(“龙虾”)是MIT协议开源的自托管AI智能体框架,让大模型真正“动手做事”。支持本地/云端部署,具备系统级操控、自然语言驱动、持久化记忆与轻量定制能力,覆盖办公、开发、生活等全场景自动化,隐私安全、零代码、免订阅。(239字)
|
23天前
|
人工智能 自然语言处理 安全
阿里云上线团队版Token Plan,支持多坐席分配和管理!
阿里云上线团队版Token Plan,内置Qwen3.6、Kimi-K2.6等十余款多模态大模型,支持多坐席管理、三档灵活订阅(标准/高级/尊享),兼容Qoder、Cursor等主流Agent工具,提供租户隔离、成本管控与企业级数据安全,助力规模化AI办公。
|
26天前
|
人工智能 架构师 测试技术
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
AI编程王炸组合:顶级三剑客 OpenSpec 定方向,Superpowers定纪律,Harness定协同
|
23天前
|
人工智能 Rust IDE
Copilot祭出“免费”牌后,我测了Cursor、Claude Code和它,发现了个怪现象
本文实测Cursor、Claude Code等AI编程工具,揭示“免费即阳谋”本质:Copilot免费靠高频补全,但复杂项目易出隐性Bug;Claude Code前置理解、精打细算,4.8万Token一次通过编译。效率>规模,会思考的小模型正改写规则。(239字)
295 0
|
26天前
|
人工智能 API 调度
主流编程CLI工具适配DeepSeek V4对比:兼容性、报错与可用方案完整梳理
DeepSeek V4系列模型发布后,凭借更强的代码能力、长上下文支撑与工具调用稳定性,迅速成为AI编程场景的热门选择。但与此同时,DeepSeek V4对上下文回传增加了强制校验规则:当模型返回的消息中包含tool_call时,下轮对话必须携带reasoning_content字段,否则会直接报错并中断任务。这一规则导致大量基于CLI运行的编程工具无法正常工作,包括多款主流AI编码助手。
1555 1
|
26天前
|
SQL 机器学习/深度学习 自然语言处理
从单模态到多模态:一文看懂智能问数平台如何“读懂”你的表格、文本和图
截至2026年5月,智能问数平台对表格、文本、图等多模态数据的处理已形成四类技术路线:预制SQL、Text2SQL+宽表、预制指标平台及本体语义层。后者在跨模态融合、泛化能力与准确率(闭卷95%+、开卷100%)上优势显著,但需前期语义治理投入;前三者适用固定场景,维护成本随业务扩张呈指数增长。选型关键不在技术优劣,而在匹配组织的数据复杂度、业务变化频率与治理能力。
|
25天前
|
Shell API 持续交付
多模型热切换场景下,​D​М‌X​Α‌РΙ调kimi-k2.6
kimi-k2.6 凭借更强代码能力、更稳长程编写与Agent自主执行能力,成为2026年企业级AI落地关键模型。其核心价值在于长任务可执行性与结构化理解力。配合DМXΑРΙ API平台,可实现稳定鉴权、流式响应、上下文治理与多模型热切换,真正支撑生产环境持续交付。(239字)
|
22天前
|
人工智能 中间件 索引
Markdown是什么?——AI时代最值得掌握的文档语言
在AI处理信息成为常态的今天,文档格式的竞争已从“人类看着美”转向“机器读着快”。Markdown凭借极致的Token效率、清晰的语义结构和与AI训练数据的高度契合,成为连接人与大模型的“默认语言”。本文用最简洁的方式解释:为什么Markdown既是AI的“母语”,也是你与AI高效协作的必备工具。
268 2
|
2月前
|
人工智能 IDE 架构师
AI 编程工具唯一推荐 Claude Code:但实名认证的这道门槛,让人笑不出来
JeecgBoot AI专题研究 为什么 2026 年 AI 编码只推荐 Claude Code,以及最近实名认证政策带来的真实焦虑 一句话结论:不要再纠结了如果你是一个正在 2026 年做技术决策的开发者、CTO 或者架构师,正在犹豫 AI 编码工具该选谁,我的建议很直接:别想太多,先用 Cl
614 1
AI 编程工具唯一推荐 Claude Code:但实名认证的这道门槛,让人笑不出来