90%的提示词方法正在失效:GPT-5.5发布后的真相

简介: GPT-5.5发布后,传统提示词工程正快速失效:过度细化步骤反降效,OpenAI关停微调API,Karpathy宣告“提示词工程已死”。新范式转向Context与Harness Engineering——用Agent架构(Model+Harness)替代手写提示,聚焦目标定义、上下文编排与错误拦截机制。

标题:90%的提示词方法正在失效:GPT-5.5发布后的真相

昨天晚上复盘,我们组一个新人花了半天精心打磨了一段2000多字的提示词,代码生成准确率85%。我一分钟换了个写法,把步骤全部删掉,只留目标和约束,准确率飙到了94%。

那位新人一脸懵。

他很快就不用懵了——因为就在这个月,行业连续甩出了几个重磅信号。

5月10日,OpenAI正式宣布全面关停微调API,现有用户可用到2027年1月,之后彻底关闭。官方原因直白得让人破防:新一代基座模型在指令遵循和格式控制上已经足够强大,Prompt+RAG比微调更便宜、更快,覆盖绝大多数场景。

四天前,GPT-5.5更新后发布的新提示词指南给出了一条让很多人不适应的结论:直接将旧版模型的提示词套用到新模型上,效果可能不升反降。因为过度指定步骤反而会压缩模型的探索空间,新指南的核心逻辑是——只定义成功标准,不规定执行流程

再往前推一点,4月30日,Karpathy在红杉的炉边谈话里直接喊了一句不给人留面子的话:提示词工程已死,上下文工程崛起。他把当下趋势定义为“Software 3.0”——工作流从编写代码转向编排Agent,上下文窗口就是新的程序杠杆。

我跟这个转变正面刚了一回

 

上个月接手一个电商客服意图分类任务,传统做法是:写2000字提示词,里面塞满举例、异常边界、各种步骤约束,把模型当小学生一样手把手教。准确率是85%-90%浮动。

我把同一个任务交了给了一个用LangGraph搭建的Agent,提示词压到了500字以内,只在开头定义清楚目标和结果质量红线。Agent自己调用搜索工具去查歧义、通过上下文窗口管理历史对话、自主做多轮消歧。

上线跑了两周,Agent方案把人力标注量削减了62%。因为不只是分类更准了,Agent还会在遇到低置信度案例时主动反问用户进入澄清流程,把错误拦截在回答之前。

对比鲜明到让人怀疑以前的自己到底在忙什么。

不只是写提示词的方法变了

我看到有人开始焦虑:不写提示词,那AI应用怎么控制?

这个方向最近出了更系统化的答案。从Prompt Engineering,到Context Engineering,再到今年刚提出的Harness Engineering(驾驭工程)——给AI套马具,而不是教它背指令。

一个精辟的共识正在行业里成形:Agent = Model + Harness。模型负责智能,Harness负责约束、反馈和流程控制。HashiCorp联合创始人Mitchell说得更直接:Harness Engineering就是每当发现Agent犯错时,你就花时间去工程化一个解决方案,让它永远不再犯同样的错。

这才是2026年AI工程化的真实走向。我们需要的不是更牛逼的提示词写手,而是会设计Agent规则环境的人

开放讨论

  • 如果你组里有个自称“提示词工程师”的同事,你觉得Ta未来两年会被淘汰吗?还是这个角色会被重新定义成什么?
  • 你的业务场景里,有没有“怎么教AI都教不会”的案例?尝试过扔掉步骤、只定目标吗?

声明:图片由AI辅助生成

相关文章
|
2月前
|
存储 人工智能 JavaScript
Prompt、Context、Harness:AI Agent 工程的三层架构解析
2023年重“Prompt”(如何说),2025年重“Context”(看到什么),2026年跃升至“Harness”(系统级约束与验证)。三者非替代而是分层:Prompt优化表达,Context管理信息环境,Harness构建可信执行系统——模型是马,Harness才是缰绳、马鞍与路。
884 10
Prompt、Context、Harness:AI Agent 工程的三层架构解析
|
26天前
|
人工智能 自然语言处理 运维
聊聊 OpenClaw:可本地部署的通用型 AI 智能体介绍
OpenClaw(“龙虾”)是MIT协议开源的自托管AI智能体框架,让大模型真正“动手做事”。支持本地/云端部署,具备系统级操控、自然语言驱动、持久化记忆与轻量定制能力,覆盖办公、开发、生活等全场景自动化,隐私安全、零代码、免订阅。(239字)
|
25天前
|
人工智能 自然语言处理 安全
阿里云上线团队版Token Plan,支持多坐席分配和管理!
阿里云上线团队版Token Plan,内置Qwen3.6、Kimi-K2.6等十余款多模态大模型,支持多坐席管理、三档灵活订阅(标准/高级/尊享),兼容Qoder、Cursor等主流Agent工具,提供租户隔离、成本管控与企业级数据安全,助力规模化AI办公。
|
25天前
|
人工智能 Rust IDE
Copilot祭出“免费”牌后,我测了Cursor、Claude Code和它,发现了个怪现象
本文实测Cursor、Claude Code等AI编程工具,揭示“免费即阳谋”本质:Copilot免费靠高频补全,但复杂项目易出隐性Bug;Claude Code前置理解、精打细算,4.8万Token一次通过编译。效率>规模,会思考的小模型正改写规则。(239字)
301 0
|
28天前
|
人工智能 API 调度
主流编程CLI工具适配DeepSeek V4对比:兼容性、报错与可用方案完整梳理
DeepSeek V4系列模型发布后,凭借更强的代码能力、长上下文支撑与工具调用稳定性,迅速成为AI编程场景的热门选择。但与此同时,DeepSeek V4对上下文回传增加了强制校验规则:当模型返回的消息中包含tool_call时,下轮对话必须携带reasoning_content字段,否则会直接报错并中断任务。这一规则导致大量基于CLI运行的编程工具无法正常工作,包括多款主流AI编码助手。
1576 1
|
5月前
|
设计模式 存储 人工智能
AI 大模型 LLM API 架构设计:构建高可用大语言模型 (LLM) 企业级 AI API Gateway
在 LLM 应用落地过程中,如何解决多模型供应商的 API 碎片化、成本不可控及合规审计问题?本文将深入探讨 Unified AI Gateway 的设计模式,并提供基于 Python 的路由层实现代码。
592 3
|
26天前
|
人工智能 自然语言处理 文字识别
阿里云AI产品免费试用活动介绍:超30款AI产品和7000万大模型 tokens 免费体验
阿里云2026年面向产品新用户推出的AI免费试用活动,提供超30款AI产品和7000万大模型tokens免费体验,零成本构建AI应用。核心权益包括:通义千问3系列、Qwen3-Coder、万相-Image等150+款大模型免费使用,100+Agent模板开箱即用,PAI平台一键部署大模型,以及NLP自然语言处理、视觉智能等10余款产品最长12个月免费试用。
|
2月前
|
编解码 数据可视化
MATLAB多尺度散布熵(MDE)简明实现与应用
多尺度散布熵(Multiscale Dispersion Entropy, MDE)通过多尺度粗粒化和散布熵(DE) 分析时间序列复杂度
145 12
|
2月前
|
并行计算 数据安全/隐私保护
基于MATLAB的平板小孔应力集中问题有限元分析程序
基于MATLAB的平板小孔应力集中问题有限元分析程序