
引言:我们在用最先进的AI,却在写最传统的硬编码
当前全球技术界正掀起一股“万物皆可智能体(Agent)”的狂热浪潮。伴随而来的,是各家企业和开发者疯狂地卷接口、堆功能,认为开发出足够多的 Skills(技能包),就真正拥有了 Agent。
然而,冷思考之下,这很可能是一个美丽的误会。当前的 Skills 范式,本质上只是为了弥补大模型现阶段执行力不足而打上的“过渡性补丁(Band-aid)”。 依赖人工经验总结和静态工程硬编码的技能,绝非 Agent 的终局方案。
但硬币的另一面是,从认知科学与系统架构的视角来看,“工具使用(Tool-Use)”又是任何通用人工智能(AGI)系统不可或缺的底层支柱。大模型不可能、也无需将物理世界的所有确定性计算、私有数据库和长程操作,全部封装进自身的权重(Weights)中。
本文将从技术实现痛点、产业应用现状、到前沿学术研究,深度剖析为什么“手工硬编码的 Skills”终将被淘汰,而“智能体工具生态”又将如何走向自主进化的明天。
核心思辨:Skills 是“人工狗贴”的过渡方案,还是终极属性?
要厘清 Skills 的未来,我们需要将其拆解为“当前的工程实现形式”与“底层的工具使用本质”两个维度来看:
- 认同:当前 Skills 的开发与维护,高度依赖“人工硬编码”
在目前的工程落地中,Skills(在不同框架中也被称为 Tools、Plugins 或 Functions)的构建流程极其笨重,带有浓厚的“补丁”色彩:
语义描述的脆弱性:开发者需要手动编写 API 接口,并用极其精准的自然语言或 JSON Schema 来描述该 Skill 的输入、输出及适用场景。描述稍有偏差,模型在调用时就会陷入幻觉或参数拼写错误。
历史经验的静态固化:面对复杂业务场景,开发者必须将历史经验转化为 few-shot(少样本提示)或复杂的有向无环图/状态机(如 LangGraph、AutoGen)。这本质上是用传统的确定性逻辑,去框定非确定性的模型边界。
高昂的维护成本(Brittleness):一旦外部系统的底层 API 发生微调,或者真实世界的业务场景超出了人工定义的规则边界,Skills 就会瞬间失效。 - 修正:工具使用(Tool-Use)是智能体的终极属性,但形式将发生暴风雨般的变革
尽管形式初级,但“Skills”背后的本质——工具使用能力,是 Agent 走向高级智能的必经之路:
大脑与工具的解耦:人类智能的强大不在于大脑能心算一切,而在于人类懂得制造和使用工具(如微积分、计算机、杠杆)。大模型的参数量再大,也不应该在模型权重里去硬跑一个完整的 Oracle 数据库或渲染引擎。
架构的最优解:将“推理、规划、控制”(模型的脑)与“确定性执行、专业计算、外部连接”(Skills的工具)进行解耦,是软件工程与认知科学中最合理的系统设计。
核心结论:“当前手工硬编码的 Skills 是临时过渡方案”这一判断完全正确;但长远来看,Agent 不会放弃 Skills,而是会改变 Skills 的生成、管理和演进方式。Skills 将从“人工总结与硬编码”走向“自主学习与自适应演进”。
产业界现状:Skills 在目前的生态版图

在当前阶段,尽管痛点重重,Skills 的产业落地也已经初具规模,主要体现在以下三个核心维度:
1. 主流开发框架的生态化
Microsoft Semantic Kernel:明确提出了“Plugins(插件)”和“Skills”的概念,允许开发者将传统的 C# 或 Python 函数封装后直接暴露给大模型,作为其执行特定业务逻辑的技能包。
LangChain / LangGraph:提供了丰富的 Toolkits(工具箱),支持大模型在运行过程中利用 Function Calling(函数调用)机制,根据用户意图动态决定是否调用以及如何组装工具。
2. 典型的产业应用场景
企业级业务流打通(Actionable Agents):客服或政务智能体通过调用“查询订单”、“修改地址”、“发起退款”等 Skills,直接与底层的 ERP、CRM 系统进行交互,完成复杂的闭环操作。
代码解释器(Code Interpreter):模型将“编写并运行 Python 代码”作为一项核心技能。当遇到复杂的数学计算、数据分析或图表绘制任务时,模型会自主编写代码并在沙箱中执行。这种动态生成代码并执行的方式,本身就是一种高级的动态 Skill 雏形。
3. 统一连接协议的破局
以往每个开发者都要为不同的模型、不同的 API 重复编写适配器。而 2024 年底由 Anthropic 发起的 Model Context Protocol (MCP) 正在成为业界的新标准。MCP 试图将 AI 模型与外部数据源和工具之间的连接标准化,类似于硬件领域的“USB-C 协议”,极大地降低了人工编写特定 API 连接器的工程成本。
当前 Skills 范式三大不可承受之痛
随着企业级应用走向深水区,传统 Skills 方案的底层瓶颈愈发明显:

幻觉与调用失败:当系统中的 Skills 数量增加(例如超过 20 个)时,大模型在选择“该用哪个工具”以及“如何组装工具输入参数”时的出错率会呈指数级上升。
上下文过载(Context Overhead):为了让模型理解这些 Skills,开发者必须将每个 Skill 的说明文档和调用规范塞进 Prompt(提示词)中。这不仅消耗了宝贵的上下文窗口,也极大地增加了 Token 成本和推理延迟。
缺乏反馈闭环与自适应能力:当前的 Skills 是完全静态的。如果一个 Skill 由于权限、网络或参数微调而执行失败,Agent 通常无法像人类一样“总结教训、自己修改代码”,只能依赖人类程序员介入调试并重新发布。
未来趋势:从“人工过渡”走向“自主演进”的四大核心路径
正如技术演进的规律,单纯依赖人工总结和硬编码的 Skills 无法承载未来 Agent 的无限扩展需求。Skills 的未来将呈现以下四大确定性趋势:
趋势一:自主技能习得与进化(Autonomous Skill Acquisition)
未来的智能体将具备“自主尝试、反思总结、编写代码并保存为新技能”的自繁衍能力。
斯坦福等机构提出的 Voyager 智能体在《我的世界》(Minecraft)中展现了这一潜能。它没有预设的技能包,而是通过一个“自动课程”不断尝试新任务。当它成功合成一个新工具或完成一次复杂操作时,它会自主将这段代码和成功经验提炼、总结,写入自己的“技能库(Skill Library)”。后续遇到类似场景时,它只需在技能库中进行语义检索并直接调用。
在工业自动化测试、网台运维等领域,未来的 Agent 同样可以根据遇到的全新系统,自主编写脚本并将其固化为自身的 Skill。
趋势二:从 API 驱动走向原生 GUI / OS 级别操作(OS World)
现有的 Skills 大多基于特定 API 接口。未来,大动作模型(Large Action Models, LAMs)和具备屏幕理解能力的计算机控制智能体(Computer Use Agents)将直接像人类一样通过图形用户界面(GUI)来工作。
无 API 化:智能体可以通过直接阅读屏幕、点击鼠标、键盘输入来操作企业内部没有 API 的遗留软件(Legacy Systems)或复杂的 Excel。
技能的泛化:此时,智能体的“Skill”不再是某个具体的 API 代码,而是“如何操作浏览器”、“如何使用操作系统”的原生多模态能力,从根本上释放了解析 API 的工作量。
趋势三:连接协议的标准化与全解耦(MCP 生态)
随着 Model Context Protocol (MCP) 等开放协议的普及,Skills 的供给方和消耗方将完全解耦:
软件厂商(如 Notion、GitHub、Slack 等)在开发软件时,会原生暴露一个符合标准 AI 协议的 MCP Server。
任何大模型(不管是 OpenAI、Claude 还是开源模型)作为 Client,都可以即插即用地使用这些现成的 Skills,不再需要中间层进行繁琐的人工桥接和 Prompt 调优。
趋势四:推理(Reasoning)与执行(Action)的架构级融合
随着具备系统级慢思考(System 2)能力的高推理模型(如 o1、o3 级架构)的普及,模型的“自我纠错”和“长程规划”能力得到了跃升。
在过去,当 Skill 执行出错时,我们需要人工编写复杂的条件分支来告诉模型“如果报错 A 就重试,如果报错 B 就换工具”。
未来,高推理模型将在原生架构层面处理 Tool Call 的异常。它们可以在后台进行多路径试错、自我博弈(Self-Play),并在感知到外部环境变化后自主修正执行路径,人工编写的硬编码业务流(Workflow)将逐渐被简化。
总结:
我们正处于一个有趣的阵痛期:我们正在用世界上最先进的 AI 技术,却不得不依赖最传统的手工硬编码来为其编写 Skills 描述和约束逻辑。 这确实是一个过渡期的折中方案。
但在未来,Skills 这一概念不会消亡,其技术形态将发生深刻的质变:
创建者之变:从“人类程序员”转变为“智能体自身”(自主生成与反思沉淀)。
调用范式之变:从“硬编码适配”转变为“标准协议(如 MCP)的即插即用”。
操作边界之变:从“特定 API 描述”提升为“通用 GUI/OS 控制”。
因此,Skills 并非 Agent 演进史上的死胡同,而是通往 AGI 道路上的关键阶梯。我们今天所做的“人工总结与临时修补”,正是为了给未来智能体实现“自主工具进化”铺平道路。
欢迎在评论区讨论: 你在开发 Agent 时遇到过哪些被 Skills 逼疯的时刻?你认为 MCP 协议会终结 API 适配的痛苦吗?