别再盲目卷Skills了！大模型时代的工具调用（Tool-Use），正在迎来底层范式革命-阿里云开发者社区

别再盲目卷Skills了！大模型时代的工具调用（Tool-Use），正在迎来底层范式革命

2026-06-30 21

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文深度剖析Skills（技能包）的本质：当前人工硬编码的Skills只是弥补大模型执行力不足的过渡性“补丁”，而非Agent终局方案。文章指出其三大痛点——幻觉调用、上下文过载、缺乏自适应，并前瞻性提出四大演进路径：自主习得技能、GUI/OS级原生操作、MCP协议标准化、推理与执行架构融合，揭示Skills将从“人工编写”迈向“智能体自主进化”的必然趋势。

Skills不是终局方案KV.jpg

引言：我们在用最先进的AI，却在写最传统的硬编码
当前全球技术界正掀起一股“万物皆可智能体（Agent）”的狂热浪潮。伴随而来的，是各家企业和开发者疯狂地卷接口、堆功能，认为开发出足够多的 Skills（技能包），就真正拥有了 Agent。
然而，冷思考之下，这很可能是一个美丽的误会。当前的 Skills 范式，本质上只是为了弥补大模型现阶段执行力不足而打上的“过渡性补丁（Band-aid）”。依赖人工经验总结和静态工程硬编码的技能，绝非 Agent 的终局方案。
但硬币的另一面是，从认知科学与系统架构的视角来看，“工具使用（Tool-Use）”又是任何通用人工智能（AGI）系统不可或缺的底层支柱。大模型不可能、也无需将物理世界的所有确定性计算、私有数据库和长程操作，全部封装进自身的权重（Weights）中。
本文将从技术实现痛点、产业应用现状、到前沿学术研究，深度剖析为什么“手工硬编码的 Skills”终将被淘汰，而“智能体工具生态”又将如何走向自主进化的明天。

核心思辨：Skills 是“人工狗贴”的过渡方案，还是终极属性？

要厘清 Skills 的未来，我们需要将其拆解为“当前的工程实现形式”与“底层的工具使用本质”两个维度来看：

认同：当前 Skills 的开发与维护，高度依赖“人工硬编码”
在目前的工程落地中，Skills（在不同框架中也被称为 Tools、Plugins 或 Functions）的构建流程极其笨重，带有浓厚的“补丁”色彩：
语义描述的脆弱性：开发者需要手动编写 API 接口，并用极其精准的自然语言或 JSON Schema 来描述该 Skill 的输入、输出及适用场景。描述稍有偏差，模型在调用时就会陷入幻觉或参数拼写错误。
历史经验的静态固化：面对复杂业务场景，开发者必须将历史经验转化为 few-shot（少样本提示）或复杂的有向无环图/状态机（如 LangGraph、AutoGen）。这本质上是用传统的确定性逻辑，去框定非确定性的模型边界。
高昂的维护成本（Brittleness）：一旦外部系统的底层 API 发生微调，或者真实世界的业务场景超出了人工定义的规则边界，Skills 就会瞬间失效。
修正：工具使用（Tool-Use）是智能体的终极属性，但形式将发生暴风雨般的变革
尽管形式初级，但“Skills”背后的本质——工具使用能力，是 Agent 走向高级智能的必经之路：
大脑与工具的解耦：人类智能的强大不在于大脑能心算一切，而在于人类懂得制造和使用工具（如微积分、计算机、杠杆）。大模型的参数量再大，也不应该在模型权重里去硬跑一个完整的 Oracle 数据库或渲染引擎。
架构的最优解：将“推理、规划、控制”（模型的脑）与“确定性执行、专业计算、外部连接”（Skills的工具）进行解耦，是软件工程与认知科学中最合理的系统设计。
核心结论：“当前手工硬编码的 Skills 是临时过渡方案”这一判断完全正确；但长远来看，Agent 不会放弃 Skills，而是会改变 Skills 的生成、管理和演进方式。Skills 将从“人工总结与硬编码”走向“自主学习与自适应演进”。

产业界现状：Skills 在目前的生态版图

Skills不是终局方案【技术】.png

在当前阶段，尽管痛点重重，Skills 的产业落地也已经初具规模，主要体现在以下三个核心维度：
1. 主流开发框架的生态化
Microsoft Semantic Kernel：明确提出了“Plugins（插件）”和“Skills”的概念，允许开发者将传统的 C# 或 Python 函数封装后直接暴露给大模型，作为其执行特定业务逻辑的技能包。
LangChain / LangGraph：提供了丰富的 Toolkits（工具箱），支持大模型在运行过程中利用 Function Calling（函数调用）机制，根据用户意图动态决定是否调用以及如何组装工具。
2. 典型的产业应用场景
企业级业务流打通（Actionable Agents）：客服或政务智能体通过调用“查询订单”、“修改地址”、“发起退款”等 Skills，直接与底层的 ERP、CRM 系统进行交互，完成复杂的闭环操作。
代码解释器（Code Interpreter）：模型将“编写并运行 Python 代码”作为一项核心技能。当遇到复杂的数学计算、数据分析或图表绘制任务时，模型会自主编写代码并在沙箱中执行。这种动态生成代码并执行的方式，本身就是一种高级的动态 Skill 雏形。
3. 统一连接协议的破局
以往每个开发者都要为不同的模型、不同的 API 重复编写适配器。而 2024 年底由 Anthropic 发起的 Model Context Protocol (MCP) 正在成为业界的新标准。MCP 试图将 AI 模型与外部数据源和工具之间的连接标准化，类似于硬件领域的“USB-C 协议”，极大地降低了人工编写特定 API 连接器的工程成本。

当前 Skills 范式三大不可承受之痛

随着企业级应用走向深水区，传统 Skills 方案的底层瓶颈愈发明显：

Skills不是终局方案【技术】01.png

幻觉与调用失败：当系统中的 Skills 数量增加（例如超过 20 个）时，大模型在选择“该用哪个工具”以及“如何组装工具输入参数”时的出错率会呈指数级上升。
上下文过载（Context Overhead）：为了让模型理解这些 Skills，开发者必须将每个 Skill 的说明文档和调用规范塞进 Prompt（提示词）中。这不仅消耗了宝贵的上下文窗口，也极大地增加了 Token 成本和推理延迟。
缺乏反馈闭环与自适应能力：当前的 Skills 是完全静态的。如果一个 Skill 由于权限、网络或参数微调而执行失败，Agent 通常无法像人类一样“总结教训、自己修改代码”，只能依赖人类程序员介入调试并重新发布。

未来趋势：从“人工过渡”走向“自主演进”的四大核心路径

正如技术演进的规律，单纯依赖人工总结和硬编码的 Skills 无法承载未来 Agent 的无限扩展需求。Skills 的未来将呈现以下四大确定性趋势：
趋势一：自主技能习得与进化（Autonomous Skill Acquisition）
未来的智能体将具备“自主尝试、反思总结、编写代码并保存为新技能”的自繁衍能力。
斯坦福等机构提出的 Voyager 智能体在《我的世界》（Minecraft）中展现了这一潜能。它没有预设的技能包，而是通过一个“自动课程”不断尝试新任务。当它成功合成一个新工具或完成一次复杂操作时，它会自主将这段代码和成功经验提炼、总结，写入自己的“技能库（Skill Library）”。后续遇到类似场景时，它只需在技能库中进行语义检索并直接调用。
在工业自动化测试、网台运维等领域，未来的 Agent 同样可以根据遇到的全新系统，自主编写脚本并将其固化为自身的 Skill。
Skills不是终局方案【技术】02.png

趋势二：从 API 驱动走向原生 GUI / OS 级别操作（OS World）
现有的 Skills 大多基于特定 API 接口。未来，大动作模型（Large Action Models, LAMs）和具备屏幕理解能力的计算机控制智能体（Computer Use Agents）将直接像人类一样通过图形用户界面（GUI）来工作。
无 API 化：智能体可以通过直接阅读屏幕、点击鼠标、键盘输入来操作企业内部没有 API 的遗留软件（Legacy Systems）或复杂的 Excel。
技能的泛化：此时，智能体的“Skill”不再是某个具体的 API 代码，而是“如何操作浏览器”、“如何使用操作系统”的原生多模态能力，从根本上释放了解析 API 的工作量。
趋势三：连接协议的标准化与全解耦（MCP 生态）
随着 Model Context Protocol (MCP) 等开放协议的普及，Skills 的供给方和消耗方将完全解耦：
软件厂商（如 Notion、GitHub、Slack 等）在开发软件时，会原生暴露一个符合标准 AI 协议的 MCP Server。
任何大模型（不管是 OpenAI、Claude 还是开源模型）作为 Client，都可以即插即用地使用这些现成的 Skills，不再需要中间层进行繁琐的人工桥接和 Prompt 调优。
趋势四：推理（Reasoning）与执行（Action）的架构级融合
随着具备系统级慢思考（System 2）能力的高推理模型（如 o1、o3 级架构）的普及，模型的“自我纠错”和“长程规划”能力得到了跃升。
在过去，当 Skill 执行出错时，我们需要人工编写复杂的条件分支来告诉模型“如果报错 A 就重试，如果报错 B 就换工具”。
未来，高推理模型将在原生架构层面处理 Tool Call 的异常。它们可以在后台进行多路径试错、自我博弈（Self-Play），并在感知到外部环境变化后自主修正执行路径，人工编写的硬编码业务流（Workflow）将逐渐被简化。

总结：

我们正处于一个有趣的阵痛期：我们正在用世界上最先进的 AI 技术，却不得不依赖最传统的手工硬编码来为其编写 Skills 描述和约束逻辑。这确实是一个过渡期的折中方案。
但在未来，Skills 这一概念不会消亡，其技术形态将发生深刻的质变：
创建者之变：从“人类程序员”转变为“智能体自身”（自主生成与反思沉淀）。
调用范式之变：从“硬编码适配”转变为“标准协议（如 MCP）的即插即用”。
操作边界之变：从“特定 API 描述”提升为“通用 GUI/OS 控制”。
因此，Skills 并非 Agent 演进史上的死胡同，而是通往 AGI 道路上的关键阶梯。我们今天所做的“人工总结与临时修补”，正是为了给未来智能体实现“自主工具进化”铺平道路。

欢迎在评论区讨论：你在开发 Agent 时遇到过哪些被 Skills 逼疯的时刻？你认为 MCP 协议会终结 API 适配的痛苦吗？