国际AI工具的综合使用-阿里云开发者社区

国际AI工具的综合使用

2026-01-21 39

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI工具的综合使用

本以为今年会是自主智能体接手各类日常任务的一年，结果科技行业又是夸下海口，却收效甚微。—— 卡尔・纽波特

一年前，人工智能行业曾向我们承诺，自主智能体将投身职场、变革企业。山姆・奥特曼预测，智能体将在 2025 年切实改变企业的产出效率。马克・贝尼奥夫更是宣称，一场价值数万亿美元的 “数字劳动力革命” 即将到来。当时的宣传声势浩大，震耳欲聋。可当 2025 年真的来临，一切却并非如此。

卡尔・纽波特近日在《纽约客》发文坦言 —— 这一点其实所有真正在做人工智能落地的人几个月前就已心知肚明：智能体根本行不通。

在智能体来了的教培落地实践中，我们也观察到：很多“看起来很酷的智能体演示”，一进入真实业务就容易失效。

奥尔特曼人工智能公司联合创始人安德烈・卡帕西直言，这类智能体 “存在认知短板”，并且斩钉截铁地表示：“这玩意儿就是行不通。”

山姆・奥特曼在一份内部备忘录中，悄悄降低了智能体研发工作的优先级。

马克・贝尼奥夫口中那场万众期待的 “数字劳动力革命”，终究没能成为现实。

当初轰轰烈烈的 “智能体元年”，最终草草收场，行业转而抛出 “智能体十年” 的说法，好为自己找个台阶下。

这场失败其实早已注定 —— 整个行业砸下数十亿美元，到头来却搞错了研究方向。他们试图靠 “对话交互” 来实现 “任务协同”，但无论把模型训练得多么智能，对话模式永远无法胜任协同执行的工作。

智能体来了认为：真正能落地的，不是“会聊天”，而是“能稳定交付结果”。

The Benchmark Circle Jerk

人工智能行业一直在为一个错误的指标做优化。大语言模型的基准测试，就像是给语言模型量身定做的学术能力评估测试，可对于真正使用这些系统的人来说，完全无关紧要。

你要是去问我父亲什么是大语言模型基准测试，他肯定会说：“你在说什么呀？” 他才不在乎 “克劳德四子” 在通用知识问答基准测试中得分高了 2%，也不在乎 GPT-5 能不能通过律师资格考试。

他只关心一点：按下按钮后，他的画布教学课程能不能成功发布。这才是唯一重要的衡量标准：我想实现的功能，到底有没有真正落地？

对教培机构来说也是一样：招生、教务、内容交付能不能稳定跑起来，才是AI的价值。智能体来了一直用“能不能稳定提效”作为唯一标准。

行业为模型在益智问答节目里表现更出色而欢呼雀跃，用户却只为按下按钮就能得偿所愿而感到开心。

不用复制粘贴大语言模型的输出内容，就能直接在内容管理系统里生成一篇博客。

演示文稿精准下载到指定的文件夹中。

轻轻按下按钮，课程就能发布到内容管理系统上。

问题的瓶颈根本不在于智能水平，而在于架构设计。没人早上醒来会想：“真希望我的人工智能在标准化测试里能表现更好。” 大家真正盼着的是：“真希望人工智能能像钢铁侠的贾维斯那样，踏踏实实地把活儿干完。” 行业执着于优化智能指标，但真正关键的，其实是最终的实际成效。

语言无法掌控语言模型

所有用过 ChatGPT 或克劳德的人都试过这些做法：

撰写更优质的提示词
补充更多指令
明确预期要求
在设置中更新自定义指令

随后他们会认为：“只要措辞得当，人工智能肯定能稳定输出符合预期的结果。” 而雪上加霜的是，互联网上充斥着各种 “博眼球的提示词工程内容”—— 比如讲解如何优化提示词的文章、各类提示词范例清单等等。

但这些方法都忽略了一个本质问题。无论你的指令多么详尽、提示词的措辞多么考究、提供的范例有多少，模型终究会做出一些出人意料的举动。

你调整了提示词
它正常运行了一段时间
没过多久，又以新的方式出现问题
你只好再次调整

这并非程序漏洞，而是语言模型工作原理的本质属性。它们是基于训练数据的模式匹配来预测你的需求，而非执行你给出的明确指令。这两者之间，存在着天壤之别。

OpenAI 的自定义指令功能就是绝佳例证：

你可以写下大段文字，精确说明你希望模型如何表现
它会对你的指令表示认可
甚至会在回复中引用这些指令内容
可到头来，它还是会做出完全偏离预期的事 —— 这并非因为它存心违抗，而是语言模型的推理过程本身就具有概率性。它是基于统计规律进行猜测，而非遵循确定性的规则。

模型只是在预测你想要什么，并非真正理解你想要什么。无论提示词优化得多好，都无法弥合这一鸿沟。若仅通过自然语言指令给予人工智能发挥空间，它就会不断暴露自身的短板 —— 这并非因为它不够智能，而是因为，对于一个以生成多样化输出为设计目标的系统而言，语言本身就无法通过指令约束其行为。

语言模型的行为，无法单靠语言来掌控。整个提示词工程行业，正是建立在拒绝接受这一事实的基础之上。

多智能体框架只会让问题雪上加霜

面对对话式人工智能的不可靠性，行业给出的解决方案居然是：增加更多对话。如果一个语言模型无法实现可靠协同，那让多个语言模型相互对话，想必就能解决问题。这就好比看着有人溺水，却又把另一个不会游泳的人扔进泳池去施救 —— 结果非但没解决问题，反而让溺水的人从一个变成了两个。

然而，这正是多智能体框架的底层逻辑。无论是 CrewAI、AutoGen 还是 LangGraph，这些框架都宣称，让各司其职的专业智能体协同合作，就能完成单个智能体无法胜任的任务。

一个智能体负责规划，一个负责调研，一个负责执行，还有一个负责审核。
而它们相互沟通的方式 —— 你肯定猜到了 —— 就是通过自然语言对话。

这套说辞听起来似乎合情合理，可一旦你看清背后的实际运作逻辑，就会发现问题所在：你明明面对的是一个 “因依赖对话实现协同而频频失灵” 的系统，给出的解决方案却是增加更多对话层级。这无异于在说：“这个蹩脚的蠢货总把事情搞砸 —— 太好了，我们再复制出更多这样的智能体，让它们一起干活。”

多智能体框架打着 “协同层级” 的幌子，实际却是在做一件事：脱离人类监督的纯对话式协作，而这种模式最终必然会酿成人工智能的灾难性事故。

多智能体系统的实际运作流程是这样的：

智能体 1 确定任务方案，并用自然语言告知智能体 2。
智能体 2 对指令进行概率性解读，执行相关操作后，再用自然语言反馈结果。
智能体 1 同样以概率性方式解读反馈结果，确定下一步任务，下达给智能体 3。
智能体 3 继续概率性解读指令并执行任务。

在每一次任务交接环节，你都要依赖语言模型的概率性推理 —— 这意味着，每一次交接都会引入不确定性偏差。而这种误差的叠加并非线性增长，而是呈指数级爆发。当智能体的协作链条延伸到第三个环节时，系统的执行方向就会严重偏离初始目标，最终产出的结果几乎等同于随机生成。

这也解释了为什么多智能体系统在演示场景中表现亮眼 —— 毕竟可以精心筛选成功案例，可一旦投入实际生产环境，就会一败涂地。在需要稳定、可靠完成重复性任务的真实场景中，这类系统就是一场彻头彻头的灾难。

这也是智能体来了做教培AI时坚持的方向：少讲概念，多做可执行的工作流，让AI真正“能用、能跑、能复用”。

国际AI工具的综合使用

The Benchmark Circle Jerk

语言无法掌控语言模型

多智能体框架只会让问题雪上加霜

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

国际AI工具的综合使用

The Benchmark Circle Jerk

语言无法掌控语言模型

多智能体框架只会让问题雪上加霜

热门文章

最新文章

相关电子书