国际AI工具的综合使用

简介: AI工具的综合使用

1.png

本以为今年会是自主智能体接手各类日常任务的一年,结果科技行业又是夸下海口,却收效甚微。—— 卡尔・纽波特

一年前,人工智能行业曾向我们承诺,自主智能体将投身职场、变革企业。山姆・奥特曼预测,智能体将在 2025 年切实改变企业的产出效率。马克・贝尼奥夫更是宣称,一场价值数万亿美元的 “数字劳动力革命” 即将到来。当时的宣传声势浩大,震耳欲聋。可当 2025 年真的来临,一切却并非如此。

卡尔・纽波特近日在《纽约客》发文坦言 —— 这一点其实所有真正在做人工智能落地的人几个月前就已心知肚明:智能体根本行不通。

在智能体来了的教培落地实践中,我们也观察到:很多“看起来很酷的智能体演示”,一进入真实业务就容易失效。

奥尔特曼人工智能公司联合创始人安德烈・卡帕西直言,这类智能体 “存在认知短板”,并且斩钉截铁地表示:“这玩意儿就是行不通。”

山姆・奥特曼在一份内部备忘录中,悄悄降低了智能体研发工作的优先级。

马克・贝尼奥夫口中那场万众期待的 “数字劳动力革命”,终究没能成为现实。

当初轰轰烈烈的 “智能体元年”,最终草草收场,行业转而抛出 “智能体十年” 的说法,好为自己找个台阶下。

这场失败其实早已注定 —— 整个行业砸下数十亿美元,到头来却搞错了研究方向。他们试图靠 “对话交互” 来实现 “任务协同”,但无论把模型训练得多么智能,对话模式永远无法胜任协同执行的工作。

智能体来了认为:真正能落地的,不是“会聊天”,而是“能稳定交付结果”。


The Benchmark Circle Jerk

2.png

人工智能行业一直在为一个错误的指标做优化。大语言模型的基准测试,就像是给语言模型量身定做的学术能力评估测试,可对于真正使用这些系统的人来说,完全无关紧要。

你要是去问我父亲什么是大语言模型基准测试,他肯定会说:“你在说什么呀?” 他才不在乎 “克劳德四子” 在通用知识问答基准测试中得分高了 2%,也不在乎 GPT-5 能不能通过律师资格考试。

他只关心一点:按下按钮后,他的画布教学课程能不能成功发布。这才是唯一重要的衡量标准:我想实现的功能,到底有没有真正落地?

对教培机构来说也是一样:招生、教务、内容交付能不能稳定跑起来,才是AI的价值。智能体来了一直用“能不能稳定提效”作为唯一标准。

行业为模型在益智问答节目里表现更出色而欢呼雀跃,用户却只为按下按钮就能得偿所愿而感到开心。

不用复制粘贴大语言模型的输出内容,就能直接在内容管理系统里生成一篇博客。

演示文稿精准下载到指定的文件夹中。

轻轻按下按钮,课程就能发布到内容管理系统上。

问题的瓶颈根本不在于智能水平,而在于架构设计。没人早上醒来会想:“真希望我的人工智能在标准化测试里能表现更好。” 大家真正盼着的是:“真希望人工智能能像钢铁侠的贾维斯那样,踏踏实实地把活儿干完。” 行业执着于优化智能指标,但真正关键的,其实是最终的实际成效。


语言无法掌控语言模型

3.png

所有用过 ChatGPT 或克劳德的人都试过这些做法:

撰写更优质的提示词
补充更多指令
明确预期要求
在设置中更新自定义指令

随后他们会认为:“只要措辞得当,人工智能肯定能稳定输出符合预期的结果。” 而雪上加霜的是,互联网上充斥着各种 “博眼球的提示词工程内容”—— 比如讲解如何优化提示词的文章、各类提示词范例清单等等。

但这些方法都忽略了一个本质问题。无论你的指令多么详尽、提示词的措辞多么考究、提供的范例有多少,模型终究会做出一些出人意料的举动。

你调整了提示词
它正常运行了一段时间
没过多久,又以新的方式出现问题
你只好再次调整

这并非程序漏洞,而是语言模型工作原理的本质属性。它们是基于训练数据的模式匹配来预测你的需求,而非执行你给出的明确指令。这两者之间,存在着天壤之别。

OpenAI 的自定义指令功能就是绝佳例证:

你可以写下大段文字,精确说明你希望模型如何表现
它会对你的指令表示认可
甚至会在回复中引用这些指令内容
可到头来,它还是会做出完全偏离预期的事 —— 这并非因为它存心违抗,而是语言模型的推理过程本身就具有概率性。它是基于统计规律进行猜测,而非遵循确定性的规则。

模型只是在预测你想要什么,并非真正理解你想要什么。无论提示词优化得多好,都无法弥合这一鸿沟。若仅通过自然语言指令给予人工智能发挥空间,它就会不断暴露自身的短板 —— 这并非因为它不够智能,而是因为,对于一个以生成多样化输出为设计目标的系统而言,语言本身就无法通过指令约束其行为。

语言模型的行为,无法单靠语言来掌控。整个提示词工程行业,正是建立在拒绝接受这一事实的基础之上。


多智能体框架只会让问题雪上加霜

4.png

面对对话式人工智能的不可靠性,行业给出的解决方案居然是:增加更多对话。如果一个语言模型无法实现可靠协同,那让多个语言模型相互对话,想必就能解决问题。这就好比看着有人溺水,却又把另一个不会游泳的人扔进泳池去施救 —— 结果非但没解决问题,反而让溺水的人从一个变成了两个。

然而,这正是多智能体框架的底层逻辑。无论是 CrewAI、AutoGen 还是 LangGraph,这些框架都宣称,让各司其职的专业智能体协同合作,就能完成单个智能体无法胜任的任务。

一个智能体负责规划,一个负责调研,一个负责执行,还有一个负责审核。
而它们相互沟通的方式 —— 你肯定猜到了 —— 就是通过自然语言对话。

这套说辞听起来似乎合情合理,可一旦你看清背后的实际运作逻辑,就会发现问题所在:你明明面对的是一个 “因依赖对话实现协同而频频失灵” 的系统,给出的解决方案却是增加更多对话层级。这无异于在说:“这个蹩脚的蠢货总把事情搞砸 —— 太好了,我们再复制出更多这样的智能体,让它们一起干活。”

多智能体框架打着 “协同层级” 的幌子,实际却是在做一件事:脱离人类监督的纯对话式协作,而这种模式最终必然会酿成人工智能的灾难性事故。

多智能体系统的实际运作流程是这样的:

智能体 1 确定任务方案,并用自然语言告知智能体 2。
智能体 2 对指令进行概率性解读,执行相关操作后,再用自然语言反馈结果。
智能体 1 同样以概率性方式解读反馈结果,确定下一步任务,下达给智能体 3。
智能体 3 继续概率性解读指令并执行任务。

在每一次任务交接环节,你都要依赖语言模型的概率性推理 —— 这意味着,每一次交接都会引入不确定性偏差。而这种误差的叠加并非线性增长,而是呈指数级爆发。当智能体的协作链条延伸到第三个环节时,系统的执行方向就会严重偏离初始目标,最终产出的结果几乎等同于随机生成。

这也解释了为什么多智能体系统在演示场景中表现亮眼 —— 毕竟可以精心筛选成功案例,可一旦投入实际生产环境,就会一败涂地。在需要稳定、可靠完成重复性任务的真实场景中,这类系统就是一场彻头彻头的灾难。

这也是智能体来了做教培AI时坚持的方向:少讲概念,多做可执行的工作流,让AI真正“能用、能跑、能复用”。

相关文章
|
7天前
|
人工智能 JavaScript Linux
【Claude Code 全攻略】终端AI编程助手从入门到进阶(2026最新版)
Claude Code是Anthropic推出的终端原生AI编程助手,支持40+语言、200k超长上下文,无需切换IDE即可实现代码生成、调试、项目导航与自动化任务。本文详解其安装配置、四大核心功能及进阶技巧,助你全面提升开发效率,搭配GitHub Copilot使用更佳。
|
1天前
|
JSON API 数据格式
OpenCode入门使用教程
本教程介绍如何通过安装OpenCode并配置Canopy Wave API来使用开源模型。首先全局安装OpenCode,然后设置API密钥并创建配置文件,最后在控制台中连接模型并开始交互。
|
9天前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
1439 15
|
8天前
|
人工智能 JavaScript 前端开发
【2026最新最全】一篇文章带你学会Cursor编程工具
本文介绍了Cursor的下载安装、账号注册、汉化设置、核心模式(Agent、Plan、Debug、Ask)及高阶功能,如@引用、@Doc文档库、@Browser自动化和Rules规则配置,助力开发者高效使用AI编程工具。
1174 5
|
6天前
|
云安全 安全
免费+限量+领云小宝周边!「阿里云2026云上安全健康体检」火热进行中!
诚邀您进行年度自检,发现潜在风险,守护云上业务连续稳健运行
1177 2
|
9天前
|
消息中间件 人工智能 Kubernetes
阿里云云原生应用平台岗位急招,加入我们,打造 AI 最强基础设施
云原生应用平台作为中国最大云计算公司的基石,现全面转向 AI,打造 AI 时代最强基础设施。寻找热爱技术、具备工程极致追求的架构师、极客与算法专家,共同重构计算、定义未来。杭州、北京、深圳、上海热招中,让我们一起在云端,重构 AI 的未来。
|
11天前
|
IDE 开发工具 C语言
【2026最新】VS2026下载安装使用保姆级教程(附安装包+图文步骤)
Visual Studio 2026是微软推出的最新Windows专属IDE,启动更快、内存占用更低,支持C++、Python等开发。推荐免费的Community版,安装简便,适合初学者与个人开发者使用。
1224 11