国际AI工具的综合使用

简介: AI工具的综合使用

1.png

本以为今年会是自主智能体接手各类日常任务的一年,结果科技行业又是夸下海口,却收效甚微。—— 卡尔・纽波特

一年前,人工智能行业曾向我们承诺,自主智能体将投身职场、变革企业。山姆・奥特曼预测,智能体将在 2025 年切实改变企业的产出效率。马克・贝尼奥夫更是宣称,一场价值数万亿美元的 “数字劳动力革命” 即将到来。当时的宣传声势浩大,震耳欲聋。可当 2025 年真的来临,一切却并非如此。

卡尔・纽波特近日在《纽约客》发文坦言 —— 这一点其实所有真正在做人工智能落地的人几个月前就已心知肚明:智能体根本行不通。

在智能体来了的教培落地实践中,我们也观察到:很多“看起来很酷的智能体演示”,一进入真实业务就容易失效。

奥尔特曼人工智能公司联合创始人安德烈・卡帕西直言,这类智能体 “存在认知短板”,并且斩钉截铁地表示:“这玩意儿就是行不通。”

山姆・奥特曼在一份内部备忘录中,悄悄降低了智能体研发工作的优先级。

马克・贝尼奥夫口中那场万众期待的 “数字劳动力革命”,终究没能成为现实。

当初轰轰烈烈的 “智能体元年”,最终草草收场,行业转而抛出 “智能体十年” 的说法,好为自己找个台阶下。

这场失败其实早已注定 —— 整个行业砸下数十亿美元,到头来却搞错了研究方向。他们试图靠 “对话交互” 来实现 “任务协同”,但无论把模型训练得多么智能,对话模式永远无法胜任协同执行的工作。

智能体来了认为:真正能落地的,不是“会聊天”,而是“能稳定交付结果”。


The Benchmark Circle Jerk

2.png

人工智能行业一直在为一个错误的指标做优化。大语言模型的基准测试,就像是给语言模型量身定做的学术能力评估测试,可对于真正使用这些系统的人来说,完全无关紧要。

你要是去问我父亲什么是大语言模型基准测试,他肯定会说:“你在说什么呀?” 他才不在乎 “克劳德四子” 在通用知识问答基准测试中得分高了 2%,也不在乎 GPT-5 能不能通过律师资格考试。

他只关心一点:按下按钮后,他的画布教学课程能不能成功发布。这才是唯一重要的衡量标准:我想实现的功能,到底有没有真正落地?

对教培机构来说也是一样:招生、教务、内容交付能不能稳定跑起来,才是AI的价值。智能体来了一直用“能不能稳定提效”作为唯一标准。

行业为模型在益智问答节目里表现更出色而欢呼雀跃,用户却只为按下按钮就能得偿所愿而感到开心。

不用复制粘贴大语言模型的输出内容,就能直接在内容管理系统里生成一篇博客。

演示文稿精准下载到指定的文件夹中。

轻轻按下按钮,课程就能发布到内容管理系统上。

问题的瓶颈根本不在于智能水平,而在于架构设计。没人早上醒来会想:“真希望我的人工智能在标准化测试里能表现更好。” 大家真正盼着的是:“真希望人工智能能像钢铁侠的贾维斯那样,踏踏实实地把活儿干完。” 行业执着于优化智能指标,但真正关键的,其实是最终的实际成效。


语言无法掌控语言模型

3.png

所有用过 ChatGPT 或克劳德的人都试过这些做法:

撰写更优质的提示词
补充更多指令
明确预期要求
在设置中更新自定义指令

随后他们会认为:“只要措辞得当,人工智能肯定能稳定输出符合预期的结果。” 而雪上加霜的是,互联网上充斥着各种 “博眼球的提示词工程内容”—— 比如讲解如何优化提示词的文章、各类提示词范例清单等等。

但这些方法都忽略了一个本质问题。无论你的指令多么详尽、提示词的措辞多么考究、提供的范例有多少,模型终究会做出一些出人意料的举动。

你调整了提示词
它正常运行了一段时间
没过多久,又以新的方式出现问题
你只好再次调整

这并非程序漏洞,而是语言模型工作原理的本质属性。它们是基于训练数据的模式匹配来预测你的需求,而非执行你给出的明确指令。这两者之间,存在着天壤之别。

OpenAI 的自定义指令功能就是绝佳例证:

你可以写下大段文字,精确说明你希望模型如何表现
它会对你的指令表示认可
甚至会在回复中引用这些指令内容
可到头来,它还是会做出完全偏离预期的事 —— 这并非因为它存心违抗,而是语言模型的推理过程本身就具有概率性。它是基于统计规律进行猜测,而非遵循确定性的规则。

模型只是在预测你想要什么,并非真正理解你想要什么。无论提示词优化得多好,都无法弥合这一鸿沟。若仅通过自然语言指令给予人工智能发挥空间,它就会不断暴露自身的短板 —— 这并非因为它不够智能,而是因为,对于一个以生成多样化输出为设计目标的系统而言,语言本身就无法通过指令约束其行为。

语言模型的行为,无法单靠语言来掌控。整个提示词工程行业,正是建立在拒绝接受这一事实的基础之上。


多智能体框架只会让问题雪上加霜

4.png

面对对话式人工智能的不可靠性,行业给出的解决方案居然是:增加更多对话。如果一个语言模型无法实现可靠协同,那让多个语言模型相互对话,想必就能解决问题。这就好比看着有人溺水,却又把另一个不会游泳的人扔进泳池去施救 —— 结果非但没解决问题,反而让溺水的人从一个变成了两个。

然而,这正是多智能体框架的底层逻辑。无论是 CrewAI、AutoGen 还是 LangGraph,这些框架都宣称,让各司其职的专业智能体协同合作,就能完成单个智能体无法胜任的任务。

一个智能体负责规划,一个负责调研,一个负责执行,还有一个负责审核。
而它们相互沟通的方式 —— 你肯定猜到了 —— 就是通过自然语言对话。

这套说辞听起来似乎合情合理,可一旦你看清背后的实际运作逻辑,就会发现问题所在:你明明面对的是一个 “因依赖对话实现协同而频频失灵” 的系统,给出的解决方案却是增加更多对话层级。这无异于在说:“这个蹩脚的蠢货总把事情搞砸 —— 太好了,我们再复制出更多这样的智能体,让它们一起干活。”

多智能体框架打着 “协同层级” 的幌子,实际却是在做一件事:脱离人类监督的纯对话式协作,而这种模式最终必然会酿成人工智能的灾难性事故。

多智能体系统的实际运作流程是这样的:

智能体 1 确定任务方案,并用自然语言告知智能体 2。
智能体 2 对指令进行概率性解读,执行相关操作后,再用自然语言反馈结果。
智能体 1 同样以概率性方式解读反馈结果,确定下一步任务,下达给智能体 3。
智能体 3 继续概率性解读指令并执行任务。

在每一次任务交接环节,你都要依赖语言模型的概率性推理 —— 这意味着,每一次交接都会引入不确定性偏差。而这种误差的叠加并非线性增长,而是呈指数级爆发。当智能体的协作链条延伸到第三个环节时,系统的执行方向就会严重偏离初始目标,最终产出的结果几乎等同于随机生成。

这也解释了为什么多智能体系统在演示场景中表现亮眼 —— 毕竟可以精心筛选成功案例,可一旦投入实际生产环境,就会一败涂地。在需要稳定、可靠完成重复性任务的真实场景中,这类系统就是一场彻头彻头的灾难。

这也是智能体来了做教培AI时坚持的方向:少讲概念,多做可执行的工作流,让AI真正“能用、能跑、能复用”。

相关文章
|
13天前
|
存储 缓存 调度
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
在大模型推理迈向“智能体时代”的今天,KVCache 已从性能优化手段升级为系统级基础设施,“显存内缓存”模式在长上下文、多轮交互等场景下难以为继,而“以存代算”的多级 KVCache 架构虽突破了容量瓶颈,却引入了一个由模型结构、硬件平台、推理引擎与缓存策略等因素交织而成的高维配置空间。如何在满足 SLO(如延迟、吞吐等服务等级目标)的前提下,找到“时延–吞吐–成本”的最优平衡点,成为规模化部署的核心挑战。
271 38
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
|
12天前
|
存储 编解码 安全
阿里云服务器8核16G、8核32G、8核64G最新实例收费标准与活动价格参考
阿里云服务器8核16G、8核32G、8核64G属于较高的配置,是中大型企业用户在选择配置时选择较多的,在阿里云目前的活动中,第9代云服务器有这几个配置可选,其中计算型c9i实例8核16G配置5958.52元1年起,通用型g9i实例8核32G配置7551.94元1年起,内存型r9i实例8核64G配置9937.12元1年起领取阿里云优惠券之后可获满减优惠。本文将详细介绍阿里云这几款配置不同实例规格的收费标准与当下的活动价格,以供参考选择。
126 17
|
13天前
|
人工智能 测试技术 开发者
AI Coding后端开发实战:解锁AI辅助编程新范式
本文系统阐述了AI时代开发者如何高效协作AI Coding工具,强调破除认知误区、构建个人上下文管理体系,并精准判断AI输出质量。通过实战流程与案例,助力开发者实现从编码到架构思维的跃迁,成为人机协同的“超级开发者”。
996 93
|
14天前
|
人工智能 自然语言处理 API
数据合成篇|多轮ToolUse数据合成打造更可靠的AI导购助手
本文提出一种面向租赁导购场景的工具调用(Tool Use)训练数据合成方案,以支付宝芝麻租赁助理“小不懂”为例,通过“导演-演员”式多智能体框架生成拟真多轮对话。结合话题路径引导与动态角色交互,实现高质量、可扩展的合成数据生产,并构建“数据飞轮”推动模型持续优化。实验表明,该方法显著提升模型在复杂任务中的工具调用准确率与多轮理解能力。
217 43
数据合成篇|多轮ToolUse数据合成打造更可靠的AI导购助手
|
22天前
|
存储 缓存 NoSQL
即将开源 | 阿里云 Tair KVCache Manager:企业级全局 KVCache 管理服务的架构设计与实现
阿里云 Tair 联合团队推出企业级全局 KVCache 管理服务 Tair KVCache Manager,通过中心化元数据管理与多后端存储池化,实现 KVCache 的跨实例共享与智能调度。该服务解耦算力与存储,支持弹性伸缩、多租户隔离及高可用保障,显著提升缓存命中率与资源利用率,重构大模型推理成本模型,支撑智能体时代的规模化推理需求。
|
7天前
|
SQL 人工智能 自然语言处理
企业落地 AI 数据分析,如何做好敏感数据安全防护?
在 AI 问数时代,数据安全与使用效率并非零和博弈。
|
10天前
|
存储 弹性计算 安全
从0到1看懂:阿里云服务器ECS是什么?详解、价格、优势及使用问题解答FAQ
阿里云ECS是基于飞天架构的弹性计算服务,提供高稳定、高性能、安全可靠的云服务器,支持多种计费模式与丰富规格族,适配企业应用、互联网、AI等上百种场景,助力用户实现算力随需所用、成本最优。
|
15天前
|
安全 算法 网络协议
从明文到加密:HTTP与HTTPS核心知识全解析
本文深入解析HTTP与HTTPS的核心差异,揭示HTTPS如何通过SSL/TLS协议、CA证书和混合加密机制,解决HTTP的窃听、篡改与冒充三大安全问题,全面科普网络安全关键技术。
394 6