【AI的未来 - AI Agent系列】【MetaGPT】1. AI Agent如何重构世界

简介: 【AI的未来 - AI Agent系列】【MetaGPT】1. AI Agent如何重构世界

上篇文章我们跑起来了第一个MetaGPT程序。本文主要学习了一下理论,什么是智能体,以及智能体如何重构世界。

0. 什么是智能体

智能体 = LLM+观察+思考+行动+记忆

多智能体 = 智能体+环境+SOP+评审+路由+订阅+经济

用人话说,我理解的Agent:

  • 智能体就是像人一样,能理解现实中的事务,有记忆,会思考,会总结,会学习,像人一样会规划,会决策,会使用各种工具来完成某项任务。
  • 多智能体,就像一个团队,大了说像我们现在生活的社会,每个智能体有自己的职能和领域,人与人之间通过协作,能完成更加复杂和庞大的目标。

太理论的东西这里不展开写了,可以参考文末的链接去深入理解。下面只是摘我觉得比较有意思的几个点做一下笔记:

(1)目前LLM规划能力较弱

(2)人脑有大量如视神经、听觉神经等小网络;智能体大概率也需要大量的小模型(如在视觉、决策、路由等工作上),不能由一个大模型来主导,一不经济,二不实际

(3)工具实际就是API,支撑了智能体通往现实世界。假如实现现实世界完整表达的API都已经被实现,那么Agent理论上就可以达到全能。当然,前提是它要能够无错、娴熟的基于这些API写出完整的代码,而这代码自动撰写的missing piece就是MetaGPT

1. 用一个例子看智能体是什么

这是一个GPTs导航,帮助用户用LLM的模糊语义搜索找到全网公开的GPTS以及其体验链接。问它:“logo设计”,这个GPTs的任务就是查找logo设计相关的GPTs,并列出排名、介绍和访问链接。

从图中可以看到它的具体执行步骤:

(1)观察和思考:首先结构用户描述,产生搜索用的英文关键字

(2)工具:利用英文关键字,调用webpilot工具API进行检索

(3)观察和思考:根据返回的检索结果,llm就开始观察和思考哪个是最高匹配度的GPTs

(4)返回结果

从这些步骤就可以看出里面也是包含了规划在的。

2. AI时代智能体怎样重构世界

(1)Agent:LLM时代的新软件

99%的互联网入口将由App变为智能体:人类感知的字节数降低到极限

  • 我的理解:99%的APP都不再是APP,而是一堆API。手机上只有一个Agent智能体软件作为入口,你想要什么,它去调用一堆API来给你结果。
(2)社会协作变革:虚拟员工进入企业,红杉预计 智能体数量 五年后和人类1比1

3. 有趣的理论:大脑的System1和System2

  • 该理论意思就是:当简单问题时,我们大脑只用System1工作,例如被问“2 + 2 = ?”,我们能脱口而出,没经过思考。而被问“17 * 24 = ?”,我们的大脑就需要计算了,这就需要用到System2 - 你的大脑的另一部分,这部分更加理性,更加缓慢,进行复杂的决策,感觉更有意识。你不得不在脑海中解决这个问题,然后给出答案。
  • 现在事实证明, LLM 目前只有系统 1。它们只有这个本能部分。

参考

  1. 【直播回放】MetaGPT作者深度解析直播回放
  2. AI Agent知识体系结构
相关文章
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
132 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
24天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
132 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
25天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
84 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
21天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
51 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
1月前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
85 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
MetaGPT开源SELA,用AI设计AI,效果超越OpenAI使用的AIDE
MetaGPT团队开源了Tree-Search Enhanced LLM Agents(SELA)系统,通过蒙特卡罗树搜索(MCTS)优化AutoML过程,显著提升了机器学习模型的构建效率和性能。SELA在20个数据集上的实验结果表明,其性能优于传统AutoML方法和基于LLM的代理,为AutoML领域带来了新的突破。
44 4
|
1月前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
46 7
|
2月前
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
166 13
AI经营|多Agent择优生成商品标题
|
2月前
|
人工智能 自然语言处理 搜索推荐
🤖【多Agent大爆炸】——灵活调用与实践指南,解锁AI协作新技能!
本文深入探讨了单Agent与多Agent在不同场景下的应用及优势,通过实例讲解多Agent如何实现高效协作,涵盖智能物流、教育、医疗等多个领域的实际应用,旨在帮助开发者掌握多Agent系统的调用与实践技巧。
113 5
|
2月前
|
机器学习/深度学习 传感器 人工智能
2024.11|全球具身智能的端到端AI和具身Agent技术发展到哪里了
2024年,具身智能领域取得显著进展,特别是在端到端AI控制系统和多模态感知技术方面。这些技术不仅推动了学术研究的深入,也为科技公司在实际应用中带来了突破。文章详细介绍了端到端AI的演化、自监督学习的应用、多模态感知技术的突破、基于强化学习的策略优化、模拟环境与现实环境的迁移学习、长程任务规划与任务分解、人机协作与社会交互能力,以及伦理与安全问题。未来几年,具身智能将在多模态感知、自监督学习、任务规划和人机协作等方面继续取得重要突破。
78 2