AutoGPT star量破10万,这是首篇系统介绍自主智能体的文章(1)

简介: AutoGPT star量破10万,这是首篇系统介绍自主智能体的文章


在 GitHub 上,AutoGPT 的 star 量已经破 10 万。 这是一种新型人机交互方式: 你不用告诉 AI 先做什么,再做什么,而是给它制定一个目标就好,哪怕像「创造世界上最好 的冰淇淋」这样简单。 类似的项目还有 BabyAGI 等等。 这股自主智能体浪潮意味着什么? 它们是怎么运行的? 它们在未来会是什么样子? 现阶段如何尝试这项新技术? 在这篇文章中,Octane AI 首席执行官、联合创始人 Matt Schlicht 进行了详细介绍。


人工智能可以用来完成非常具体的任务,比如推荐内容、撰写文案、回答问题,甚至生成与现实生活无异的照片。你告诉 AI 完成哪一项任务,它就完成哪一项, 十分简单。

但是,如果你不想帮 AI 把所有这些任务都列出来该怎么办?如果你更想要一个队友而不仅仅是一个工具怎么办?如果你想让人工智能自主思考怎么办?


想象一下,你创造了一个人工智能工具,可以为其设定目标,即使是像「创造世界上最好的冰淇淋」这样模糊的目标,它也会拟出一个待办事项列表,执行待办事项,并根据进展来添加新的待办事项。随后它会继续重复这个过程,直至完成目标。

这正是「自主智能体」所做的事情。在 AI 开发人员的圈子中,它们的成长趋势是最快的,但迄今为止,大多数人并不了解它们。(在写这篇文章的时候,尚无主流出版物写过关于自主智能体的文章。而且自它面世以来,仅有很少数人报道过它,因此,如果你正在读这篇文章...... 那么你就是最早了解到它的人之一了。)

何为自主智能体?为何它们背后隐藏着巨大的机会?它们是如何运行的?它们在未来会是什么样子的?我怎样才能创造或使用它?


这正是我将为你解答的问题。

「[智能] 自主智能体通常是自动化的自然终点。原则上,智能体可被用于自动化任何其他过程。不难想象,一旦这些智能体变得高度精密、可靠,各个领域和行业的自动化程度将呈指数级增长。」  —— 英伟达机器学习专家 Bojan Tunguz

何为自主智能体?

自主智能体是由 AI 赋能的程序。当给定一个目标时,它们能够自行创建任务、完成任务、创建新的任务、重新确定任务列表的优先级、完成新的首要任务,并不断重复这个过程,直到完成目标。

请再多读一遍上面的描述,它虽然简单,但却很疯狂。

「从自主智能体的发展趋势来看,每个人都有望成为一名经理。」 ——BabyAGI 创始人中岛洋平(Yohei Nakajima)

自主智能体可以被设计用于做任何事情,从管理社交媒体账户、投资市场到制作最好的儿童读物。


「这些是真的吗?现在就能实现吗」


是的,我知道这听起来像科幻小说,但这些都是真实存在的。如果会编码,你可以在几分钟内设计出一个。而这仅仅只是开始。

「人们常常会浪费过多的时间来做繁琐乏味的手工工作,而当计算机可以完成这些工作时,人们便可以被解放出来去实现更具创造性的追求,或者去做目前只有人类才能做的事情。自主智能体将使人们能够在更短的时间内完成更多的工作,并且,随着时间的推移,人们盯着屏幕工作的时间也有望缩短!」  ——Redpoint 常务董事 Erica Brescia

实现自主智能体所需的编程技术和 AI 是非常现实且极其新颖的。许多开源项目,诸如 AutoGPT、BabyAGI 和 Microsoft 的 Jarvis,在 AI 社区、Github 上都很流行。


在创建开源自主智能体代码库的前两周里,有将近十万名开发人员都在构建自主智能体、优化它们、并寻找它们的能力上限,而这些工作也只是在这些概念被发明的前几周所做的。现今,使用该技术的开发人员数量正在以越来越快的速度飙升。

「AI 智能体将无处不在。价值数十亿美元的公司将从会一个部署 AI 智能体的小团队发展而来。」   ——Ben's Bites AI Newsletter 创始人 Ben Tossell

AI 智能体的成长规模已经超过了长期流行的代码库,如 laravel、bitcoin、django 和 pytorch 等。

 

Auto-GPT Github 受欢迎程度呈指数增长,比历史上任何代码库都快。

这不是科幻小说。许多人认为这些自主智能体才是真正的通用人工智能的开端,又或被称作「AGI」—— 这个术语用于描述已经获得知觉并变得「有生命」的人工智能。


「自主智能体最终可能会将事实性知识的所有应用商品化。如果对事实性知识的获取也变得普遍可用,那么创造力、情感和战略眼光等人类品质将变得更加珍贵、独特。但是,知识也有可能变得越来越专有化,因为个人和公司试图在事实知识的应用商品化、人类集体知识开始停滞的世界中获得经济利益优势。」  —— 前美国联邦调查局新兴技术代理主管、Bondoo AI 联合创始人 Tony Hu

请看一下这个刚刚从 HyperWrite 发布的自主智能体,你可以看到它被安装在了浏览器中,可帮助人们订购比萨。


你只需说「点一份从 Dominos 配送到 One Vanderbilt 的无馅料大披萨」,然后它就可以自己订了。


HyperWrite's 的自主智能体控制浏览器来订购披萨。

或者,看看斯坦福大学和谷歌合作完成的这个实验,他们创建了一个由 25 个自主智能体组成的虚拟城镇,并告诉其中的一个来组织一场情人节派对。这个例子也许更令人印象深刻。


这些自主智能体模拟的人们过着它们的日子,互相交谈,形成新的记忆,最终它们中的大多数都听说了情人节派对,并且最终出席了。


图源:《Generative Agents: Interactive Simulacra of Human Behavior》


所以自主智能体是真实的…… 这就引出一个疑问:只要告诉智能体目标是什么,然后它就会永远自行管理自己吗?


答案是肯定的。

你只需给它定一个目标,剩下的会由自主智能体自己完成。它就像一个非常好的员工或队友。不过,如果你愿意,也可以自行设计自主智能体,使其在某些关键决策时刻与你联系,以便你可以即时协作指导它们工作。

「这是原始 AGI(primitive AGI)。值得注意的是,只需将一个 LLM 包装在一个循环中,就可以获得一个自主智能体,它可以自己推理、计划、思考、记忆和学习。如果包装和 prompts 正确,LLM 可以被激发出无尽的潜能和灵活性。虽然整个概念诞生还不到一个月时间,但我已迫不及待地想看看由 LLM 构建的复杂智能体将如何影响世界。」  ——Runway 创始人兼 CEO 陈思琪

自主智能体除了能分析目标并分配任务之外,它们还拥有一系列能力,例如:


  • 浏览互联网、会使用应用程序;
  • 长期和短期记忆;
  • 控制你的电脑;
  • 运用 GPT 等大语言模型 (LLM) 进行分析、总结,提出意见并给出答案。


此外,这些自主智能体将具有各种形状和大小。有些将在用户不知道他们在做什么的情况下在幕后运行,而有些则是可见的,如上例所示,用户可以跟踪人工智能的每一个 “想法”。

「自主智能体将让每个人都像国家元首一样生活!你只管提出要求,自主智能体就会处理其余的事情。你无需在例行公事或平凡的事情上浪费脑力。」  ——《Blitzscaling 》作者之一 Chris Yeh

接下来我们用一个通俗易懂的示例来说明:假设有一个自主智能体可以帮助研究,我们想要关于某个主题的最新新闻总结,比如说关于 Twitter 的新闻:


  • 我们告诉智能体「你的目标是找出有关 Twitter 的最新消息,然后向我发送摘要」;
  • 因此,智能体在看到目标任务后,借助 OpenAI 的 GPT-4 等 AI,从而理解正在阅读的内容,并提出第一个任务,即「任务:在谷歌上搜索与 Twitter 相关的新闻」;
  • 然后智能体在谷歌上搜索 Twitter 新闻,找到热门文章,并返回一个链接列表。第一个任务完成;
  • 继而智能体回顾它的主要目标(找到关于 Twitter 的最新消息,然后发送摘要)以及它刚刚完成的事情(得到一堆关于 Twitter 的新闻链接)并决定它的下一个任务需要是什么 ;
  • 之后,它提出了两个新任务:1)写新闻摘要。2) 阅读通过谷歌找到的新闻链接的内容;
  • 现在智能体在继续工作之前停顿了一会儿,它需要确保这些任务的顺序是正确的。确定应该先写摘要吗?智能体否定了,它决定首要任务是优先阅读通过谷歌找到的新闻链接的内容;
  • 智能体从文章中读取内容,然后再次返回待办事项列表。它想添加一个新任务来总结内容,但该任务已经在待办事项列表中,所以自主智能体并没有添加;
  • 智能体检查待办事项列表,唯一剩下的一项就是总结它阅读的内容,所以它这样做了。此时它就会按照用户要求发送摘要。


下图表展示了自主智能体是如何工作的:


图源:Yojei Nkajima 的 BabyAGI


这一新范式刚刚开始,但它并不完美,还未风靡全球,但这个概念非常强大,并且随着不断的发展和实验,它将很快融入到我们的日常生活。

「这将很快改变许多行业。通过使用自主智能体,人们同时可以更轻松地做很多事情。只要给它一个任务,它就会去完成。到目前为止,这是一个非常强大的概念……  」——The AI Valley Newsletter 创始人 Barsee

在更高程度上理解了什么是自主智能体之后,接下来讨论一下为什么自主智能体能够带来如此大的机会?



相关文章
|
1月前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
85 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
2月前
|
算法 机器人 语音技术
由通义千问驱动的人形机器人具身智能Multi-Agent系统
申昊科技人形机器人小昊,集成通义千问多模态大模型的具身智能系统,旨在讲解销售、迎宾表演等场景。机器人通过语音、动作等方式与用户互动,利用云端大语言模型处理自然语言,结合视觉、听觉等多模态感知技术,实现流畅的人机对话、目标追踪、展厅讲解等功能。
240 4
由通义千问驱动的人形机器人具身智能Multi-Agent系统
|
7月前
|
人工智能 安全 人机交互
ACL 2024:PsySafe:跨学科视角下的Agent系统安全性研究
【6月更文挑战第21天】PsySafe是一个创新框架,关注多智能体系统集成大型语言模型后的安全风险。它从心理学角度评估和强化系统安全,通过模拟攻击检测漏洞,并设计防御策略。研究显示智能体的负面心理状态影响其行为安全,揭示了心理状态与行为模式的关联。该框架为MAS安全性研究提供新途径,但也面临智能体心理评估准确性和行为评估方法的挑战。[\[arxiv.org/pdf/2401.11880\]](https://arxiv.org/pdf/2401.11880)
101 6
|
3月前
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
473 6
|
6月前
|
云计算
云计算MetaGPT问题之MetaGPT问题中在MetaGPT系统中智能体是协同工作如何解决
云计算MetaGPT问题之MetaGPT问题中在MetaGPT系统中智能体是协同工作如何解决
59 0
|
7月前
|
人工智能 自然语言处理 决策智能
超长小说可以用AI翻译了,新型多智能体协作系统媲美人工翻译
【6月更文挑战第11天】研究人员开发了一种基于大型语言模型的多智能体协作系统TransAgents,用于文学翻译,挑战复杂的文学文本翻译。通过单语人类偏好和双语LLM偏好评估,系统在保留文学风格和表达上表现出色,尤其在需要领域知识的文本中。然而,系统在捕捉文学翻译的细微差别、文化特定元素和长文本翻译效率上仍有局限性。相关论文链接:https://arxiv.org/abs/2405.11804
184 1
|
8月前
|
人工智能 决策智能
【AI Agent系列】【MetaGPT多智能体学习】3. 开发一个简单的多智能体系统,兼看MetaGPT多智能体运行机制
【AI Agent系列】【MetaGPT多智能体学习】3. 开发一个简单的多智能体系统,兼看MetaGPT多智能体运行机制
236 0
|
8月前
|
机器学习/深度学习 算法 TensorFlow
OpenAI Gym 中级教程——多智能体系统
OpenAI Gym 中级教程——多智能体系统
497 0
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
133 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
24天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
132 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互

热门文章

最新文章