ChatGPT和许多其它当前的基础模型都很棒,可以回答无数的问题,生成与人类艺术作品几乎没有区别的AI艺术、分析照片等都表现得不输人类。
只有一件事是它们做不到的,即完成由大量非常不同的独立步骤组成的任务,这些步骤加在一起需要很长时间才能处理。
这些模型有点像还不是很独立的练习生,必须始终保持联系,以提高输出,解释需要完成的任务并采取下一步行动。
AI 代理可以自主地做到这一点,接受用户输入,在llm的帮助下将其分解为许多小的独立任务并进行处理。它们存储单独的结果,在必要时进行检查,然后将其用作后续步骤的输入。这允许处理更复杂的任务并访问不同的基础模型(语言、代码、视频、语音等)和资源(搜索引擎、公共数据API、计算工具等))。
自治代理 AI
如何才能获得一个模型来完成一项多步骤的工作,例如创建一副新的 52 张牌,其中包括武侠英雄形象,如郭靖或者 张无忌。
虽然语言模型可以编制风格和形象列表,但至少需要另一种类型的模型(AI 艺术模型)来生成视觉效果。可能需要额外的系统来搜索互联网或存储内容。
可以编写一个批处理脚本来完成这一切。
或者代理 AI ,告诉想要做什么,然后代理编写批处理脚本,执行它并监控结果。
通常,代理使用单个步骤(为单个卡片选择艺术家)和框架任务(生成任务列表)外部模型,将思考步骤外包,只保留信息存储、任务跟踪、界面管理和编排。
代理或自主 AI 在最近几周才出现,但它们正在以惊人的速度发展。现在,微软已经加入了 Jarvis / HuggingGPT 的行列。
AgentGPT
在浏览器中组装、配置和部署自主 AI 代理。无需安装配置好 OpenAI 密钥即可轻松使用。
特征:
- 基于浏览器
- 简单易用的代理
- 基于 OpenAI 模型
- 测试使用不需要 OpenAI 密钥
使用网站: agentgpt.reworkd.ai/
Auto-GPT
基于 GPT-4 的实验性和开源代理库,它将 LLM 的思想链接在一起,以自主实现设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。
特征:
- 支持通过 Internet 访问搜索和收集信息
- 长期和短期内存管理
- 用于文本生成的 GPT-4 实例
- 访问流行的网站和平台
- 使用 GPT-3.5 进行文件存储和汇总
GITHUB: github.com/Significant…
Baby AGI
人工智能驱动的任务管理系统,该系统使用 OpenAI 和 Pinecone API 来创建任务、确定任务的优先级和执行任务。该系统背后的主要思想是它根据先前任务的结果和预定义的目标创建任务。
工作方式:
- 从任务列表中提取第一个任务。
- 将任务发送给执行代理,执行代理使用 OpenAI 的 API(和 Llama)根据上下文完成任务。
- 丰富结果并将其存储在 Pinecone 中。
- 创建新任务并根据目标和先前任务的结果重新排列任务列表的优先级。
GITHUB: github.com/yoheinakaji…
JARVIS / HuggingGPT
一个协作系统,由作为控制器的 LLM 和作为协作执行者的众多专家模型组成(来自 Hugging Face Hub)。代理可以使用 LLM 和其他模型。系统的工作流程包括四个阶段:
- 任务规划:使用ChatGPT分析用户的请求,了解意图,并将其拆解成可能解决的任务。
- 模型选择:为解决计划任务,ChatGPT 根据描述选择托管在 Hugging Face 上的专家模型。
- 任务执行:调用并执行每个选定的模型并将结果返回给 ChatGPT。
- 响应生成 : 最后使用ChatGPT整合所有模型的预测,生成响应。
GITHUB:github.com/microsoft/J…
总结
人工智能代理不仅仅是更好的基础模型,还增加了一个新的维度。无法比经典基础模型更好地执行一项小的单一任务,但能够将一项更大的任务分解成许多更小的任务。如果未来基础模型变得更好,它们不会取代 AI 代理,而是会让它们变得更强大。
自治代理可以:
- 集成不同类型的模型(语言、代码、人工智能艺术、策略等等)
- 集成非基础模型组件,如搜索引擎、计算引擎等。
- 分叉到任务子分支
- 通过另一个模型验证/重写一个模型的输出
- 尝试一些东西,检查结果,接受它或尝试不同的东西
- 连续运行并处理连续输入(例如,可以随时间控制正在运行的系统)
未来如果一个代理连接到互联网,它可能会做它认为完成任务所必需的事情,但不是人类用户想要做的,比如侵入云系统以获取信息。如果代理能够训练模型或配置自身的未来实例以完成任务,则可能会演变出一个巨大的 AI 问题:可能会出现远远超出人类控制的系统。