自治AI代理:Auto-GPT、BabyAGI、AgentGPT、JARVIS / HuggingGPT

简介: 笔记

image.png

ChatGPT和许多其它当前的基础模型都很棒,可以回答无数的问题,生成与人类艺术作品几乎没有区别的AI艺术、分析照片等都表现得不输人类。

只有一件事是它们做不到的,即完成由大量非常不同的独立步骤组成的任务,这些步骤加在一起需要很长时间才能处理。

这些模型有点像还不是很独立的练习生,必须始终保持联系,以提高输出,解释需要完成的任务并采取下一步行动。

AI 代理可以自主地做到这一点,接受用户输入,在llm的帮助下将其分解为许多小的独立任务并进行处理。它们存储单独的结果,在必要时进行检查,然后将其用作后续步骤的输入。这允许处理更复杂的任务并访问不同的基础模型(语言、代码、视频、语音等)和资源(搜索引擎、公共数据API、计算工具等))。


自治代理 AI


如何才能获得一个模型来完成一项多步骤的工作,例如创建一副新的 52 张牌,其中包括武侠英雄形象,如郭靖或者 张无忌。

虽然语言模型可以编制风格和形象列表,但至少需要另一种类型的模型(AI 艺术模型)来生成视觉效果。可能需要额外的系统来搜索互联网或存储内容。

可以编写一个批处理脚本来完成这一切。

或者代理 AI ,告诉想要做什么,然后代理编写批处理脚本,执行它并监控结果。

通常,代理使用单个步骤(为单个卡片选择艺术家)和框架任务(生成任务列表)外部模型,将思考步骤外包,只保留信息存储、任务跟踪、界面管理和编排。

代理或自主 AI 在最近几周才出现,但它们正在以惊人的速度发展。现在,微软已经加入了 Jarvis / HuggingGPT 的行列。


AgentGPT


在浏览器中组装、配置和部署自主 AI 代理。无需安装配置好 OpenAI 密钥即可轻松使用。

特征:

  • 基于浏览器
  • 简单易用的代理
  • 基于 OpenAI 模型
  • 测试使用不需要 OpenAI 密钥

使用网站: agentgpt.reworkd.ai/


Auto-GPT


基于 GPT-4 的实验性和开源代理库,它将 LLM 的思想链接在一起,以自主实现设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。

特征:

  • 支持通过 Internet 访问搜索和收集信息
  • 长期和短期内存管理
  • 用于文本生成的 GPT-4 实例
  • 访问流行的网站和平台
  • 使用 GPT-3.5 进行文件存储和汇总

GITHUB: github.com/Significant…


Baby AGI


人工智能驱动的任务管理系统,该系统使用 OpenAI 和 Pinecone API 来创建任务、确定任务的优先级和执行任务。该系统背后的主要思想是它根据先前任务的结果和预定义的目标创建任务。

工作方式:

  • 从任务列表中提取第一个任务。
  • 将任务发送给执行代理,执行代理使用 OpenAI 的 API(和 Llama)根据上下文完成任务。
  • 丰富结果并将其存储在 Pinecone 中。
  • 创建新任务并根据目标和先前任务的结果重新排列任务列表的优先级。

GITHUB: github.com/yoheinakaji…


JARVIS / HuggingGPT


一个协作系统,由作为控制器的 LLM 和作为协作执行者的众多专家模型组成(来自 Hugging Face Hub)。代理可以使用 LLM 和其他模型。系统的工作流程包括四个阶段:

  • 任务规划:使用ChatGPT分析用户的请求,了解意图,并将其拆解成可能解决的任务。
  • 模型选择:为解决计划任务,ChatGPT 根据描述选择托管在 Hugging Face 上的专家模型。
  • 任务执行:调用并执行每个选定的模型并将结果返回给 ChatGPT。
  • 响应生成 : 最后使用ChatGPT整合所有模型的预测,生成响应。

GITHUB:github.com/microsoft/J…


总结


人工智能代理不仅仅是更好的基础模型,还增加了一个新的维度。无法比经典基础模型更好地执行一项小的单一任务,但能够将一项更大的任务分解成许多更小的任务。如果未来基础模型变得更好,它们不会取代 AI 代理,而是会让它们变得更强大。

自治代理可以:

  • 集成不同类型的模型(语言、代码、人工智能艺术、策略等等)
  • 集成非基础模型组件,如搜索引擎、计算引擎等。
  • 分叉到任务子分支
  • 通过另一个模型验证/重写一个模型的输出
  • 尝试一些东西,检查结果,接受它或尝试不同的东西
  • 连续运行并处理连续输入(例如,可以随时间控制正在运行的系统)

未来如果一个代理连接到互联网,它可能会做它认为完成任务所必需的事情,但不是人类用户想要做的,比如侵入云系统以获取信息。如果代理能够训练模型或配置自身的未来实例以完成任务,则可能会演变出一个巨大的 AI 问题:可能会出现远远超出人类控制的系统。


相关文章
|
23天前
|
人工智能 JavaScript 前端开发
多角色AI代理的一次尝试- AI代码助手
本文介绍了一个多角色AI代理系统,用于自动化代码开发过程。系统包括用户接口、需求分析、代码结构设计、代码生成、代码审查和代码执行等角色,通过协调工作实现从需求到代码生成与测试的全流程自动化。使用了qwen2.5 7b模型,展示了AI在软件开发中的潜力。
|
8天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
87 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
16天前
|
存储 人工智能 数据库
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
Codel是一款全自主AI代理工具,支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中,具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务,如创建项目结构、进行网络搜索等,适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。
55 11
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
|
17天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
64 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI发展与GPT简介
人工智能(AI)是指计算机系统执行通常需要人类智能的任务的能力,如视觉感知、语音识别、决策制定和语言翻译。简而言之,AI就是让计算机模仿人类的思考和行为过程。
267 0
|
3天前
|
人工智能 API Windows
免费部署本地AI大语言模型聊天系统:Chatbox AI + 马斯克grok2.0大模型(简单5步实现,免费且比GPT4.0更好用)
本文介绍了如何部署本地AI大语言模型聊天系统,使用Chatbox AI客户端应用和Grok-beta大模型。通过获取API密钥、下载并安装Chatbox AI、配置模型,最终实现高效、智能的聊天体验。Grok 2大模型由马斯克X-AI发布,支持超长文本上下文理解,免费且易于使用。
25 0
|
3月前
|
存储 人工智能 测试技术
Minstrel自动生成结构化提示,让AI为AI写提示词的多代理提示生成框架
在人工智能迅速发展的背景下,有效利用大型语言模型(LLMs)成为重要议题。9月发布的这篇论文提出了LangGPT结构化提示框架和Minstrel多代理提示生成系统,旨在帮助非AI专家更好地使用LLMs。LangGPT通过模块化设计提高提示的泛化能力和可重用性,Minstrel则通过多代理协作自动生成高质量提示。实验结果显示,这两种方法显著提升了LLMs的性能,特别是在大规模模型上效果显著。
110 2
Minstrel自动生成结构化提示,让AI为AI写提示词的多代理提示生成框架
|
2月前
|
人工智能 自然语言处理 搜索推荐
【通义】AI视界|微软Copilot Studio推出新功能,帮助企业更便捷地构建和部署AI代理
本文介绍了近期科技领域的五大重要动态:马斯克旗下xAI发布首个API,苹果内部研究显示ChatGPT比Siri准确率高25%,微软Copilot Studio推出新功能,霍尼韦尔与谷歌合作引入Gemini AI,浑水创始人建议买入科技七巨头股票。更多资讯请访问【通义】。
|
2月前
|
人工智能 前端开发 测试技术
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
本文介绍了 GPT-4 如何成为前端开发者的“神队友”,让开发变得更加高效愉快。无论是需求到代码的自动生成、快速调试和性能优化,还是自动化测试和技术选型,GPT-4 都能提供极大的帮助。通过智能生成代码、捕捉 BUG、优化性能、自动化测试生成以及技术支持,GPT-4 成为开发者不可或缺的工具,帮助他们从繁重的手动任务中解脱出来,专注于创新和创意。GPT-4 正在彻底改变开发流程,让开发者从“辛苦码农”转变为“效率王者”。
49 0
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
|
2月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。