自治AI代理:Auto-GPT、BabyAGI、AgentGPT、JARVIS / HuggingGPT

简介: 笔记

image.png

ChatGPT和许多其它当前的基础模型都很棒,可以回答无数的问题,生成与人类艺术作品几乎没有区别的AI艺术、分析照片等都表现得不输人类。

只有一件事是它们做不到的,即完成由大量非常不同的独立步骤组成的任务,这些步骤加在一起需要很长时间才能处理。

这些模型有点像还不是很独立的练习生,必须始终保持联系,以提高输出,解释需要完成的任务并采取下一步行动。

AI 代理可以自主地做到这一点,接受用户输入,在llm的帮助下将其分解为许多小的独立任务并进行处理。它们存储单独的结果,在必要时进行检查,然后将其用作后续步骤的输入。这允许处理更复杂的任务并访问不同的基础模型(语言、代码、视频、语音等)和资源(搜索引擎、公共数据API、计算工具等))。


自治代理 AI


如何才能获得一个模型来完成一项多步骤的工作,例如创建一副新的 52 张牌,其中包括武侠英雄形象,如郭靖或者 张无忌。

虽然语言模型可以编制风格和形象列表,但至少需要另一种类型的模型(AI 艺术模型)来生成视觉效果。可能需要额外的系统来搜索互联网或存储内容。

可以编写一个批处理脚本来完成这一切。

或者代理 AI ,告诉想要做什么,然后代理编写批处理脚本,执行它并监控结果。

通常,代理使用单个步骤(为单个卡片选择艺术家)和框架任务(生成任务列表)外部模型,将思考步骤外包,只保留信息存储、任务跟踪、界面管理和编排。

代理或自主 AI 在最近几周才出现,但它们正在以惊人的速度发展。现在,微软已经加入了 Jarvis / HuggingGPT 的行列。


AgentGPT


在浏览器中组装、配置和部署自主 AI 代理。无需安装配置好 OpenAI 密钥即可轻松使用。

特征:

  • 基于浏览器
  • 简单易用的代理
  • 基于 OpenAI 模型
  • 测试使用不需要 OpenAI 密钥

使用网站: agentgpt.reworkd.ai/


Auto-GPT


基于 GPT-4 的实验性和开源代理库,它将 LLM 的思想链接在一起,以自主实现设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。

特征:

  • 支持通过 Internet 访问搜索和收集信息
  • 长期和短期内存管理
  • 用于文本生成的 GPT-4 实例
  • 访问流行的网站和平台
  • 使用 GPT-3.5 进行文件存储和汇总

GITHUB: github.com/Significant…


Baby AGI


人工智能驱动的任务管理系统,该系统使用 OpenAI 和 Pinecone API 来创建任务、确定任务的优先级和执行任务。该系统背后的主要思想是它根据先前任务的结果和预定义的目标创建任务。

工作方式:

  • 从任务列表中提取第一个任务。
  • 将任务发送给执行代理,执行代理使用 OpenAI 的 API(和 Llama)根据上下文完成任务。
  • 丰富结果并将其存储在 Pinecone 中。
  • 创建新任务并根据目标和先前任务的结果重新排列任务列表的优先级。

GITHUB: github.com/yoheinakaji…


JARVIS / HuggingGPT


一个协作系统,由作为控制器的 LLM 和作为协作执行者的众多专家模型组成(来自 Hugging Face Hub)。代理可以使用 LLM 和其他模型。系统的工作流程包括四个阶段:

  • 任务规划:使用ChatGPT分析用户的请求,了解意图,并将其拆解成可能解决的任务。
  • 模型选择:为解决计划任务,ChatGPT 根据描述选择托管在 Hugging Face 上的专家模型。
  • 任务执行:调用并执行每个选定的模型并将结果返回给 ChatGPT。
  • 响应生成 : 最后使用ChatGPT整合所有模型的预测,生成响应。

GITHUB:github.com/microsoft/J…


总结


人工智能代理不仅仅是更好的基础模型,还增加了一个新的维度。无法比经典基础模型更好地执行一项小的单一任务,但能够将一项更大的任务分解成许多更小的任务。如果未来基础模型变得更好,它们不会取代 AI 代理,而是会让它们变得更强大。

自治代理可以:

  • 集成不同类型的模型(语言、代码、人工智能艺术、策略等等)
  • 集成非基础模型组件,如搜索引擎、计算引擎等。
  • 分叉到任务子分支
  • 通过另一个模型验证/重写一个模型的输出
  • 尝试一些东西,检查结果,接受它或尝试不同的东西
  • 连续运行并处理连续输入(例如,可以随时间控制正在运行的系统)

未来如果一个代理连接到互联网,它可能会做它认为完成任务所必需的事情,但不是人类用户想要做的,比如侵入云系统以获取信息。如果代理能够训练模型或配置自身的未来实例以完成任务,则可能会演变出一个巨大的 AI 问题:可能会出现远远超出人类控制的系统。


相关文章
|
5月前
|
人工智能 API 开发者
Dify x AiOnly平台:手把手教你调用GPT-5从零构建AI工作流!
本文介绍如何通过Dify与AiOnly平台,快速构建基于GPT-5等顶尖大模型的AI应用。涵盖环境部署、模型接入、工作流编排及实战案例,助力开发者低门槛打造专属聊天机器人,轻松实现AI应用落地。(238字)
|
4月前
|
人工智能 自然语言处理 安全
从工具到伙伴:AI代理(Agent)是下一场革命
从工具到伙伴:AI代理(Agent)是下一场革命
451 117
|
5月前
|
存储 人工智能 搜索推荐
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
Mem0 是专为 AI 代理设计的内存层,支持记忆、学习与进化。提供多种记忆类型,可快速集成,适用于开源与托管场景,助力 AI 代理高效交互与成长。
642 123
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
|
5月前
|
存储 人工智能 运维
AI 网关代理 RAG 检索:Dify 轻松对接外部知识库的新实践
Higress AI 网关通过提供关键桥梁作用,支持 Dify 应用便捷对接业界成熟的 RAG 引擎。通过 AI 网关将 Dify 的高效编排能力与专业 RAG 引擎的检索效能结合,企业可在保留现有 Dify 应用资产的同时,有效规避其内置 RAG 的局限,显著提升知识驱动型 AI 应用的生产环境表现。
2784 115
|
4月前
|
人工智能 自然语言处理 供应链
超越聊天:AI代理——下一代人机交互的雏形
超越聊天:AI代理——下一代人机交互的雏形
241 22
|
10月前
|
人工智能 开发框架 决策智能
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
谷歌开源的Agent Development Kit(ADK)是首个代码优先的Python工具包,通过多智能体架构和灵活编排系统,支持开发者在百行代码内构建复杂AI代理,提供预置工具库与动态工作流定义能力。
1876 3
谷歌开源多智能体开发框架 Agent Development Kit:百行代码构建复杂AI代理,覆盖整个开发周期!
|
5月前
|
机器学习/深度学习 人工智能 编解码
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
|
5月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
|
7月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型