LLM as Controller—无限拓展LLM的能力边界(2)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: LLM as Controller—无限拓展LLM的能力边界

LLM as Controller—AI操作系统的雏形

首先我从原来的Windows/macOS/Linux等操作系统的模式说起,比如Windows操作系统上可能有搜索引擎/办公软件/编辑软件等等,然后搜索引擎有谷歌/百度/搜狗等等,谷歌可以搜索到维基百科/知乎/github等等网站,维基百科可以找到名人/建筑/历史等信息。上图的划分方式是为了下文阐述的简化表达。

办公软件比如office全家桶,office全家桶有ppt、word等等,ppt里面又有很多功能点。

编辑软件比如adobe全家桶,adobe全家桶有PS、AE、AI等等,PS里面又有很多功能点。

其中每个分叉都可以认为是一个聚合体单元,其实就是对应最开始描述框架下的Agent,只不过Agent在不同层次的概念粒度以及复杂程度是不同的。比如上图中的维基百科就可以认为是各种概念信息的聚合体。

在搜索引擎出现之前,人们找需要的信息时,需要从对应的网站找对应的信息,这是多个输入对应多个输出的情况;而搜索引擎就是通过更强大的搜索算法对各种网站进行了聚合,即出现了更大概念的Agent,这个时候输入口变成了1个,但是输出仍然需要跳转到各个网站上去获取;而LLM的出现会使得输入输出都变成1个口,并且对输入的精确表达程度要求更低。从这个演化过程来看,LLM会导致完全统一输入输出的Agent的出现,这个时候用户可以无需关心Agent内部的具体构造(即Agent内部完全黑盒化,由LLM自己决策中间过程),只需要输入并获取想要的输出。

从上述Agent单元的阐述来看,Windows/macOS/Linux等操作系统都可以简化成上图,即不同概念粒度Agent组成的多层Agent树。每个概念粒度的Agent都会逐渐标准化。从Agent的角度来看,HuggingGPT、Visual ChatGPT实际上就是模型管理功能的Agent。

如果在每一层或者每一个Agent单元配备一个LLM作为控制器,并且所有LLM都是信息互通的,并且LLM的语言理解能力是100分,那么可能就会出现真正的AI操作系统。通过AI操作系统中的所有LLM联动控制,可以将一个复杂任务拆分成不同层次的子任务,然后通过所有的Agent联动处理,最后输出想要的结果。

Windows/macOS/Linux等操作系统通过程序编程给出UI界面,然后用户通过鼠标点击和UI界面进行交互完成工作;而AI操作系统可能会变成只需要理解用户的语言就能完成工作。这个转变可能会导致鼠标点击和UI界面进行交互的方式可能会变得越来越冗余。

如果AI操作系统只需要理解用户的语言就能完成工作,那么所有不同粒度的Agent就能看成一个黑盒子(因为中间的所有决策环节都由LLM决定了),即一个最大聚合体Agent,而它的内核就是AI操作系统。

从AI操作系统的角度来看,实际上AutoGPT试图自顶向下的构建最大范围的Agent,正是因为范围过于广阔,导致中间过程非常的不可控;而类似HuggingGPT、Visual ChatGPT更倾向于自底向上搭建更可控的Agent,Agent能做的事情都是事先知道的。

08Reference

The Complete Beginners Guide To Autonomous Agents

https://www.mattprd.com/p/the-complete-beginners-guide-to-autonomous-agents

NexusGPT——目前为止看到的最有创意的Autonomous Agents类项目!附该领域进展概览

https://zhuanlan.zhihu.com/p/624182268

AutoGPT与LLM Agent解析

https://zhuanlan.zhihu.com/p/622947810

Task-driven Autonomous Agent Utilizing GPT-4, Pinecone, and LangChain for Diverse Applications

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Toolformer: Language Models Can Teach Themselves to Use Tools

https://arxiv.org/abs/2302.04761

NexusGPT

World’s 1st AI-freelancer platform

https://nexus.snikpic.io/

Generative Agents: Interactive Simulacra of Human Behavior

https://arxiv.org/abs/2304.03442

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

https://arxiv.org/abs/2303.04671

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

https://arxiv.org/abs/2303.17580

Significant-Gravitas/Auto-GPT

https://github.com/Significant-Gravitas/Auto-GPT

相关文章
|
1月前
|
人工智能 搜索推荐
未来多种模型组合是AIGC更可能的方向
【1月更文挑战第10天】未来多种模型组合是AIGC更可能的方向
61 1
未来多种模型组合是AIGC更可能的方向
|
4天前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
14 3
|
19天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的策略与优化路径
【5月更文挑战第28天】 在数据驱动的时代,机器学习模型的效能已成为衡量技术创新的重要指标。本文旨在探讨如何通过策略性的方法构建高效的机器学习模型,并详细阐述优化过程的关键步骤。文章首先对当前机器学习领域面临的挑战进行分析,随后提出一系列切实可行的模型构建和优化策略,包括数据预处理的重要性、特征工程的核心地位、算法选择的多样性以及超参数调优的必要性。通过对这些策略的深入讨论,本文为读者提供了一套系统的方法论,以期达到提高模型性能和泛化能力的目的。
|
1月前
|
自然语言处理
LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍
【5月更文挑战第12天】LongRoPE研究突破LLM上下文窗口限制,无需架构变更和复杂微调,实现8倍扩展至2048万个token。该方法利用位置嵌入非均匀性,通过高效搜索和优化初始化,适用于处理长文本任务,对模型性能影响小。但可能需要较多计算资源,且2048万的长度是否足够所有任务尚待探讨。[论文链接](https://arxiv.org/abs/2402.13753)
24 1
|
1月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的策略与优化方法
在机器学习领域,构建一个既高效又准确的预测模型是每个数据科学家追求的目标。本文将探讨一系列策略和优化方法,用于提高机器学习模型的性能和效率。我们将从数据处理技巧、特征选择、算法调优以及模型评估等方面进行详细讨论。特别地,文章将重点介绍如何通过集成学习和自动化模型调优工具来提升模型的泛化能力。这些技术不仅能帮助减少过拟合的风险,还能确保模型在未知数据集上的表现更加鲁棒。
|
1月前
|
机器学习/深度学习 搜索推荐 物联网
微软开源创新LoRA组合方法,增强文生图复杂细节控制
微软研究团队推出Multi-LoRA Composition技术,改善文本到图像模型的细节控制。利用低秩适应(LoRA)提升图像生成精度,通过LORA SWITCH和LORA COMPOSITE解决组合复杂图像的挑战。新方法在ComposLoRA平台上测试,性能优于基线,为图像生成和个性化内容创作开辟新途径。尽管有学习曲线和定制需求优化的问题,但该研究仍为领域带来显著进步。
265 3
微软开源创新LoRA组合方法,增强文生图复杂细节控制
|
1月前
|
自然语言处理 算法
强化上下文修剪提升LLM推理能力
强化上下文修剪提升LLM推理能力
19 1
|
1月前
|
机器学习/深度学习 人工智能
大模型架构将迎来除 Transformer 之外的突破
大模型架构将迎来除 Transformer 之外的突破
64 2
大模型架构将迎来除 Transformer 之外的突破
|
11月前
|
人工智能 自然语言处理 算法
LLM as Controller—无限拓展LLM的能力边界(1)
LLM as Controller—无限拓展LLM的能力边界
|
12月前
|
人工智能 自然语言处理 数据可视化
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源
421 0