LLM as Controller—无限拓展LLM的能力边界(2)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: LLM as Controller—无限拓展LLM的能力边界

LLM as Controller—AI操作系统的雏形

首先我从原来的Windows/macOS/Linux等操作系统的模式说起,比如Windows操作系统上可能有搜索引擎/办公软件/编辑软件等等,然后搜索引擎有谷歌/百度/搜狗等等,谷歌可以搜索到维基百科/知乎/github等等网站,维基百科可以找到名人/建筑/历史等信息。上图的划分方式是为了下文阐述的简化表达。

办公软件比如office全家桶,office全家桶有ppt、word等等,ppt里面又有很多功能点。

编辑软件比如adobe全家桶,adobe全家桶有PS、AE、AI等等,PS里面又有很多功能点。

其中每个分叉都可以认为是一个聚合体单元,其实就是对应最开始描述框架下的Agent,只不过Agent在不同层次的概念粒度以及复杂程度是不同的。比如上图中的维基百科就可以认为是各种概念信息的聚合体。

在搜索引擎出现之前,人们找需要的信息时,需要从对应的网站找对应的信息,这是多个输入对应多个输出的情况;而搜索引擎就是通过更强大的搜索算法对各种网站进行了聚合,即出现了更大概念的Agent,这个时候输入口变成了1个,但是输出仍然需要跳转到各个网站上去获取;而LLM的出现会使得输入输出都变成1个口,并且对输入的精确表达程度要求更低。从这个演化过程来看,LLM会导致完全统一输入输出的Agent的出现,这个时候用户可以无需关心Agent内部的具体构造(即Agent内部完全黑盒化,由LLM自己决策中间过程),只需要输入并获取想要的输出。

从上述Agent单元的阐述来看,Windows/macOS/Linux等操作系统都可以简化成上图,即不同概念粒度Agent组成的多层Agent树。每个概念粒度的Agent都会逐渐标准化。从Agent的角度来看,HuggingGPT、Visual ChatGPT实际上就是模型管理功能的Agent。

如果在每一层或者每一个Agent单元配备一个LLM作为控制器,并且所有LLM都是信息互通的,并且LLM的语言理解能力是100分,那么可能就会出现真正的AI操作系统。通过AI操作系统中的所有LLM联动控制,可以将一个复杂任务拆分成不同层次的子任务,然后通过所有的Agent联动处理,最后输出想要的结果。

Windows/macOS/Linux等操作系统通过程序编程给出UI界面,然后用户通过鼠标点击和UI界面进行交互完成工作;而AI操作系统可能会变成只需要理解用户的语言就能完成工作。这个转变可能会导致鼠标点击和UI界面进行交互的方式可能会变得越来越冗余。

如果AI操作系统只需要理解用户的语言就能完成工作,那么所有不同粒度的Agent就能看成一个黑盒子(因为中间的所有决策环节都由LLM决定了),即一个最大聚合体Agent,而它的内核就是AI操作系统。

从AI操作系统的角度来看,实际上AutoGPT试图自顶向下的构建最大范围的Agent,正是因为范围过于广阔,导致中间过程非常的不可控;而类似HuggingGPT、Visual ChatGPT更倾向于自底向上搭建更可控的Agent,Agent能做的事情都是事先知道的。

08Reference

The Complete Beginners Guide To Autonomous Agents

https://www.mattprd.com/p/the-complete-beginners-guide-to-autonomous-agents

NexusGPT——目前为止看到的最有创意的Autonomous Agents类项目!附该领域进展概览

https://zhuanlan.zhihu.com/p/624182268

AutoGPT与LLM Agent解析

https://zhuanlan.zhihu.com/p/622947810

Task-driven Autonomous Agent Utilizing GPT-4, Pinecone, and LangChain for Diverse Applications

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Toolformer: Language Models Can Teach Themselves to Use Tools

https://arxiv.org/abs/2302.04761

NexusGPT

World’s 1st AI-freelancer platform

https://nexus.snikpic.io/

Generative Agents: Interactive Simulacra of Human Behavior

https://arxiv.org/abs/2304.03442

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

https://arxiv.org/abs/2303.04671

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

https://arxiv.org/abs/2303.17580

Significant-Gravitas/Auto-GPT

https://github.com/Significant-Gravitas/Auto-GPT

相关文章
|
人工智能 自然语言处理 算法
LLM as Controller—无限拓展LLM的能力边界(1)
LLM as Controller—无限拓展LLM的能力边界
|
6月前
|
机器学习/深度学习 存储 缓存
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
大型语言模型(LLM)的推理效率是AI领域的重要挑战。本文聚焦KV缓存技术,通过存储复用注意力机制中的Key和Value张量,减少冗余计算,显著提升推理效率。文章从理论到实践,详细解析KV缓存原理、实现与性能优势,并提供PyTorch代码示例。实验表明,该技术在长序列生成中可将推理时间降低近60%,为大模型优化提供了有效方案。
1087 15
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
|
3月前
|
弹性计算 关系型数据库 API
自建Dify平台与PAI EAS LLM大模型
本文介绍了如何使用阿里云计算巢(ECS)一键部署Dify,并在PAI EAS上搭建LLM、Embedding及重排序模型,实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。
自建Dify平台与PAI EAS LLM大模型
|
20天前
|
监控 安全 Docker
10_大模型开发环境:从零搭建你的LLM应用平台
在2025年,大语言模型(LLM)已经成为AI应用开发的核心基础设施。无论是企业级应用、科研项目还是个人创新,拥有一个高效、稳定、可扩展的LLM开发环境都至关重要。
|
20天前
|
人工智能 监控 安全
06_LLM安全与伦理:部署大模型的防护指南
随着大型语言模型(LLM)在各行业的广泛应用,其安全风险和伦理问题日益凸显。2025年,全球LLM市场规模已超过6400亿美元,年复合增长率达30.4%,但与之相伴的是安全威胁的复杂化和伦理挑战的多元化
|
1月前
|
存储 缓存 负载均衡
LLM推理成本直降60%:PD分离在大模型商业化中的关键价值
在LLM推理中,Prefill(计算密集)与Decode(访存密集)阶段特性不同,分离计算可提升资源利用率。本文详解vLLM框架中的PD分离实现及局限,并分析Dynamo、Mooncake、SGLang等主流方案,探讨KV缓存、传输机制与调度策略,助力LLM推理优化。建议点赞收藏,便于后续查阅。
734 1
|
3月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
3月前
|
人工智能 自然语言处理 数据可视化
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
 AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
|
4月前
|
存储 分布式计算 API
基于PAI-FeatureStore的LLM embedding功能,结合通义千问大模型,可通过以下链路实现对物品标题、内容字段的离线和在线特征管理。
本文介绍了基于PAI-FeatureStore和通义千问大模型的LLM embedding功能,实现物品标题、内容字段的离线与在线特征管理。核心内容包括:1) 离线特征生产(MaxCompute批处理),通过API生成Embedding并存储;2) 在线特征同步,实时接入数据并更新Embedding至在线存储;3) Python SDK代码示例解析;4) 关键步骤说明,如客户端初始化、参数配置等;5) 最佳实践,涵盖性能优化、数据一致性及异常处理;6) 应用场景示例,如推荐系统和搜索排序。该方案支持端到端文本特征管理,满足多种语义理解需求。
143 1