LLM as Controller—无限拓展LLM的能力边界（2）-阿里云开发者社区

LLM as Controller—无限拓展LLM的能力边界（2）

2023-07-28 340

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： LLM as Controller—无限拓展LLM的能力边界

LLM as Controller—AI操作系统的雏形

首先我从原来的Windows/macOS/Linux等操作系统的模式说起，比如Windows操作系统上可能有搜索引擎/办公软件/编辑软件等等，然后搜索引擎有谷歌/百度/搜狗等等，谷歌可以搜索到维基百科/知乎/github等等网站，维基百科可以找到名人/建筑/历史等信息。上图的划分方式是为了下文阐述的简化表达。

办公软件比如office全家桶，office全家桶有ppt、word等等，ppt里面又有很多功能点。

编辑软件比如adobe全家桶，adobe全家桶有PS、AE、AI等等，PS里面又有很多功能点。

其中每个分叉都可以认为是一个聚合体单元，其实就是对应最开始描述框架下的Agent，只不过Agent在不同层次的概念粒度以及复杂程度是不同的。比如上图中的维基百科就可以认为是各种概念信息的聚合体。

在搜索引擎出现之前，人们找需要的信息时，需要从对应的网站找对应的信息，这是多个输入对应多个输出的情况；而搜索引擎就是通过更强大的搜索算法对各种网站进行了聚合，即出现了更大概念的Agent，这个时候输入口变成了1个，但是输出仍然需要跳转到各个网站上去获取；而LLM的出现会使得输入输出都变成1个口，并且对输入的精确表达程度要求更低。从这个演化过程来看，LLM会导致完全统一输入输出的Agent的出现，这个时候用户可以无需关心Agent内部的具体构造(即Agent内部完全黑盒化，由LLM自己决策中间过程)，只需要输入并获取想要的输出。

从上述Agent单元的阐述来看，Windows/macOS/Linux等操作系统都可以简化成上图，即不同概念粒度Agent组成的多层Agent树。每个概念粒度的Agent都会逐渐标准化。从Agent的角度来看，HuggingGPT、Visual ChatGPT实际上就是模型管理功能的Agent。

如果在每一层或者每一个Agent单元配备一个LLM作为控制器，并且所有LLM都是信息互通的，并且LLM的语言理解能力是100分，那么可能就会出现真正的AI操作系统。通过AI操作系统中的所有LLM联动控制，可以将一个复杂任务拆分成不同层次的子任务，然后通过所有的Agent联动处理，最后输出想要的结果。

Windows/macOS/Linux等操作系统通过程序编程给出UI界面，然后用户通过鼠标点击和UI界面进行交互完成工作；而AI操作系统可能会变成只需要理解用户的语言就能完成工作。这个转变可能会导致鼠标点击和UI界面进行交互的方式可能会变得越来越冗余。