各位读者朋友们,感谢您阅读到本文,我是笠泱,之前做了一个的“拥抱云计算”系列专栏,主要分享与云计算相关的技术,目前云计算处于3.0阶段,其最大的焦点是AI,云计算为AI提供云端算力,所以作者计划启一个新的系列专栏“人工智能&机器学习”,主要分享AI与机器学习相关内容,限于笔者水平有限,内容大多参阅搬运,浅浅分享,不正之处望读者朋友们留言指导。
《人工智能&机器学习》系列的第一期从AI Agent说起,主要内容是对一些概念的分享。
什么是 AI Agent
长期以来,AI领域研究者们一直在追求与人类相当、乃至超越人类水平的通用人工智能(Artificial General Intelligence,AGI)。早在 1950 年代,Alan Turing 就将「智能」的概念扩展到了人工实体,并提出了著名的图灵测试。这些人工智能实体通常被称为 —— 代理(Agent)。「代理」这一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在人工智能领域,这一术语被赋予了一层新的含义:具有自主性、反应性、积极性和社交能力特征的智能实体。
*Agent 术语的中文译名并未形成共识,有学者将其翻译为智能体、行为体、代理或智能代理,本文中出现的「智能体」、「代理」、「智能代理」均指代 Agent。
从那时起,智能体的设计就成为人工智能社区的焦点。然而,过去的工作主要集中在增强智能体的特定能力,如符号推理或对特定任务的掌握(国际象棋、围棋等)。这些研究更加注重算法设计和训练策略,而忽视了模型固有的通用能力的发展,如知识记忆、长期规划、有效泛化和高效互动等。事实证明,增强模型固有能力是推动智能代理进一步发展的关键因素。
大语言模型(LLM,large language model)的出现为智能体的进一步发展带来了希望。如果将 NLP 到 AGI 的发展路线分为五级:语料库、互联网、感知、具身和社会属性,那么目前的大语言模型已经来到了第二级,具有互联网规模的文本输入和输出。在这个基础上,如果赋予 LLM-based Agents 感知空间和行动空间,它们将达到第三、第四级。进一步地,多个代理通过互动、合作解决更复杂的任务,或者反映出现实世界的社会行为,则有潜力来到第五级 —— 代理社会。
基于大模型的智能体通用框架可以比照达尔文「适者生存」法则。一个生物如果想要在自然中生存,就必须学会适应环境,因此需要具有认知能力,并且能够感知、应对外界的变化。同样,智能体的框架也由三个部分组成:控制端(Brain)、感知端(Perception)和行动端(Action)。
- 控制端:通常由 LLMs 构成,是智能代理的核心。它不仅可以存储记忆和知识,还承担着信息处理、决策等不可或缺的功能。它可以呈现推理和计划的过程,并很好地应对未知任务,反映出智能代理的泛化性和迁移性。
- 感知端:将智能代理的感知空间从纯文本拓展到包括文本、视觉和听觉等多模态领域,使代理能够更有效地从周围环境中获取与利用信息。
- 行动端:除了常规的文本输出,还赋予代理具身能力、使用工具的能力,使其能够更好地适应环境变化,通过反馈与环境交互,甚至能够塑造环境。
综上,AI Agent = 控制端(Brain)+ 感知端(Perception) + 行动端(Action),以LLMs为核心控制器构建代理,LLMs的潜力不仅仅是生成写得好的副本、故事、论文和程序,它可以被定义为一个强大的通用问题解决器。
用一个例子来说明来了 LLM-based Agent 的工作流程:当人类询问是否会下雨时,感知端(Perception)将指令转换为 LLMs 可以理解的表示。然后控制端(Brain)开始根据当前天气和互联网上的天气预报进行推理和行动规划。最后,行动端(Action)做出响应并将雨伞递给人类。
通过重复上述过程,智能代理可以不断获得反馈并与环境交互。
Agent 架构图
LLM-Based Agent系统中,LLM充当Agent的大脑。再外加几个关键组件:
- Planning
- 子目标和分解:代理将大型任务分解为更小的、可管理的子目标,从而实现对复杂任务的有效处理。
- 反思和提炼:智能体可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并为未来的步骤进行提炼,从而提高最终结果的质量。
- Memory
- 短期记忆:一般认为所有的上下文学习(见提示工程)都是利用模型的短期记忆来学习。
- 长期记忆:这为代理提供了在长时间内保留和召回(无限)信息的能力,通常是通过利用外部向量存储和快速检索。
- Tool use
- 代理学习调用外部API以获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。
Brain核心
全景图
Agent 应用场景
单代理场景
可以接受人类自然语言命令,执行日常任务。单智能代理的应用被划分为如下三个层次:
单代理应用场景的三个层次:任务导向、创新导向、生命周期导向。
- 在任务导向的部署中,代理帮助人类用户处理日常基本任务。它们需要具备基本的指令理解、任务分解、与环境交互的能力。具体来说,根据现有的任务类型,代理的实际应用又可以分为模拟网络环境与模拟生活场景。
- 在创新导向的部署中,代理能够在前沿科学领域展现出自主探究的潜力。虽然来自专业领域的固有复杂性和训练数据的缺乏给智能代理的构建带来了阻碍,但目前已经有许多工作在化学、材料、计算机等领域取得了进展。
- 在生命周期导向的部署中,代理具备在一个开放世界中不断探索、学习和使用新技能,并长久生存的能力。比如在《我的世界》游戏中。由于游戏中的生存挑战可以被认为是现实世界的一个缩影,已经有许多研究者将其作为开发和测试代理综合能力的独特平台。
多代理场景
多代理应用场景的两种交互形式:合作型互动、对抗型互动。
合作型互动:作为实际应用中部署最为广泛的类型,合作型的代理系统可以有效提高任务效率、共同改进决策。具体来说,根据合作形式的不同,作者们又将合作型互动细分为无序合作与有序合作。
- 当所有代理自由地表达自己的观点、看法,以一种没有顺序的方式进行合作时,称为无序合作。
- 当所有代理遵循一定的规则,例如以流水线的形式逐一发表自己的观点时,整个合作过程井然有序,称为有序合作。
对抗型互动:智能代理以一种针锋相对(tit for tat)的方式进行互动。通过竞争、谈判、辩论的形式,代理抛弃原先可能错误的信念,对自己的行为或者推理过程进行有意义的反思,最终带来整个系统响应质量的提升。
人机交互场景
人机交互(Human-Agent Interaction),顾名思义,是智能代理通过与人类交互,合作完成任务。一方面,代理的动态学习能力需要沟通交流来支持;另一方面,目前的代理系统在可解释性上的表现依然不足,可能会存在安全性、合法性等方面的问题,因此需要人类参与进行规范与监督。
人机交互场景的的两种模式:Instructor-Executor 模式 vs. Equal Partnership 模式。
- Instructor-Executor 模式:人类作为指导者,给出指令、反馈意见;而代理作为执行者,依据指示逐步调整、优化。这种模式在教育、医疗、商业等领域得到了广泛的应用。
- Equal Partnership 模式:有研究观察到代理能够在与人类的交流中表现出共情能力,或是以平等的身份参与到任务执行中。智能代理展现出在日常生活中的应用潜力,有望在未来融入人类社会。
钢铁侠中的贾维斯照进现实
微软开源的JARVIS项目 是一个将 LLM (大语言模型)与 ML(机器学习) 社区联系起来的系统
GitHub项目地址:https://github.com/microsoft/JARVIS
参考实现
- 几个开源的参考实现平台
- 几个国内平台
AI 生态
可以这么说,AI和机器学习领域的核心编程语言是Python,不管从哪个编程语言入手AI&ML最终都会接触到Python。
开放问题
- 智能代理与大语言模型的研究该如何互相促进、共同发展?
大模型在语言理解、决策制定以及泛化能力等方面展现出强大的潜力,成为代理构建过程中的关键角色,而代理的进展也为大模型提出了更高的要求。
- LLM-based Agents 会带来哪些挑战与隐忧?
智能代理能否真正落地,需要经过严谨的安全性评估,避免对真实世界带来危害。作者总结了更多潜在威胁,例如:非法滥用、失业风险、对人类福祉造成影响等等。
- 代理数量的提升(scaling up)会带来哪些机遇和挑战?
在模拟社会中,提升个体数量可以显著提升模拟的可信度与真实性。然而,随着代理数量的上升,通信与消息传播问题会变得相当复杂,信息的失真、误解或者幻觉现象都会显著降低整个模拟系统的效率。
- 网络上关于 LLM-based Agent 是否是通向 AGI 的合适道路的争论。
有研究者认为,以 GPT-4 为代表的大模型已经在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开 AGI 之门的钥匙。但也有其他研究者认为,自回归语言建模(Auto-regressive Language Modeling)并不能显现出真正的智能,因为它们只是作出响应。一个更完备的建模方式,例如世界模型(World Model),才能通向 AGI。
- 群体智能的演化历程。群体智能是一种集结众人的意见进而转化为决策的过程。
然而,一味通过增加代理的数量,是否会产生真正的「智能」?此外,如何协调单个代理,让智能代理社会克服「团体迷思」和个人认知偏差?
- 代理即服务(Agent as a Service,AaaS)。
由于 LLM-based Agents 比大模型本身更加复杂,中小型企业或个人更加难在本地构建,因此云厂商可以考虑以服务的形式来将智能代理落地,即 Agent-as-a-Service。就像其他的云服务一样,AaaS 有潜力为用户提供高灵活性和按需的自助服务。
参考资料
- 《复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来》
https://cloud.tencent.com/developer/article/2330646 - 《LLM Powered Autonomous Agents》
https://lilianweng.github.io/posts/2023-06-23-agent/ - 《GitHub:LLM-Agent-Paper-List》
https://github.com/WooooDyy/LLM-Agent-Paper-List - 《The Rise and Potential of Large Language Model Based Agents: A Survey》
https://arxiv.org/pdf/2309.07864.pdf - 《AgentGym: Evolving Large Language Model-based Agents across Diverse Environments》
https://agentgym.github.io/