大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客(1)

简介: 大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客

立志实现 AGI 的 OpenAI,是不是已经在暗中做起了大模型智能体?


最近几个月,随着大语言模型的持续火爆,利用其构建 AI 智能体的研究陆续进入人们的视线。AI 智能体这个概念也流行开来,不断突破人们的想象力。

先是斯坦福大学、谷歌的研究者,他们成功构建了一个「虚拟小镇」,小镇上的居民不再是人,而是 25 个 AI 智能体。它们的行为比人类角色的扮演更加真实,甚至举办了一场情人节派对。

随后商汤、清华等机构提出了能够自主学习解决任务的通才 AI 智能体 Ghost in the Minecraft (GITM),在《我的世界》中比以往所有智能体都有更优秀的表现。


同一时间,英伟达开源的 VOYAGER,也给 AI 圈带来了「小小的」的震撼。作为一个大模型驱动、可以终身学习的游戏智能体,VOYAGER 在《我的世界》中玩出了高水平。这些 AI 智能体的先后涌现,甚至让人认为是未来通用人工智能(AGI)的雏形。

很多 AI 领域的大佬和科技巨头对 AI 智能体的发展产生了极大兴趣并寄予了厚望。特斯拉前 AI 总监、今年年初回归 OpenAI 的 Andrej Karpathy 在一次开发者活动上透漏,每当有新的 AI 智能体论文出现时,OpenAI 内部就会非常感兴趣,并认真地进行讨论。

图源:https://twitter.com/GPTDAOCN/status/1673781206121578498

那么不禁要问,AI 智能体到底有哪些组成部分呢?它的神奇之处又具体表现在哪些方面呢?

近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于 AI 智能体的博客。她认为 AI 智能体的核心驱动力是大语言模型,规划(Planning)、 记忆(Memory)和工具使用(Tool Use)是实现它的三个关键组件。

先前机器之心文章《GPT-4 背后的开发者:七大团队,三十余位华人》也曾介绍过 Lilian Weng,她 2018 年加入 OpenAI,在 GPT-4 项目中主要参与预训练、强化学习 & 对齐、模型安全等方面的工作。

Lilian Weng 对每个组件展开详细剖析,并提供了一些案例研究,比如科学发现智能体、生成式智能体模拟和概念验证示例。对于 AI 智能体未来将面临哪些挑战,她也给出了自己的观点。

机器之心对博客的核心内容进行了编译整理。

博客链接:https://lilianweng.github.io/posts/2023-06-23-agent/

智能体系统的概念

在大语言模型(LLM)赋能的自主智能体系统中,LLM 充当了智能体的大脑,其三个关键组件分别如下:

首先是规划,它又分为以下内容:

  • 子目标和分解。智能体将大型任务分解为更小、可管理的子目标,从而高效处理复杂的任务;
  • 反思和完善:智能体可以对过去的行为展开自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,提高最终结果的质量。


其次是记忆,分为了短期记忆和长期记忆:

  • 短期记忆:作者认为所有的上下文学习(参见提示工程)都是利用模型的短期记忆来学习。
  • 长期记忆:为智能体提供了长时间保留和回忆(无限)信息的能力,通常利用外部向量存储和快速检索实现。


最后是工具使用:

  • 智能体学习调用外部 API 来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。


下图 1 为 LLM 赋能的自主智能体系统概览。

组件 1:规划

我们知道,一项复杂的任务通常涉及许多步骤。智能体必须了解任务是什么并提前进行规划。

任务分解

首先是思维链(CoT)。它已经成为增强复杂任务上模型性能的标准提示技术。在实现过程中,模型被指示「一步一步思考」,从而利用更多的测试时间计算将困难任务分解为更小、更简单的步骤。CoT 将大型任务转化为多个可管理的小任务,并解释清楚模型的思维过程。

其次是思维树(Tree of Thoughts)。它通过在每一步探索多种推理可能性来扩展 CoT。首先将问题分解为多个思考步骤,并在每个步骤中生成多个思考,创建一种树结构。搜索过程可以是广度优先搜索(BFS)或深度优先搜索(DFS),其中每个状态由分类器(通过提示)或多数 vote 进行评估。

具体地,任务分解过程可以通过以下三种方式完成:

  • 基于 LLM 的简单提示,比如「XYZ 的步骤是什么?」、「实现 XYZ 的子目标是什么?」;
  • 使用特定于任务的指示,比如「写一个故事大纲」;
  • 人工输入。


最后一种截然不同的方法是 LLM+P,它依赖外部经典规划器来进行长期规划。该方法利用规划领域定义语言(PDDL)作为描述规划问题的中间接口。在这一过程中,LLM (1) 将问题转化为「Problem PDDL」,然后 (2) 请求经典规划器基于现有的「Domain PDDL」生成 PDDL 规划,最后 (3) 将 PDDL 规划转换回自然语言。

本质上,规划步骤被外包给了外部工具,并假设特定领域的 PDDL 和合适的规划器可用。这在某些机器人设置中很常见,而在许多其他领域并不常见。

自我反思

自我反思(Self-reflection)允许自主智能体通过完善以往行动决策和纠正以往错误来迭代改进,因而会在出现试错的现实世界任务中发挥至关重要的作用。

ReAct 通过将动作空间扩展为一个任务特定的「离散动作和语言空间的组合」,将推理和动作集成在 LLM 中。离散动作使 LLM 能够与环境交互(例如使用维基百科搜索 API),而语言空间促使 LLM 以自然语言生成推理轨迹。

ReAct 提示模板包含了 LLM 思考的明确步骤,大致格式如下所示:





Thought: ...Action: ...Observation: ...... (Repeated many times)


下图 2 为知识密集型任务(如 HotpotQA、FEVER)和决策型任务(如 AlfWorld Env、WebShop)的推理轨迹示例。

图源:https://arxiv.org/abs/2210.03629

实验结果显示,对于知识密集型任务和决策型任务,ReAct 的效果优于仅 Act 的基线方法,这类方法删除了「Thought: ...」步骤。

Reflexion 框架则为智能体配备了动态记忆和自我反思能力,提高了推理技能。它有一个标准的 RL 设置,其中奖励模型提供简单的二元奖励,而动作空间遵循 ReAct 中的设置。并且特定于任务的动作空间通过语言进行增强,实现复杂推理步骤。在每个动作 a_t 之后,智能体计算启发式 h_t,并选择性地根据自我反思结果来决定重置环境,从而开始新的试验。

下图 3 为 Reflexion 框架概览。

图源:https://arxiv.org/abs/2303.11366

启发式功能决定轨迹何时开始效率低下或包含幻觉,以及何时应该停止。低效的规划是指花费太长时间而没有成功的轨迹。幻觉(Hallucination)被定义为遇到了一系列连续的相同动作,而这些动作导致环境中出现相同的观察。

自我反思通过向 LLM 展示 two-shot 示例来创建,每个例子都是一对失败的轨迹,它们是指导未来规划中变化的理想反思。然后反思被添加到智能体的工作记忆中,最多三个,用作查询 LLM 的上下文。

下图 4 为在 AlfWorld Env 和 HotpotQA 上的实验。其中在 AlfWorld 中,幻觉是比低效规划更常见的失败。

图源:https://arxiv.org/abs/2303.11366

Chain of Hindsight(CoH)鼓励模型通过显式地呈现一系列过去的输出(每个输出都带有反馈注释)来改进其自身的输出。人类反馈数据是的集合,其中 x 是提示,每个 y_i 是模型补全,r_i 是 y_i 的人类评分,z_i 是相应的人类提供的事后反馈。假设反馈元组按奖励排序,该过程是有监督的微调。数据的序列形式为,其中≤i≤j≤n。该模型经过微调,仅预测以序列前缀为条件的 y_n,使得模型可以根据反馈序列自我反思,从而产生更好的输出。该模型可以选择性地在测试时接受到人类注释者的多轮指令。

为了避免过拟合,CoH 添加正则化项来最大化预训练数据集的对数似然。同时为了避免捷径和复制(由于反馈序列中有很多常见单词),研究者在训练过程中随机屏蔽了 0%- 5% 的过去 token。

实验中采用的训练数据集是 WebGPT 比较、人类反馈总结以及人类偏好数据集的组合。下图 5 展示了使用 CoH 进行微调后,模型可以按照指令生成具有序列增量改进的输出。

图源:https://arxiv.org/abs/2302.02676

CoH 的思路是呈现上下文中连续改进输出的历史,并训练模型产生更好输出。算法蒸馏(AD)将相同的思路应用于强化学习任务中的跨情节轨迹,其中算法被封装在长期历史条件策略中。

下图 6 为算法蒸馏的工作原理。

图源:https://arxiv.org/abs/2210.14215

在算法蒸馏论文中,研究者假设任何生成一组学习历史的算法都可以通过对动作执行行为克隆来蒸馏成神经网络。历史数据由一组源策略生成,而每个源策略针对特定任务进行训练。

在训练阶段,每次 RL 运行期间,研究者都会对随机任务进行采样,并使用 multi-episode 历史的子序列进行训练,使得学习到的策略与任务无关。

实际上该模型的上下文窗口长度有限,因此 episode 应足够短以构建 multi-episode 历史。要学习近最优的上下文 RL 算法,需要 2 到 4 个 episode 的 multi-episodic 上下文。上下文 RL 的出现需要足够长的上下文。

与三个基线相比,包括 ED(专家蒸馏,用专家轨迹而不是学习历史进行行为克隆)、源策略(用于生成 UCB 蒸馏的轨迹)、RL^2( 2017 年提出的一种在线强化学习算法,作为上限进行比较)。尽管 AD 算法仅使用离线强化学习,但其性能接近 RL^2,并且学习速度比其他基线快得多。当以源策略的部分训练历史为条件时,AD 的改进速度也比 ED 基线快得多。

下图 7 为 AD、ED、源策略和 RL^2 的比较。

组件 2:记忆

作者表示,这一章节借助了 ChatGPT 来帮忙起草。下面我们看看这部分具体内容。

记忆类型

记忆类型分为三类:感知记忆、短期记忆(STM)或工作记忆以及长期记忆(LTM)。

感知记忆:这是记忆的早期阶段,它能够在原始刺激结束后保持对感官信息(视觉、听觉等)的印象。感知记忆通常只能持续几秒钟。其子类包括图像记忆(视觉)、回声记忆(听觉)和触摸记忆(触感)。

短期记忆(STM)或工作记忆:短期记忆存储着我们目前所知道的信息,以及执行复杂认知任务(如学习和推理)所需要的信息。一般来讲,短期记忆持续 20-30 秒。

长期记忆:长时记忆可以将信息存储很长时间,从几天到几十年不等,其存储容量基本上是无限的。LTM 有两种子类型:

  • 显式、陈述性记忆:这是对事实和事件的记忆,指的是那些可以有意识地回忆起来的记忆,包括情景记忆(事件和经过)和语义记忆(事实和概念);
  • 隐式、程序性记忆:这种类型的记忆是无意识的,涉及自主执行的技能和惯例,比如骑自行车或在键盘上打字。


人类记忆分类

参考人类记忆的分类,我们可以得到以下映射:

  • 感知记忆作为原始输入(包括文本、图像或其他模态)的学习嵌入表示。
  • 短期记忆作为上下文学习,由于受到 Transformer 有限上下文窗口长度的限制,短期记忆是短暂且有限的。
  • 长期记忆作为外部向量存储,智能体可以查询、快速检索,从而进行访问。


最大内积搜索(MIPS)

外部记忆可以缓解注意力的一些限制。为了更好的处理外部记忆,一个常见的做法是将信息的嵌入表示保存到一个向量存储数据库中,该数据库可以支持快速的最大内积搜索(MIPS)。为了优化检索速度,研究者经常使用的方法是近似最近邻(ANN,approximate nearest neighbors)算法。

在加速 MIPS 中,经常用到的 ANN 算法包括:

局部敏感哈希(LSH):它引入了一个哈希函数,使得相似的输入项以高概率映射到相同的 buckets 中,其中 buckets 的数量远远小于输入的数量。

近似最近邻(ANNOY):该方法的核心数据结构是随机投影树(Random Projection Trees),它是一组二叉树,其中每个非叶节点表示一个超平面,将输入空间分割为两部分,而每个叶节点则存储一个数据点。树是独立且随机构建的,因此在某种程度上类似于哈希函数。这个想法与 KD 树(一种将空间中点分开存储的树状数据结构)密切相关,但扩展性更强。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
90 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
清华EconAgent获ACL 2024杰出论文:大模型智能体革新计算经济学研究范式
近年来,人工智能的迅猛发展推动了数据驱动建模在宏观经济学领域的应用。清华大学研究团队提出的EconAgent模型,基于大型语言模型,具备类似人类的决策能力,能更准确地模拟个体行为对宏观经济系统的影响。EconAgent在个体异质性、市场动态及宏观经济因素模拟方面表现出色,并具有更好的可解释性和灵活性。然而,其高计算复杂度和部分决策过程的不透明性仍需进一步解决。该成果已在ACL 2024会议上获得杰出论文奖。论文链接:https://arxiv.org/abs/2310.10436v4
70 3
|
2月前
|
算法
鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持
【9月更文挑战第27天】近年来,随着人工智能技术的发展,多模态大语言模型(MLLM)在图形用户界面(GUI)中广泛应用,提升了交互体验。然而,最新研究《环境警示:多模态智能体易受环境干扰》指出,这些智能体可能因环境干扰而行为失准。作者通过实验展示了即使是强大模型也会受无关因素影响,导致不可靠或不可预测的行为。研究还证实,通过环境注入攻击可进一步加剧此问题。尽管如此,多模态GUI智能体依然潜力巨大,未来需改进感知能力和算法以增强鲁棒性,解决环境干扰问题。论文详细内容见:https://arxiv.org/abs/2408.02544。
52 8
|
12天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
61 4
|
1月前
LangChain-26 Custom Agent 自定义一个Agent并通过@tool绑定对应的工具 同时让大模型自己调用编写的@tools函数
LangChain-26 Custom Agent 自定义一个Agent并通过@tool绑定对应的工具 同时让大模型自己调用编写的@tools函数
67 3
LangChain-26 Custom Agent 自定义一个Agent并通过@tool绑定对应的工具 同时让大模型自己调用编写的@tools函数
|
1月前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
2月前
|
人工智能 自然语言处理 搜索推荐
如何让智能客服像真人一样对话?容联七陌揭秘:多Agent大模型
科技云报到原创。 经历了多年的“答非所问”、“一问三不知”,很多人已经厌倦了所谓的“智能客服”。哪怕是技术已经非常成熟、可以模拟真人发音的外呼机器人,也会因为“机感”重而被用户迅速挂机或转向人工客服。 智能客服似乎遇到了一道坎,在理解用户、和用户对话方面,始终无法实现真正的“智能”。然而大模型技术的出现,让智能客服看到了前所未有的曙光——基于大模型特有的生成式技术和智能的涌现,让智能客服越来越逼近人们想象中的样子。 但问题是,仅有大模型就够了吗?大模型技术要如何引入智能客服才能落地?落地后的大模型究竟如何在智能客服具体场景中发挥作用?又能为客服行业带来了哪些改变?更进一步,对于企业和
206 1
如何让智能客服像真人一样对话?容联七陌揭秘:多Agent大模型
|
1月前
|
人工智能 JSON 自然语言处理
开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
本文采用开源Qwen2.5-14B-instruct-GGUF来体验多智能体编排和交接,希望在体验多智能体编排和交接框架的同时,一起评估中小参数规模的模型(14B)能否较好的完成多智能体任务。
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
45 2