AI 十大论文精讲(六):拆解 LLM 智能体的 “通用密码”

简介: 本文解读复旦NLP团队2023年重磅综述《The Rise and Potential of Large Language Model Based Agents》,系统剖析LLM智能体“大脑-感知-行动”三大核心模块,涵盖单智能体、多智能体、人机协作与智能体社群四大应用场景,提炼工具SKMA体系、安全护栏、结果检查三大落地要点,并提出AGI路径、虚拟到物理迁移等开放问题,为构建通用智能体提供统一范式,被誉为该领域“入门圣经”。

系列文章前言

在人工智能技术从理论突破走向工程落地的进程中,一篇篇里程碑式的论文如同灯塔,照亮了技术演进的关键路径。为帮助大家吃透 AI 核心技术的底层逻辑、理清行业发展脉络,博主推出「AI 十大核心论文解读系列」,每篇聚焦一篇关键论文的问题背景、核心创新与行业影响。本篇博客解读AI领域十大论文的第六篇——《The Rise and Potential of Large Language Model Based Agents

一、引言:为什么这篇文章是LLM智能体领域的“里程碑”?

《The Rise and Potential of Large Language Model Based Agents》是复旦NLP团队于2023年发表的重磅综述,系统梳理了2023年之前LLM驱动的智能体(Agent)领域的研究成果、技术框架与应用场景。作为AGI(通用人工智能)的关键探索方向,LLM-based智能体突破了传统智能体“任务专用、泛化能力弱”的瓶颈——传统智能体多聚焦于特定算法优化或单一任务性能提升,而该综述首次提出“大脑-感知-行动”的通用框架,将LLM作为智能体的核心决策单元,整合多模态感知与多样化行动能力,为通用智能体的设计提供了统一范式。文章不仅覆盖单智能体、多智能体、人机协作等核心应用场景,还深入探讨了智能体社群的涌现现象、落地实践要点与开放问题,成为该领域最具权威性的入门与参考文献。

二、论文深度解读

1. 核心框架:智能体的“三大核心模块”——大脑、感知、行动

该综述提出的通用框架是LLM-based智能体的核心创新,三大模块各司其职且形成“感知-决策-行动”的闭环:

  1. 大脑(Brain):以LLM为核心,承担记忆存储、知识调用、推理规划与泛化迁移等核心功能。具体包括自然语言交互(多轮对话、意图理解)、知识体系(语言知识、常识知识、专业领域知识)、记忆机制(长短期记忆存储、摘要压缩、高效检索)、推理与规划(链式思维CoT、任务分解、计划反思)、迁移与泛化(零样本/少样本学习、持续学习)五大子模块,是智能体实现智能行为的核心驱动。
  2. 感知(Perception):负责将外部多模态信息转化为LLM可理解的格式,突破传统LLM“仅处理文本”的局限。涵盖文本输入(指令理解、隐含意图挖掘)、视觉输入(图像/视频编码、跨模态对齐)、听觉输入(音频 spectrogram 处理、语音识别)及其他输入(触觉、手势、3D地图等),让智能体能够“感知”真实世界的复杂信息。
  3. 行动(Action):将大脑的决策转化为具体操作,拓展智能体的“影响范围”。包括文本输出(高质量语言生成)、工具使用(工具理解、学习使用、自主创造工具)、具身行动(物理世界交互,如机器人操作、虚拟环境导航)三大方向,使智能体从“被动响应”升级为“主动改变环境”。

1.png

图 2:基于 LLM 的智能体概念框架,包含三大核心组件:大脑(brain)、感知(perception)与行动(action)。其中,大脑模块作为核心控制器,承担记忆、思考与决策等基础任务;感知模块负责感知并处理来自外部环境的多模态信息;行动模块通过工具执行操作,进而对环境产生影响。以下结合示例说明其工作流程:当人类询问 “是否会下雨” 时,感知模块先将该指令转化为 LLM 可理解的表示形式;随后大脑模块结合当前天气状况与互联网气象预报进行推理;最终行动模块作出回应,并将雨伞递给人类。通过重复上述过程,智能体能够持续获取反馈并与环境进行交互。

2. 应用场景:从“单打独斗”到“社群协作”的全维度落地

综述将LLM-based智能体的应用场景分为四大类,覆盖从个体到群体、从虚拟到现实的全场景:

  1. 单智能体场景(Single-Agent):聚焦个体智能体的独立任务处理能力,分为三类部署模式:

    • 任务导向部署:处理日常具体任务(如网页导航、表单填写),核心是指令理解与步骤分解;
    • 创新导向部署:支持科学研究、代码开发等创造性任务(如化学分子合成、代码编写与调试),依赖专业知识与工具调用;
    • 生命周期导向部署:在开放环境中持续学习与生存(如Minecraft游戏中的终身探索),需具备持续学习与技能积累能力。
      2.png
  2. 多智能体场景(Multi-Agent):多个智能体通过交互实现“1+1>2”的效果,包括协作交互(有序协作如MetaGPT的软件开发流程、无序协作如多智能体辩论)与对抗交互(通过竞争提升性能,如智能体辩论优化推理结果),核心是智能体间的分工、沟通与目标对齐!

3.png

  1. 人机协作场景(Human-Agent):基于人类与智能体的优势互补,分为两类范式:
    • 指导-执行者范式(Instructor-Executor):人类提供指令或反馈(定量评分、定性建议),智能体执行具体操作(如教育中的辅导、医疗中的诊断辅助);
    • 平等伙伴范式(Equal Partnership):智能体具备共情能力与人类级协作能力(如游戏中的队友、心理疏导中的陪伴者),实现深度协同4.png
  1. 智能体社群(Agent Society):多个智能体在特定环境中形成模拟社会,展现出人类社会的涌现现象(如分工合作、信息传播、伦理决策),可用于社会现象模拟、政策制定推演等场景,核心是智能体的行为个性、环境适配与群体动力学。
    5.png

3. 落地关键实践要点:让智能体“能用、好用、安全用”

综述明确了LLM-based智能体落地的三大核心实践要点,解决“从理论到应用”的鸿沟:

  1. 工具SKMA体系:即工具的选择(Selection)、知识(Knowledge)、管理(Management)与应用(Application)。智能体需先理解工具的功能与调用方式(通过零样本/少样本提示),再通过示范学习与反馈优化工具使用策略,甚至自主创造适配自身的工具(如生成可执行程序),实现工具能力与LLM决策能力的深度融合。具体而言,就是智能体得知道“用什么工具、怎么用工具”——比如要查实时天气,它得知道调用天气API;用错了还能自己调整,甚至自己做一个更顺手的工具(比如写个小脚本),不用每次都麻烦人类教。
  2. 安全护栏机制:防止智能体陷入失控循环(如无限调用工具、生成有害内容)。核心包括对抗鲁棒性增强(对抗训练、样本检测)、信任worthiness保障(减少幻觉、偏见修正)、伦理约束(拒绝恶意指令、符合人类价值观),避免智能体的行为对人类或环境造成伤害。简短来说,得防止智能体“乱做事”——比如不会被坏人误导生成危险内容,不会一直重复做一件没用的事(比如无限次搜索),也不会有偏见(比如歧视某个群体),确保它的行为安全无害。
  3. 结果检查机制:验证智能体行动结果的准确性与有效性。通过外部知识库校验(减少幻觉)、多智能体交叉验证(提升可靠性)、人类监督反馈(RLHF)等方式,确保智能体的输出符合任务要求,避免“差之毫厘谬以千里”的问题。也就是智能体做完事,得有人或系统“把关”——比如它写的报告要查一下事实对不对,它做的决策要交叉验证一下,避免出错。就像我们工作完要校对一样,智能体也需要“质检”环节。

4. 评估方法:怎么判断智能体“聪明不聪明、好用不好用”?

综述提出LLM-based智能体的四维评估体系,突破传统“单一任务评分”的局限:

  1. 效用(Utility):核心评估任务完成能力,包括任务成功率(如是否达成目标)、基础能力适配度(环境理解、推理、工具使用等)、效率(时间成本、资源消耗),代表智能体“能不能做事”。
  2. 社交性(Sociability):评估智能体的交互能力,包括语言沟通效率(自然语言理解与生成、隐含意图捕捉)、协作/谈判能力(多智能体协同效果)、角色一致性(长期任务中保持身份与行为统一),代表智能体“能不能和人/其他智能体好好相处”。
  3. 价值观(Values):评估智能体的伦理合规性,包括诚实性(避免幻觉、承认能力边界)、无害性(无偏见、无攻击性)、语境适配性(符合特定文化与场景的价值观),代表智能体“三观正不正”。
  4. 持续进化能力(Continual Evolution):评估智能体的长期适应能力,包括持续学习(学习新技能不遗忘旧技能)、自主目标生成(开放环境中主动探索)、跨环境泛化(从虚拟场景迁移到物理场景),代表智能体“能不能一直进步”。
    6.png

5. 开放问题:LLM智能体领域的“未解之谜”

综述列出了LLM-based智能体领域尚未解决的四大核心开放问题,为未来研究指明方向:

  1. AGI路径之争:LLM-based智能体是否是实现AGI的有效路径?支持者认为LLM通过大规模数据预训练获得了泛化与推理能力,具备AGI的雏形;反对者则指出LLM的“下一个token预测”范式无法模拟人类真正的思维过程,缺乏世界模型,难以实现真正的通用智能。
  2. 虚拟到物理的迁移鸿沟:智能体在虚拟环境(如Minecraft、文本游戏)中表现优异,但迁移到物理环境时面临硬件适配、环境不确定性、安全约束等问题,如何实现“虚拟智能”到“具身智能”的高效迁移仍是挑战。
  3. 集体智能的涌现机制:多智能体系统如何形成真正的“集体智能”?目前多智能体协作仍依赖人类设计的规则,如何让智能体自主形成分工、信任与协同,涌现出超越个体能力的群体行为,仍需深入研究。
  4. Agent as a Service(AaaS)的落地挑战:如何将LLM-based智能体作为云服务提供给用户?面临数据安全与隐私保护、服务可扩展性、用户可控性等问题,同时需解决智能体的鲁棒性与信任worthiness,避免服务滥用。
    7.png

三、总结:这篇综述的核心价值与领域影响

《The Rise and Potential of Large Language Model Based Agents》的核心价值在于:首次构建了LLM-based智能体的统一理论框架(大脑-感知-行动),系统梳理了从技术基础、应用场景到落地实践的全链条知识,明确了“LLM作为核心决策单元”的技术路线,为领域研究提供了统一范式。文章不仅整合了2023年前的研究成果,还通过开放问题的提出,引导后续研究聚焦AGI路径、具身迁移、集体智能等核心方向,其影响力贯穿学术研究与工业应用,成为LLM智能体领域的“入门圣经”与“研究指南”。

相关文章
|
20天前
|
机器学习/深度学习 算法 PyTorch
机器学习:模型训练术语大扫盲——别再混淆Step、Epoch和Iter等
本文用通俗类比讲清机器学习核心术语:Epoch是完整训练一轮,Batch Size是每次训练的数据量,Step/Iter是每批数据处理及参数更新的最小单位。结合学习率、损失值、过拟合等概念,帮你快速掌握训练过程关键要点,打通术语任督二脉。(238字)
|
19天前
|
机器学习/深度学习 存储 人工智能
AI 十大论文精讲(九):无损失量化革命——LLM.int8 () 破解千亿大模型内存困局
本文解读AI十大核心论文第九篇《LLM.int8()》,聚焦大模型推理中的内存瓶颈问题。该论文提出创新的混合精度量化方法,通过向量级量化与异常值分离技术,首次实现千亿参数模型无损8位量化,显著降低部署成本,提升计算效率,推动大模型在消费级硬件上的落地应用,为低比特量化研究奠定重要基础。
|
23天前
|
人工智能 自然语言处理 API
构建AI智能体:四十二、使用 Qwen-Agent Assistant 调用高德 API 实现天气查询
本文介绍了如何将Qwen-Agent智能助手与高德天气API集成,构建一个能响应自然语言查询的天气服务系统。主要内容包括:高德天气API的注册、参数配置及数据解析方法;Qwen-Agent框架中Assistant类的核心功能和使用方式;通过FunctionCall和Assistant两种实现方式的对比;完整示例展示了从工具定义、API集成到交互界面开发的实现过程。该系统支持终端和Web两种交互模式,可扩展为智能客服、物联网控制等场景,为开发者提供了大模型与实际API服务结合的典型范例。
264 7
|
1月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
904 41
让AI评测AI:构建智能客服的自动化运营Agent体系
|
29天前
|
人工智能 JSON 机器人
从零开始:用Python和Gemini 3四步搭建你自己的AI Agent
AI Agent并非玄学,核心仅为“循环 + 大模型 + 工具函数”。本文教你用Gemini 3从零搭建能读写文件、执行指令的命令行助手,拆解其“观察-思考-行动”循环机制,揭示智能体背后的简洁本质。
318 17
从零开始:用Python和Gemini 3四步搭建你自己的AI Agent
|
23天前
|
人工智能 Java API
【Azure AI Search】如何通过Entra ID RBAC认证连接中国区 Azure AI Search
本文介绍如何在Java SDK中配置中国区AI Search资源访问。由于默认认证地址为全球环境(https://search.azure.com),在中国区需修改为https://search.azure.cn,并通过设置SearchAudience.AZURE_CHINA解决认证失败问题,确保资源正常获取。
116 18
|
20天前
|
存储 传感器 人工智能
AI 十大论文精讲(八):知识蒸馏如何让大模型 “瘦身不减能”
本篇解读DistilBERT,一篇解决大模型落地难题的里程碑论文。面对BERT等大模型参数多、耗能高、部署难的问题,DistilBERT提出预训练阶段知识蒸馏,结合三重损失与轻量化设计,在保留97%性能的同时,模型缩小40%,推理提速60%,推动NLP迈向高效、绿色、边缘化应用。
|
27天前
|
存储 缓存 人工智能
腾讯新闻 item_search - 热榜数据接口对接全攻略:从入门到精通
腾讯新闻item_search热榜接口是获取其全领域(时政、科技、财经等)实时热点数据的核心工具,支持多维度筛选与分页查询,可高效获取标题、热度指数、传播数据及关联话题,广泛应用于舆情监测、资讯聚合与热点分析,助力开发者精准掌握平台热点动态。
|
21天前
|
机器学习/深度学习 人工智能 数据可视化
构建AI智能体:四十四、线性回归遇见大模型:从数学原理到智能实战
本文系统介绍了线性回归的原理、实现和应用。线性回归通过建立自变量(X)与因变量(Y)之间的线性关系(Y=wX+b)进行预测,核心方法包括最小二乘法(精确解析解)和梯度下降法(迭代数值解)。文章结合Python代码示例,演示了从简单线性回归到多元线性回归的实现过程,并分析了大模型时代线性回归的新应用场景。同时指出了线性回归的局限性(如对异常值敏感)和扩展方向(多项式回归、正则化等)。通过Qwen等大模型的辅助,可以快速生成高质量代码并深入分析回归结果,使这一基础方法在复杂数据中发挥更大价值。
156 6
|
17天前
|
机器学习/深度学习 传感器 自动驾驶
具身智能核心突破:物理模拟器与世界模型协同技术拆解
本文系统综述了物理模拟器与世界模型在具身智能发展中的协同作用,提出五级智能机器人分类体系(IR-L0至IR-L4),分析其在运动、操作与交互中的进展,并对比主流仿真平台与世界模型架构,探讨其在自动驾驶与关节机器人中的应用及未来挑战。
321 113