AI 智能体从入门到进阶再到落地完整教程

简介: 自主智能体正引领AI技术变革,依托大模型与强化学习,实现独立推理、决策与多任务协同。本书系统探讨智能体定义、类型、框架及应用,涵盖客服、医疗、金融等场景,强调可扩展性、模块化与持续学习等设计原则,并对比LangGraph、AutoGen等主流框架,助力构建高效、可靠的智能系统。

我们正在见证一场由自主智能体(Autonomous Agents)驱动的深刻技术变革——这是一种能够进行独立推理、决策并在动态环境中有效互动的智能软件系统。与传统软件不同,自主智能体能够解读上下文、适应变化的场景,并在极少的人工监督下执行复杂的操作。


AI 智能体的定义

自主智能体是旨在独立分析数据、解读环境并做出情境驱动决策的智能系统。随着“Agent(智能体)”一词的普及,其含义已逐渐被稀释,常被用于那些缺乏真正自主性的系统。实际上,代理能力(Agency)存在于一个谱系之中。真正的自主智能体表现出有意义的决策能力、情境驱动的推理能力和适应性行为。相反,许多被称为“智能体”的系统可能仅仅是在执行确定性的脚本或受到严格控制的工作流。设计真正自主、自适应的智能体极具挑战性,这促使许多团队采用更简单的方法来快速获取成果。因此,检验一个系统是否为真正智能体的关键,在于它是否展示了真正的决策能力,而非仅仅遵循静态脚本。

自主智能体的快速演进主要得益于基础模型(Foundation Models)和强化学习的突破。虽然基础模型的传统用例主要集中在生成人类可读的输出,但最新的进展使这些模型能够生成结构化的函数签名和参数选择。然后,编排框架(Orchestration Frameworks)可以执行这些函数——使智能体能够查找数据、操作外部系统并执行具体动作。在本书中,我们将使用“智能体系统(Agentic System)”一词来描述使智能体有效运行所需的完整支持功能,包括工具、记忆、基础模型、编排和支持性基础设施。

随着诸如模型上下文协议(Model Context Protocol,详见第4章)和智能体对智能体协议(Agent-to-Agent Protocol,详见第8章)等协议种类的增加,这些智能体将能够使用远程工具并与其他智能体协作解决问题。这为复杂的自动化开启了巨大的机会——但也带来了深度的责任,即需要深思熟虑地设计、评估和管理这些系统,确保它们的行为符合人类价值观,并在复杂、动态的环境中安全运行。

预训练革命

尽管传统的机器学习(ML)是一项极其强大的技术,但它通常受限于数据集的数量和质量。机器学习从业者通常会告诉你,他们大部分时间不是花在训练模型上,而是花在收集和清洗用于训练的数据集上。在大规模数据上训练的生成式模型的惊人成功表明,单个模型现在无需任何额外训练即可适应广泛的任务。这颠覆了多年的惯例。以前构建一个使用 ML 的应用程序需要聘请 ML 工程师或数据科学家,让他们收集数据,然后部署该模型。随着大型预训练生成式模型的最新发展,现在只需通过一次对托管模型的调用,即可获得适用于许多用例的高质量模型,且无需任何训练或托管。这大大降低了构建 ML 和 AI 赋能应用程序的成本和复杂性。

大型语言模型(LLM)的最新进展,如 GPT-5、Anthropic 的 Claude、Meta 的 Llama、Google 的 Gemini Ultra 和 DeepSeek 的 V3,进一步提高了在一系列困难任务上的表现,扩大了预训练模型可解决问题的范围。这些基础模型提供了强大的自然语言理解和内容生成能力,通过以下方式增强了智能体的功能:

  • 自然语言理解
    直观地解读并响应用户输入。
  • 上下文感知交互
    在长时间的交互中保持上下文,以提供相关且准确的响应。
  • 结构化内容生成
    生成对分析和创造性任务至关重要的文本、代码和结构化输出。

虽然这些模型本身已非常有能力,但它们也可以用于在限定范围内做决策、适应新信息并调用工具来完成实际工作。与复杂的编排框架集成,使这些模型能够直接与外部系统交互并执行实际任务。这些模型能够:

  • 上下文解读与决策
    在没有详尽预编程的情况下处理模棱两可的情况。
  • 工具使用
    调用其他软件来检索信息或采取行动。
  • 适应性规划
    自主规划并执行复杂的、多步骤的行动。
  • 信息摘要
    快速处理大量文档,提取关键见解,从而辅助法律分析、研究综合和内容策划。
  • 非结构化数据管理
    智能地解读并响应非结构化文本,如电子邮件、文档、日志和报告。
  • 代码生成
    编写并执行代码,以及编写单元测试。
  • 常规任务自动化
    高效处理客户服务和行政工作流中的重复性活动,让人类员工专注于更细致的任务。
  • 多模态信息综合
    大规模执行对图像、音频或视频数据的复杂分析。

这种增强的灵活性使自主智能体能够有效处理静态 ML 模型通常无法解决的复杂和动态场景。


智能体的类型

随着“智能体”一词的流行,其含义已扩展到涵盖各种 AI 赋能的系统,经常导致人们对什么才是真正的 AI 智能体产生困惑。《The Information》将智能体归类为七种实用类型,反映了这些技术在当今的应用方式:

  1. 业务任务智能体 (Business-task agents)这些智能体自动化预定义的业务工作流,例如 UiPath 的机器人流程自动化(RPA)、Microsoft Power Automate 的低代码流或 Zapier 的应用集成。它们执行由事件触发的确定性动作序列,具有极少的上下文推理。
  2. 对话式智能体 (Conversational agents)此类包括通过自然语言界面与用户互动的聊天机器人和客户服务智能体。它们针对对话管理、意图识别和对话轮次进行了优化,例如嵌入在客户支持平台中的虚拟助手。
  3. 研究智能体 (Research agents)研究智能体执行信息收集、综合和摘要任务。它们扫描文档、知识库或网络,提供结构化输出以辅助人类分析师。例子包括 Perplexity AI 和 Elicit。
  4. 分析智能体 (Analytics agents)分析智能体(如 Power BI Copilot 或 Glean)专注于解释结构化数据集并生成见解、仪表板和报告。它们通常与企业数据仓库紧密集成,使用户能够用自然语言查询复杂数据。
  5. 开发者智能体 (Developer agents)像 Cursor、Windsurf 和 GitHub Copilot 这样的工具代表了编码智能体,它们通过生成、重构和解释代码来辅助开发者。它们深度集成到 IDE 工作流中,以提高软件开发生产力。
  6. 特定领域智能体 (Domain-specific agents)这些智能体针对特定的专业领域进行了调整,例如法律(Harvey)、医疗(Hippocratic AI)或金融智能体。它们结合了领域特定知识与结构化工作流,以提供针对性的专家级协助。
  7. 浏览器操作智能体 (Browser-using agents)这些智能体在没有人工干预的情况下导航、交互、提取信息并在网站上采取行动。与遵循预设步骤的传统 RPA 不同,现代浏览器智能体结合了语言理解、视觉感知和动态规划,能够即时适应变化。

除了这七种类型的智能体外,语音和视频智能体也很重要,预计在未来几年其采用率将增加:

  • 语音智能体 (Voice agents)由端到端语音理解和生成驱动,这些智能体正在实现客户服务、预约安排甚至实时订单处理等领域的对话自动化。
  • 视频智能体 (Video agents)这些智能体向用户展示基于头像的视频响应,结合了口型同步的语音、面部表情和手势。它们正在销售、培训、客户引导、营销和虚拟临场工具中迅速涌现——实现了无需人工制作的可扩展、个性化视频交互。

重要的是,智能体类型的数量和种类正在迅速增长,随着领域及其底层技术的发展,我们可能会看到许多领域出现新型智能体。在本书中,我们的重点是围绕语言模型构建的核心智能体类别,特别是那些使用文本和代码的智能体。虽然我们会涉及业务任务自动化、语音和视频,但在随后的章节中,我们将主要探讨围绕语言模型构建的智能体——它们的架构、推理和用户体验(UX)。

既然我们已经讨论了不断演变的智能体类型,下一个关键问题就变成了:你应该选择哪种模型来驱动你的智能体?模型选择是一个复杂且快速变化的领域。正如在下一节中所讨论的,需要平衡任务复杂性、模态支持、延迟和成本限制以及集成要求等因素,以便为我们的智能体做出正确的选择。


模型选择

今天,我们很幸运能拥有来自商业提供商和开源社区的大量强大模型。OpenAI、Anthropic、Google、Meta 和 DeepSeek 都提供了具有令人印象深刻的通用能力的最先进基础模型。与此同时,像 Llama、Mistral 和 Gemma 这样的开放权重模型正在推动本地或微调部署所能达到的极限。更引人注目的是中小型模型的快速进步。蒸馏(distillation)、量化(quantization)和合成数据生成的新技术使紧凑型模型(compact models)能够从更大的模型中继承惊人的能力水平。

这种选择的爆发是个好消息:竞争正在推动更快的创新、更好的性能和更低的成本。但这也造成了一个两难境地——如何为智能体系统选择合适的模型?事实是,没有放之四海而皆准的答案。实际上,最合理的上手路径之一就是直接使用来自 OpenAI 或 Anthropic 等领先提供商的最新通用模型。如表 1-1 所示,这些模型提供了强大的开箱即用性能,几乎不需要定制,并且在许多应用中都能带你走得很远。GPT-5 mini (2025年8月) 以最高平均分 (0.819) 总体领先,紧随其后的是 o4-mini (0.812) 和 o3 (0.811)。像 Qwen3、Grok 4、Claude 4 和 Kimi K2 这样的专有和开放访问模型也显示出了有竞争力的结果。

表 1-1. HELM 核心场景排行榜(2025年8月)。前10名模型在推理和评估任务上的比较基准表现:MMLU-Pro, GPQA, IFEval, WildBench, 和 Omni-MATH。

模型 平均分 MMLU-Pro (思维链正确率) GPQA (思维链正确率) IFEval (严格准确率) WildBench (WB 得分) Omni-MATH (准确率)
GPT-5 mini (2025-08-07) 0.819 0.835 0.756 0.927 0.855 0.722
o4-mini (2025-04-16) 0.812 0.82 0.735 0.929 0.854 0.72
o3 (2025-04-16) 0.811 0.859 0.753 0.869 0.861 0.714
GPT-5 (2025-08-07) 0.807 0.863 0.791 0.875 0.857 0.647
Qwen3 235B A22B Instruct 2507 FP8 0.798 0.844 0.726 0.835 0.866 0.718
Grok 4 (0709) 0.785 0.851 0.726 0.949 0.797 0.603
Claude 4 Opus (20250514, extended thinking) 0.78 0.875 0.709 0.849 0.852 0.616
gpt-oss-120b 0.77 0.795 0.684 0.836 0.845 0.688
Kimi K2 Instruct 0.768 0.819 0.652 0.85 0.862 0.654
Claude 4 Sonnet (20250514, extended thinking) 0.766 0.843 0.706 0.84 0.838 0.602

尽管如此,它们并不总是最有效的选择。对于许多任务——尤其是那些定义明确、低延迟或对成本敏感的任务——小得多的模型可以以极低的成本提供近乎同等的性能。这带来了一个日益增长的趋势:自动化模型选择。一些平台现在将更简单的查询路由到快速、廉价的小型模型,而将大型、昂贵的模型保留用于更复杂的推理。这种动态的测试时优化(test-time optimization)被证明是有效的,它预示着未来多模型系统将成为常态。

主要结论是,可以花费巨大的精力优化模型选择以获得边际收益——但除非是规模或约束条件要求这,否则从易于上手的方式开始是没问题的。随着时间的推移,尝试更小的模型、微调或添加检索以提高性能并降低成本通常是值得的。请记住:未来几乎肯定也是多模型的,现在为灵活性进行设计将在以后得到回报


从同步操作到异步操作

传统软件系统通常同步执行任务,一步一步地进行,在开始下一个动作之前等待每个动作完成。虽然这种方法直截了当,但也可能导致严重的效率低下——尤其是在等待外部输入或处理大量数据时。

相比之下,自主智能体是为异步操作设计的。它们可以并行管理多个任务,迅速适应新信息,并根据变化的情况动态优先处理的动作。这种异步处理极大地提高了效率,减少了空闲时间并优化了计算资源的使用。

这种转变的实际意义是巨大的。例如:

  • 邮件到达时已准备好回复草稿。
  • 发票到达时已预填好付款详情。
  • 软件工程师收到的工单已附带解决问题的代码和评测用的单元测试。
  • 客服专员可以获得建议的回复和推荐的操作。
  • 安全分析师可以收到已经被自动调查并富含相关威胁情报的警报。

在每种情况下,智能体不仅仅是在加速常规工作流——它们正在改变工作本身的性质。这种演变将人类角色从任务执行者转变为任务管理者。个人不再将时间花在重复性或机械性的步骤上,而是可以专注于战略监督、审查和高价值决策——在让智能体处理操作细节的同时,放大了人类的创造力和判断力。这些智能体使得人类角色更容易变得主动而非被动。


实际应用和用例

自主智能体的多功能性开启了跨行业的无数应用。为了使本书基于清晰、具体的用例,我在本书的公开 GitHub 仓库中提供了七个带有评估系统的真实示例智能体。我们探索智能体系统的主要方面时,我们会经常回顾这些示例:

  1. 客服智能体 (Customer support agent)
    客服是自主智能体最普遍的应用之一。这些智能体处理常见的查询、处理退款、更新订单,并将复杂问题升级给人工代表,提供 7x24 小时的支持,同时提高客户满意度并降低运营成本。
  2. 金融服务智能体 (Financial services agent)
    在银行和金融服务中,智能体协助账户管理、贷款处理、欺诈调查和投资组合再平衡。它们可简化客户服务,加速交易处理,并通过实时检测可疑活动来提高安全性。
  3. 医疗患者问诊智能体 (Healthcare patient intake and triage agent)
    这些智能体通过登记新患者、验证保险、评估症状以优先护理、安排预约、管理病史和协调转诊来支持一线医疗运营,从而提高工作流效率和患者治疗效果。
  4. IT 服务台智能体 (IT help desk agent)
    IT 服务台智能体管理用户访问、排查网络和系统问题、部署软件更新、响应安全事件,并将未解决的问题升级给专家。它们通过迅速解决常见的技术问题来提高生产力。
  5. 法律文档审查智能体 (Legal document review agent)
    法律智能体通过审查合同、进行法律研究、执行客户接收和利益冲突检查、管理取证、评估合规性、计算损失和跟踪截止日期来协助律师和律师助理。这有助于简化工作流并提高法律运营的准确性。
  6. 安全运营中心 (SOC) 分析智能体 (SOC analyst agent)
    SOC 分析智能体调查安全警报、收集威胁情报、查询日志、对事件进行分诊、隔离受感染的主机,并向安全团队提供更新。它们加速事件响应并加强组织的安全态势。
  7. 供应链和物流智能体 (Supply chain and logistics agent)
    在供应链管理中,智能体优化库存、跟踪货物、评估供应商、协调仓库运营、预测需求、管理中断和处理合规要求。这些能力有助于维持全球网络的弹性和效率。

自主智能体在从客户支持和个人协助到法律服务和广告等各种用例中提供了巨大的潜力。通过将这些智能体整合到运营中,组织可以实现更高的效率,提高服务质量,并解锁创新和增长的新机会。随着我们在本书中继续探索自主智能体的能力和应用,很明显它们将在多个行业中产生深远而广泛的影响。

既然我们已经看到了一些示例智能体,在下一节中,我们将讨论设计智能体系统时的一些关键考虑因素。


工作流与智能体

在许多现实世界的项目中,选择简单的脚本、确定性工作流、传统聊天机器人、检索增强生成 (RAG) 系统,还是全功能的自主智能体,往往决定了这是一个优雅的解决方案还是一个过度设计、难以维护的烂摊子。为了更清晰地做出选择,请考虑四个关键因素:输入的可变性、所需推理的复杂性、任何性能或合规约束,以及持续的维护负担

首先,何时应该选择使用基础模型——甚至根本不使用任何 ML 组件?如果输入是完全可预测的,并且每一种可能的输出都可以预先描述,那么几行过程代码通常比基于 ML 的管道更快、更便宜且更容易测试。例如,解析一个总是遵循“YYYY-MM-DD HH:MM:SS—message”格式的日志文件,可以用 Python 或 Go 中基于正则表达式的小型解析器可靠地处理。同样,如果你的应用要求毫秒级的延迟——例如必须实时响应传感器数据的嵌入式系统——根本没有时间进行语言模型 API 调用。在这种情况下,传统代码是正确的选择。最后,受监管的领域(医疗设备、航空、某些金融系统)通常需要完全确定性、可审计的决策逻辑——黑盒神经网络模型无法满足认证要求。如果满足这些条件中的任何一个——确定性输入、严格的性能或可解释性需求,或静态的问题领域——普通代码几乎总是优于基础模型。

其次,考虑确定性或半自动化工作流。在这里,逻辑可以表示为一组有限的步骤或分支,并且提前知道哪里可能需要人工干预或做额外的错误处理。假设读取来自少数几家供应商的发票,每张发票已知格式有三种:CSV、JSON 或 PDF。我们可以构建一个工作流,将每种格式路由到相应的解析器,检查不匹配状况,如果任何字段未能通过简单的核对,则暂停进入人工审查——不需要深层的语义理解。同样,如果系统必须要指数退避重试失败的步骤或暂停等待经理批准,那么工作流引擎(如 Airflow、AWS Step Functions 或一组结构良好的脚本)比 LLM 提供了更清晰的错误路径控制。只要你能预先列举所有决策分支,并且你需要对每个分支进行严格、可审计的控制,确定性工作流就是有意义的。在这种场景下,工作流比大型的临时脚本扩展起来更自然,但仍然避免了运行智能体管道的复杂性和成本。

传统聊天机器人或 RAG 系统处于下一个复杂层级:它们增加了自然语言理解和文档检索,但止步于自主的多步骤规划。如果主要需求是让用户询问有关知识库的问题——比如搜索产品手册、法律档案或企业 Wiki——RAG 系统可以使用文档嵌入向量存储,响应查询检索相关段落,并生成连贯的、上下文感知的答案。例如,内部 IT 服务台可以使用 RAG 来回答“如何重置 VPN 凭据?”,方法是获取最新的故障排除指南并总结相关步骤。与自主智能体不同,RAG 系统不会独立决定后续行动(如提交工单或安排回访);它们只是展示信息。当任务主要是针对结构化或非结构化内容的问答,且对外部 API 调用或决策编排的需求有限时,传统聊天机器人或 RAG 方法是有意义的。维护成本低于智能体——主要开销在于保持文档嵌入的更新和优化提示词——但你牺牲了智能体规划多步骤工作流或从反馈循环中学习的能力。

最后,我们到达了自主智能体——这种情况下,简单的代码、僵化的工作流或 RAG 都不够用,因为输入是非结构化的、新颖的或高度可变的,并且需要动态、多步骤地规划或从反馈中持续学习。比如一个客服中心,它接收形式多变的电子邮件,问题涉及“我的笔记本电脑电池鼓包可能会爆炸”乃至“我一直收到我没有订购的服务的账单”。基于规则的工作流或 RAG 驱动的 FAQ 查找在这种开放式的变化下会崩溃,但由基础模型驱动的智能体可以解析意图、提取相关实体、咨询知识库、起草适当的回复,甚至在必要时升级给人工——所有这些都无需预先告知每一个可能的分支。同样,在供应链管理中,一个实时读取库存数据、供应商交货时间和销售预测的智能体可以动态地重新规划发货时间表;而确定性工作流则需要不断的手动更新来处理新的异常情况。

当许多子任务必须并行运行时,智能体也表现出色——例如安全运营智能体同时查询威险情报 API、扫描网络遥测数据并对可疑二进制文件进行沙盒分析。因为智能体异步运行并根据实时数据重新确定优先级,它们避免了工作流或 RAG 系统脆弱的“一次一步”的问题。为了证明运行基础模型带来的更高计算和维护成本是合理的,你需要这种级别的上下文推理、并行任务编排或持续的自我改进——在这些场景中,僵化的代码、工作流或聊天机器人要么太脆弱,要么维护成本太高。

表 1-2. 区分工作流、智能体与传统代码

特征 传统代码 工作流 自主智能体
输入结构 完全可预测的模式 (Schemas) 大部分可预测,具有有限的分支 高度非结构化或新颖的输入
可解释性 完全透明;易于审计 明确的逐分支审计线索 需要额外工具的黑盒组件
延迟 超低延迟 中等延迟 较高延迟
适应性和学习 有限 高 (从反馈中学习)

每条路径都有权衡。纯代码便宜且快速但不灵活;工作流提供控制但当输入变得极度多变时会失效;传统聊天机器人或 RAG 非常适合基于文档的问答,但无法编排多步骤行动;而智能体功能强大但要求很高——无论是在云端计算方面,还是在监控、调优和治理的工程工作量方面。在选择之前,先问问自己:输入是非结构化或不可预测的吗?是否需要适应中间结果的多步骤规划?文档检索系统能否满足用户的信息需求,还是系统必须自主决定和行动?是否希望该系统随着时间的推移在极少人工干预下自我改进?能否忍受基础模型的延迟和维护负担?

简而言之,如果任务是固定的、确定性的转换,写一些简单的代码。如果有少数几个已知的分支并且需要明确的错误处理检查点,使用确定性工作流。如果主要需要针对语料库的自然语言问答,选择传统聊天机器人或 RAG 架构。但是,如果面临高度可变性、开放式推理、动态规划需求或持续学习要求,请选择自主智能体。经过深思熟虑地做出这个选择,能确保我们在简单性、性能和适应性之间获得正确的平衡——从而使得解决方案随着需求的发展保持有效且可维护。


构建有效智能体系统的原则

创建成功的自主智能体需要一种优先考虑可扩展性、模块化、持续学习、弹性和面向未来的方法:

  • 可扩展性 (Scalability)
    通过利用分布式架构、基于云的基础设施以及支持并行处理和资源优化的有效算法,确保智能体能够处理不断增长的工作负载和多样化的任务。
    示例: 一个每分钟处理10张工单的客户支持智能体,如果没有自动扩缩容基础设施的支持,当流量激增至1000时可能会崩溃或挂起。
  • 模块化 (Modularity)
    设计具有独立、可互换组件的智能体,通过清晰的接口连接。这种模块化方法简化了维护,促进了灵活性,并有助于快速适应新需求或技术。
    示例: 一个模块化程度差、将所有工具硬编码在智能体服务中的智能体,每当需要对工具进行微小的添加或修改时,都需要全面重新部署。
  • 持续学习 (Continuous learning)
    为智能体配备从经验中学习的机制,例如上下文学习(in-context learning)。整合用户反馈以改进智能体行为,并在任务演变时保持性能相关性。
    示例: 忽视反馈循环的智能体可能会不断犯同样的错误——比如错误分类合同条款或未能升级关键的支持问题。
  • 弹性 (Resilience)
    开发强大的弹性架构,能够优雅地处理错误、安全威胁、超时和意外情况。包含全面的错误处理、严格的安全措施和冗余,以确保可靠和连续的智能体运行。
    示例: 没有重试或回退逻辑的智能体可能会在单个 API 调用失败时完全崩溃,让用户感到等待和困惑。
  • 面向未来 (Future-proofing)
    围绕开放标准和可扩展的基础设施构建智能体系统,培养创新文化以快速适应新兴技术和不断变化的用户期望。
    示例: 将智能体与某个专有供应商的提示词格式紧密耦合,会使切换模型变得痛苦并限制比较测试。

坚持这些原则使组织能够开发出保持有效和相关的自主智能体,无缝适应技术进步和不断变化的运营环境。

为成功构建智能体系统而组织

通过简单的 API 调用即可广泛获得基础模型,这激发了许多组织在智能体系统方面的广泛实验。团队经常开始独立的概念验证(PoC),从而产生有价值的发现和创新的想法。然而,这种实验的便利性往往导致碎片化——重叠的项目、重复的努力和未完成的实验散落在整个组织中。相反,过早的标准化可能会扼杀创造力,并将组织困在僵化的框架或特定供应商的解决方案中。取得成功需要在实验的灵活性与可扩展性和一致性的协调之间取得平衡。

在智能体开发的早期阶段,组织应积极鼓励探索性工作,允许团队自由测试各种架构、工作流和模型。随着时间的推移,当成功的模式和最佳实践已见端倪时,战略一致性变得至关重要。实施“每个大组一个标准”的策略可以有效地平衡这种需求。在特定部门或职能领域内,团队可以围绕通用工具和方法进行标准化,简化协作而不限制更广泛的组织创新。

成功的另一个重要方面是通过采用开放标准(如 OpenAPI)和拥抱模块化系统设计来避免供应商锁定。这些实践有助于确保灵活性并减少对任何单一技术或提供商的依赖,促进未来的适应性。

有效的知识共享也至关重要。从成功和失败的实验中吸取的教训应通过内部论坛、共享存储库和综合文档广泛传播。这种协作方法加速了组织学习,最大限度地减少了重复工作,并促进了集体进步。

最后,治理框架应保持轻量级和灵活,强调指导原则而非僵化的指令。精简的治理结构使团队能够自信地创新,同时与总体的组织目标保持一致。

围绕智能体系统成功地组织起来本质上是迭代的。组织必须不断重新评估其策略,以维持探索与标准化之间的动态平衡。通过培养重视实验、协作学习和开放标准的环境,组织可以有效地将智能体系统从孤立的实验转变为可扩展的、变革性的解决方案,并将其深度集成到运营流程中。


智能体框架

目前存在许多用于开发自主智能体的框架,每个框架都实现了一些关键功能,如技能集成、记忆管理、规划、编排、体验学习和多智能体协调。这个列表当然并不详尽,头部的框架有:

  • LangGraph
  • 优势: 基于有向图的模块化编排框架,其节点包含离散的逻辑单元(通常是基础模型调用),其边管理数据在复杂、潜在循环工作流中的流动;强大的开发者体验(ergonomics);原生支持异步工作流和重试。
  • 权衡: 对于高级规划和记忆需要自定义逻辑;对多智能体协作的内置支持较少。
  • 最适合: 构建具有明确、可检查流控制的健壮单智能体或轻量级多智能体系统的团队。
  • AutoGen
  • 优势: 强大的多智能体编排;动态角色分配;智能体之间基于消息的灵活交互。
  • 权衡: 对于简单用例可能过于沉重或复杂;围绕智能体交互模式有较强的设计理念(opinionated)。
  • 最适合: 涉及多个智能体之间对话的研究和生产系统(例如,经理-工人模式,自我反思循环)。
  • CrewAI
  • 优势: 易学易用;快速设置原型;有用的抽象概念如“Crew(团队)”和“Tasks(任务)”。
  • 权衡: 对编排内部的定制和控制有限;在复杂工作流方面不如 LangGraph 或 AutoGen 成熟。
  • 最适合: 想要快速开始构建实用的、以人为本的智能体(如助手或支持智能体)的开发者。
  • OpenAI Agents SDK
  • 优势: 与 OpenAI 工具生态系统的深度集成;安全且易于使用的函数调用、记忆原语和工具路由。
  • 权衡: 与 OpenAI 的基础设施紧密耦合;对于自定义智能体技术栈或开源工具链可能缺乏灵活性或可移植性。
  • 最适合: 已经在使用 OpenAI API 并寻求以最少的脚手架代码快速构建安全、使用工具的智能体的团队。
  • Eino
  • 优势: 专注于构建生产就绪的企业级智能体;强调类型安全(Go语言开发)、结构化数据处理和高可靠性;提供清晰的组件抽象和强大的“流式工程”能力,使复杂的业务逻辑编排更加确定和可控。
  • 权衡: 对于简单的快速原型设计可能显得有些沉重;相较于 AutoGen,在开放式、探索性的多智能体对话模式上关注较少;需要开发者具备较强的工程思维。
  • 最适合: 需要构建高可靠性、强类型约束,以及需要与现有复杂的企业后端基础设施深度集成的生产级智能体系统。

虽然每个框架都提供独特的优势和局限性,但该领域的持续创新和竞争预计将推动进一步的演变。对于早期原型,CrewAI 或 OpenAI Agents SDK 可以让你快速运行。对于可扩展的生产级系统,LangGraph 和 AutoGen 提供了更多的控制和复杂性。这些框架也不是必需的,许多团队选择直接针对模型提供商的 API 进行构建。本书主要关注 LangGraph,之所以选择它,是因为它在智能体系统开发中采用了直截了当但功能强大的方法。通过详细的解释、实际示例和真实场景,我们将演示 LangGraph 如何有效地解决现代智能体所需的复杂性和动态性。同时考虑多样性及对国产框架发展的支持,我们也会将部分示例改造为Eino。


结论

自主智能体代表了 AI 的变革性发展,能够以高度的自主性执行复杂、动态的任务。本章概述了智能体的基础概念,强调了它们相对于传统 ML 系统的进步,并讨论了它们的实际应用和局限性。随着我们深入研究这些系统的设计和实现,很明显,将智能体深思熟虑地整合到各个领域中,拥有推动重大创新和效率的潜力。

虽然本章讨论的各种设计自主智能体的方法展示了显著的能力和潜力,但它们也突显了创建有效和适应性系统所涉及的复杂性和挑战。从基于规则的系统到先进的认知架构,每种方法都提供了独特的优势,但也伴随着固有的局限性。在本书中,我旨在弥合这些差距。


翻译整理自Building Applications with AI Agents一书,仅供学习交流使用

相关文章
|
3天前
|
云安全 人工智能 算法
以“AI对抗AI”,阿里云验证码进入2.0时代
三层立体防护,用大模型打赢人机攻防战
1306 3
|
3天前
|
机器学习/深度学习 安全 API
MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA!
MAI-UI是通义实验室推出的全尺寸GUI智能体基座模型,原生集成用户交互、MCP工具调用与端云协同能力。支持跨App操作、模糊语义理解与主动提问澄清,通过大规模在线强化学习实现复杂任务自动化,在出行、办公等高频场景中表现卓越,已登顶ScreenSpot-Pro、MobileWorld等多项SOTA评测。
622 3
|
4天前
|
人工智能 Rust 运维
这个神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
加我进AI讨论学习群,公众号右下角“联系方式”文末有老金的 开源知识库地址·全免费
|
10天前
|
编解码 人工智能 自然语言处理
⚽阿里云百炼通义万相 2.6 视频生成玩法手册
通义万相Wan 2.6是全球首个支持角色扮演的AI视频生成模型,可基于参考视频形象与音色生成多角色合拍、多镜头叙事的15秒长视频,实现声画同步、智能分镜,适用于影视创作、营销展示等场景。
741 5
|
7天前
|
物联网 API UED
Qwen-Image-Edit-2511来啦!角色一致性再提升,LoRA能力内置
Qwen-Image-Edit-2511发布!提升角色与多人合照一致性,集成Lora打光、新视角生成,增强工业设计与几何推理能力。已开源,支持魔搭、QwenChat免费体验,本地部署可获最佳效果。
445 3