swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发

简介: Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】

Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。

Swarm专注于使代理的协调执行轻量级、高度可控且易于测试。

它通过两个原始抽象:Agents和交接来实现这一点。一个Agent包含instructionstools,并且在任何时候都可以选择将对话交接给另一个Agent

这些原始抽象足够强大,可以表达工具和代理网络之间的丰富动态,允许您构建可扩展的、现实世界的解决方案,同时避免陡峭的学习曲线。

一、安装

需要Python 3.10+

pip install git+ssh://git@github.com/openai/swarm.git

或者

pip install git+https://github.com/openai/swarm.git

二、简易使用方法

from swarm import Swarm, Agent

client = Swarm()

def transfer_to_agent_b():
    return agent_b


agent_a = Agent(
    name="Agent A",
    instructions="You are a helpful agent.",
    functions=[transfer_to_agent_b],
)

agent_b = Agent(
    name="Agent B",
    instructions="Only speak in Haikus."
)

response = client.run(
    agent=agent_a,
    messages=[{
   "role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])

三、为什么选择Swarm

Swarm探索了轻量级、可扩展且高度可定制的设计模式。类似于Swarm的方法最适合处理大量独立能力和难以编码到单个提示中的指令的情况。

Assistants API是寻找完全托管的线程和内置的内存管理和检索的开发者的一个很好的选择。然而,Swarm是一个教育资源,供对多代理编排感兴趣的开发者学习。Swarm(几乎)完全在客户端上运行,并且像Chat Completions API一样,在调用之间不存储状态。

四、运行Swarm

首先,实例化一个Swarm客户端(它内部只是实例化一个OpenAI客户端)。

from swarm import Swarm

client = Swarm()

client.run()

Swarm的run()函数类似于Chat Completions API中的chat.completions.create()函数——它接受messages并返回messages,并且在调用之间不保存任何状态。然而,它还处理代理函数执行、交接、上下文变量引用,并且可以在返回给用户之前进行多次轮流。

在其核心,Swarm的client.run()实现了以下循环:

  1. 从当前代理获取一个完成
  2. 执行工具调用并追加结果
  3. 如有必要,切换代理
  4. 如有必要,更新上下文变量
  5. 如果没有新的函数调用,返回

参数

参数 类型 描述 默认
agent Agent 要调用的(初始)代理。 (必需)
messages List 消息对象列表,与Chat Completions messages相同 (必需)
context_variables dict 额外的上下文变量字典,可供函数和代理指令使用 {}
max_turns int 允许的最大对话轮流次数 float("inf")
model_override str 一个可选字符串,用于覆盖代理使用的模型 None
execute_tools bool 如果为False,在代理尝试调用函数时中断执行并立即返回tool_calls消息 True
stream bool 如果为True,启用流式响应 False
debug bool 如果为True,启用调试日志 False

一旦client.run()完成(在可能对代理和工具进行多次调用之后),它将返回一个Response,其中包含所有相关的更新状态。具体来说,新的messages,最后一个被调用的Agent,以及最新的context_variables。您可以将这些值(加上新的用户消息)传递到下一次的client.run()执行中,以继续中断的交互——非常类似于chat.completions.create()。(run_demo_loop函数在/swarm/repl/repl.py中实现了完整的执行循环的一个示例。)

Response 字段

字段 类型 描述
messages List 在对话期间生成的消息对象列表。与Chat Completions messages非常相似,但有一个sender字段,指示消息来自哪个Agent
agent Agent 处理消息的最后一个代理。
context_variables dict 与输入变量相同,加上任何更改。

五、代理

一个Agent简单地封装了一组instructions和一组functions(以及一些额外的设置),并且有能力将执行交接给另一个Agent

虽然将一个Agent拟人化为“做X的人”是诱人的,但它也可以用来表示由一组instructionsfunctions定义的非常具体的工作流程或步骤(例如一组步骤、复杂的检索、单个数据转换步骤等)。这允许Agents被组合成一个由“代理”、“工作流程”和“任务”组成的网络,所有这些都由相同的原始表示。

Agent 字段

字段 类型 描述 默认
name str 代理的名称。 "Agent"
model str 代理使用的模型。 "gpt-4o"
instructions strfunc() -> str 代理的指令,可以是字符串或返回字符串的可调用。 "You are a helpful agent."
functions List 代理可以调用的函数列表。 []
tool_choice str 代理的工具选择,如果有的话。 None

指令

Agent instructions直接转换为对话的system提示(作为第一条消息)。在任何给定时间,只有活动Agentinstructions会出现(例如,如果有Agent交接,system提示将更改,但聊天历史不会。)

agent = Agent(
   instructions="You are a helpful agent."
)

instructions可以是常规的str,或者是返回str的函数。该函数可以选择接收一个context_variables参数,该参数将由传递给client.run()context_variables填充。

def instructions(context_variables):
   user_name = context_variables["user_name"]
   return f"Help the user, {user_name}, do whatever they want."

agent = Agent(
   instructions=instructions
)
response = client.run(
   agent=agent,
   messages=[{
   "role":"user", "content": "Hi!"}],
   context_variables={
   "user_name":"John"}
)
print(response.messages[-1]["content"])
Hi John, how can I assist you today?

功能

  • Swarm Agents可以直接调用Python函数。
  • 函数通常应该返回一个str(值将尝试被转换为str)。
  • 如果一个函数返回一个Agent,执行将被转移到该Agent
  • 如果一个函数定义了一个context_variables参数,它将由传递给client.run()context_variables填充。
def greet(context_variables, language):
   user_name = context_variables["user_name"]
   greeting = "Hola" if language.lower() == "spanish" else "Hello"
   print(f"{greeting}, {user_name}!")
   return "Done"

agent = Agent(
   functions=[greet]
)

client.run(
   agent=agent,
   messages=[{
   "role": "user", "content": "Usa greet() por favor."}],
   context_variables={
   "user_name": "John"}
)
Hola, John!
  • 如果一个Agent函数调用有错误(缺少函数、错误的参数、错误),则会将错误响应追加到聊天中,以便Agent可以优雅地恢复。
  • 如果Agent调用了多个函数,它们将按顺序执行。

交接和更新上下文变量

一个Agent可以通过在function中返回另一个Agent来交接。

sales_agent = Agent(name="Sales Agent")

def transfer_to_sales():
   return sales_agent

agent = Agent(functions=[transfer_to_sales])

response = client.run(agent, [{
   "role":"user", "content":"Transfer me to sales."}])
print(response.agent.name)
Sales Agent

它也可以通过返回一个更完整的Result对象来更新context_variables。这也可以包含一个value和一个agent,以防您想要一个函数返回一个值,更新代理,并更新上下文变量(或三者的任何子集)。

sales_agent = Agent(name="Sales Agent")

def talk_to_sales():
   print("Hello, World!")
   return Result(
       value="Done",
       agent=sales_agent,
       context_variables={
   "department": "sales"}
   )

agent = Agent(functions=[talk_to_sales])

response = client.run(
   agent=agent,
   messages=[{
   "role": "user", "content": "Transfer me to sales"}],
   context_variables={
   "user_name": "John"}
)
print(response.agent.name)
print(response.context_variables)
Sales Agent
{'department': 'sales', 'user_name': 'John'}

[!NOTE]
如果一个Agent调用多个函数来交接给一个Agent,只有最后一个交接函数将被使用。

函数模式

Swarm自动将函数转换为JSON模式,该模式传递给Chat Completions tools

  • 文档字符串被转换为函数的description
  • 没有默认值的参数被设置为required
  • 类型提示被映射到参数的type(默认为string)。
  • 不支持每个参数的描述,但如果只是在文档字符串中添加,应该可以类似地工作。(将来可能会添加文档字符串参数解析。)
def greet(name, age: int, location: str = "New York"):
   ""“向用户打招呼。在调用之前,请确保获取他们的姓名和年龄。

   参数:
      name:用户的姓名。
      age:用户的年龄。
      location:地球上最好的地方。
   ”"
   print(f"Hello {name}, glad you are {age} in {location}!")
{
   
   "type": "function",
   "function": {
   
      "name": "greet",
      "description": "Greets the user. Make sure to get their name and age before calling.\n\nArgs:\n   name: Name of the user.\n   age: Age of the user.\n   location: Best place on earth.",
      "parameters": {
   
         "type": "object",
         "properties": {
   
            "name": {
   "type": "string"},
            "age": {
   "type": "integer"},
            "location": {
   "type": "string"}
         },
         "required": ["name", "age"]
      }
   }
}

流式传输

stream = client.run(agent, messages, stream=True)
for chunk in stream:
   print(chunk)

使用与Chat Completions API流式传输相同的事件。参见process_and_print_streaming_response/swarm/repl/repl.py中的示例。

增加了两个新的事件类型:

  • {"delim":"start"}{"delim":"end"},每次Agent处理单个消息(响应或函数调用)时发出信号。这有助于识别Agent之间的切换。
  • {"response": Response}将在流的末尾返回一个Response对象,包含聚合的(完整的)响应,以方便使用。

六、总结

Swarm Agent框架的发布标志着多智能体系统开发的一个新阶段。通过优化智能体的协调、执行和测试流程,Swarm使得开发者能够更加高效地管理、互动多个AI智能体。虽然目前该框架仍处于实验阶段,但它为开发者探索多智能体系统提供了新的思路和工具。

目录
相关文章
|
5月前
|
人工智能 监控 安全
提效40%?揭秘AI驱动的支付方式“一键接入”系统
本项目构建AI驱动的研发提效系统,通过Qwen Coder与MCP工具链协同,实现跨境支付渠道接入的自动化闭环。采用多智能体协作模式,结合结构化Prompt、任务拆解、流程管控与安全约束,显著提升研发效率与交付质量,探索大模型在复杂业务场景下的高采纳率编码实践。
677 26
提效40%?揭秘AI驱动的支付方式“一键接入”系统
|
5月前
|
人工智能 测试技术 API
构建AI智能体:二、DeepSeek的Ollama部署FastAPI封装调用
本文介绍如何通过Ollama本地部署DeepSeek大模型,结合FastAPI实现API接口调用。涵盖Ollama安装、路径迁移、模型下载运行及REST API封装全过程,助力快速构建可扩展的AI应用服务。
1774 6
|
5月前
|
人工智能 运维 安全
加速智能体开发:从 Serverless 运行时到 Serverless AI 运行时
在云计算与人工智能深度融合的背景下,Serverless 技术作为云原生架构的集大成者,正加速向 AI 原生架构演进。阿里云函数计算(FC)率先提出并实践“Serverless AI 运行时”概念,通过技术创新与生态联动,为智能体(Agent)开发提供高效、安全、低成本的基础设施支持。本文从技术演进路径、核心能力及未来展望三方面解析 Serverless AI 的突破性价值。
|
5月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
6795 91
|
5月前
|
人工智能 搜索推荐 数据可视化
当AI学会“使用工具”:智能体(Agent)如何重塑人机交互
当AI学会“使用工具”:智能体(Agent)如何重塑人机交互
660 115
|
5月前
|
人工智能 自然语言处理 安全
从工具到伙伴:AI代理(Agent)是下一场革命
从工具到伙伴:AI代理(Agent)是下一场革命
714 117
|
5月前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
2231 17
构建AI智能体:一、初识AI大模型与API调用
|
5月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
968 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
|
5月前
|
存储 人工智能 JSON
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
本文面向对 AI Coding 感兴趣的朋友介绍 Claude Code。通过此次分享,可以让没有体验过的快速体验,体验过的稍微理解其原理,以便后续更好地使用。
2794 18
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
|
5月前
|
存储 人工智能 搜索推荐
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
本文介绍基于LangGraph构建的双层记忆系统,通过短期与长期记忆协同,实现AI代理的持续学习。短期记忆管理会话内上下文,长期记忆跨会话存储用户偏好与决策,结合人机协作反馈循环,动态更新提示词,使代理具备个性化响应与行为进化能力。
1128 10
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习