swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发

简介: Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】

Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。

Swarm专注于使代理的协调执行轻量级、高度可控且易于测试。

它通过两个原始抽象:Agents和交接来实现这一点。一个Agent包含instructionstools,并且在任何时候都可以选择将对话交接给另一个Agent

这些原始抽象足够强大,可以表达工具和代理网络之间的丰富动态,允许您构建可扩展的、现实世界的解决方案,同时避免陡峭的学习曲线。

一、安装

需要Python 3.10+

pip install git+ssh://git@github.com/openai/swarm.git

或者

pip install git+https://github.com/openai/swarm.git

二、简易使用方法

from swarm import Swarm, Agent

client = Swarm()

def transfer_to_agent_b():
    return agent_b


agent_a = Agent(
    name="Agent A",
    instructions="You are a helpful agent.",
    functions=[transfer_to_agent_b],
)

agent_b = Agent(
    name="Agent B",
    instructions="Only speak in Haikus."
)

response = client.run(
    agent=agent_a,
    messages=[{
   "role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])

三、为什么选择Swarm

Swarm探索了轻量级、可扩展且高度可定制的设计模式。类似于Swarm的方法最适合处理大量独立能力和难以编码到单个提示中的指令的情况。

Assistants API是寻找完全托管的线程和内置的内存管理和检索的开发者的一个很好的选择。然而,Swarm是一个教育资源,供对多代理编排感兴趣的开发者学习。Swarm(几乎)完全在客户端上运行,并且像Chat Completions API一样,在调用之间不存储状态。

四、运行Swarm

首先,实例化一个Swarm客户端(它内部只是实例化一个OpenAI客户端)。

from swarm import Swarm

client = Swarm()

client.run()

Swarm的run()函数类似于Chat Completions API中的chat.completions.create()函数——它接受messages并返回messages,并且在调用之间不保存任何状态。然而,它还处理代理函数执行、交接、上下文变量引用,并且可以在返回给用户之前进行多次轮流。

在其核心,Swarm的client.run()实现了以下循环:

  1. 从当前代理获取一个完成
  2. 执行工具调用并追加结果
  3. 如有必要,切换代理
  4. 如有必要,更新上下文变量
  5. 如果没有新的函数调用,返回

参数

参数 类型 描述 默认
agent Agent 要调用的(初始)代理。 (必需)
messages List 消息对象列表,与Chat Completions messages相同 (必需)
context_variables dict 额外的上下文变量字典,可供函数和代理指令使用 {}
max_turns int 允许的最大对话轮流次数 float("inf")
model_override str 一个可选字符串,用于覆盖代理使用的模型 None
execute_tools bool 如果为False,在代理尝试调用函数时中断执行并立即返回tool_calls消息 True
stream bool 如果为True,启用流式响应 False
debug bool 如果为True,启用调试日志 False

一旦client.run()完成(在可能对代理和工具进行多次调用之后),它将返回一个Response,其中包含所有相关的更新状态。具体来说,新的messages,最后一个被调用的Agent,以及最新的context_variables。您可以将这些值(加上新的用户消息)传递到下一次的client.run()执行中,以继续中断的交互——非常类似于chat.completions.create()。(run_demo_loop函数在/swarm/repl/repl.py中实现了完整的执行循环的一个示例。)

Response 字段

字段 类型 描述
messages List 在对话期间生成的消息对象列表。与Chat Completions messages非常相似,但有一个sender字段,指示消息来自哪个Agent
agent Agent 处理消息的最后一个代理。
context_variables dict 与输入变量相同,加上任何更改。

五、代理

一个Agent简单地封装了一组instructions和一组functions(以及一些额外的设置),并且有能力将执行交接给另一个Agent

虽然将一个Agent拟人化为“做X的人”是诱人的,但它也可以用来表示由一组instructionsfunctions定义的非常具体的工作流程或步骤(例如一组步骤、复杂的检索、单个数据转换步骤等)。这允许Agents被组合成一个由“代理”、“工作流程”和“任务”组成的网络,所有这些都由相同的原始表示。

Agent 字段

字段 类型 描述 默认
name str 代理的名称。 "Agent"
model str 代理使用的模型。 "gpt-4o"
instructions strfunc() -> str 代理的指令,可以是字符串或返回字符串的可调用。 "You are a helpful agent."
functions List 代理可以调用的函数列表。 []
tool_choice str 代理的工具选择,如果有的话。 None

指令

Agent instructions直接转换为对话的system提示(作为第一条消息)。在任何给定时间,只有活动Agentinstructions会出现(例如,如果有Agent交接,system提示将更改,但聊天历史不会。)

agent = Agent(
   instructions="You are a helpful agent."
)

instructions可以是常规的str,或者是返回str的函数。该函数可以选择接收一个context_variables参数,该参数将由传递给client.run()context_variables填充。

def instructions(context_variables):
   user_name = context_variables["user_name"]
   return f"Help the user, {user_name}, do whatever they want."

agent = Agent(
   instructions=instructions
)
response = client.run(
   agent=agent,
   messages=[{
   "role":"user", "content": "Hi!"}],
   context_variables={
   "user_name":"John"}
)
print(response.messages[-1]["content"])
Hi John, how can I assist you today?

功能

  • Swarm Agents可以直接调用Python函数。
  • 函数通常应该返回一个str(值将尝试被转换为str)。
  • 如果一个函数返回一个Agent,执行将被转移到该Agent
  • 如果一个函数定义了一个context_variables参数,它将由传递给client.run()context_variables填充。
def greet(context_variables, language):
   user_name = context_variables["user_name"]
   greeting = "Hola" if language.lower() == "spanish" else "Hello"
   print(f"{greeting}, {user_name}!")
   return "Done"

agent = Agent(
   functions=[greet]
)

client.run(
   agent=agent,
   messages=[{
   "role": "user", "content": "Usa greet() por favor."}],
   context_variables={
   "user_name": "John"}
)
Hola, John!
  • 如果一个Agent函数调用有错误(缺少函数、错误的参数、错误),则会将错误响应追加到聊天中,以便Agent可以优雅地恢复。
  • 如果Agent调用了多个函数,它们将按顺序执行。

交接和更新上下文变量

一个Agent可以通过在function中返回另一个Agent来交接。

sales_agent = Agent(name="Sales Agent")

def transfer_to_sales():
   return sales_agent

agent = Agent(functions=[transfer_to_sales])

response = client.run(agent, [{
   "role":"user", "content":"Transfer me to sales."}])
print(response.agent.name)
Sales Agent

它也可以通过返回一个更完整的Result对象来更新context_variables。这也可以包含一个value和一个agent,以防您想要一个函数返回一个值,更新代理,并更新上下文变量(或三者的任何子集)。

sales_agent = Agent(name="Sales Agent")

def talk_to_sales():
   print("Hello, World!")
   return Result(
       value="Done",
       agent=sales_agent,
       context_variables={
   "department": "sales"}
   )

agent = Agent(functions=[talk_to_sales])

response = client.run(
   agent=agent,
   messages=[{
   "role": "user", "content": "Transfer me to sales"}],
   context_variables={
   "user_name": "John"}
)
print(response.agent.name)
print(response.context_variables)
Sales Agent
{'department': 'sales', 'user_name': 'John'}

[!NOTE]
如果一个Agent调用多个函数来交接给一个Agent,只有最后一个交接函数将被使用。

函数模式

Swarm自动将函数转换为JSON模式,该模式传递给Chat Completions tools

  • 文档字符串被转换为函数的description
  • 没有默认值的参数被设置为required
  • 类型提示被映射到参数的type(默认为string)。
  • 不支持每个参数的描述,但如果只是在文档字符串中添加,应该可以类似地工作。(将来可能会添加文档字符串参数解析。)
def greet(name, age: int, location: str = "New York"):
   ""“向用户打招呼。在调用之前,请确保获取他们的姓名和年龄。

   参数:
      name:用户的姓名。
      age:用户的年龄。
      location:地球上最好的地方。
   ”"
   print(f"Hello {name}, glad you are {age} in {location}!")
{
   
   "type": "function",
   "function": {
   
      "name": "greet",
      "description": "Greets the user. Make sure to get their name and age before calling.\n\nArgs:\n   name: Name of the user.\n   age: Age of the user.\n   location: Best place on earth.",
      "parameters": {
   
         "type": "object",
         "properties": {
   
            "name": {
   "type": "string"},
            "age": {
   "type": "integer"},
            "location": {
   "type": "string"}
         },
         "required": ["name", "age"]
      }
   }
}

流式传输

stream = client.run(agent, messages, stream=True)
for chunk in stream:
   print(chunk)

使用与Chat Completions API流式传输相同的事件。参见process_and_print_streaming_response/swarm/repl/repl.py中的示例。

增加了两个新的事件类型:

  • {"delim":"start"}{"delim":"end"},每次Agent处理单个消息(响应或函数调用)时发出信号。这有助于识别Agent之间的切换。
  • {"response": Response}将在流的末尾返回一个Response对象,包含聚合的(完整的)响应,以方便使用。

六、总结

Swarm Agent框架的发布标志着多智能体系统开发的一个新阶段。通过优化智能体的协调、执行和测试流程,Swarm使得开发者能够更加高效地管理、互动多个AI智能体。虽然目前该框架仍处于实验阶段,但它为开发者探索多智能体系统提供了新的思路和工具。

目录
相关文章
|
9天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
90 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
10天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
72 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
13天前
|
存储 人工智能
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。
44 7
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
|
18天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
66 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
5天前
|
人工智能 安全 算法
CAMEL AI 上海黑客松重磅来袭!快来尝试搭建你的第一个多智能体系统吧!
掌握多智能体系统,🐫 CAMEL-AI Workshop & 黑客马拉松即将启航!
|
17天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
35 7
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
52 10
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
5天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状与面临的挑战,旨在为读者提供一个全面的视角,了解AI如何改变传统医疗模式,以及这一变革过程中所伴随的技术、伦理和法律问题。通过分析AI技术的优势和局限性,本文旨在促进对AI在医疗领域应用的更深层次理解和讨论。
|
10天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
下一篇
DataWorks