Orchestrator 为什么比 Agentic Loop 快:LLM 决策与执行分离的架构解析

简介: Orchestrator模式将LLM角色解耦:仅用两次调用——一次路由决策(定执行策略)、一次结果合成;中间执行由确定性代码完成,支持单Agent、并行扇出、顺序DAG三种模式,成本降70%,延迟减半,更适合高并发生产环境。

一个简单的agentic loop就是一个

while

循环,LLM 在其中决定做什么、执行工具、观察结果、再做决定。

这模式能用是可以用的不过有个最大的问题,就是费钱:

一个三 agent 查询要是用 agentic loop那么7 次 LLM 调用,4.2 秒,0.12 美元。如果用 orchestrator的话 2 次 LLM 调用,1.1 秒只要0.03 美元。同样的 agent同样的答案,却便宜 70%。

循环每转一圈就是一次 LLM 调用。每次调用多花 300-800ms 延迟和钱。简单的"调 check_greeting,再调 handle_hi",两次 LLM 路由没问题,但是

  • 为单个答案并行调三个 agent
  • 执行顺序计划,步骤 2 依赖步骤 1
  • 在生产中扛每秒几百个请求

agentic loop 就撑不住了。LLM 卡在每次决策的关键路径上,每次决策都会延迟。

所以最简单的方法就是,让 LLM 只规划一次然后不靠它执行

Orchestrator 模式只需要两次调用,不是十次

整个架构三步:

 User Query  
    ↓  
[STEP 1: ROUTE]     ← 一次 LLM 调用:"哪些 agent 来处理?"  
    ↓  
[STEP 2: EXECUTE]   ← 无 LLM:确定性调用 agent  
    ↓  
[STEP 3: SYNTHESIZE] ← 一次 LLM 调用:"把结果写成好答案"  
    ↓  
 Final Answer

LLM 两请求——一次定计划,一次写答案。中间全是应用代码在跑。没有循环,也没有不确定性,没有"LLM 会不会又调一个工具?"这样的问题。

一个处理三种查询类型的 orchestrator大概如下:

  1. 单 agent——"当前系统指标?"→ 路由到一个 agent
  2. 并行扇出——"给我指标和趋势分析"→ 同时调两个 agent
  3. 顺序 DAG——"检查异常,有则拉配置"→ 按依赖顺序调 agent

同样的 agent同样的工具,但 LLM 只做一次路由决策,剩下全是应用执行。

Agent 注册表作为发现协议

Agent 用一个简单的字典注册能力。不需要发现协议——你自己部署的 agent,你知道它们能做什么:

 REGISTRY = {  
    "data_agent__get_report": {  
        "agent": "Data Agent",  
        "description": "Fetch the latest report for a given entity",  
        "execute": get_report,  
    },  
    "analytics_agent__get_trends": {  
        "agent": "Analytics Agent",  
        "description": "Get historical trends and anomaly detection",  
        "execute": get_trends,  
    },  
    "config_agent__check_config": {  
        "agent": "Config Agent",  
        "description": "Check system configuration for a given component",  
        "execute": check_config,  
    },  
 }

线上部署时注册表放在 Redis 或数据库里,agent 通过 HTTP POST 注册。模式一样——技能名到执行函数的查找表。

LLM 把 agent 看成工具定义(JSON schema),但关键在第四个元工具

 {  
    "name": "plan_execution",  
    "description": "Use this ONLY when the query requires sequential steps "  
                   "where a later step DEPENDS on the result of an earlier step.",  
    "parameters": {  
        "properties": { "reason": {"type": "string"} },  
        "required": ["reason"]  
    },  
 }

plan_execution 不调任何 agent——它什么都不做。它是一个信号不是函数。LLM 选中它时,orchestrator 知道该切到顺序模式了。一次 LLM 调用、一组工具选择、三种执行策略——单 agent、并行、顺序——全由返回的工具决定。

第一步:一次 LLM 调用统管的路由器

路由器用 temperature=0.0(确定性)做一次 LLM 调用。LLM 唯一的工作是选工具。明确告诉它不要回答问题。

 SYSTEM_PROMPT = """You are a query router. Your ONLY job is to decide which tool(s) to call.  

Rules:  
- If the query needs ONE agent, call that one tool.  
- If the query needs MULTIPLE INDEPENDENT agents, call all of them.  
- If the query needs steps IN ORDER, call plan_execution.  

 Do NOT answer the user's question — just pick tools."""

单次调用:

 response = client.chat.completions.create(  
     model=deployment,  
     messages=[{"role": "system", "content": SYSTEM_PROMPT},  
               {"role": "user", "content": query}],  
     tools=TOOL_DEFINITIONS,  
     tool_choice="auto",  
     temperature=0.0,  
 )

整个路由逻辑非常简单

 tool_names = [tc.function.name for tc in reply.tool_calls]  

 if "plan_execution" in tool_names:   → mode = "sequential"  
 elif len(tool_names) == 1:            → mode = "single"  
 else:                                 → mode = "parallel"

LLM 返回结构化的工具调用,一个工具→单 agent。多个工具→并行。plan_execution 元工具→顺序。一次调用,三种策略。

第二步:不需要 LLM的执行器

这是 orchestrator 真正省成本的地方。执行器是纯 Python——没有 LLM、没有不确定性、没有延迟炸弹。三种模式:

Single——直接跑 agent:

 result = REGISTRY[tool_name]["execute"]()

Parallel——同时跑所有 agent:

 with concurrent.futures.ThreadPoolExecutor() as pool:  
     futures = {name: pool.submit(REGISTRY[name]["execute"]) for name in tool_names}  
     results = {name: f.result() for name, f in futures.items()}

Sequential——按顺序跑,传递上下文:

 for step in plan:  
     results[step["tool"]] = REGISTRY[step["tool"]]["execute"]()

零 LLM 消耗,所以线上部署时换成 asyncio.gather 加 HTTP 调用就行。

路由之后系统就和其他微服务编排没区别。延迟可预测,调试直来直去,可观测性用标准工具就够。"AI"被压到两层(路由和合成)里,中间全是确定性的执行,也方便调试。

第三步:润色答案的合成器

Agent 输出的是 JSON,用户要的是自然语言。再来一次 LLM 调用把数据转成响应:

 response = client.chat.completions.create(  
     model=deployment,  
     messages=[  
         {"role": "system", "content": "Summarize the agent results into a clear, helpful answer."},  
         {"role": "user", "content": f"User asked: {query}\nResults: {json.dumps(results)}"},  
     ],  
     temperature=0.7,  
 )

注意路由用 0.0、合成用 0.7是因为路由要精确,合成要可读。不同的工作所以需要不同参数。

三种查询,三种模式

完整管道就三个函数调用:

 decision = route_query(client, deployment, query)       # LLM 调用 1  
 results  = execute(decision)                            # 无 LLM  
 answer   = synthesize(client, deployment, query, results)  # LLM 调用 2

查询 1——Single:"当前系统指标?"→ 路由器选 data_agent__get_report → 执行器调它 → 合成器写摘要。

查询 2——Parallel:"给我指标和趋势分析"→ 路由器选两个 agent → 执行器同时调 → 合成器合并结果。

查询 3——Sequential:"检查异常,有则拉配置"→ 路由器选 plan_execution → 执行器先跑 analytics 再跑 config → 合成器解释链条。

同一个管道,三种执行策略,始终是两次 LLM 调用。

总结

Agentic loop 把 LLM 同时当大脑和手——每步既决策又执行。Orchestrator 把两者拆开:

  • LLM = 大脑 → 定计划(一次调用)
  • 应用 = 手 → 执行计划(确定性)
  • LLM = 嘴 → 解释结果(一次调用)

这套分离就是 orchestrator 能扩的原因。"大脑"(路由)可以缓存——相同查询在 temperature=0.0 下始终走相同路由。"手"(执行)就是 HTTP 调用。"嘴"(合成)是唯一的创造步骤。线上场景里,API 消费者如果要原始 JSON,连合成那一步都能省——压到每个请求一次 LLM 调用。

所以Agentic loop 适合前期的探索工作,而Orchestrator 适合生产。

https://avoid.overfit.cn/post/8c270e259b2a4172ac95d38d9ab68211

by Amogh Ubale

目录
相关文章
|
18天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
6835 30
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
3天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
605 138
|
3天前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1145 0
|
10天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1171 1
|
13天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1272 3
|
11天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
982 5
|
9天前
|
人工智能 自然语言处理 安全
Vibe Coding 实战:别盲目跟风,先分清 vibe coding 适合什么场景
本文系统总结vibe coding实战经验:明确其适用场景(原型、小工具、标准化模块),剖析5步落地流程(场景判定→结构化提示词→目录初始化→分模块生成→自动化校验),指出四大常见误区,并推荐适配工具Trae。强调“场景匹配+规则前置”是提效关键,避免盲目套用。
806 1