AutoGen 架构演进全梳理:从 v0.4 到 Microsoft Agent Framework

简介: Microsoft AutoGen(2023–2025)是开创性多智能体开源框架,以“群聊式协作”替代单Prompt链,支持智能体对话、工具调用、代码执行与人工介入。v0.4达技术巅峰,后并入Microsoft Agent Framework(MAF)。其核心范式——LLM专家团队协同——已成行业标准。

Microsoft AutoGen 曾是构建 LLM 多智能体系统的标杆性开源框架。2023 年末由 Microsoft Research 发布后迅速成为研究人员和开发者的默认选择:智能体之间可以互相对话、调用工具、编写并执行代码、在流程中引入人类审批,以对话式的协调方式取代了单条长 Prompt 链条。

到 2026 年初,AutoGen v0.4(2025 年初重新设计的版本)是其技术上的巅峰之作。但是 2025 年末 Microsoft 正式把 AutoGen 与 Semantic Kernel 合并,统一为 Microsoft Agent Framework(MAF)。不过,很多人在谈到源自 AutoGen 的多智能体编排风格时依然习惯说"AutoGen"。本文梳理 AutoGen 的来龙去脉:它是什么、为什么重要、哪些核心设计在 2026 年仍然存续、v0.4/v0.7 时代的架构与典型用法、代码示例、利弊,以及当前的整体现状。

AutoGen 为什么在 2023–2024 年迅速走红

AutoGen 出现之前,LLM 的主流用法只有两种:单线程链式调用(LangChain 风格)和简单的工具调用智能体(ReAct 循环)。

AutoGen 带来了一套完全不同的心智模型——智能体是对话的参与者,整个系统就是一个群聊,有时有结构,有时自由发挥。智能体之间可以委派任务、互相批评与纠正、调用工具、编写并执行代码、向人类发起询问,在目标达成后自行终止。没有任何一个中央控制器需要提前知晓完整计划。

这套流程和人类解决复杂问题的方式高度吻合:分工、讨论、审查输出。早期几个病毒式传播的 demo(编码者 + 评审者 + 执行者联合解数学题、网络研究小组、股票分析团队)在许多任务上展现出比单智能体高 2–10 倍的表现。

AutoGen v0.4——大改版(2025)

v0.4(2025 年初发布)本质上是 AutoGen 2.0。旧的阻塞式同步 GroupChat 被三层新架构取代:autogen-core 负责底层事件驱动原语(RoutedAgent、订阅、发布/订阅消息传递);autogen-agentchat 是大多数人实际使用的高层 API(AssistantAgent、UserProxyAgent、GroupChat、initiate_chat);autogen-ext 则是可插拔的扩展层(OpenAI Assistant API、MCP 工作台、gRPC 分布式智能体等)。

核心改进包括完全异步化带来的更好可扩展性与可观测性、模块化的自定义组件(内存、模型、编排)、改进的错误恢复与检查点机制,以及跨语言支持的尝试——当然 Python 始终是主力。

2025 年末 / 2026 年初的典型安装方式:


 pip install -U"autogen-agentchat""autogen-ext[openai]"

经典双智能体模式(2026 年仍在使用和教学中)


from autogen import AssistantAgent, UserProxyAgent, config_list_from_json

# Usually load from OAI_CONFIG_LIST or env

config_list = config_list_from_json("OAI_CONFIG_LIST")

assistant = AssistantAgent(

name="helpful_engineer",

llm_config={"config_list": config_list},

system_message="You are a senior Python engineer. Write clean, efficient code."

)

user_proxy = UserProxyAgent(

name="user",

human_input_mode="NEVER", # NEVER / ALWAYS / TERMINATE

max_consecutive_auto_reply=10,

code_execution_config={"work_dir": "coding", "use_docker": False},

)

user_proxy.initiate_chat(

assistant,

message="Write a Python class that downloads daily OHLCV data from Yahoo Finance for any ticker and caches it in parquet."

)

短短几行代码就已经具备了完整的闭环:一个能做规划的 LLM 智能体、代码编写与本地执行、自动重试/错误修复循环、终止条件判定。

群聊——AutoGen 的标志性模式


from autogen import GroupChat, GroupChatManager

researcher = AssistantAgent(name="Researcher", system_message="Find latest information.", llm_config=llm_config)

critic = AssistantAgent(name="Critic", system_message="Be skeptical and point out flaws.", llm_config=llm_config)

writer = AssistantAgent(name="Writer", system_message="Write in engaging blog-post style.", llm_config=llm_config)

user_proxy = UserProxyAgent(name="User", code_execution_config=False, human_input_mode="TERMINATE")

groupchat = GroupChat(

agents=[user_proxy, researcher, critic, writer],

messages=[],

max_round=12

)

manager = GroupChatManager(

groupchat=groupchat,

llm_config=llm_config,

# speaker_selection_method="auto" / "round_robin" / custom func

)

user_proxy.initiate_chat(

manager,

message="Write a 800-word article about newest developments in small modular nuclear reactors in 2026."

)

2025–2026 年的实际项目中,5–12 个智能体的配置很常见:规划者 → 研究者 → 编码者 → 测试者 → 评审者 → 文档编写者 → 用户审批者,或干脆由智能体自行决定何时拆分子团队。

AutoGen 的突出优势

涌现行为是 AutoGen 最令人意外的特质:智能体经常以出乎预料的方式完成分工。人机协作的颗粒度做到了任意节点的审批与编辑,而非仅在流程末尾给一个是/否。代码执行能力让智能体能自己修复 bug形成"编写-运行-修复"的闭环。框架本身对实验非常宽容,规则容易打破,适合快速试错。社区围绕它衍生出了 MCP 支持、Perplexity 研究智能体、gRPC 扩展等一系列生态。

痛点(2024–2025)

成本是最直接的问题:一次 8 个智能体参与的 GPT-4o 对话,处理复杂任务时费用可达 5–30 美元。非确定性带来的复现与测试困难、长对话导致的 Token 爆炸和上下文窗口耗尽、调试时难以追溯"谁在什么时候说了什么",以及 v0.4 后期补丁出现之前几乎不存在的检查点/恢复机制,这些都是真实落地时绕不开的问题。

2025–2026 年的过渡——Microsoft Agent Framework(MAF)

2025 年 10 月,Microsoft 宣布 AutoGen 不再作为独立库接收重大功能更新。取而代之的是:AutoGen 的概念并入 Microsoft Agent Framework(Python 与 .NET 双语言支持),Semantic Kernel 负责企业级规划基础,AutoGen 部分则承载多智能体编排和对话模式。

MAF 延续了 AutoGen 的核心精神——对话式智能体、群聊编排、工具调用——但在此基础上补齐了工程化短板:内置检查点与恢复、基于 OpenTelemetry 的可观测性(追踪与指标)、对 MCP(Model Context Protocol)/A2A/OpenAPI 的原生支持、与 Azure AI Foundry / Dynamics 365 / M365 Copilot 的深度集成,以及将 Semantic Kernel 规划器与 AutoGen 风格团队混用的统一 SDK。

迁移指南很快就出现在 Microsoft Learn 和 GitHub 上。不过在 2026 年初仍有大量开源项目在使用旧的 autogen-agentchat 包——对于原型开发来说,它足够熟悉,也确实还能用。

当前状态(2026 年 3 月)

在原型开发、研究和教学场景中,经典 AutoGen v0.4 / v0.7 的代码依然随处可见。生产和企业环境则几乎全面转向 Microsoft Agent Framework,或正在迁移途中。社区围绕 MAF + AutoGen 风格模式保持着很高的活跃度。CrewAI、LangGraph、OpenAI Swarm、Magentic-One 等后来者,都或多或少借鉴了 AutoGen 率先提出的多智能体协作理念。

AutoGen 留下了什么

AutoGen 的贡献不止于一个库。它从根本上改变了开发者对 LLM 应用的认知框架——从"一个 Prompt 统治一切"转向"组建一支 LLM 专家团队,让它们彼此对话"。多智能体协作作为一等原语,到 2026 年已经渗透到整个行业。即便不再写一行 AutoGen 代码,日常使用的系统里大概率已经携带着 AutoGen 的基因。

框架本身作为独立产品已经"退役",但其架构思路深度嵌入了 Microsoft Agent Framework 和更广泛的智能体生态。2026 年 3 月起步的新项目应直接从 Microsoft Agent Framework 文档开始;维护旧代码或偏好原始简洁性的场景下,v0.4 agentchat API 大概率还能继续运行多年。

Microsoft Agent Framework(MAF)

Microsoft Agent Framework(MAF)是 Microsoft 当前一代的开源智能体框架,覆盖构建、编排、部署与管理的全流程,尤其面向多智能体系统。2025 年 10 月进入公开预览,它是两个前代项目的官方继任者:AutoGen 带来了对话式多智能体编排、涌现团队行为和面向研究的灵活性;Semantic Kernel 则贡献了企业级基础——类型安全、中间件、可观测性、插件/连接器体系以及生产稳定性。

到 2026 年初,MAF 已被定位为 Python 与 .NET 双语言智能体开发的统一长期路径,与 Azure AI Foundry 深度绑定,但同时保持完全开源和模型无关。

MAF 要解决的,正是 2024–2025 年开发者不断碰到的那道两难题:想快速做原型、让多个智能体自由协作,选 AutoGen;想要生产级的可靠性、追踪、持久化、类型安全和企业连接器,选 Semantic Kernel。MAF 在单个 SDK 和运行时中把两边的能力合到了一起——来自 AutoGen 的简洁智能体/团队抽象,来自 Semantic Kernel 的会话状态管理、中间件管道、OpenTelemetry、过滤器和检查点,再加上全新的一层:基于图的显式工作流,用于确定性的多智能体编排。

Python最小单智能体


from agent_framework import AIAgent

from azure.ai.openai import AzureOpenAIClient # or openai.OpenAI etc.

import os

client = AzureOpenAIClient(

endpoint=os.getenv("AZURE_OPENAI_ENDPOINT"),

credential=…, # DefaultAzureCredential() etc.

)

agent = client.get_chat_client("gpt-4o-mini").as_ai_agent(

instructions="You are a concise technical writer.",

name="TechWriter"

)

response = await agent.run("Explain Microsoft Agent Framework in one paragraph.")

print(response.content)

C#类似的最小智能体


using Azure.AI.OpenAI;

using Azure.Identity;

using Microsoft.Agents.AI;

var endpoint = Environment.GetEnvironmentVariable("AZURE_OPENAI_ENDPOINT");

var client = new AzureOpenAIClient(new Uri(endpoint), new AzureCliCredential());

var chatClient = client.GetChatClient("gpt-4o");

var agent = chatClient.AsAIAgent(

instructions: "You are a friendly assistant. Keep answers brief.",

name: "HelloAgent"

);

var response = await agent.InvokeAsync("Hello! Tell me about yourself.");

Console.WriteLine(response.Content);

多智能体群聊(风格上仍然很 AutoGen):2026 年初的多数示例在模式上与 AutoGen 0.4 群聊高度相似,区别在于底层多了持久性支持:


from agent_framework import GroupChat, GroupChatManager, AssistantAgent

# … define researcher, critic, writer agents …

group = GroupChat(

agents=[user_proxy, researcher, critic, writer],

max_rounds=15,

# now supports persistent session id, checkpointing, etc.

)

manager = GroupChatManager(group=group)

await user_proxy.initiate_chat(

manager,

message="Research & write 600-word post on SMR nuclear progress in 2026"

)

对话式群聊之外,MAF 新增了基于图/DAG 的工作流编排。节点可以是智能体、函数、条件判断或循环,执行路径是确定性的——非常适合业务流程与合规场景。单个节点内部仍然可以使用对话模式,类型安全的输入/输出在 .NET 中尤其顺手。Azure AI Foundry 在 2026 年初还提供了可视化工作流设计器的预览版。

GroupChat 和 Workflow 面向的场景有明确区分:前者适合开放式研究和调试,后者用于订单处理、贷款审批、事件响应一类必须按严格顺序和分支逻辑运行的流程。

继承自 AutoGen 的能力(在 MAF 中延续)

整合之前AutoGen 在 2024–2025 年多项学术/研究 Benchmark 上处于领先或并列位置。GAIA 基准测试(开放式推理)中,AutoGen 多智能体团队在 2024 年至 2025 年初频繁占据榜首,困难子集上的成功率通常在 70–85% 区间,单智能体同期为 40–60%。SWE-bench Verified(软件工程)上,多智能体 AutoGen 变体在代码修复任务中比单智能体高出 25–40%。Microsoft 的行业案例(如 Novo Nordisk 的数据科学流水线)报告了约 25% 的迭代周期缩短。

MAF 保留了这些对话/群聊模式,涌现能力基本得以继承,而新增的确定性图编排与持久化机制预计会在不过多牺牲灵活性的前提下提升整体可靠性。

总结

看学术/研究 Benchmark(GAIA、WebArena 等)经典 AutoGen 积累的排行榜成绩更多;MAF 因为发布晚(RC 阶段),相关数据还不充分。看生产可行性、一致性、延迟、可调试性、持久化、Azure 集成等早期数据指向 MAF RC 在开发者综合 Benchmark 和企业指标上领先多数替代方案。多数谨慎的采用者在等 3 月底的 GA 版本,届时 API 将稳定,文档和示例也会更完整,预计会带出一波来自 Foundry 和第三方的正式 Benchmark。

https://avoid.overfit.cn/post/c00881ddd6f34c5ebcb34c4a862cc977
by JOLALF

目录
相关文章
|
7天前
|
人工智能 安全 API
CoPaw:5分钟部署你的 AI助理
源自阿里巴巴开源生态的个人 AI 助理——CoPaw。作为阿里倾力打造的开源力作,CoPaw 完美打通钉钉、飞书、Discord 等多平台对话通道,支持定时任务自动化。内置 PDF/Office 深度处理、新闻摘要等强大技能,更开放自定义扩展接口。坚持数据全程私有化部署,绝不上传云端,让每一位用户都能在大厂技术加持下,拥有安全、专属的智能助手。
|
10天前
|
人工智能 自然语言处理 JavaScript
2026年Windows+Ollama本地部署OpenClaw保姆级教程:本地AI Agent+阿里云上快速搭建
2026年OpenClaw凭借本地部署、私有化运行的特性,成为打造个人智能体的核心工具,而Ollama作为轻量级本地大模型管理工具,能让OpenClaw摆脱对云端大模型的依赖,实现**本地推理、数据不泄露、全流程私有化**的智能体验。本文基于Windows 11系统,从硬件环境准备、Ollama安装与模型定制、OpenClaw部署配置、技能扩展到常见问题排查,打造保姆级本地部署教程,同时补充阿里云OpenClaw(Clawdbot)快速部署步骤,兼顾本地私有化需求与云端7×24小时运行需求,文中所有代码命令均可直接复制执行,确保零基础用户也能快速搭建属于自己的本地智能体。
11117 89
|
8天前
|
人工智能 安全 JavaScript
阿里云上+本地部署OpenClaw(小龙虾)新手攻略:解锁10大必备Skills,零基础也能玩转AI助手
2026年,开源AI代理工具OpenClaw(昵称“小龙虾”)凭借“能实际做事”的核心优势,在GitHub斩获25万+星标,成为现象级AI工具。它最强大的魅力在于可扩展的Skills(技能包)系统——通过ClawHub插件市场的数百个技能,能让AI助手从简单聊天升级为处理办公、学习、日常事务的全能帮手。
7073 23
|
9天前
|
人工智能 自然语言处理 机器人
保姆级教程:Mac本地搭建OpenClaw及阿里云上1分钟部署OpenClaw+飞书集成实战指南
OpenClaw(曾用名Clawdbot、Moltbot)作为2026年最热门的开源个人AI助手平台,以“自然语言驱动自动化”为核心,支持对接飞书、Telegram等主流通讯工具,可替代人工完成文件操作、日历管理、邮件处理等重复性工作。其模块化架构适配多系统环境,既可以在Mac上本地化部署打造私人助手,也能通过阿里云实现7×24小时稳定运行,完美兼顾隐私性与便捷性。
6679 13
|
6天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
5048 9
|
3天前
|
人工智能 JavaScript 测试技术
保姆级教程:OpenClaw阿里云及本地部署+Claude Code集成,打造全能 AI 编程助手
在AI编程工具百花齐放的2026年,Anthropic推出的Claude Code凭借72.5%的SWE-bench测试高分、25倍于GitHub Copilot的上下文窗口,成为开发者追捧的智能编程助手。但单一工具仍有局限——Claude Code擅长代码生成与审查,却缺乏灵活的部署与自动化执行能力;而OpenClaw(前身为Clawdbot)作为开源AI代理框架,能完美弥补这一短板,通过云端与本地双部署,实现“代码开发-测试-部署”全流程自动化。
2003 13
|
2天前
|
人工智能 安全 前端开发
Team 版 OpenClaw:HiClaw 开源,5 分钟完成本地安装
HiClaw 基于 OpenClaw、Higress AI Gateway、Element IM 客户端+Tuwunel IM 服务器(均基于 Matrix 实时通信协议)、MinIO 共享文件系统打造。
2761 7
|
11天前
|
人工智能 JSON JavaScript
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
手把手教你用 OpenClaw(v2026.2.22-2)+ 飞书,10分钟零代码搭建专属AI机器人!内置飞书插件,无需额外安装;支持Claude等主流模型,命令行一键配置。告别复杂开发,像聊同事一样自然对话。
6575 16
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
|
4天前
|
人工智能 JSON API
保姆级教程:OpenClaw阿里云及本地部署+模型切换流程+GLM5.0/Seedance2.0/MiniMax M2.5接入指南
2026年,GLM5.0、Seedance2.0、MiniMax M2.5等旗舰大模型相继发布,凭借出色的性能与极具竞争力的成本优势,成为AI工具的热门选择。OpenClaw作为灵活的AI Agent平台,支持无缝接入这些主流模型,通过简单配置即可实现“永久切换、快速切换、主备切换”三种模式,让不同场景下的任务执行更高效、更稳定。
2253 2