一、背景：多Agent协同的生产困境

大型语言模型（LLM）驱动的多Agent系统正从实验阶段走向生产部署。

然而，2025年一项覆盖1600余条执行轨迹的系统性研究表明，多Agent LLM系统在生产环境中的失败率高达41%至87%，这些失败大多并非源于模型能力不足，而是协调机制缺陷：角色边界模糊、任务交接混乱、幻觉在Agent间级联放大、缺乏有效的质量守门人。

MetaGPT提出的"Code = SOP(Team)"理念、CrewAI的"Agent-Task-Crew-Tools"四元架构，以及生产实践中普遍发现的"Agent专业化优于通用化"原则，都指向同一个方向：多Agent系统的核心竞争力不在于单Agent的智能上限，而在于协同机制的设计质量。
本文以"枢衡"集群的架构升级实践为例，系统阐述了一套从松散协同到战略生产的方案。

二、架构设计：五角色认知生产链

枢衡集群采用五角色流水线架构，按"信息进入→事实审查→战略抽象→流程调度→成果交付"的认知生产链划分职责。每个角色承担一个不可替代的环节：

角色	核心职责	关键纪律
RDD	事实、数据、弱信号、竞争态势的采集	可开放采集，不可越权下结论
CAD	幻觉拆解、逻辑跳跃识别、证据不足审查	宁可错杀，不可放过
SDC	问题定义、框架建立、战略判断形成	每个结论须接受反论攻击
EMD	任务拆解、流程控制、质量门管理	不创造内容，只保证流程不失控
EOD	成果交付、商业化表达	可优化表达，不可篡改战略判断

这条流水线的设计原则是按认知环节划分，而非按能力高低划分。

RDD的价值在于"将外部信息引入系统"，CAD的价值在于"将不可靠信息剔除"，二者之间形成必要的对抗张力。

SDC的战略输出必须遵循SAOF-C结构：Statement（战略命题）、Assertion（可验证主张）、Observation（事实观察）、Finding（结论发现）、Counterargument（反论），其中Counterargument为强制项，无反论的结论不应进入下游。

标准协同链路为：RDD采集证据与弱信号 → CAD对证据与逻辑进行攻击 → SDC整合出战略框架与反论 → EOD形成正式交付物 → CAD在G4阶段复查幻觉和逻辑断裂 → EMD通过G1-G5控制节奏。

三、Skill收敛：以减法强化角色边界

角色边界确立后，一个常见的设计陷阱是Skill配置过度。当RDD拥有文案写作Skill时，倾向于越权生成报告；当EOD拥有市场分析Skill时，倾向于越权做出判断。Skill越多，角色边界越模糊。

枢衡集群对此采取了严格的Skill数量限制，每个角色的Skill不超过25个，CAD作为审议角色刻意压缩至13个。收敛遵循四条原则：

原则	含义
角色必要性	Skill必须服务于该角色的核心职责
高频性	未来工作中经常使用的技能优先保留
不可替代性	通用搜索/写作能完成的果断删除
分工清晰	允许必要重复，但使用目的必须不同

以customer-voice-analyzer为例，该Skill在三个角色中重复配置，但使用目的截然不同：
R
DD用于提取消费者声音建立证据源，
CAD用于寻找负面证据攻击产品假设，
SDC用于抽象成需求结构和战略机会。

这种同Skill异目的的设计，防止了"所有人都会一点，所以所有人都乱用"的边界稀释问题。

四、信誉积分：多Agent系统的免疫机制

信誉机制是多Agent系统从"能运行"到"运行稳定"的关键基础设施。2025年，RepuNet研究表明，无信誉系统时多Agent合作率低于20%，引入信誉框架后合作率攀升至85%。ACL 2025年的Credibility Score框架则证明，信誉机制能够在恶意Agent占多数的情况下维持系统稳定。

枢衡集群的信誉积分体系由CAD统一管理，记录在CREDIBILITY_LEDGER.md中。全员初始分值100分，规则如下：

扣分项：

违规类型	扣分	触发条件
致命幻觉	-15	捏造数据、虚构事实、伪造引用源
逻辑跳跃	-10	缺乏证据支撑的断言
边界越权	-5	角色职责范围外的操作

加分项：

贡献类型	加分	触发条件
盲区击穿	+10	挖掘反共识但被数据证实的关键弱信号
完美抗压	+5	在CAD极限压力测试下无明显破绽
涌现重构	+5	基于事实提出创新且逻辑闭环的新方案

阈值机制：

积分区间	状态	系统行为
≥120	高度信任	输出享有更高优先级，审查停留时间缩短
80-119	正常	标准流程
<80	警告	触发强制复盘，须使用self-improvement剖析失分项
<60	逻辑熔断	重置当前节点

值得注意的是，监督者也被监督：CAD若漏掉明显幻觉或逻辑漏洞并被指出，自身直接扣20分。这一设计避免了监督角色成为系统中的"特权节点"。

五、双模式工作法与质量门

并非所有任务都适用同一套流程。枢衡集群区分两种工作形态：

调度模式适用于目标清楚、产出形态明确、需要快速推进的任务。EMD负责拆解任务并分派，成员按顺序或并行完成，最终由一个角色汇总。核心追求是按时交付，不追求多轮争辩。

群体模式适用于问题复杂、边界不清、需要创新或战略判断的任务。RDD提供开放信息，CAD攻击逻辑漏洞，SDC建立战略框架，EOD判断能否落地，EMD控制节奏。核心追求是产生深度洞察。

无论哪种模式，EMD都通过G1-G5质量门控制节奏：

质量门	内容	关键产出
G1	明确需求	任务范围、交付标准、时间约束
G2	建立框架	方法论、分析维度、信息来源
G3	形成初稿	第一轮输出
G4	审议与修订	CAD复查幻觉和逻辑断裂，记录信誉变动
G5	最终交付	正式成果物，附证据状态标注

模式选择规则为：答案已知→调度模式，答案未知→群体模式，从模糊变清晰→先群体后调度。

六、通信纪律：从广播到任务路由

多Agent系统的隐形杀手之一是通信混乱——误触发、循环依赖、上下文稀释、隐性假设传播。枢衡集群通过以下机制进行规范：

1.@mention触发机制：仅当需要某个Agent立即开始具体任务时使用@触发。引用观点、总结结果、说明计划时不应使用触发符号，以避免误启动和循环依赖。

2.Belief Base纪律：所有数据标注为Confirmed（有可靠来源、可验证）或Disputed（来源存疑、存在矛盾）。SDC不可基于Disputed信息做出战略判断，CAD须在G4阶段将所有结论追溯到Confirmed状态的证据。

3.上下文管理：关键决策须显性记录，防止下游Agent基于错误理解继续工作。

七、设计取舍：知识约束与认知多样性

在架构演进过程中，一个具有代表性的设计决策涉及知识约束的边界划定。早期版本中，集群被设定了从ACCA（特许公认会计师）和CPA（注册会计师）视角分析问题的知识约束，意图通过财务专业框架提升输出的严谨性。

实践结果表明，这一约束产生了与预期相反的效果。

ACCA/CPA的知识体系擅长对已有财务信息进行合规性审查、风险评估和标准化报告，但面对快速变化的市场环境、非结构化新兴业态以及需要跨学科整合的战略判断时，这套框架限制了集群的商业敏锐度和创新张力。

更深层的问题在于，预设的知识框架与角色分工产生了结构性冲突：SDC在构建战略判断时被拉回了财务审计的窄巷，RDD在采集社交媒体、评论区等非结构化信息时，会计学科的严谨性要求抑制了其对弱信号的敏感度。

知识约束的另一副作用是认知同质化。当五个角色共享同一套思维框架时，群体智能所依赖的认知多样性被削弱。对抗性协作（RDD的开放采集与CAD的严格审查之间的张力）需要不同的认知视角才能产生深度洞察。

最终的解决方案是删除全体Agent的ACCA/CPA通用知识约束，改为按任务需要自主调用。CAD在审查财务模型时仍可调用会计准则，EOD在制作财务报告时仍遵循CPA规范，但SDC在思考战略时不再受这套框架的边界限制，RDD在采集信息时也不必每条数据都先做会计合规性判断。

结果表明，这一"减法"反而提升了输出的严谨性。

当知识不再被预先灌入，Agent必须通过搜索、验证和交叉比对来建立自己的知识基础，这个过程中的事实核查意识比任何预设框架都更可靠。这一观察与DRF（Dynamic Reputation Filtering）框架的研究结论一致——系统的可靠性来源于动态验证机制，而非静态知识预设。

这一案例表明，多Agent系统的约束设计需要在两个维度上寻找平衡：纵向维度上，用角色分工和流程纪律保证协作秩序；横向维度上，用知识自由度保证认知多样性。过度约束与过度放开同样有害。

八、与现有框架的对比

将枢衡的架构设计与现有主流多Agent框架进行对比，可以更清晰地定位其设计特点：

维度	MetaGPT	CrewAI	枢衡
角色分工	软件工程SOP（PM→架构→开发→QA）	通用Agent-Task-Crew	认知生产链（信息→审议→战略→统筹→执行）
质量机制	代码评审与测试	任务回调与重试	G1-G5质量门 + CAD审议 + 信誉积分
协作模式	流水线串行	任务并行	调度模式（串行）+ 群体模式（张力协作）
信誉/进化	无	无	动态信誉积分（扣分/加分/阈值）
通信控制	消息总线	任务上下文传递	@mention触发 + Belief Base纪律

MetaGPT的优势在于将软件工程流程编码为SOP，适合代码生成场景；CrewAI的优势在于模块化和易用性，适合快速原型开发。枢衡的设计则更侧重于战略决策类任务：这类任务的核心挑战不是执行效率，而是信息质量、逻辑严谨性和认知多样性。

九、总结

枢衡集群的架构升级围绕五个核心机制展开：五角色认知生产链确保分工清晰，Skill收敛防止边界稀释，信誉积分提供进化压力，双模式工作法适配不同任务特征，通信纪律保证信息流转可控。

当前集群已具备可运行的基本形态。下一步的演进方向是通过真实任务持续校准机制，保留任务路由记录、证据状态记录和信用变动记录三类数据，让"信息→怀疑→战略→流程→交付"的闭环在信誉积分的进化压力下持续优化。

对于正在设计多Agent协同系统的开发者，以下三条原则可供参考：

1.先定义角色边界，再配置能力工具。角色分工是架构的骨架，Skill是肌肉，骨架不正则肌肉失衡；
2.先建立质量门，再追求输出速度。没有质量守门人的系统，输出速度越快，幻觉传播越快；
3.先引入信誉压力，再期待系统进化。无差异化的信任机制会让集群陷入平均主义状态，丧失自主净化能力。

协同机制的设计质量，决定了多Agent系统的实际天花板。

【看山 Agent 架构】

工信部 AI 技术应用（高级）认证

30次集群崩溃复盘 | 20+智能体实战

深耕 Agent 集群架构，用商科思维重构复杂系统效率

注：本文内容由 AI 辅助创作，作者对内容结果负责

多Agent协同系统：从"协作工具"到"战略生产系统"的架构演进

一、背景：多Agent协同的生产困境

二、架构设计：五角色认知生产链

三、Skill收敛：以减法强化角色边界

四、信誉积分：多Agent系统的免疫机制

五、双模式工作法与质量门

六、通信纪律：从广播到任务路由

七、设计取舍：知识约束与认知多样性

八、与现有框架的对比

九、总结

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

多Agent协同系统：从"协作工具"到"战略生产系统"的架构演进

一、背景：多Agent协同的生产困境

二、架构设计：五角色认知生产链

三、Skill收敛：以减法强化角色边界

四、信誉积分：多Agent系统的免疫机制

五、双模式工作法与质量门

六、通信纪律：从广播到任务路由

七、设计取舍：知识约束与认知多样性

八、与现有框架的对比

九、总结

热门文章

最新文章

相关电子书