一、背景:多Agent协同的生产困境
大型语言模型(LLM)驱动的多Agent系统正从实验阶段走向生产部署。
然而,2025年一项覆盖1600余条执行轨迹的系统性研究表明,多Agent LLM系统在生产环境中的失败率高达41%至87%,这些失败大多并非源于模型能力不足,而是协调机制缺陷:角色边界模糊、任务交接混乱、幻觉在Agent间级联放大、缺乏有效的质量守门人。
MetaGPT提出的"Code = SOP(Team)"理念、CrewAI的"Agent-Task-Crew-Tools"四元架构,以及生产实践中普遍发现的"Agent专业化优于通用化"原则,都指向同一个方向:多Agent系统的核心竞争力不在于单Agent的智能上限,而在于协同机制的设计质量。
本文以"枢衡"集群的架构升级实践为例,系统阐述了一套从松散协同到战略生产的方案。

二、架构设计:五角色认知生产链
枢衡集群采用五角色流水线架构,按"信息进入→事实审查→战略抽象→流程调度→成果交付"的认知生产链划分职责。每个角色承担一个不可替代的环节:
| 角色 | 核心职责 | 关键纪律 |
|---|---|---|
| RDD | 事实、数据、弱信号、竞争态势的采集 | 可开放采集,不可越权下结论 |
| CAD | 幻觉拆解、逻辑跳跃识别、证据不足审查 | 宁可错杀,不可放过 |
| SDC | 问题定义、框架建立、战略判断形成 | 每个结论须接受反论攻击 |
| EMD | 任务拆解、流程控制、质量门管理 | 不创造内容,只保证流程不失控 |
| EOD | 成果交付、商业化表达 | 可优化表达,不可篡改战略判断 |
这条流水线的设计原则是按认知环节划分,而非按能力高低划分。
RDD的价值在于"将外部信息引入系统",CAD的价值在于"将不可靠信息剔除",二者之间形成必要的对抗张力。
SDC的战略输出必须遵循SAOF-C结构:Statement(战略命题)、Assertion(可验证主张)、Observation(事实观察)、Finding(结论发现)、Counterargument(反论),其中Counterargument为强制项,无反论的结论不应进入下游。
标准协同链路为:RDD采集证据与弱信号 → CAD对证据与逻辑进行攻击 → SDC整合出战略框架与反论 → EOD形成正式交付物 → CAD在G4阶段复查幻觉和逻辑断裂 → EMD通过G1-G5控制节奏。
三、Skill收敛:以减法强化角色边界
角色边界确立后,一个常见的设计陷阱是Skill配置过度。当RDD拥有文案写作Skill时,倾向于越权生成报告;当EOD拥有市场分析Skill时,倾向于越权做出判断。Skill越多,角色边界越模糊。
枢衡集群对此采取了严格的Skill数量限制,每个角色的Skill不超过25个,CAD作为审议角色刻意压缩至13个。收敛遵循四条原则:
| 原则 | 含义 |
|---|---|
| 角色必要性 | Skill必须服务于该角色的核心职责 |
| 高频性 | 未来工作中经常使用的技能优先保留 |
| 不可替代性 | 通用搜索/写作能完成的果断删除 |
| 分工清晰 | 允许必要重复,但使用目的必须不同 |
以customer-voice-analyzer为例,该Skill在三个角色中重复配置,但使用目的截然不同:
R
DD用于提取消费者声音建立证据源,
CAD用于寻找负面证据攻击产品假设,
SDC用于抽象成需求结构和战略机会。
这种同Skill异目的的设计,防止了"所有人都会一点,所以所有人都乱用"的边界稀释问题。
四、信誉积分:多Agent系统的免疫机制
信誉机制是多Agent系统从"能运行"到"运行稳定"的关键基础设施。2025年,RepuNet研究表明,无信誉系统时多Agent合作率低于20%,引入信誉框架后合作率攀升至85%。ACL 2025年的Credibility Score框架则证明,信誉机制能够在恶意Agent占多数的情况下维持系统稳定。
枢衡集群的信誉积分体系由CAD统一管理,记录在CREDIBILITY_LEDGER.md中。全员初始分值100分,规则如下:
扣分项:
| 违规类型 | 扣分 | 触发条件 |
|---|---|---|
| 致命幻觉 | -15 | 捏造数据、虚构事实、伪造引用源 |
| 逻辑跳跃 | -10 | 缺乏证据支撑的断言 |
| 边界越权 | -5 | 角色职责范围外的操作 |
加分项:
| 贡献类型 | 加分 | 触发条件 |
|---|---|---|
| 盲区击穿 | +10 | 挖掘反共识但被数据证实的关键弱信号 |
| 完美抗压 | +5 | 在CAD极限压力测试下无明显破绽 |
| 涌现重构 | +5 | 基于事实提出创新且逻辑闭环的新方案 |
阈值机制:
| 积分区间 | 状态 | 系统行为 |
|---|---|---|
| ≥120 | 高度信任 | 输出享有更高优先级,审查停留时间缩短 |
| 80-119 | 正常 | 标准流程 |
| <80 | 警告 | 触发强制复盘,须使用self-improvement剖析失分项 |
| <60 | 逻辑熔断 | 重置当前节点 |

值得注意的是,监督者也被监督:CAD若漏掉明显幻觉或逻辑漏洞并被指出,自身直接扣20分。这一设计避免了监督角色成为系统中的"特权节点"。
五、双模式工作法与质量门
并非所有任务都适用同一套流程。枢衡集群区分两种工作形态:
调度模式适用于目标清楚、产出形态明确、需要快速推进的任务。EMD负责拆解任务并分派,成员按顺序或并行完成,最终由一个角色汇总。核心追求是按时交付,不追求多轮争辩。
群体模式适用于问题复杂、边界不清、需要创新或战略判断的任务。RDD提供开放信息,CAD攻击逻辑漏洞,SDC建立战略框架,EOD判断能否落地,EMD控制节奏。核心追求是产生深度洞察。

无论哪种模式,EMD都通过G1-G5质量门控制节奏:
| 质量门 | 内容 | 关键产出 |
|---|---|---|
| G1 | 明确需求 | 任务范围、交付标准、时间约束 |
| G2 | 建立框架 | 方法论、分析维度、信息来源 |
| G3 | 形成初稿 | 第一轮输出 |
| G4 | 审议与修订 | CAD复查幻觉和逻辑断裂,记录信誉变动 |
| G5 | 最终交付 | 正式成果物,附证据状态标注 |

模式选择规则为:答案已知→调度模式,答案未知→群体模式,从模糊变清晰→先群体后调度。
六、通信纪律:从广播到任务路由
多Agent系统的隐形杀手之一是通信混乱——误触发、循环依赖、上下文稀释、隐性假设传播。枢衡集群通过以下机制进行规范:
1.@mention触发机制:仅当需要某个Agent立即开始具体任务时使用@触发。引用观点、总结结果、说明计划时不应使用触发符号,以避免误启动和循环依赖。
2.Belief Base纪律:所有数据标注为Confirmed(有可靠来源、可验证)或Disputed(来源存疑、存在矛盾)。SDC不可基于Disputed信息做出战略判断,CAD须在G4阶段将所有结论追溯到Confirmed状态的证据。
3.上下文管理:关键决策须显性记录,防止下游Agent基于错误理解继续工作。
七、设计取舍:知识约束与认知多样性
在架构演进过程中,一个具有代表性的设计决策涉及知识约束的边界划定。早期版本中,集群被设定了从ACCA(特许公认会计师)和CPA(注册会计师)视角分析问题的知识约束,意图通过财务专业框架提升输出的严谨性。
实践结果表明,这一约束产生了与预期相反的效果。
ACCA/CPA的知识体系擅长对已有财务信息进行合规性审查、风险评估和标准化报告,但面对快速变化的市场环境、非结构化新兴业态以及需要跨学科整合的战略判断时,这套框架限制了集群的商业敏锐度和创新张力。
更深层的问题在于,预设的知识框架与角色分工产生了结构性冲突:SDC在构建战略判断时被拉回了财务审计的窄巷,RDD在采集社交媒体、评论区等非结构化信息时,会计学科的严谨性要求抑制了其对弱信号的敏感度。
知识约束的另一副作用是认知同质化。当五个角色共享同一套思维框架时,群体智能所依赖的认知多样性被削弱。对抗性协作(RDD的开放采集与CAD的严格审查之间的张力)需要不同的认知视角才能产生深度洞察。
最终的解决方案是删除全体Agent的ACCA/CPA通用知识约束,改为按任务需要自主调用。CAD在审查财务模型时仍可调用会计准则,EOD在制作财务报告时仍遵循CPA规范,但SDC在思考战略时不再受这套框架的边界限制,RDD在采集信息时也不必每条数据都先做会计合规性判断。
结果表明,这一"减法"反而提升了输出的严谨性。
当知识不再被预先灌入,Agent必须通过搜索、验证和交叉比对来建立自己的知识基础,这个过程中的事实核查意识比任何预设框架都更可靠。这一观察与DRF(Dynamic Reputation Filtering)框架的研究结论一致——系统的可靠性来源于动态验证机制,而非静态知识预设。
这一案例表明,多Agent系统的约束设计需要在两个维度上寻找平衡:纵向维度上,用角色分工和流程纪律保证协作秩序;横向维度上,用知识自由度保证认知多样性。过度约束与过度放开同样有害。
八、与现有框架的对比
将枢衡的架构设计与现有主流多Agent框架进行对比,可以更清晰地定位其设计特点:
| 维度 | MetaGPT | CrewAI | 枢衡 |
|---|---|---|---|
| 角色分工 | 软件工程SOP(PM→架构→开发→QA) | 通用Agent-Task-Crew | 认知生产链(信息→审议→战略→统筹→执行) |
| 质量机制 | 代码评审与测试 | 任务回调与重试 | G1-G5质量门 + CAD审议 + 信誉积分 |
| 协作模式 | 流水线串行 | 任务并行 | 调度模式(串行)+ 群体模式(张力协作) |
| 信誉/进化 | 无 | 无 | 动态信誉积分(扣分/加分/阈值) |
| 通信控制 | 消息总线 | 任务上下文传递 | @mention触发 + Belief Base纪律 |
MetaGPT的优势在于将软件工程流程编码为SOP,适合代码生成场景;CrewAI的优势在于模块化和易用性,适合快速原型开发。枢衡的设计则更侧重于战略决策类任务:这类任务的核心挑战不是执行效率,而是信息质量、逻辑严谨性和认知多样性。
九、总结
枢衡集群的架构升级围绕五个核心机制展开:五角色认知生产链确保分工清晰,Skill收敛防止边界稀释,信誉积分提供进化压力,双模式工作法适配不同任务特征,通信纪律保证信息流转可控。
当前集群已具备可运行的基本形态。下一步的演进方向是通过真实任务持续校准机制,保留任务路由记录、证据状态记录和信用变动记录三类数据,让"信息→怀疑→战略→流程→交付"的闭环在信誉积分的进化压力下持续优化。
对于正在设计多Agent协同系统的开发者,以下三条原则可供参考:
1.先定义角色边界,再配置能力工具。角色分工是架构的骨架,Skill是肌肉,骨架不正则肌肉失衡;
2.先建立质量门,再追求输出速度。没有质量守门人的系统,输出速度越快,幻觉传播越快;
3.先引入信誉压力,再期待系统进化。无差异化的信任机制会让集群陷入平均主义状态,丧失自主净化能力。
协同机制的设计质量,决定了多Agent系统的实际天花板。
【看山 Agent 架构】
工信部 AI 技术应用(高级)认证
30次集群崩溃复盘 | 20+智能体实战
深耕 Agent 集群架构,用商科思维重构复杂系统效率
注:本文内容由 AI 辅助创作,作者对内容结果负责