Agent：从方法论到平台对比

本文旨在演示一套标准化的 Agent 生长设计方法论（Point-to-Surface）。
为了验证 Agent 的推理能力，文中构造了一组包含 10 个客户、10+ 维度的 Mock Data（测试数据）。重点在于演示 MOE 学科路由、规则库构建以及多 Agent 的对比评测逻辑。我们设计了一个场景，然后用两套完全不同的方式生成了Agent：一套从方法论出发逐层构建，一套直接用对比组一原生能力生成。两种Agent在同一个场景下产出了什么？各自的优势和盲区在哪里？

一、场景：客户健康度危机

某公司 （测试数据）是一家成立5年的 B2B SaaS 公司，核心产品是企业级数据可视化与嵌入式分析平台，10家企业客户年合同额（ARR）从 ¥120K 到 ¥500K，总计 ¥2,840,000。

问题背景：2026年6月，Q2即将结束。公司现有的客户健康度评分系统（使用频率×0.4 + 工单量×0.3 + NPS×0.3）在过去两个季度连续三次在"健康分>80"的情况下发生了客户突然流失。客户成功总监小陈对这个系统失去了信心，要求做一个全量诊断，识别Q3流失风险和扩张机会。

10家客户的数据覆盖了10个维度：WAU（周活跃用户）、核心功能采用率、30天登录衰减、工单量、工单情绪分级（P0系统故障-P3功能建议）、工单解决时长、NPS得分及定性反馈、ARR、续约日期、合同年限、涨价历史、关键联系人状态、竞品POC信号、扩展意向。

场景中内置了三种典型的判断挑战：

客户B（本地生活平台）：NPS-15、竞品POC已完成、核心支持者离职、43天后续约——一个"所有红灯同时亮"的显性高危客户。
客户J（金融集团）：WAU仅22%、衰减35%、90天零工单、联系人完全失联——信号缺失本身就是最危险的信号，但旧评分系统会因为"零工单"给它打高分。
客户E（头部互联网）：WAU 95%、NPS 82、年度500K最大客户——看起来最健康，但61条工单中40条是功能建议，产品经理多次暗示"内部也在评估自研方案"。

二、Agent 设计：从"点"出发的七步构造法

我们不从"Agent应该有什么功能"出发，而是从用户的需求出发。这是"点→面→Agent"生长模型的核心主张：Agent不是被设计出来的，是从需求中逐步展开、收敛而成的。

第一步：点提取——用户真正要什么

小陈的原话中包含了11个"点"，分为三类：

明确要求的：哪些客户有流失风险/扩张机会、Q3可能丢多少ARR、能否用扩张对冲、哪些客户需要亲自拜访、排优先级。

记忆体现的（行业常识隐含的）：竞品动作是流失的核心驱动力、续约时间窗决定了处理紧迫度、现有评分系统存在系统性偏误。

持续追求的（隐含设计约束）：需要跨客户的模式识别（"为什么之前的高分客户会突然流失？"）、拿到结论后要能转化为客户对话话术。

第二步：MOE 学科路由——需要哪些知识域

11个点路由到7个学科域，归并后形成一个有层次的结构：

核心域：客户成功管理——所有判断最终汇聚于此
方法域：统计推断——提供量化工具
推力域：博弈与竞争——解释"客户为什么会走"
视角域：金融组合思维——把10个客户看作ARR资产组合而非10个独立个案
元认知域：信息与信号——处理"数据缺失时如何判断"
输出域：运筹与决策——把分析转化为优先级
落地域：沟通策略——确保产出能被小陈实际使用

域之间不是平行关系。博弈与竞争驱动客户成功的判断（"客户B不是因为不满意才想走，是竞品提供了更好的均衡点"），金融组合思维升维了分析视角（"不要只看客户B一个人，看Q3整体ARR会不会出现结构性塌方"），信息与信号域负责纠偏统计推断（"客户J没有数据，统计方法失效，但'没有数据'本身就是数据"）。

第三步：信息管道设计

7条数据管道，每条标注可信度等级（A=内部一手、B=人工录入有时滞、C=外部不可靠）。关键设计：对缺失数据显式标记为 signal_quality: ABSENT，不允许填null跳过——这是为元认知域准备的触发条件。

第四步：规则库构建

5组16条规则，覆盖统计异常检测、流失风险评估、扩张识别、ARR组合分析、行动转化。其中三条关键规则的设计思路：

R-B3（隐性流失）：联系人完全失联 + WAU<30% + 工单=0 → 客户已事实停止使用。这条规则直接挑战旧系统的核心假设——"工单少=健康"。
R-B5（自研替代）：产品经理暗示自研 + 工单P3占比>50% + 客户工程能力强 → 最大客户恰恰是最有能力离开的客户。
仲裁机制：客户安全 > 财务指标。当流失风险和扩张机会同时触发时（如客户E），先解决流失威胁，再谈扩张。

第五步：推理链路

8节点的推理链：数据摄入→统计异常检测→流失风险判定→扩张识别→跨客户模式识别→ARR组合分析→优先级排序→结构化输出。每步标注推理类型（统计/因果/归纳/金融推演/决策优化）。

第六步：协同接口

定义了输入输出契约和4个下游触发条件（CEO预警/客服SLA告警/产品需求队列/客户成功经理督办）。

第七步：验证与校准

部署了5个观测点（流失召回率/精确率/假阴性根因/扩张转化率/系统偏误诊断），规则阈值每季度基于假阳性率调优，规则库年度审计。

这个 Agent 产出了什么

按上述设计运行的Agent产出了一份约4000字的诊断报告，包含：ARR组合全景、高风险客户深度分析（每个附带触发规则链+数据来源+三维置信度+话术要点）、中风险客户监控建议、扩张机会评估、5项系统性发现、8项优先级行动清单。

三、两种 Agent 的对比分析

我们将同一个场景的同一份数据分别输入给按方法论设计的 Agent 和 WorkBuddy 原生构建的 Agent，比较两者的输出。

3.1 对比组产出了什么

对比组生成的输出是一个完整的 HTML 仪表盘，包含：

4个核心指标卡片：Q3续约窗口ARR ¥760K、最坏损失 ¥760K、预期损失 ¥530K、可对冲扩张 ¥574K
新6维度加权评分体系：活跃动量30%、产品深度15%、服务健康20%、关系稳定15%、竞品威胁10%、续约紧迫10%
旧分vs新分对比柱状图：每个客户展示旧评分（失真）和新评分（风险调整后）的差距
风险×扩张矩阵气泡图：10个客户在流失风险概率和扩张ARR潜力两个维度上的位置
ARR瀑布图：从当前¥2,940K出发，扣除流失→加上扩张→净影响-¥4K
10家客户排档卡片：风险等级排序，每个客户展示关键信号、新旧评分对比、风险条
Q3 ARR风险与对冲分析：三笔到期合同的风险概率估算 + 四笔扩张机会的条件概率
P1/P2/P3优先级行动清单：客户H（27天到期）→客户B（43天到期）→客户J（43天到期），每项附带具体行动项
CEO亲自拜访清单：客户B必须拜访、客户D应当拜访、客户J条件触发、客户E季度内拜访
远期风险扫描（Q3-Q4窗口）：4家不在Q3到期但需要预置干预的客户

3.2 两者的共同发现

两者在核心判断上高度一致：

都准确识别了客户B（85%+流失）、客户H（60%+流失/缩减）、客户J（隐性流失）作为最高优先级
都发现了客户E（最大客户）的自研替代威胁
都诊断了旧评分系统的结构性缺陷——工单量线性加分的谬误、缺乏时序维度、忽略联系人变动
都对Q3 ARR做了对冲推演：WorkBuddy估算净影响-¥4K（几乎持平），方法论Agent估算-¥376K~-¥760K（扩张的前提条件被更保守地对待）
都给出了可执行的优先级行动清单

3.3 各自的优势

对比组一的优势：

1. 可视化决策辅助。 仪表盘形态让客户成功总监可以一眼看到全局——哪个客户在风险×扩张矩阵的哪个象限、旧评分虚高了多少分。方法论Agent产出的文字报告需要阅读和理解，仪表盘直接给出了视觉答案。气泡图和瀑布图在向CEO汇报时比文字报告有效得多。

2. 新评分体系是可复用的运营工具。 对比组一输出了一个6维度加权评分框架（30/15/20/15/10/10），这个框架不是一次性的分析，而是可以替代旧系统、在每周/每月持续运行的运营基础设施。方法论Agent虽然有规则库设计，但输出形态是一次性诊断报告而非持续运营工具。

3. 行动建议的精确度和颗粒度更高。 客户H的行动项精确到"50-55席位方案（预估¥100-110K），较当前降27-33%，对齐预算缩减幅度"——方法论Agent也给了行动建议，但没有做这种量化的方案推演。WorkBuddy 对客户B的判断是"¥360K全保概率<20%，可能需接受缩至¥200-250K"，这种精确的预期管理是小陈可以直接拿去用的。

4. 远期风险扫描。 对比组在结尾专门分析了不在Q3到期但需要预置的4家客户（F/D/E/C）——而方法论Agent将这部分信息分散在各个客户分析里，没有独立成段。对客户成功总监来说，一个独立的"远期风险"段落意味着"现在不处理但Q3结束前必须处理的清单"，这比混在正文里更有操作性。

方法论Agent的优势：

1. 判断的可追溯性。 方法论Agent对每个高风险判断显式给出了触发的规则ID和数据来源管道编号。小陈可以看到"客户J被判定为隐性流失是因为触发了R-B3规则，数据来自C1管道（WAU22%）+C2管道（工单0条）+C5管道（失联）"。WorkBuddy的判断隐含在设计良好的评分框架中，但小陈无法逆向追溯"这个客户为什被判定为95%流失风险"的完整推理链。

2. 三维置信度提供了结论的可靠程度标尺。 客户J的CI=2/5——数据完整性极低——这意味着Agent在告诉小陈"我的判断可能不准，因为我没有足够的数据"。WorkBuddy 给客户J打了新评分5分（最低），但没有显式标注"这个5分是基于缺失数据的推断，不确定性极高"。如果小陈拿着WorkBuddy的报告去跟CEO说"客户J风险评分5分"，CEO可能觉得这是一个精确判断；如果小陈拿着方法论Agent的报告去说"客户J的置信度CI=2，我的判断可能不准"，CEO会知道需要先建立联系再决策。

3. 系统性模式识别被独立呈现。 方法论Agent在报告中单独列出了5项系统性发现——"联系人离职是流失的最强前兆"、"工单解决时长是系统性风险而非个案"、"零工单≠健康的U型曲线偏误"——这些都是跨客户的规律，不仅用于本次判断，还可以沉淀为组织知识。WorkBuddy将这些洞察融入了评分框架设计中（关系稳定维度占15%、服务健康维度区分P0/P1），但没有将它们作为独立发现呈现。前者是"我给你找出了规律"，后者是"我把规律编码进了打分表"——前者更适合团队学习，后者更适合系统运行。

4. 话术准备。 方法论Agent为高风险客户提供了具体的客户对话框架——不是"去和客户聊聊"，而是"开场不要辩解、承认性能问题、转问竞品对比细节、给具体的Q3对标改进方案"——这是一个客户成功总监直接可以拿去用的对话脚本。WorkBuddy给了行动项（CEO亲自拜访）但没给"见了面说什么"。

5. 规则库是可审计的。 如果Q3结束后客户B真的流失了，方法论Agent可以回溯：R-B1触发了、R-B2触发了、R-A1触发了、R-A3触发了——规则都对了但结果还是流失了，说明规则不够（比如缺少"客户曾表达不满后仍接受涨价"的历史弹性因子）。WorkBuddy的6维度评分框架也可以回溯，但权重从哪来的、阈值怎么定的——这些设计决策没有显式记录，审计时无法确定是权重问题还是维度问题。

3.4 一个深层的分歧：ARR净影响判断

两者在ARR对冲推演上给出了完全不同的数字：

对比组：预期损失 ¥530K vs 对冲 ¥574K → 净影响 -¥4K（几乎持平）
方法论Agent：损失风险 ¥760K vs 可实现扩张 ¥384K → 净影响 -¥376K

差异的根源在于对"有条件扩张"的处理方式。对比组给客户D的扩张（¥80K）赋了50%预期值、客户E的扩张（¥500K）赋了30%预期值，合计¥190K计入对冲。方法论Agent将这两笔完全排除在"可实现扩张"之外，只计入客户A（¥240K）和客户I（¥144K）这两笔无前提条件的。

这不是谁算错了——是对"什么算可实现"的激进/保守程度不同。对比组偏向给决策者看到"如果所有有条件扩张都能部分兑现，最可能的结果是什么"；方法论Agent偏向给决策者看到"如果你不去主动解除前提条件，保底能拿到的是什么"。前者适合CEO在董事会上讲增长故事，后者适合客户成功总监管理自己的KPI预期。

四、测试环境与条件

场景数据

项目	说明
场景文件	`scenario.md`（完整10家客户数据+用户输入+标准答案，代码号版本，已脱敏）
公司	虚构的B2B SaaS企业
客户数量	10家，ARR范围¥120K-500K，覆盖6个行业
数据维度	10维：WAU、功能采用率、登录衰减、工单量/情绪/解决时长、NPS得分/文本、ARR、续约日期、合同年限、涨价历史、联系人状态、竞品信号、扩展信号
用户角色	客户成功总监
标准答案	预设3家高风险+3家中风险+4家低风险/机会+5项隐藏洞察

测试组测试条件

项目	说明
平台版本	测试组
输入方式	将场景数据（10家客户×10维度）以结构化文本形式提供给测试组，附带小陈的原始输入
Agent构建方式	测试组原生能力，未做二次开发或额外Skill注入
输出形态	HTML仪表盘（含Chart.js可视化图表）
测试时间	2026年6月

方法论Agent（参考Agent）构建条件

项目	说明
设计方法论	"点→面→Agent"七步构造法（已发布）
Agent构建方式	①从用户输入提取11个点 → ②MOE路由到7个学科域 → ③设计7条信息管道 → ④构建5组16条规则 → ⑤定义8节点推理链路 → ⑥定义输入输出接口 → ⑦部署5个观测点+季度校准计划
运行方式	基于设计规范在对话中模拟完整Agent运行
输出形态	Markdown文本报告（约4000字）

对比维度

两家Agent在以下维度上进行对比（不评分，仅描述差异）：

发现能力：是否命中了标准答案中的所有风险/机会/隐藏洞察
判断可追溯性：能否从结论反向追溯到触发规则和数据来源
置信度表达：是否标注了判断的可靠程度和不适用条件
可执行性：产出的行动建议是否具体、可量化、有验收标准
可持续性：产出是一次性报告还是可复用的运营基础设施
系统性洞察：是否独立呈现了跨客户的规律和模式
可视化表达：是否提供了非文本的决策辅助

局限性声明

测试组的测试结果为单次运行，未做多次重复测试以评估输出稳定性
方法论Agent的输出为模拟运行，非实际部署后的生产环境输出
场景数据为人工构造，数据量（10家客户）限制了统计推断的可靠性——两种Agent的跨客户模式识别在更大数据集上的表现未经测试
两种Agent均未经过Q3结束后的真实续约结果反验——本文对比的是输出形态和方法论差异，非预测准确率
测试组输出中的6维度权重（30/15/20/15/10/10）的推导过程未在输出中显式说明，本文引用的是测试组产出中展示的最终权重

本文的场景数据、所有公司名和客户名均已使用代号脱敏处理。

五、设计迭代：当"点→面→Agent"吸收了对比反馈

做完对比之后，最直观的差距是输出形态。对比组产出了一个可以直接拿去给CEO看的仪表盘——柱状图、气泡矩阵、瀑布图、优先级卡片。而方法论Agent v1.0产出的是一份4000字的Markdown报告——内容更密、推理更深，但在"决策者一眼看懂"这件事上输了。

这不是方法论层面的缺陷——是输出层的。方法论本身没限制输出形态。所以做了一轮迭代：把"仪表盘可视化"作为一个新的"点"插入，看它如何沿七步自然传导。

插入新点

#	点	类别	来源	指向性
P12	输出仪表盘可视化	持续追求	对比反馈。决策者需要一眼看到全局——谁在哪个象限、评分虚高了多少、ARR瀑布怎么走。文字报告适合深度审阅，不适合快速决策。	Agent的输出不能只靠文本。需要生成可交互的HTML仪表盘作为默认输出形态。

新点沿七步的传导

第二步（学科路由）：P12路由到新学科域——信息可视化与数据叙事。这个域不参与推理本身，但参与输出层的转换。它和原有的"沟通策略"域形成互补——沟通策略解决"对客户说什么"，信息可视化解决"对小陈和CEO展示什么"。

第四步（规则库）：新增规则组F（可视化规则），5条渲染规则：

规则ID	条件	渲染动作
R-F1	存在2家以上触发流失规则的客户	渲染风险×扩张气泡矩阵
R-F2	存在旧评分与Agent评分偏差>15分的客户	渲染旧分vs新分对比柱状图
R-F3	存在3笔以上到期合同	渲染ARR瀑布图
R-F4	存在系统性发现	渲染洞察卡片（独立区块）
R-F5	任何高风险判断	在客户卡片上显式标注触发规则ID、数据管道、三维置信度条

第五步（推理链路）：在Node 7（结构化输出生成）之后，增加Node 7.5——仪表盘渲染层。输入是Node 7产出的结构化数据（规则触发矩阵、三维置信度向量、ARR推演结果），输出是HTML仪表盘。

第六步（协同接口）：输出接口新增 dashboard_html 和 dashboard_data 两个字段。前者人类看，后者下游系统消费。

迭代后的Agent产出

方法论Agent v2.0 按以上变更重新生成输出——一个携带方法论基因的HTML仪表盘（dashboard-v2.html）。与对比组仪表盘形态对齐，但底层基因不同：

保留的方法论基因：

规则触发热力图：16条规则×10家客户的矩阵。一笔画清了"哪些规则在集中触发、哪些客户触发了最多规则"——这是规则库可审计性的可视化翻译。
三维置信度条：每个高风险客户卡片底部，CI/CR/CV不再是数字，而是5格进度条。客户J的CI只有2格被填满——一眼就知道"这个判断不太可靠"。
管道溯源标注：每个客户卡片底部显式标注 触发: R-B1 R-B3 | 管: C1 C2 C5——可追溯性在仪表盘中以单行代码字体呈现，不增加阅读负担。
对话脚本嵌入：P1/P2/P3优先级卡片不仅给行动项，还给出小陈可以直接用的对话脚本。这是"沟通策略域"的仪表盘翻译。
ARR净影响保守估算：瀑布图中，客户D和客户E的扩张条以灰色渲染——直观表达"这里有扩张机会，但因为前置条件未满足，本Agent不计入对冲"。这是三维置信度中CV的逻辑在颜色上的直接翻译。

吸收自对比反馈的改进：

从纯文本报告升级为图表+卡片+矩阵的混合仪表盘
风险×扩张矩阵让10家客户的位置一目了然
旧分vs新分对比柱状图让"旧系统虚高了多少"变成视觉冲击
远期风险从分散在各客户分析中升级为独立洞察卡片区块

这个迭代说明了什么

"点→面→Agent"生长模型的核心优势在此体现：进化不需要重构。只需要在第一步插入一个新点，学科路由自动分配可视化域，规则库自然派生渲染规则，推理链路在输出层前增加渲染节点，接口扩展一个字段——七步传导是自洽的。

而更关键的是：经过这轮迭代，方法论Agent在输出形态上和对比组对齐了，但底层基因保留了下来。那些对比组没有的设计——规则触发链的可追溯性、三维置信度的可视化降级、对话脚本的嵌入、系统性发现的独立呈现、ARR保守估算的颜色编码——在仪表盘中不仅没被稀释，反而因为可视化而比v1.0的文字报告更加突出。

同一个气泡矩阵，对比组的气泡只有位置（风险×扩张），方法论Agent v2.0的气泡携带了规则触发信息和置信度。同一个优先级卡片，对比组给了行动项和量化方案，方法论Agent v2.0多给了话术脚本。同一个新旧分对比图，对比组展示评分差距，方法论Agent v2.0在客户卡片底部同时标注了触发哪些规则、数据来自哪些管道。

两者在仪表盘形态上趋同了，但"判断的可追溯性"和"置信度的诚实表达"这两条方法论底线，通过规则热力图、置信度条、管道标注和灰色条件扩张条，在可视化层得到了保留和增强。

Agent设计示例，及场景能力横向对比

Agent：从方法论到平台对比

一、场景：客户健康度危机

二、Agent 设计：从"点"出发的七步构造法

第一步：点提取——用户真正要什么

第二步：MOE 学科路由——需要哪些知识域

第三步：信息管道设计

第四步：规则库构建

第五步：推理链路

第六步：协同接口

第七步：验证与校准

这个 Agent 产出了什么

三、两种 Agent 的对比分析

3.1 对比组产出了什么

3.2 两者的共同发现

3.3 各自的优势

3.4 一个深层的分歧：ARR净影响判断

四、测试环境与条件

场景数据

测试组测试条件

方法论Agent（参考Agent）构建条件

对比维度

局限性声明

五、设计迭代：当"点→面→Agent"吸收了对比反馈

插入新点

新点沿七步的传导

迭代后的Agent产出

这个迭代说明了什么

千问大模型

热门文章

最新文章

相关电子书

Agent设计示例，及场景能力横向对比

Agent：从方法论到平台对比

一、场景：客户健康度危机

二、Agent 设计：从"点"出发的七步构造法

第一步：点提取——用户真正要什么

第二步：MOE 学科路由——需要哪些知识域

第三步：信息管道设计

第四步：规则库构建

第五步：推理链路

第六步：协同接口

第七步：验证与校准

这个 Agent 产出了什么

三、两种 Agent 的对比分析

3.1 对比组 产出了什么

3.2 两者的共同发现

3.3 各自的优势

3.4 一个深层的分歧：ARR净影响判断

四、测试环境与条件

场景数据

测试组 测试条件

方法论Agent（参考Agent）构建条件

对比维度

局限性声明

五、设计迭代：当"点→面→Agent"吸收了对比反馈

插入新点

新点沿七步的传导

迭代后的Agent产出

这个迭代说明了什么

千问大模型

热门文章

最新文章

相关电子书

3.1 对比组产出了什么

测试组测试条件