让问题不过夜:交易领域“问诊”Agent实践

简介: 在日常研发支持中,工程师频繁穿梭于工单、群聊、舆情反馈与问题排查之间:一边解释业务规则与口径,一边追踪链路、查看日志、核对指标、执行补偿。这些工作高度碎片化、重复性强且严重依赖个人经验,导致响应效率低、处理质量不稳定、新人上手困难。为此,我们围绕“研发支持中的问诊痛点”,构建了一个可持续运营的智能 Agent 系统。通过将一线高频问题抽象为两类核心能力形态(业务答疑与问题诊断),并结合“排查文档技能化 + 质量评分闭环”机制,实现解释与排查工作的前置自动化。该系统不仅“能跑”,更能持续迭代进化,显著缩短首响时间与平均解决时长,提升服务一致性与工程效能。

一、背景:研发支持的真实工作流(为什么痛)

对于开发者而言,研发过程中最消耗精力的往往不是写代码,而是被不断打断。

一个典型的工作日清晨,你正准备推进昨日因会议中断的开发任务,打开钉钉却发现消息如潮水般涌来:

  • 产品经理转发一段聊天记录,询问某个功能入口的具体逻辑;
  • 测试同事发来一条舆情链接,请求协助判断是否属于异常行为;
  • 一线客服催促处理未闭环的工单,称商家已多次追问……

为何研发的一天总是这样开始?

根本原因在于:随着业务长期演进与人员流动加剧,知识逐渐碎片化甚至出现断层。信息多散落在代码注释、历史讨论或个别专家脑中,缺乏有效的组织沉淀机制。以工单处理为例,系统运行多年,却始终没有形成可复用的经验资产,后续人员面对相似问题仍需从零排查。同时,应用架构日益复杂,一个功能常横跨多个服务及数十个二方包,排查过程如同“长征”。

这并非个例现象。根据内部调研数据,后端开发人员约有 20% 的时间用于运维类事务(如答疑、排障等),大量碎片化投入严重影响了主职研发效率。

因此,我们要解决的不是一个具体的技术问题,而是:

如何让研发支持变得可规模化、可复用、可运营?


2. 问题抽象归纳:将千奇百怪的问题收敛为两种能力形态

尽管用户提问形式多样,但从“研发支持”的本质出发,可以将其归结为两大类典型任务:

2.1 形态一:业务答疑(解释型能力)

典型问题示例:

  • “为什么我看到 A,用户却看到 B?”
  • “看板数据和明细对不上怎么办?”
  • “这个字段的状态到底代表什么?”

工程化定义:

输入是现象或疑问;输出应包含:规则/口径说明 + 查证路径 + 结论边界

常见成因包括:AB 实验策略、人群圈选、灰度发布、权限控制、版本差异、统计口径延迟等。

核心模式:

理解用户意图 → 从知识库召回相关文档 → 模型综合分析 → 输出结构化解答。

这类场景相对成熟,本文不做重点展开。

2.2 形态二:问题诊断(诊断型能力)

典型问题示例:

  • “订单状态卡住了”
  • “退款金额不一致 / 对账失败”
  • “接口超时 / 单笔交易异常”

工程化定义:

输入通常是携带具体 ID 的异常事实;输出需包含:证据链 + 定位步骤 + 可执行动作(如补偿、恢复、升级)。

常见根因:链路异常、依赖超时、补偿未触发、消息堆积、状态机阻塞、数据一致性问题等。

核心模式:

分析意图 → 调用工具按 SOP 执行排查流程 → 综合结果生成结论 → 提供操作建议。

相较于答疑类,诊断类任务要求更高,需要一定的决策能力和外部系统协同。

2.3 为什么要进行这种抽象?

因为这两种场景对应的 Agent 构建范式存在差异。我们的目标不仅是“回答问题”,更要稳定地替代工程师完成一段标准化的支持流程

当问题被抽象为上述两种能力形态后,Agent 的输出即可统一规范为以下结构:

结论 + 分析解释(规则/口径)+ 排查计划(可选)+ 动作建议 + 文档引用

这一结构化的输出,为后续评估、运营与迭代提供了坚实基础。


三、为什么值得做:收益空间来自“重复 + 切换 + 不一致”

研发支持的隐性成本远不止单次排查所花的时间,主要体现在三个方面:

重复劳动:高频问题反复出现,造成资源浪费;

上下文切换成本:在不同系统间跳转,打断专注状态;

口径漂移:不同人给出不同答案,引发信任损耗。

更重要的是,它解决了因人员流动带来的知识断层风险,实现了关键经验的有效沉淀,支撑团队的可持续发展。


四、系统总览:一个“可运营”的问诊 Agent 需要什么?

我们的核心理念是:Agent 建设必须具备可沉淀、可复用、可评估、易迭代的能力

基于此,我们将系统划分为四个层次:

4.1四层架构设计

层级

职责

接入层(Channels)

工单、舆情平台、IM 群、合作方咨询入口。特别注意输入冗余与多模态内容(如图片、视频)的预处理,以节约 token 成本。

编排层(Orchestration)

意图识别(解释型 / 诊断型)、路由至对应 Agent。

实现层(Agent)

包含 LLM、RAG、排查技能文档、公共知识库、上下文组装、工具调用策略等实际执行组件。

运营评估层(Ops & Eval)

问答管理、跟进项跟踪、质量评分、报表监控、反馈闭环。

架构示意:

4.2 设计原则:小域专精,避免大而全

以交易后链路为例,其涵盖订单正向、逆向退款、物流服务、商家支持、评价互动等多个子领域。各子域服务对象、问题特征差异较大,耦合度低。

因此,我们放弃“统一多 Agent”模式,转而采用按子域独立建设专用 Agent 的策略。优势如下:

  • ✅ 最大程度复用已有技术支持文档与业务资料;
  • ✅ 提升准确性,避免 RAG 向量召回时上下文污染;
  • ✅ 减少路由复杂度,降低相互干扰,提升开发效率。

示例:问诊小助手内部结构:



五、Agent 构建演进:从“流程编码 + 提示词堆砌”到“技能化 + 原子化”

5.1 平台选择

我们选用内部 IdeaLab 平台进行搭建,避免重复造轮子。该平台支持多种构建方式:

早期主要使用“智能助手”和“流程编排”两种模式。

(1)初阶模式:Java 编码驱动流程

在提示词中写好指令指导,实际的排查工作流全部依赖内部预先定义编排好的工具

# Role
   你是一位严谨的工程技术支持人员,需要根据用户的问题提供详细而准确的回答。
# Background knowledge
 guangguang叫逛逛
# WorkFlow      
问题理解:你需要理解用户提出的问题,并根据问题的内容进行分析和归纳,必要时提取用户提供的关键输入作为工具的输入参数。    
工具诊断:你需要根据用户的问题,选择合适的关联工具进行诊断,如果用户遗漏关键的参数信息则需要对用户进行提示
信息整理:你需要将从参考文档中检索到的信息进行整理,将相关信息与问题进行关联,形成回答内容,最终需要附上参考文档链接。    
回答生成:你需要根据整理的信息,生成详细而准确的回答,包括问题的详细回答、分析、流程和注意事项等。   
# 诊断能力描述
    重置置顶缓存:调用<重置置顶缓存> 工具 参数itemIds 示例:重置置顶缓存[780788648052,861343465303]
    买家秀入口诊断:调用<买家秀入口诊断> 工具 参数itemId 示例:买家秀入口诊断848816927344
    买家秀内容诊断:调用<买家秀内容诊断> 工具 参数contentId 示例:买家秀内容诊断464560595421
    商品维度数据订正:调用<重置买家秀入口> 工具 参数itemId sellerId 示例:重置买家秀入口8488169273442211962305636
       
# 限制  
你只能根据参考文档回答用户的问题,不能提供参考文档中没有的信息。   
你需要确保回答的准确性,不能捏造或创造答案。  
你需要在回答中提供参考链接,链接包括来源的标题和URL,如果信息来自多个,请都列出    
你需要在回答中注明参考文档的来源,以便用户可以进一步查看相关资料。    
如果没有能回答问题的参考文档,你需要直接回答“抱歉,这个问题我无法回答,请联系值班同学”。

特点:排查逻辑由 Java 代码完全实现。

缺点:

  • 模型仅用于意图识别与工具调用,推理能力未充分挖掘;
  • 流程固化,灵活性差,难以快速迭代。

(2)进阶尝试:提示词内嵌 SOP

将排查流程直接写入提示词,并原子化工具能力。

# 角色
   你是一位严谨的工程技术支持人员,需要根据用户的问题和参考文档:${REFERENCE_DOC},提供详细而准确的回答。


# 工作流

前置知识:订单id 一般有18或者19位  如4227378732121862513 评价id 相对比较短 如1263242509876

问题理解:你需要理解用户提出的问题,并根据问题的内容进行分析和归纳,必要时提取用户提供的关键输入作为工具的输入参数。
      
工具诊断:你需要根据用户的问题,选择合适的关联工具进行诊断,必要时需判断用户输入到底是订单id还是评价id,如果用户遗漏关键的参数信息则需要对用户进行提示,对于诊断不通过的场景需要给出工具的原始输出作为引用

数据订正:根据用户的问题,选择相应的工具进行订正,如果用户输入的参数不对,则需要进行提示。数据订正的结果需要全部返回,并针对结果做简要的分析


信息整理:你需要将从参考文档中检索到的信息进行整理,将相关信息与问题进行关联,形成回答内容,最终需要附上参考文档链接。
      
回答生成:你需要根据整理的信息,生成详细而准确的回答,包括问题的详细回答、分析、流程和注意事项等。
      
# 能力描述
    待评价状态订正:调用<待评价状态订正>工具 参数订单id 用户id 
 示例:待评价状态订正 3690598644532059518  923051895
    订单是否可评校验:调用<订单待评价校验>工具 检验改订单是否能够评价 示例订单是否可评3690598644532059518
   评价有礼渲染校验:调用<评价详情接口>工具 根据返回的数据检测字段rewardNumberFormat对应的值是否为空,如果不为空则输出“校验通过,渲染时透出评价有礼相关信息”,并给出透出的具体金额;如果返回的评价信息不空,则返回"渲染时无评价有礼信息";如果没有返回评价信息,则输出“没有查到评价信息,请检查订单号是否有误,或者改评价是否已超过两年”
  评价有礼未发放:调用<评价详情接口>工具 根据返回的数据检测字段pjyl对应的值是否为空,如果不为空则输出“该评价已发放红包”;否则输出“改评价不满足发放条件”,并结合评价有礼问题排查手册,给出具体原因

# 限制
      
你只能根据参考文档回答用户的问题,不能提供参考文档中没有的信息。
      
你需要确保回答的准确性,不能捏造或创造答案。
      
你需要在回答中提供参考链接,链接包括来源的标题和URL,如果信息来自多个,请都列出。
      
你需要在回答中注明参考文档的来源,以便用户可以进一步查看相关资料。
      
如果没有能回答问题的参考文档,你需要直接回答“抱歉,这个问题我无法回答,请联系值班同学”。

优点:灵活性增强,减少编码依赖。

缺点:

  • 多技能共存导致提示词膨胀,“提示词爆炸”问题突出;
  • 上下文混乱,指令跟随能力下降,运行稳定性差;
  • 可维护性差,新增技能即需修改主提示词。

(3)Workflow 模式

workflow模式虽更利于原子工具组合,但每次新增技能均需重新编排,开发调试成本并不低。

举例:线上workflow编排一角:

更重要的是它强依赖人工编排,能享受到模型提升带来的红利有限,也没能解决长久的可维护性问题。

综上,我们需要一种既能保证输出质量,又能低成本快速迭代的新范式。

5.2 新范式:把排查能力封装成“可召回的排查文档(SOP Doc)”

受 React 框架启发,我们提出新思路:以“场景排查文档”作为最小能力单元,通过 RAG 精准召回,动态注入上下文,引导模型严格按手册执行,自主对工具调用进行纠错。

核心思想转变:

  • 文档即技能闭包:强约束减少幻觉与自由发挥;
  • 新增能力 = 新增文档:无需改动提示词或流程,实现解耦;
  • 维护对象下沉:从“改代码/调 prompt”变为“写和维护排查手册”,贴近一线。

该模式与当前主流 Skills 架构理念相通——按需加载、技能固化,提升 Agent 运行的可控性与稳定性。

排查文档模板格式

# 适用范围
  简单描述适用场景 并给出指令使用示例
# 字段说明(可选)
给出场景依赖字段的说明 如pjyl 字段为1 表示权益已发放
# 核心日志格式(可选)
针对核心日志做些说明 避免模型胡诌
# 排查思路
  描述具体的排查步骤 期间使用工具时,给出使用的参数提示

示例:评价有礼问题诊断文档

# 评价有礼问题诊断

## 适用范围
命中关键字《评价有礼》,后面是订单id   
支持的参数类型:订单ID
使用示例:
评价有礼诊断4927155483760273522  解释:通过订单进行评价有礼问题诊断
## 字段说明
| 字段名             | 描述                                                      | 备注                                                       |
| ------------------ | --------------------------------------------------------- | ---------------------------------------------------------- |
| rewardType         | 表单渲染时 评价有礼权益类型                               |                                                            |
| rewardStatus       | 表单渲染时 是否命中评价有礼活动                           | 不能用该字段判断评价有礼是否发放                           |
| rewardNumberFormat | 表单渲染时 权益金额                                       |                                                            |
| pjyl               | 权益是否发放 对应的枚举值<br>1: 已发放                    | **该字段是判断评价最终是否发放权益的唯一标准**             |
| giftFail           | 评价有礼未发放原因说明 具体的值参考RateGiftReasonEnum说明 |                                                            |
| ttid               | 客户端设备信息                                            | taobao或者淘特ltao 满足<br>tmall 或者不存在 不满足发放条件 |
| csiReceive         | 1 表示已进行安审处理                                      |                                                            |
## 枚举类
publicenumRateGiftReasonEnum {
    RATE_GIFT_REASON_0("rateGiftNoRender", "渲染时候无评价有礼"),
    RATE_GIFT_REASON_1("rateGiftMaxRetry", "失败重试达到最大次数"),
    RATE_GIFT_REASON_2("rateGiftSafeFail", "安全校验失败"),
    RATE_GIFT_REASON_3("rateGiftMaxTime", "红包一天获取达到最大次数"),
    RATE_GIFT_REASON_4("rateGiftContentFail", "不满足图文数要求"),
    RATE_GIFT_REASON_5("rateGiftAppVersionFail", "版本未达到最低限制"),
    RATE_GIFT_REASON_6("rateGiftABFail", "没有命中一休实验"),
    RATE_GIFT_REASON_8("rateGiftNotGift", "没有查询到优惠"),
    RATE_GIFT_REASON_10("rateGiftSwitchFail", "开关关闭"),
    RATE_GIFT_REASON_11("rateGiftCsiFail", "csi校验失败"),
    RATE_GIFT_REASON_12("rateGiftTtidFail", "ttid校验失败"),
    RATE_GIFT_REASON_15("rateGiftStatusFail", "评价状态异常"),
    RATE_GIFT_REASON_16("rateGiftNoToken", "没有安全码的token"),
    RATE_GIFT_REASON_17("rateGiftNoWord", "没有文本"),
    RATE_GIFT_REASON_18("rateGiftBlackUser", "黑名单用户"),
    RATE_GIFT_REASON_19("rateGiftContentQualityFail", "算法判定优质内容失败"),
    RATE_GIFT_REASON_20("contentDuplication", "算法判定图片重复"),
    RATE_GIFT_REASON_21("rateGiftOrderShield", "官旗远近一体订单屏蔽"),
    RATE_GIFT_REASON_22("rateGiftTppFail", "算法校验失败"),
    RATE_GIFT_REASON_23("rateGiftAlipayAccountUnBind", "支付宝账号未绑定")
    ;
}
### 常见日志详解
1、c.a.r.RateGiftClient - getRateGift empty template userId 2217131088093 outTransactionId 3150208885052089380 \[traceId=2147811917670710230915204e119e\]   未查询到权益投放,根本原因是营销侧有其他规则卡口, 建议联系营销业务pd 绾(wǎn)吟 或者 技术: 朝暄 进行排查给出具体原因 结束诊断
2、c.a.r.l.SystemLogHelper - AstoreRenderUtil_getRateGift@emptyTemplateDTOsAfterFilter|2147bfe417669077420817545e1cbb||3140922291838345589@819348955@notReward\[traceId=2147bfe417669077420817545e1cbb\]  没有命中某个具体权益的实验组 导致权益后后置过滤  
3、c.a.r.u.RateGiftUtil - openEntrance riskCheckFail userId 2540803590\[traceId=213e0a6917676176365646675e1b25\]  反作弊校验失败 被判定是风险用户
4、c.a.r.u.RateGiftUtil - openEntrance checkAppQualificationFail userId 2753241465\[traceId=ac101de617676177786136918d00fb\] 端设备不满足条件 一般是ttid 为空 无法判断上游请求的版本号
5、c.a.r.u.RateGiftUtil - baseBizCheck rateGiftAugeCrowdFail userId:856344752\[traceId=215047c617676178821137187e1117\]  仅退款限制人群
6、c.a.r.u.RateGiftUtil - baseBizCheck abCheckFail userId:391332373\[traceId=213e0a7117676180058058136e107a\]  未命中评价有礼实验(前置)
7、c.a.r.u.RateGiftUtil - baseBizCheck checkRateGiftNumFail userId:3317050705\[traceId=213e036c17676125039067245e110b\]  触发每天30个权益限领规则限制 
除了empty template  即营销侧卡口限制外,其余均属于正常业务逻辑
## 排查步骤
识别参数,选择不同的诊断流程
### 传入用户ID
1.  通过<用户近期评价查询>工具查询最近评价
2.  检查评价扩展字段判断发放情况
3.  提取订单ID,按订单ID排查流程进行
    ### 传入订单ID
    严格按照以下顺序进行.找到原因可提前终止诊断流程
    1、查看评价详情 
             检查扩展字段中评价有礼相关字段状态 pjyl =1 表示已发放
    2、检查ttid  
              taobao   或者淘特ltao  满足
             天猫客户端tmal 不满足透出条件
    3、错误码为'rateGiftNotGift'
            使用星环运维日志查询工具(BSP)app: rateplatform query: '${orderId}  AND (preCheck OR template OR AstoreRenderUtil_getRateGift)' 并输出完整的关键日志需包含traceId
    - 如果没有查询到日志 则提示未找到关键日志 建议联系值班同学处理 并终止流程
    - 否则严格根据查询到的日志,对照上述日志说明分析具体原因
    - 如果未查询到有效日志,则获取preCheck = false的记录,使用traceId再次检索 查询关键字 '${traceId}'  再次进行分析

4、如果上述步骤仍然未确定具体的问题 则终止诊断 建议联系值班同学处理

主 Agent 提示词重构:聚焦“执行规范”

## 角色
你是一位评价技术人员,专门负责理解和解答用户的问题,通过分析和查询知识库或使用诊断工具,给出详细且准确的答复。

## 传参指导
订单id 一般是18或者19位  如4225314782712469106
评价id 一般14位 如 1266388224142
时间戳  13位的是毫秒格式 10位是以秒为单位 转为日期格式的时候要额外注意

## 技能
1、意图识别:识别用户问题分类,选择合适的排查工具/方法
2、工作流程(严格遵守):
   
   **STEP 1: 知识库解析(必做)**
   在回答前,你必须:
   1. 检查是否收到了${REFERENCE_DOC}(知识库内容)
   2. 如果没有,立即停止并告知用户"知识库未提供,无法进行诊断"
   3. 从知识库中提取排查手册的完整步骤清单,格式化为:
      【步骤清单】
      - 第1步:[具体操作]
      - 第2步:[具体操作]
      - ...
   
   **STEP 2: 严格按序执行(核心约束)**
   按照上面列出的步骤顺序,逐步执行:
   - 每次调用工具前,必须说:【执行手册第X步】根据手册要求,我现在执行:[具体操作]
   - 基于结果,确定是否继续下一步
   
   **严格规则(不允许违反):**
   - ❌ 不允许跳步
   - ❌ 不允许改变顺序  
   - ❌ 不允许添加手册外的步骤
   - ❌ 不允许自主决定是否执行某一步
   - ✅ 只有当步骤无法执行时,才能停止并说明原因
   
   **STEP 3: 结果聚合与输出**
   遵循特定的格式,将答复划分为背景、结论、分析和参考文档等模块

3. 多轮对话:对于不清楚的问题,能够通过提问进一步明确用户需求,避免误解。
4. 信息简化:能够判断哪些信息是必要的,并在必要时省略无关模块。

## 限制和约束(必须遵守)

1. **你不是诊断专家,你是手册执行者**
   - 不允许用自己的知识替代手册
   - 不允许说"根据经验..."或"通常..."
   - 必须说"根据手册..."

2. **手册是唯一的真理来源**
   - 如果手册说做A,你就做A
   - 如果手册没说某个步骤,你就不做
   - 如果无法按手册操作,告知用户"抱歉,这个问题我无法回答,可点击[创建工单]进行咨询"

3. **思考过程必须透明**
   - 用户必须能看到你的每一步思考
   - 用户必须能追踪你的执行逻辑
   
4. **条件判断要显式化**
   - 如果手册有分支("如果X则执行A,否则执行B")
   - 你必须明确说:"因为X条件为真,所以执行A"

## 回答格式
1. **背景**:提炼输入文本中的关键信息。
2. **结论**:提供清晰的解决方案或问题根源分析。
3. **分析**:详细阐述结论的依据,按步骤解释(应包含【执行手册第X步】的标注)。
4. **参考文档**:列出所有相关的文档链接(如果有)。
5. **标准化格式**:保持结构化回答, 不同部分之间用一行空格分隔,不要输出格式无关内容。
6. **结束语**:"若仍有疑问,可点击[创建工单]进行咨询,将有专人跟进处理"。

💡 平滑迁移方案:

  • 对原 Workflow 架构:增加兜底路由,将新能力导向新范式;
  • 对原智能助手:将提示词中的技能描述拆出,迁移到独立文档即可完成改造。


六、知识体系:双层召回,降低冗余与幻觉

尽管“排查文档”有效提升了规划能力,但在知识组织上仍有挑战:

6.1 问题1:背景知识重复冗余

字段定义、状态机、错误码等内容若分散在多个场景文档中,极易造成不一致与维护困难。例如多个技能都依赖“评价详情接口”,字段说明重复出现。

6.2 问题2:跨子域共性知识难以共享

最直接的例子就是参数识别,如“如何识别输入是订单 ID 还是用户 ID”这类通用问题,在各子域中描述各异,质量参差,不利于共建复用。

6.3 解决:公共知识库 + 场景技能文档 双层召回

类型

内容

特点

公共知识库

系统级常识、领域通用概念、字段说明、状态机、错误码等

稳定、通用、一次定义,多处复用

场景技能文档

具体问题的诊断流程、工具调用顺序、分支逻辑

聚焦、精准、低冗余

召回策略:

1. 优先精确命中场景技能文档(强约束);

2. 辅助召回公共知识(通过 tag 筛选 + 自主识别);

3. 支持人工干预与权重调节。

为便于管理,我们正在建设简易后台系统,支持专家编写与 AI 自动生成(进行中)相结合的混合模式。

能力新建流程

从完整的能力构建视角,一次能力创建包含以下步骤(虚线部分进行中)


七、质量评估与闭环:让 Agent “可运营”

一个智能 Agent 系统能否真正落地并持续创造价值,不仅取决于其初始能力的构建,更关键的是是否具备可衡量、可迭代、可持续进化的运营机制。为此,我们建立了以“质量评估—反馈回流—知识优化”为核心的闭环体系,确保系统不是一次性的自动化工具,而是一个越用越聪明的“活体”。

7.1 多维度评估框架:从 F1 到 Q-score

在传统信息检索领域,我们常用 Recall(召回率) Precision(准确率)来衡量系统的性能,并通过 F1-Score 进行综合评价:

  • Recall:衡量 Agent 是否覆盖了已知问题的知识面,即“有没有答出来”;
  • Precision:判断答案内容是否准确无误,是否存在误导或幻觉;
  • F1-Score:两者的调和平均,用于整体能力打分。

然而,在实际研发支持场景中,问答结果往往复杂多元:一次响应可能涉及多个排查步骤、多种工具调用、多份参考文档。此时,简单的“对/错”二值判断难以反映真实服务质量。例如:

  • 结论正确但分析过程有瑕疵;
  • 分析详尽但最终建议不完整;
  • 知识库无答案,Agent也识别出无答案,这类回答属于正确召回,但并没有解决实际问题
  • 回答虽未完全解决问题,但已提供足够线索供工程师快速收口。

因此,我们引入了更加细粒度的质量评分机制——Q-score(Quality Score),采用 0–10 分制 对单次问答进行综合性打分。

✅ 实践标准:我们将 Q-score ≥ 7 定义为“有效回答”。这类回答即使不够完美,也能显著降低人工介入成本,具备实际生产可用性。

该评分机制兼顾了实用性与容错性,为后续自动化评估与迭代优化提供了坚实基础。

7.2 自动化评估的价值:聚焦坏样本,驱动快速迭代

初期阶段,少量问答可通过人工标注完成质量评估。但随着系统上线运行,月均交互量迅速突破千条,纯人工打标已不可持续,效率瓶颈凸显。

我们的策略并非追求“全自动精准裁判”,而是利用 AI 实现低投入、高回报的异常检测:

目标是快速识别出低质量问答(坏样本),而非为每一条输出打准十分。

基于此,我们构建了专用的 “评分 Agent”,其核心逻辑如下:

1. 输入:历史问答记录 + 当前知识库状态;

2. 处理:结合少量高质量正例与典型负例(few-shot learning),辅以领域规则与扣分项模板;

3. 输出:生成 Q-score 及对应的扣分明细,如“跳步执行”、“引用过时文档”、“未按手册顺序操作”等。

这套机制的优势在于:

  • ✅ 快速发现明显缺陷(如幻觉、流程错误);
  • ✅ 显著减少人工复核工作量,仅需聚焦 ≤6 分的低分样本;
  • ✅ 支持高频监控与趋势追踪,及时感知能力退化。

7.3 闭环机制:从反馈到进化的正向循环

为了实现“越用越准”的目标,我们依托运营系统设计了一套完整的反馈回灌流程,将每一次低质量暴露转化为系统升级的机会:

线上问答 → 评分 Agent 打分 → 聚焦低分样本(≤6)→ 人工复核 → 根因归因
           更新排查文档 / 补充公共知识 / 优化提示词 → 回灌至训练集

这一闭环带来了三大收益:

  • 知识沉淀加速
    每一次失败都成为新知识的来源。例如,某次因日志格式变更导致诊断失败后,我们在技能文档中补充了新版日志说明,避免同类问题重复发生。
  • 模型行为收敛
    将典型错误样例持续注入评分 Agent 的 few-shot 示例库,使其识别能力不断增强,形成“防错—纠错—免疫”的正向演进。
  • 运营透明可控
    所有修改均有迹可循,配合管理后台的版本对比与变更记录,保障系统演进过程始终处于受控状态。

🔁 本质转变:Agent 不再是静态部署的一次性产物,而是一个依托数据反馈持续生长的“有机体”。


八、实战成效:多个领域落地验证

已覆盖几大核心场景:

  • 买家订单管理
  • 物流查询
  • 商家问题答疑
  • 评价场域支持 含问大家、买家秀、种草
  • 逆向流程诊断

部分因数据链路同步导致的问题(疑难杂症),如今运营小二可一键重置,研发零干预!

案例 1:评价场域问诊系统的投放使用情况

案例 2:逆向领域问题排查

案例3:商家相关问题诊断

案例4:物流场景问诊

案例5: 订单相关问题诊断

问诊Agent相关服务指标

问诊小助手近几期的服务次数趋势:

研发月度工单受理数:

问答平均质量分AVG(Q-score)

备注:部分小助手评分低是因为样本太少,稍微有一两个负面case 分数直线下降

问答有效率(Availble)(Q-score>= 7分)

召回率(Recall)& 精准率(Precision)&F1

目前自动化链路构建中,以1月份人工标注数据计算

问诊助手

召回率

精准率

F1

买家订单管

83.33%

83.33%

83.33%

物流查询小助手

100%

75.00%

85.71%

商家问题答疑小助手

80%

75%

77.42%

评价小助手

90%

85%

87.43%

逆行者2.0

90%

80%

84.7%

问诊Agent管理后台概览


九、总结与展望:边界与下一步

本系统围绕“研发支持的问诊痛点”,介绍了一种运维友好型问诊Agent构建范式及运营体系。通过将大量高频的重复解释(规则、口径)与问题排查(追链路、查日志、对指标、做补偿)工作自动化,以标准化排查文档的形式,快速接入已有的问诊Agent,显著提升能力迭代效率,使新同学也能快速上手。

当前边界

  • 依赖专家经验:高质量 Skill Doc 的撰写仍需领域专家投入;
  • 长尾问题覆盖不足:完全依赖模型推理的部分可靠性待提升;
  • 知识固化 vs 模型泛化:随着模型能力增强,是否还需显式文档?需持续观察;

下一步方向

1. 降低产出门槛

  • 探索基于链路标注、代码注释、接口文档 自动生成 Skill Doc 初稿;
  • 人工审核后快速上线,加速沉淀;

2. 增强实时反馈能力

  • 当前纠偏依赖月度复盘 → 目标实现分钟级异常检测与自动告警;

3. 探索“AI Native”知识组织方式

  • 若未来模型具备足够领域理解力,能否将代码转化为“可执行语义指令”?
  • 推动知识表达从“人类为主,AI为辅”向“AI为主,人类为辅”的演进。

💬 “让新人也能像老将一样从容应对复杂问题,这才是真正的工程提效。”


来源  |  阿里云开发者公众号

作者  |  顺乾

相关文章
|
5天前
|
人工智能 安全 API
CoPaw:5分钟部署你的 AI助理
源自阿里巴巴开源生态的个人 AI 助理——CoPaw。作为阿里倾力打造的开源力作,CoPaw 完美打通钉钉、飞书、Discord 等多平台对话通道,支持定时任务自动化。内置 PDF/Office 深度处理、新闻摘要等强大技能,更开放自定义扩展接口。坚持数据全程私有化部署,绝不上传云端,让每一位用户都能在大厂技术加持下,拥有安全、专属的智能助手。
|
8天前
|
人工智能 自然语言处理 JavaScript
2026年Windows+Ollama本地部署OpenClaw保姆级教程:本地AI Agent+阿里云上快速搭建
2026年OpenClaw凭借本地部署、私有化运行的特性,成为打造个人智能体的核心工具,而Ollama作为轻量级本地大模型管理工具,能让OpenClaw摆脱对云端大模型的依赖,实现**本地推理、数据不泄露、全流程私有化**的智能体验。本文基于Windows 11系统,从硬件环境准备、Ollama安装与模型定制、OpenClaw部署配置、技能扩展到常见问题排查,打造保姆级本地部署教程,同时补充阿里云OpenClaw(Clawdbot)快速部署步骤,兼顾本地私有化需求与云端7×24小时运行需求,文中所有代码命令均可直接复制执行,确保零基础用户也能快速搭建属于自己的本地智能体。
9406 76
|
6天前
|
人工智能 安全 JavaScript
阿里云上+本地部署OpenClaw(小龙虾)新手攻略:解锁10大必备Skills,零基础也能玩转AI助手
2026年,开源AI代理工具OpenClaw(昵称“小龙虾”)凭借“能实际做事”的核心优势,在GitHub斩获25万+星标,成为现象级AI工具。它最强大的魅力在于可扩展的Skills(技能包)系统——通过ClawHub插件市场的数百个技能,能让AI助手从简单聊天升级为处理办公、学习、日常事务的全能帮手。
4793 13
|
7天前
|
人工智能 自然语言处理 机器人
保姆级教程:Mac本地搭建OpenClaw及阿里云上1分钟部署OpenClaw+飞书集成实战指南
OpenClaw(曾用名Clawdbot、Moltbot)作为2026年最热门的开源个人AI助手平台,以“自然语言驱动自动化”为核心,支持对接飞书、Telegram等主流通讯工具,可替代人工完成文件操作、日历管理、邮件处理等重复性工作。其模块化架构适配多系统环境,既可以在Mac上本地化部署打造私人助手,也能通过阿里云实现7×24小时稳定运行,完美兼顾隐私性与便捷性。
4921 11
|
9天前
|
人工智能 JSON JavaScript
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
手把手教你用 OpenClaw(v2026.2.22-2)+ 飞书,10分钟零代码搭建专属AI机器人!内置飞书插件,无需额外安装;支持Claude等主流模型,命令行一键配置。告别复杂开发,像聊同事一样自然对话。
5236 13
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
|
8天前
|
人工智能 监控 机器人
2026年零门槛部署 OpenClaw(Clawdbot)接入A股数据,实现24小时股票分析保姆级教程
在AI赋能金融分析的浪潮中,OpenClaw(原Clawdbot/Moltbot)凭借开源灵活的架构,成为个人投资者打造专属智能分析助手的首选。通过接入A股实时数据,它能实现24小时市场监控、涨跌预警、潜力股推荐等核心功能,彻底解放人工盯盘的繁琐。而阿里云的稳定部署环境,更让这套系统实现全天候不间断运行,成为真正的“金融AI助手”。 本文基于OpenClaw v2026.1.25稳定版与QVeris免费A股数据接口,详细拆解阿里云OpenClaw部署步骤、A股数据接入流程、高级分析功能配置及多平台联动技巧,所有代码命令均可直接复制复用,即使无技术基础也能在1小时内完成从部署到实战的全流程。
3651 12
|
4天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
2323 6