一、引言
近年来,大语言模型(LLM)的能力边界不断拓展:从检索增强生成(RAG),为大模型接上了外部知识库,让它能给出更可靠的答案;到引入思维链(COT)机制,通过显式地生成思考过程,增强了模型的逻辑分析与复杂问题拆解能力;再到如今的工具调用(Tool Use),模型真正被赋予了像人类专家一样的能力,主动思考、规划、并利用工具去解决未知复杂问题。这标志着模型正从“被动响应者”向“主动智能体”演进,让模型在复杂问题解决、响应鲁棒性和生成的透明度上发生质的飞跃。
然而,“巧妇难为无米之炊”,要训练出这样的智能体,光有算法远远不够,数据才是真正的燃料。DeepSeek的研究工作确立了当前大模型训练的主流范式,即先是高质量数据驱动的冷启动阶段,再是基于强化学习的优化阶段。但Tool Use的冷启数据难以获取,通用模型通常在海量纯文本上预训练,再通过人工标注的指令数据微调,但这些数据几乎不包含“如何分步调用工具,分析工具返回结果,做出决策”的完整轨迹。人工标注不仅成本高昂、效率低下,还难以覆盖复杂场景的多样性。而特有业务场景的Tool Use数据更加稀缺。因此,合成数据成为破局关键。借助更强的大模型自动地生成大规模、高难度、可拓展的Tool Use训练数据。更重要的是,这套合成方案还能形成“数据飞轮”:训练出的更好模型,反过来生成更高质量的数据,推动智能体能力的持续优化。我们将以租赁导购助理“小不懂” One Model 架构为例,介绍一套面向真实业务需求的 Tool Use 训练数据合成方案。
1.1. 租赁助理“小不懂”介绍
“小不懂”作为支付宝芝麻租赁频道的官方智能助理,核心使命是同时满足用户的问题咨询与商品导购两大需求。这一业务特性决定了其工具调用能力与当前主流的 Deep Research 场景存在差异。在典型的 Deep Research 任务中,模型主要依赖知识检索工具来获取信息、验证事实或进行多步推理;而“小不懂”不仅需要具备类似的知识检索能力(例如查询租赁规则、用户权益、小红书种草内容或全网资讯),还必须能高效调用商品库检索工具——即在数万级租赁商品池中,根据品类、品牌、型号、功能特征、租金价格、租期选项及商家信誉等多维参数,动态筛选并推荐最匹配的商品。这使得现有公开的 Tool Use 数据集无法直接复用。因此,我们必须从零构建一套贴合租赁场景、融合知识理解与商品决策的合成数据体系,才能真正训练出懂业务、会导购、能闭环的智能助理。
技术上,我们采用One-Model架构,通过单一基座模型实现多工具协同,涉及的工具如下:
1.2. LLM Tool Use 推理&训练流程介绍
接下来,我将分推理流程和训练流程两部分简要介绍如何让模型在实际交互中利用Tool解决用户问题,以及如何让模型学习到Tool Use能力。
1.2.1. 推理流程
在推理阶段,模型采用 ReAct方式,以自回归方式交替生成推理思考(Thought)与行动(Action),并在每一步动态判断:是继续调用工具获取更多信息(Tool Call),还是已具备足够依据输出最终回答(Final Response),具体流程可以参考下图:
对于每一步,模型会经历如下阶段:
1. 任务分解与规划:将原始拆解为若干可操作的原子子任务(如“检索某类产品的种草知识”、“查满足某些条件的商品”);
2. 工具选择:针对每个子任务,从预定义工具集中选择最匹配的工具(如知识检索、商品库查询或服务卡片触发);
3. 工具调用与结果融合:执行工具调用,获取结构化或非结构化返回结果,并将其融入当前上下文;
4. 决策与响应:基于累积信息判断是否完成任务——若未完成,则回到步骤1继续迭代;若已完成,则生成最终回复。
1.2.2. 训练流程
为让模型学习上述推理逻辑,我们采用Multi-Step SFT + RL训练策略,将一条完整的“行动轨迹”数据,拆解成多个独立的训练步骤,目的是:
1. 兼顾过程与结果:让模型既能学习在任务中途进行下一步行动预测 (Next-Step Prediction),也能学习在任务终点生成最终答案 (Final Response Generation)
2. 提升训练效率: 在构建训练数据时,提前离线获取工具返回结果,在训练过程中,模型无需等待工具调用结果,提升训练效率。
1.3. 数据合成的目标与难点
1.3.1. 目标
目前社区并没有一些很好用的tool use基础模型,尽管社区涌现出如search-r1,Re-tool等多轮工具调用模型,但都是从一个开源的instruct模型针对某方面工具调用(如搜索,代码)进行强化学习,但在混合工具调用(如知识检索 + 商品查询 + 服务触发)和复杂多轮交互场景中泛化能力有限,难以支撑真实业务中的多样化需求。此外,考虑到推理耗时,参数量相对小的基座模型(80b及以下)在长上下文或多轮对话中仍存在历史信息遗忘与内容重复生成等问题。因此,我们的核心目标是构建一个适用于租赁导购业务的高质量训练数据集。该数据集必须能够:
1. 增强模型的多轮对话理解能力,确保其能准确把握长对话中的用户意图和关键信息。
2. 提升模型的精准工具调用能力,使其学会在面对复杂请求时,自主规划并协同使用知识、商品、服务等多种工具。
3. 强化模型的复杂问题推理能力,最终实现一个理想状态:我们只需为模型提供可选的工具及其定义,它便能自动编排工作流,自主地完成任务,无需任何硬编码的逻辑。
为了达到这个目标,我们需要合成包含完整“思考-行动”轨迹的训练数据。每一条数据都应遵循 Query-Answer 的结构,其中 Query 包含了用户的当前问题及完整的历史对话,而 Answer 则包含了模型完整的工具调用链以及最终给出的人性化回答。
1.3.2. 难点
在实践中,构建这样一个大规模、高质量的多轮Tool Use数据集,我们面临着四大核心挑战:
1. 语料稀缺性:缺乏高质量、可复现的多轮工具调用训练语料,尤其是多轮tool use训练语料。
2. 合成低效性:任务链路复杂,即便使用更强的主流大模型,自动生成的有效轨迹比例仍低,且人工标注成本高、准确率难以保障。
3. 动态适配性:训练数据需与模型能力演进对齐——模型不同训练阶段,关注的能力点不同,对数据分布的需求不同。
4. 场景拟真度:生成的问题必须高度拟人化,精准还原线上用户的真实表达习惯与租赁业务场景,避免机械或脱离实际的对话。
二、相关工作
2.1. ToolUse公开评测集构建方案
1. ACE-Bench旨在全面评估模型在不同情境下的工具调用能力,为此它将数据精心划分为三种类型:
- Normal数据:评估模型在基础场景下的工具调用能力;
- Special数据:评估模型在指令不完整或参数错误等特殊情况下的表现;
- Agent数据:通过多智能体交互模拟真实世界的多轮对话,评估模型的在复杂交互环境中的性能。利用GPT-4o模拟用户角色复制真实世界的交互场景。
其中Normal and Special data数据由LLM自动构建:
- API合成:采用自演进方法,通过构建分层 API 上下文树,以确保生成的 API 涵盖广泛的领域和功能
- 对话构建:从API池中采样3-6个API(随机采样,子图采样),针对简单查询使用模板生成;针对复杂查询则引入多智能体(用户、助手、工具)角色扮演,生成动态交互对话。
Agent Data由专家构造:
- 场景构建:从真实世界中抽象出多个场景(移动应用、食品配送、金融服务、旅行预订),并为每个场景出一系列的tools。
- 环境构建:完成这些tools的代码实现
- 问题设计:针对不同场景预定义多轮对话规范,领域专家进行迭代标注构建对话问题。
2. Tau2-Bench同样利用大模型的多种角色扮演(user和agent)产生对话,不同于之前的工作中只有“助手”能使用工具,Tau2-Bench在数据合成时用户和助手均可共享工具和知识,这更符合真实场景。
其整体的数据构造流程如下:
- 定义原子任务:将复杂任务分解为最小的、不可再分的“原子任务”。
- 构建任务模版:定义一系列“任务模板”来编排这些原子任务,形成解决特定问题的标准化流程。
- 模版实例化:将抽象的流程转化为具体的、可执行的任务数据。在这一步,我们为模板中的每个环节填充具体的原子任务,并从领域知识库中抽取参数来丰富细节。同时,系统会自动生成任务的初始与目标状态,这种方法不仅为任务的正确性验证提供了明确依据,也通过参数和任务组合的变化极大地提升了生成数据的多样性。
2.2. 其它数据合成方案
除了专门的评测集构建,学术界还探索了多种面向特定挑战的数据合成技术。
1. 在query生成方面:WebSailor基于图方法构建了一批高难度的问答数据:
- 基于 Wikidata 随机游走构建复杂知识子图。
- 对子图和子表进行采样以生成初始问题和答案。
- 通过模糊化实体或时间生成高难度推理问题。
2. 在多步tool use轨迹生成方面,Google DeepMind的工作中提到利用更强的大模型迭代生成tool use轨迹:
- 迭代生成轨迹: 让一个工具增强的LLM自主解决问题,记录其包含思考、工具调用和最终答案的完整“行动轨迹”。
- 轨迹分解与过滤: 将长轨迹分解为多个子任务,并利用一个评估模型对轨迹中的每一步行动进行合理性打分。
- 数据过滤:只保留那些每一步都被判定为合理的“高质量轨迹”,这种过程性过滤(Process Filtering)被证明是提升数据质量最有效的方式。
三、方案介绍
然而,当前现有Tool Use数据合成方案应用于租赁导购场景时,仍面临挑战: 业务场景下的对话通常需要围绕特定的目标(如商品决策、售后问题咨询等)展开。完全无约束的生成(如多步轨迹生成)虽然多样,但容易偏离业务主线;而过于依赖模板则会扼杀对话的自然性和灵活性,无法有效模拟用户意图的动态变化。
针对上述挑战,我们提出一种动态多智能体对话生成框架。我们借鉴影视创作中的“导演-演员”协作机制,通过可控的话题路径引导与角色驱动的动态交互,在保证业务合规性的同时,生成高度拟真、逻辑连贯且覆盖全链路的多轮对话数据。该方案不仅弥补了现有方法在场景深度与交互自然性上的不足,也为构建专业级租赁导购 AI 提供了高质量、可扩展的数据基础。
3.1. 多轮数据合成
通过“导演-演员”式协作框架,多智能体(用户、助手)的角色扮演来生成动态交互,模拟真实世界的多轮对话。
3.1.1. 对话话题路径采样
输入:话题池、主推商品信息(如“大疆pocket3”)或租赁场景(如“演唱会”)。
输出:差异化用户租赁偏好+对话话题转移路径。
实现步骤:
- 步骤1:构建话题池。根据业务场景,定义租前、租中、租后三个阶段的话题节点及示例,让对话贴合业务场景。
- 步骤2:获取商品结构化知识。利用该知识让模型提出符合真实场景的问题。
{ "product_name": "大疆pocket3", "knowledge": "[检索到的种草知识文档...]", "attribute": { "简介": "大疆Pocket3是大疆推出的一款便携式云台相机,支持4K视频拍摄,提供多种参数调节功能(如曝光+0.3、感光度50-6400、白平衡4700K等),支持10bit色彩深度。用户可通过自定义参数提升画质,如关闭美颜、调整锐度与去噪等。设备支持竖屏模式、自动旋转运镜及希区柯克变焦功能,操作门槛较高但画质表现优秀,适合内容创作。", "特点/卖点": ["电影级画质还原", "直出参数可调性强(白平衡/曝光/色彩等)", "云台稳定技术(主角跟随/自动虚化背景)", "支持4K竖屏拍摄", "多种创意运镜模式(自动旋转/希区柯克变焦)"], "同类商品/竞品": [{ "品牌": "影石", "型号": ["GO3S", "AcePro2"] }, { "品牌": "大疆", "型号": ["mini2"] }], "适用场景": "旅行记录、vlog创作、口播视频拍摄、探店场景、户外风光及人像摄影", "适用人群": "自媒体创作者、视频内容制作者、旅行爱好者、追求高质量便携拍摄设备的用户" } }
- 步骤3:生成话题转移路径,实现有逻辑、有目的的话题转移,让对话可控且灵活。
对话路径的定制化要求如:对话路径中必须出现两次“商品选择要求”节点。使得生成的对话可控,同时可以控制数据的多样性。
【对话路径采样结果展示】
{ "场景": "iPhone新品尝鲜", "品类": "手机", "product_name": "iphone17 pro", "product_info": { "简介": "xxx", "特点/卖点": ["xxx"], "同类商品/竞品": [{"品牌": "xx", "型号": ["xxx"]},...}], "适用场景": "xxx", "适用人群": "xxx" }, "sop": [{ "租赁场景": "iPhone新品尝鲜", "租赁需求": { "价格": "希望日租金控制在50元以内", "租期": "需要租用7-10天", "商品成色": "全新", "商品属性特征": "重点关注摄像头的变焦能力和防抖性能" }, "提问路径": "使用场景描述→商品选择要求→商品信息咨询→租赁规则咨询→商家售后问题", }, { "租赁场景": "iPhone新品评测", "租赁需求": { "价格": "接受日租金80-100元", "租期": "短期3-5天", "商品成色": "二手9成新以上", "商品属性特征": "需要A19芯片+120Hz高刷屏" }, "提问路径": "使用场景描述→商品对比→商品对比→租赁规则咨询→审核信息搜集", }] }
3.1.2. 多Agent动态对话生成
1. 用户 Agent(负责生成用户提问)
输入:
- 用户租赁偏好:上一步生产的用户租赁偏好。
- 历史对话上下文:当前的对话上下文。
- 当前指定的话题节点:由“导演”模块预设的本轮对话目标,如“商品对比”“租赁规则咨询”等。
输出:
- 自然语言提问:生成符合真实用户表达习惯的口语化问题,包含合理的指代、省略或上下文依赖(例如:“这个长焦效果怎么样?”而非“iPhone 17 Pro 的长焦镜头成像质量如何?”。
- 结构化意图解析:包括问题类型(如“商品属性咨询”“售后规则查询”)、提及的商品实体(如品牌/型号),以及推荐调用的工具(如 `knowledge_search` 或 `search_db`)。这部分输出是指导助理Agent选择合适的工具和回复策略,从而提升回答的准确性与业务贴合度。
2. 助理 Agent(负责生成复杂回复)
输入:
- 完整历史对话
- 用户Agent的输出的提问
- 用户Agent的输出的推荐调用的工具
输出:
- 根据任务需求,生成“带商品卡片”或“不带商品卡片”的自然语言回复。
工具驱动的回复策略:
- 若需调用 `knowledge_search`: 提取用户问题中的关键词构造检索查询(query),再从知识库(如内部规则、小红书种草内容、全网资讯)中获取相关信息。
- 若需调用 `search_db`: 我们不直接查询真实数据库,根据用户需求参数(品类、品牌、价格区间等)直接 Mock 符合条件的商品数据;这样做有两个好处:1. 避免真实API调用开销,加快了数据合成速度。2. 允许我们可控地注入负样本(如不匹配的商品、错误信息),以增强模型鲁棒性。
【多轮对话生成效果展示】
{ "session": { "metadata": { "user_preference": { "租赁场景": "iPhone新品评测", "租赁需求": { "价格": "接受日租金80-100元", "租期": "短期3-5天", "商品成色": "二手9成新以上", "商品属性特征": "需要A19芯片+120Hz高刷屏", "型号": "iphone17 pro" }, "提问路径": "综合商品推荐→商品对比→商品对比→租赁规则咨询→审核信息搜集", }, "product_info": { "商品简介": "iPhone 17 Pro是苹果公司于2025年9月10日发布的智能手机,于9月19日正式发售。它采用全新横向大矩阵摄像头设计,一体成型的航空级铝合金机身,后盖为超磁晶面板。提供银色、星宇橙色、深蓝色三种配色。配备6.3英寸超视网膜XDR显示屏,支持ProMotion自适应刷新率技术(最高120Hz)。搭载基于台积电3nm工艺的A19 Pro芯片,配备12GB运行内存,存储容量从256GB起步(另有512GB和1TB选项)。后置三颗均为4800万像素的融合式摄像头,支持8倍光学变焦和最高40倍数码变焦。前置1800万像素的Center Stage摄像头。内置锂离子充电电池,视频播放最长可达31小时,支持40W有线快充(20分钟可充至50%电量)和Qi2.2无线充电(最高25W)。运行iOS 26系统。起售价为8999元(256GB版本)。其VC均热板散热系统提升了持续性能表现,但部分用户反馈其铝合金机身相对易出现划痕或凹陷。", "特点/卖点": ["强大的A19 Pro芯片配合VC均热板散热系统,带来高达40%的持续性能提升,适合高强度任务和游戏", "专业的影像系统:三颗4800万像素后置摄像头,支持8倍光学变焦、ProRes RAW专业视频格式,视频拍摄能力尤其是防抖和色彩还原表现突出", "出色的续航能力:电池容量显著提升,iPhone 17 Pro Max视频播放最长可达37小时", "坚固耐用的机身设计:前后均配备超瓷晶面板,背面抗裂能力提高4倍,正面抗刮划能力提升至3倍", "流畅的显示效果:支持120Hz ProMotion自适应刷新率的超视网膜XDR显示屏", "一体成型的航空级铝合金机身,优化散热和手感"], "同类商品/竞品": [{ "品牌": "小米", "型号": ["小米17 Pro"] }, { "品牌": "华为", "型号": ["华为Mate 70 Pro"] }], "适用场景": "专业摄影与视频创作(尤其是需要高质量变焦和专业视频格式的场景)、高强度移动游戏(得益于强大的芯片和散热系统)、需要长续航和快速充电的日常使用与差旅场景、对手机耐用性和显示效果有高要求的各种应用场景。", "适用人群": "摄影爱好者和专业内容创作者、追求顶级性能和流畅系统体验的用户(尤其是苹果生态用户)、手游玩家、对手机续航、充电速度及整体耐用性有较高要求的用户、预算充足并希望手机能长期使用(如四五年)的用户。", "商品名称": "iphone17 pro" } }, "dialogue": [{ "role": "user", "content": "今年iPhone发布了哪些款手机?", "select_tool": "knowledge_search,search_db", "intent_category": "咨询教程指南", "mentioned_product": [] }, { "role": "assistant", "content": "哇!今年苹果确实发布了重磅的新款iPhone呢!🎉 \n根据最新消息,苹果在9月10日发布了全新的iPhone 17系列,包括iPhone 17、iPhone 17 Pro和iPhone 17 Pro Max三款旗舰机型,都是搭载了最新的A19芯片和各项技术创新!\n\n**iPhone 17**\n- 搭载A19芯片,性能强劲\n- 首次配备120Hz ProMotion自适应刷新率屏幕\n- 主打性价比,适合广大用户群体\n\n\n商品名称: iPhone 17 Pro 无锁|非监管机 高通过率 全新苹果 0押金0预付 赠送壳膜 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro\n商家名称: 叮咚品租\n商品成色: 全新\n日租金: 15.68元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,300+人租过\n**iPhone 17 Pro**\n- A19 Pro处理器,专业级性能\n- 12GB RAM + 三摄系统,影像能力出色\n- VC散热技术,游戏体验更佳\n\n\n商品名称: 【首月1元】 iPhone 17 Pro Max 2025新款 国行全新 原封未激活 官网正品\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 三宜租机\n商品成色: 全新\n日租金: 16.67元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,随租随还,隐私保护,晚发必赔,600+人租过\n**iPhone 17 Pro Max**\n- 顶配版Pro系列,专业用户首选\n- 4800万像素三摄系统,4倍光学变焦\n- 超大电池容量,续航表现优秀\n\n\n商品名称: iPhone 17 Pro Max 首月5折 全新国行 官方正品 顺丰包邮\n标品名称: 苹果/Apple iPhone 17 Pro Max\n商家名称: 友好物Apple产品租赁\n商品成色: 全新\n日租金: 12.23元/天\n服务保障: 免赔保障,可买断,可续租,租期质保,隐私保护,晚发必赔,1.2万+人租过\n这几款新机都支持5G网络,拥有出色的影像系统和长续航能力,无论是日常使用还是专业创作都很棒呢!如果你想体验最新款的iPhone,现在就可以在芝麻租赁平台上找到合适的租赁方案哦~ 😊", }, { "role": "user", "content": "17和17 pro区别", "完整问题": "iPhone 17和 iPhone 17 pro区别", "追问策略": "依赖上一轮回答", "select_tools": "knowledge_search,search_db", "intent_category": "商品属性对比", "mentioned_product": ["iPhone 17", "iPhone 17 Pro"] }, { "role": "assistant", "content": "iPhone 17 和 iPhone 17 Pro 的主要区别如下(基于2025年苹果发布信息):\n\n1. **核心配置** \n - **芯片**:17 Pro 搭载 **A19 Pro**(3nm工艺,性能提升40%),17 标准版为 A19(性能略低,无Pro后缀) \n - **运存**:Pro 配备 **12GB RAM**,标准版为 8GB \n - **存储**:Pro 起步 **256GB**(可选512GB/1TB),标准版起步128GB \n\n2. **影像系统** \n - **摄像头**:Pro 后置三颗 **4800万像素** 镜头(支持8倍光学变焦),标准版为双摄系统(无长焦镜头) \n - **视频能力**:Pro 支持 **ProRes RAW** 专业格式,防抖和色彩优化更强 \n\n3. **屏幕与设计** \n - **屏幕**:Pro 为 **6.3英寸120Hz 自适应刷新率** 屏,标准版为 60Hz \n - **材质**:Pro 采用 **航空级铝合金** 机身+超磁晶面板,标准版为普通铝合金 \n\n4. **续航与充电** \n - **电池**:Pro 视频播放 **31小时**,标准版约26小时 \n - **快充**:两者均支持40W有线快充,但 Pro 无线充电功率更高(25W vs 15W) \n\n5. **价格差异** \n - Pro 起售价 **8999元**(256GB),标准版预计低2000-3000元 \n\n简单总结:Pro 适合追求极致性能、摄影和屏幕体验的用户,标准版性价比更高,适合日常使用。需要帮你对比其他参数吗? 😊" },{ "role": "user", "content": "审核需要身份证吗", "完整问题": "审核需要身份证吗", "追问策略": "独立问题", "select_tools": "knowledge_search", "intent_category": "芝麻租赁内部问题", "mentioned_product": [] }, { "role": "assistant", "content": "[订单履约纠纷卡片服务卡片]" }, { "role": "user", "content": "为什么商家找我要了", "完整问题": "为什么商家找我要了身份证", "追问策略": "依赖历史对话", "select_tools": "rental_service", "intent_category": "审核信息搜集", "mentioned_product": [] }] } }
3.2. 复杂问题合成
- 复杂问题示例
- 数据构造流程
输入:可选工具集 + 复杂问题few-shot + 用户租赁偏好
输出:复杂问题 + 工具调用链
作为数据构造专家,请参考复杂问题示例依次构造各个租赁场景下高质量的复杂问题。要求该复杂问题需求是隐性的和复杂的,解决用户问题需要多个工具之间协调调用。请输出复杂问题以及对应的工具调用链。 # 可选工具 【这里是工具描述】 # 复杂问题示例 问题: 南京2177,买了125区的票,想出图,有什么推荐的吗?** 工具调用链:`知识检索(解码演唱会行话)` -> `知识检索(分析座位位置)` -> `知识检索(演唱会场馆不同位置的拍照设备推荐)` -> `商品检索(根据推理结果搜索特定品类)`。 # 用户租赁偏好 {query}
{ "query": "周杰伦上海站内场1排,想拍4K视频发抖音,但怕手机过热,租个能长时间录4K还不烫的相机,最好带云台。", "tool_call": "`知识检索(内场1排拍摄需求分析)` →`知识检索(4K长时间录制设备散热能力)` →`商品库检索(品类=相机, 特征=4K持续录制/散热好/支持云台) `→`服务承接(确认是否提供云台配件租赁)`" }, { "query": "新手学拍vlog,想租个带美颜、能竖屏、重量<500g的相机,还要有B站教程,租一周。", "tool_call": "`知识检索(vlog新手设备选型标准) ` →`商品库检索(品类=相机, 特征=美颜/竖屏/重量<500g, 租期=7天)` →`知识检索(关联B站/小红书种草教程)`" }
3.3. 数据过滤方案
同tau2-bench方案类似,我们会预先定义 任务类型-工具调用list,用户帮助验证数据的正确性,过滤掉明显错误的样本,为了保证数据质量,最后还是会进行人工二次核验和订正。
### 1. 商品推荐 - 触发条件:用户的主要意图是寻找商品,明确表达了品牌、型号、品类修饰词、使用场景、参数或价格要求。 - 示例:“华为Mate60”、“适合拍vlog的相机”、“长续航”、“月租3000”、“热门手机” - 工具链:[强制执行] `knowledge_search(种草)` -> [强制执行]`search_db` ### 2. 芝麻租赁内部问题 - 触发条件:除了「服务履约」覆盖的范围,只要用户关于租赁问题,涉及租/借规则、流程、平台活动(爆品、超值、秒杀等)、芝麻分、专享服务、信用、免押、资格、费用、订单、政策、app操作等 - 示例:“租期怎么算”、“租手机限制年龄吗” - 工具链:[强制执行]`knowledge_search(租赁内部知识)` -> [条件触发]`knowledge_search(全网搜)` ### 3 通用问答 - 触发条件:需要实时信息 - 示例:“今天天气怎么样”、“美国总统是谁” - 工具链:[强制执行]`knowledge_search(全网搜)` ### 4. 无意义问题 - 触发条件:无信息的问题 - 示例:“你好” - 工具链: 禁止调用工具,直接礼貌回复,引导到商品推荐。 ...
3.4. 线上数据积累
模式先上线后,我们会回流的线上数据,对预测结果进行打标,统计错误类型,并针对badcase构造更多训练数据,通过这一步实现模型的自我改进。总结下来,我们数据合成整体节奏如下:
四、数据效果
4.1. 合成数据分析
1. 问题类型分布
2. 历史对话轮次分布
3. 工具调用次数分布
4.2. 模型效果分析
4.2.1. 训练数据量影响
实验配置:
- 模型:基座模型为Qwen3-Next-80B-A3B-Instruct,采用SFT+RL多阶段训练。
- 数据:经过人工逐步筛选和反复的订正,最终得到了1500条高质量的训练数据。训练数据格式如下
{ "conversations": [{ "from": "human", "value": "想租个VR设备,有什么推荐吗?" }, { "from": "gpt", "value": "根据你的需求,我为你精选了一款适合租赁的VR设备,都支持短期3天体验和较长期90天租赁。考虑到你是为了观看TXT vr演唱会,这款设备具备高清显示和舒适佩戴的特点,而且都提供操作指南和预装软件,上手简单方便~\n\n<spu_card>\n**Pico Neo3 VR一体机**\n - 国产VR设备的优秀代表,性价比超高\n - 适合初次体验VR的新手用户\n - 300元左右的租赁价格非常亲民\n\n**价格最优选择**\n商品名称:Pico Neo3 VR一体机, \n商家名称:惠租,\n品牌:Pico,\n规格:128G存储版,\n商品成色:全新,\n日租金:累计300+人租过,\n销量:80+/月,\n可选租期:3天/7天/90天,\n服务保障:租期质保,隐私保护,寄出包邮,\n商品特征:免押,同城自提,\n是否有高分专享优惠:否\n</spu_card>\n\n[使用小贴士]\n1. 使用VR设备时建议在宽敞空间,避免磕碰\n2. 初次使用可能会有轻微眩晕感,建议先适应15分钟\n3. 佩戴前记得清洁面部和眼镜(如果戴眼镜)\n4. 观看演唱会时可以调节瞳距和焦距获得最佳效果\n5. 设备电量充满可连续使用2-3小时,建议备好充电宝" }, { "from": "human", "value": "有这个的操作指南吗" -- 完整问题为:有Pico Neo3 VR一体机的操作指南吗? }, { "from": "function_call", "value": "{\"name\":\"knowledge_search\",\"arguments\":{\"thought\":\"用户询问Pico Neo3 VR一体机的操作指南,需要搜索相关的使用教程和操作说明\",\"search_groups\":[{\"query\":\"Pico Neo3 VR一体机 操作指南 使用教程\",\"source\":[\"种草知识\"]}]}}" }, { "from": "observation", "value": "搜索词:Pico Neo3 VR一体机 操作指南 使用教程\n搜索来源:种草知识\n标题:Pico VR开发课程推荐\n内容:大三下时学校课程《虚拟现实与交互》需要做一个VR游戏。当时购买了Pico虚拟一体机,以及找到了这套课程,让我短时间内完成了一个可玩性高的飞行解谜游戏。由于建模太丑陋我没放到我小红书上哈哈 这套课程包括(以下仅罗列我个人上手时最困惑最需要的知识): 1 Pico开发环境准备 2 Pico VR项目的创建与导出 3 实时预览测试 4手柄输入绑定 5 自定义手柄模型 6 手柄射线交互 7 瞬移与持续移动 8 手柄射线外观更改 9 开枪交互/攀爬交互/推拉抽屉交互/推拉电闸交互/与门交互/旋转方向盘交互 10 交互反馈系统的使用 11 手柄震动反馈 [蹲后续H]不知道有没有别的好教程蹲推荐,因为我又要回头优化我的VR项目了\n互动数据:154点赞 159收藏 14评论\n------------------------------\n搜索词:Pico Neo3 VR一体机 操作指南 使用教程\n搜索来源:种草知识\n类目:相机\n知识内容:**出游相机推荐 | 这俩随身带,人像直接封神!✨** 「厦门的海边、青岛的洋房、大理的雪山... 这些地方不拍人像等于白去!🤳」 最近被问爆的出游相机—— **佳能G7X3** 必须提名!拍人像自带“妈生好皮”效果,皮肤透亮又不假白,翻转屏举高高自拍超方便,闺蜜合照再也不用担心脸大!重点是小巧到能塞进包包,边逛边拍完全不累赘~ 如果偏爱复古胶片感,可以看看 **理光GR3** ,质感超绝,扫街抓拍超快,但自拍得外接屏幕(懒人慎入哈哈)。 总结:要美颜方便选G7X3,要文艺氛围选GR3,反正人像都能原地出道! (下次教程教你怎么调参数,先码住!📸)\n------------------------------\n搜索词:Pico Neo3 VR一体机 操作指南 使用教程\n搜索来源:种草知识\n知识类型:视频\n知识标题:告别自动挡!Pico 4 VR眼镜一体机内置海量游戏 最佳参数设置指南,画质秒提升!\n知识内容:<lifeTabVideoCard>\n<code>vid_4be34d233c</code>\n</lifeTabVideoCard>\n播放量:103399\n------------------------------" }, { "from": "function_call", "value": "{\"name\": \"search_db\", \"arguments\": {\"thought\": \"用户询问Pico Neo3 VR操作指南,现在要查询该型号的租赁商品\", \"queries\": [{\"brand\": \"Pico\",\"models\": [\"Neo3\"]}]}}" }, { "from": "observation", "value": "name: Pico neo3 VR眼镜一体机内置海量游戏 当天发出\nspu_name: Pico neo3\nmerchant: 友租\nbrand: Pico\nspecs: Pico 3-256G:畅玩版+【提供游戏+电影不停更新】\ncondition: \ndaily_rate: 203.58元/天\nlease_periods: 30\nservice_guarantees: 免赔保障, 租期质保, 随租随还, 隐私保护, 晚发必赔, 寄出包邮\nhas_high_score_exclusive: 否\nsales: 50\nsales_ranking: other\nsingle_spu_tag: 销量第一\nitem_id: 2025021322000258125475\nITEM ID:2025021322000258125475\n--------------------------------------------------\nname: Pico neo3 VR眼镜一体机内置海量游戏\nspu_name: Pico neo3\nmerchant: 友租\nbrand: Pico\nspecs: Pico 3-256G:畅玩版+【提供游戏+电影不停更新】\ncondition: \ndaily_rate: 71.82元/天\nlease_periods: 30\nservice_guarantees: 免赔保障, 租期质保, 随租随还, 隐私保护, 晚发必赔, 寄出包邮\nhas_high_score_exclusive: 是\nsales: 15\nsales_ranking: other\nsingle_spu_tag: 综合第一\nitem_id: 2025042822000973304542\nITEM ID:2025042822000973304542\n--------------------------------------------------\nname: Pico4/ Pico Neo3 VR眼镜一体机出租租赁 游戏丰富 可串联电脑PCVR半条命艾利克斯\nspu_name: Pico 4\nmerchant: 云租机\nbrand: Pico\nspecs: Pico Neo3\ncondition: \ndaily_rate: 107.88元/天\nlease_periods: 7, 30, 90, 180, 365\nservice_guarantees: 免赔保障, 租期质保, 随租随还, 隐私保护, 晚发必赔, 寄出包邮\nhas_high_score_exclusive: 否\nsales: 276\nsales_ranking: other\nsingle_spu_tag: 低价优先\nitem_id: 2024121222000145855035\nITEM ID:2024121222000145855035\n--------------------------------------------------" }, { "from": "gpt", "value": "我来为你详细介绍Pico Neo3 VR一体机的操作指南!这款设备上手其实很简单,新手也能快速掌握~ 🎮\n\n**Pico Neo3 基础操作指南:**\n\n**开机与设置:**\n- 长按电源键开机,首次使用需要完成基础设置\n- 设置安全区域:在宽敞空间划定游戏区域,设备会在你靠近边界时显示现实画面\n- 调整头带和瞳距,确保佩戴舒适和画面清晰\n\n**手柄操作:**\n- 左手柄:通常用于移动、抓取物品\n- 右手柄:用于交互、选择、确认操作\n- 摇杆:控制移动方向\n- 扳机键:确认选择、抓取物品\n- 菜单键:呼出系统菜单\n\n**实用功能:**\n- 支持手机投屏,可以在VR中观看手机内容\n- 内置Pico Store,有150+游戏和应用可选\n- 支持串流电脑玩Steam VR游戏(需要安装游戏串流助手)\n- 4K高清显示,360度环绕立体声\n\n**使用小贴士:**\n1. 初次使用建议先适应15分钟,避免眩晕\n2. 游戏前确保电量充足(满电约2-3小时使用)\n3. 保持周围环境安全,避免磕碰\n4. 定期清洁镜片和面部接触部位\n\n如果你想要亲身体验Pico Neo3的操作,这里有几款不错的租赁选择:\n\n**Pico Neo3 VR一体机**\n- 国产VR设备中的性价比之选\n- 适合VR新手入门体验\n- 内置丰富游戏和应用资源\n\n**销量第一**\n<itemCard>\n<type>item</type>\n<item>2025021322000258125475</item>\n</itemCard>\n\n**综合第一**\n<itemCard>\n<type>item</type>\n<item>2025042822000973304542</item>\n</itemCard>\n\n**低价优先**\n<itemCard>\n<type>item</type>\n<item>2024121222000145855035</item>\n</itemCard>\n\n希望这些操作指南对你有帮助!如果想深入了解某个特定功能,随时可以问我哦~ 😊\n\n<lifeTabVideoCard>\n<code>vid_434b31642c</code>\n</lifeTabVideoCard>" } ], "tools": "这里是各个工具的参数定义" "system": "" }
- 评测口径
1. 工具选择是否正确
2. 工具参数是否正确
3. 回答格式是否正确
- 评测结果
结论:随着训练数据量的增加,模型SFT后准确率由64%提升到88%。
4.2.2. 数据合成方法效果
- 无话题路径采样:以租赁商品/租赁场景为种子,让user agent和simulator随机对话。
- 无多Agent生成:以租赁商品/租赁场景为种子,一次性生成多轮问题和答案。
- 线上数据:采样线上数据
结论:使用我们的数据合成方法,能更有效的让模型学习到工具调用能力。
4.2.3. 多轮理解与工具调用互相泛化
结论:在模型训练前期,我们仅用多轮问答数据训练模型,发现也能提升工具调用能力,证明模型的多轮理解与工具调用任务是相辅相成的,构造高质量的多轮历史对话数据也能帮助模型更好的学习工具调用。
五、未来工作
数据合成的工作仍处于持续迭代阶段,接下来,我们计划从以下方面继续深耕,通往更智能、更可靠的AI导购之路:
1. llm-as-judge提效数据过滤:基于大模型做数据评估和筛选,提升数据合成效率。
2. 基于知识图谱构造复杂query:构造租赁场景知识图谱,包括人群偏好、商品属性等,实现基于图谱构造复杂问题。
参考文献
[1]: Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, https://arxiv.org/abs/2504.04736
[2]: WebSailor: Navigating Super-human Reasoning for Web Agent, https://arxiv.org/abs/2507.02592
[3]: ACEBench: Who Wins the Match Point in Tool Usage?, https://arxiv.org/abs/2501.12851
[4]: Tongyi DeepResearch Technical Report, https://arxiv.org/abs/2510.24701
[5]: τ2-Bench: Evaluating Conversational Agents in a Dual-Control Environment, https://arxiv.org/abs/2506.07982
来源 | 阿里云开发者公众号
作者 | 漫希