C-3PO:多智能体强化学习赋能检索增强生成

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 检索增强生成(Retrieval-augmented generation,RAG)作为一种关键范式,它通过融入外部知识来提升大型语言模型(LLMs)的能力。RAG的有效性很大程度上取决于检索器和大语言模型之间的对齐程度以及各组件间的紧密交互和协作。

前言

检索增强生成(Retrieval-augmented generation,RAG)作为一种关键范式,它通过融入外部知识来提升大型语言模型(LLMs)的能力。RAG的有效性很大程度上取决于检索器和大语言模型之间的对齐程度以及各组件间的紧密交互和协作。然而这些组件通常是独立开发的,没有共同训练,这可能会导致语义不匹配和次优交互:检索器可能无法根据 LLM 的需求提供合适的信息,而 LLM 可能难以生成有效的查询(query)来指引检索器或者无法无缝整合检索到的内容。

因此,该工作通过观察人类的搜索行为,发现人类在使用检索时通常涉及反复搜索查询、审查文档和规划推理等行为,直到在文档中找出正确的答案或者在脑海中浮现出正确的答案。因此,该工作模仿人类搜索行为,提出了C-3PO,这是一个以代理为中心的对齐框架,它采用轻量级的代理来促进检索器和 LLM 之间的通信,而无需修改或损害其原始功能。

C-3PO在单个代理模型中集成了一个多智能体系统,其中多个智能体以人类的工作方式协助整个 RAG工作流。为了更好的优化这个代理,C-3PO将检索器和 LLM 视为环境的一部分,采用多智能体强化学习进行端到端训练。其中,C-3PO引入了树状结构的Rollout机制和蒙特卡洛信用分配来改善不同智能体之间的奖励分配问题。实验结果表明,C-3PO在域内和分布外数据集,甚至是完全域外的检索器和LLM上,都取得了稳健的性能,展现了其即插即用的可扩展性和卓越的泛化能力。

论文地址:

https://arxiv.org/abs/2502.06205

项目地址:

https://chen-gx.github.io/projects/C-3PO

Demo地址:

https://www.modelscope.cn/studios/Decaderan/C-3PO/summary

协作的多智能体系统

(Cooperative Multi-agent System)

受人类行为的启发,C-3PO设计了三个专门的智能体——推理路由器、信息过滤器和决策者——以促进检索器和 LLM 之间的交流(图1)。这些智能体使用特定的指令在单个轻量级代理模型中充当不同的角色,协作管理 RAG 流程的各个方面。这种设计确保了高效的协调,同时保持了端侧部署的简单性。

图1. C-3PO的整体框架。(左上)在人类行为中,与高效 RAG 系统交互所需的基本认知能力。(右上)以代理为中心的对齐框架通过轻量级多智能体系统模拟这些人类交互。(底部)多智能体系统的端到端优化流程。

各个智能体的定义如下:

推理路由器(Reasoning Router)负责根据给定问题,确定最佳推理策略。

  1. 确定检索的必要性:如果认为不需要检索([No Retrieval]),则该问题由 LLM 直接处理,仅利用其固有知识。
  2. 确定问题的复杂性:如果认为需要检索,推理路由器会评估该问题的复杂性来确定后续推理策略。
  3. 对于简单问题,推理路由器生成单个查询([Retrieval] <query content>)来调用检索器以获取相关文档。然后,信息处理器过滤检索到的文档,以提取有帮助的内容。
  4. 对于复杂问题,推理路由器输出([Planning])来触发多步骤推理策略。

信息过滤器(Information Filter)负责处理和过滤检索到的信息。其状态空间包括问题、检索到的文档和当前推理目标(如果是[Planning]模式)。

决策者(Decision Maker)负责在[Planning]策略中,根据当前状态确定最佳的下一步动作。其状态空间包括问题、LLM 生成的路线图(Roadmap)以及推理历史中积累的文档。

  1. [Retrieval] <subquery content>:继续检索-过滤循环以获取有帮助的信息。
  2. [LLM]:认为信息已经足够,将积累的文档信息交给LLM进行回答。

同时,C-3PO定义了不同的协作策略来有效处理不同类型的问题:

  1. 直接回答策略(Direct Answering Strategy):无需额外信息,直接由LLM进行回答(对应[No Retrieval])。
  2. 单次传递策略(Single-pass Strategy):仅进行单次检索-过滤操作(对应[Retrieval]<query content>)。
  3. 多步推理策略(Multi-Step Reasoning Strategy):旨在处理需要 LLM 生成的路线图和多个检索过滤循环的复杂问题(对应 [Planning])。它通过以下三个阶段实现迭代信息收集和推理:
  4. LLM生成路线图:LLM 将复杂问题分解为一组结构化的子目标,为代理提供高层次的指导。
  5. 检索-过滤循环:在路线图的指导下,决策者评估当前进度,确定下一个目标,并为检索-过滤循环生成子查询,直到决策者确定累积的文档包含足够的信息来解决所有子目标。
  6. 获取最终答案:所有累积的信息都传递给 LLM 以生成答案。

值得注意的是, LLM 在[Planning]策略中只被调用两次(生成路线图和最终回答问题),从而最大限度地减少了计算开销。此外,检索-过滤的次数可能并不直接对应于子目标的数量,因为一次检索可能会解决多个子目标,或者需要多次尝试才能实现一个子目标。

通过这三种策略,该多智能体系统可以自适应地处理不同复杂度的问题。推理路由器会根据每个问题的特点自动选择最合适的策略:直接回答策略为一般知识提供即时响应;单次传递策略有效地解决只需一次检索的简单单跳问题;多步推理策略在LLM生成的Roadmap的指导下迭代推理,解决复杂问题。这种分层方法将计算工作量与问题复杂性相结合,确保最佳资源利用率,同时保持较高的响应质量。

多智能体代理优化

(Multi-Agent Proxy Optimization)

由于 LLM 生成的最终答案可以直接评估为系统级奖励,因此使用强化学习来优化代理模型是非常直观的。但是,代理中的每个智能体都充当RAG系统中的中间模块,仅负责 RAG 工作流的部分内容。这使得定义智能体级别的奖励变得困难。例如,由于后续文档过滤效果不佳,高质量的生成查询仍可能导致较低的系统级奖励。为了应对这一挑战,C-3PO提出了一种树状结构的rollout方法,用于稳健的在线策略学习,并在早期阶段采用确定性rollout,在后期阶段利用随机rollout扩大探索空间。

树状结构的信用分配机制

为了避免传统单一轨迹中奖励稀疏的问题,C-3PO提出了树状结构的rollout以进行信用分配,以期望的形式将系统级奖励分配给不同的智能体,以缓解每个智能体局部奖励的高方差问题。核心思想是通过强制推理路由器在每个问题的rollout过程中探索所有可能的推理策略来评估每个智能体的贡献(图1 底部)。

确定性rollout:如图1所示,C-3PO在rollout的第一阶段确定性地探索所有可能的策略分支([No Retrieval], [Retrieval], [Planning])来构建决策树,从而全面了解每个策略中智能体的决策如何影响最终结果。

随机rollout:一旦在确定性rollout中确定探索策略,后续rollout将采用随机采样的方式来扩展决策树。对于每个非终止节点,从代理模型 中随机抽取  个候选动作,用于逐层扩展深度为  的第 i 个智能体:

其中 表示第 个代理的任务特定指令, 表示深度 处的动态分支因子,平衡探索和计算效率。

蒙特卡洛信用分配机制

如图1所示,C-3PO不是为每个问题探索单个轨迹而是通过树状结构的探索创建一个包含多个轨迹的决策树。这种树结构使C-3PO能够追踪单个决策如何影响系统级结果。对于每个代理生成的节点 ,C-3PO基于系统级奖励以期望的形式计算每个智能体的奖励:

其中 表示从 可达的叶节点集合, 是叶节点 的最终奖励。

该工作提出的蒙特卡洛信用分配机制与单一轨迹部署相比具有几个关键优势:

(1) 树结构的探索彻底探索了每个问题的所有可能策略,为每个代理生成了大量中间训练示例(更大的探索空间)。

(2) 相比于在单个轨迹中将系统级奖励分配给每一个智能体,C-3PO使用树结构以概率期望的形式更准确地估计每个智能体节点的奖励。

实验效果

该工作从各个角度全面评估了C-3PO的性能,包括域内的单跳、多跳数据集(图2),域外最新的RAG评测数据集以及域外检索器和大模型上的性能(图3)。总体而言,仅优化少量参数(0.5B-1.5B)的情况下,C-3PO在各种单跳和多跳数据集上表现出出色的性能。而在各种域外设定下,C-3PO取得了非常鲁棒的结果,展现出其即插即用的特点。

图2. 在域内单跳、多跳数据集上的性能

图3. 在域外的数据集、检索器、大模型下的实验结果

此外,C-3PO对比了各类方法之间性能和推理开销之间的关系。由于轻量级的代理设计以及层次化的推理策略,C-3PO在推理性能和推理开销之间取得了较好的平衡。

总结

该工作提出了C-3PO,一个以代理为中心的对齐框架,它通过轻量级多智能体系统促进检索器和 LLM之间的通信。C-3PO通过利用多智能体强化学习、树状结构的Rollout和蒙特卡洛信用分配机制,端到端地优化了多个智能体,而无需修改现有的 RAG 组件。大量实验证明了C-3PO在不同的数据集、检索器和 LLM 上展现出卓越性能和强大的泛化能力。

点击链接阅读原文:C-3PO

目录
相关文章
|
1月前
|
缓存 自然语言处理 算法
大模型意图识别工程化实践
本文重点介绍大模型意图识别能力在智能电视核心链路中的落地过程和思考,对比了基础模型、RAG 、以及7b模型微调三种方案的优缺点。
701 120
|
3月前
|
API 数据库 决策智能
基于百炼平台qwen-max的api 打造一套 检索增强 图谱增强 智能工具调用决策的智能体
本文介绍了一种基于阿里云百炼平台的`qwen-max` API构建的智能体方案,该方案集成了检索增强、图谱增强及智能工具调用决策三大模块,旨在通过结合外部数据源、知识图谱和自动化决策提高智能回答的准确性和丰富度。通过具体代码示例展示了如何实现这些功能,最终形成一个能灵活应对多种查询需求的智能系统。
333 11
|
3月前
|
自然语言处理 NoSQL API
基于百炼平台qwen-max的api 打造一套 检索增强 图谱增强 基于指令的智能工具调用决策 智能体
基于百炼平台的 `qwen-max` API,设计了一套融合检索增强、图谱增强及指令驱动的智能工具调用决策系统。该系统通过解析用户指令,智能选择调用检索、图谱推理或模型生成等工具,以提高问题回答的准确性和丰富性。系统设计包括指令解析、工具调用决策、检索增强、图谱增强等模块,旨在通过多种技术手段综合提升智能体的能力。
339 5
|
12天前
|
人工智能 自然语言处理 搜索推荐
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架,基于多智能体协作和动态迭代推理,显著提升复杂视觉文档的检索和生成效率。
81 8
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
|
17天前
|
机器学习/深度学习 决策智能 网络架构
C-3PO:多智能体强化学习赋能检索增强生成
C-3PO:多智能体强化学习赋能检索增强生成
|
20天前
|
存储 人工智能 数据库
面向教育场景的大模型 RAG 检索增强解决方案
检索增强生成模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例,为您介绍在云上使用一站式白盒化大模型应用开发平台 PAI-LangStudio 构建面向教育场景的大模型 RAG 检索增强解决方案,应用构建更简便,开发环境更直观。此外,PAI 平台同样发布了面向医疗、金融和法律领域的 RAG 解决方案。
|
3月前
|
决策智能 数据库 开发者
使用Qwen2.5+SpringBoot+SpringAI+SpringWebFlux的基于意图识别的多智能体架构方案
本项目旨在解决智能体的“超级入口”问题,通过开发基于意图识别的多智能体框架,实现用户通过单一交互入口使用所有智能体。项目依托阿里开源的Qwen2.5大模型,利用其强大的FunctionCall能力,精准识别用户意图并调用相应智能体。 核心功能包括: - 意图识别:基于Qwen2.5的大模型方法调用能力,准确识别用户意图。 - 业务调用中心:解耦框架与业务逻辑,集中处理业务方法调用,提升系统灵活性。 - 会话管理:支持连续对话,保存用户会话历史,确保上下文连贯性。 - 流式返回:支持打字机效果的流式返回,增强用户体验。 感谢Qwen2.5系列大模型的支持,使项目得以顺利实施。
810 8
使用Qwen2.5+SpringBoot+SpringAI+SpringWebFlux的基于意图识别的多智能体架构方案
|
3月前
|
存储 人工智能 数据库
面向医疗场景的大模型 RAG 检索增强解决方案
本方案为您介绍,如何使用人工智能平台 PAI 构建面向医疗场景的大模型 RAG 检索增强解决方案。
|
3月前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
162 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
4月前
|
数据采集 人工智能 自然语言处理
文档智能与检索增强生成结合的LLM知识库方案测评:优势与改进空间
《文档智能 & RAG让AI大模型更懂业务》解决方案通过结合文档智能和检索增强生成(RAG)技术,构建企业级文档知识库。方案详细介绍了文档清洗、向量化、问答召回等步骤,但在向量化算法选择、多模态支持和用户界面上有待改进。部署过程中遇到一些技术问题,建议优化性能和增加实时处理能力。总体而言,方案在金融、法律、医疗等领域具有广泛应用前景。
127 11

热门文章

最新文章