BookRAG:面向层级文档的树-图融合RAG框架

简介: BookRAG是专为书籍类层级文档设计的新型RAG框架,首创“树+图+链接+Agent”四元结构:构建融合版面层级树与知识图谱的BookIndex,通过GT-Link双向映射实现结构与语义统一;引入信息觅食启发的Agent,动态规划检索路径,支持单跳、多跳及全局聚合查询,在精度、覆盖率与效率上显著优于传统文本/版面优先方法。

现有的RAG系统,无论是基于文本的图方法还是基于版面分割的方法,在面对这类文档时往往失效。根源在于两点:结构与语义的脱节以及工作流程的僵化。

本文介绍的BookRAG或许能提供一个有用的视角。

两种传统方法及其局限

处理这类文档有两种主流范式。

第一种是文本优先方法,将所有内容扁平化为纯文本,主要依赖OCR,再用BM25、经典分块RAG或GraphRAG、RAPTOR等图方法完成检索。其中GraphRAG从文本构建知识图谱,通过社区检测形成带摘要的层级聚类;RAPTOR则递归地对分块做聚类和摘要,形成树状结构。

第二种是版面优先方法,保留原始文档版面,将内容分割为段落、表格、图表、公式等结构化块,再用多模态检索或基于LLM的处理管道(如DocETL)处理相关分块。

Figure 1: Comparison of existing methods and BookRAG for complex document QA.

两种方法各有价值,但面对类书籍文档时都会遇到两个根本性的问题。

结构与语义的脱节

文本优先路径剥离了文档的结构上下文,章节、子章节与表格之间的归属关系随之丢失,所以无法判断某个表格属于哪个章节。版面优先路径保留了单独的内容块,却难以建模块与块之间的关联,尤其是跨章节的关联,多跳推理因而变得困难且不可靠。

僵化的一刀切工作流程

现实中的问题差异很大,从简单的定义查找到跨多个章节的比较分析都有。大多数RAG管道依赖固定的查询处理流程,简单问题处理起来效率低,复杂问题又应对不了。

所以多数现有的文档级RAG系统要么忽略文档的层级结构,要么缺乏查询感知的检索流程。结果是经常遗漏关键证据或检索效率偏低;在DocETL这类版面感知管道中Token开销和响应延迟也比BookRAG更高。

BookRAG:一棵树 + 一张图 + 一个链接 + 一个Agent


Figure 2: Comparison of representative methods and BookRAG.

BookRAG是一个专为层级结构文档设计的RAG框架。

核心思路是构建一个文档原生索引BookIndex:将版面块的层级树与细粒度实体的知识图谱通过图-树映射整合在一起,再用一个受信息觅食理论(Information Foraging Theory)启发的Agent检索器,对查询分类后沿"信息线索"动态导航索引。

整个框架由三个关键组件构成。

构建BookIndex

BookIndex在一个统一索引中同时容纳结构和语义。

Figure 3: The BookIndex Construction process. This phase includes Tree Construction, derived from Layout Parsing and Section Filtering, and Graph Construction, which involves KG Construction and Gradient-based Entity Resolution.

文档先被解析为一棵层级树,对应目录及其关联的内容块。版面解析阶段(实验中使用MinerU实现)将PDF拆分为独立的内容块,每个块附带元数据:类型标注(标题、正文、表格等)、字体大小、位置信息以及其他版面细节。语言模型随后审查那些疑似标题的块,确认它们是否确实是标题,并判定其在文档层级中的级别。

所有块按标题级别依次连接构成一棵树。这棵树是BookIndex的结构骨架,后续的检索、推理和问答都依托于此。

树构建完成后,系统对每个节点执行实体和关系提取。文本块交由语言模型处理,含图像的块经过多模态模型处理。表格和公式有专门的处理逻辑,以表格为例,行标题和列标题被提取为实体,通过"ContainedIn"关系链接回表格节点。各节点产生的局部子图用一种基于梯度的实体消解方法合并为全局知识图谱:分析重排序器的相似度分数,识别其中的急剧下降,以此检测并统一共指实体。

最后通过GT-Link将树和图关联起来,把实体映射回其来源的特定树节点,形成结构化三元组B = (T, G, M)——树、图、映射。GT-Link在两者之间建立了双向桥梁:从图中的任一实体可以追溯到对应的树节点(章节、表格、段落等),反过来,树中的每个章节也能列出它包含的实体。结构与语义就此紧密耦合,系统不仅知道某个概念是什么,还知道它在文档中的具体位置。

基于梯度的实体消解

为了保证知识图谱上的推理质量,BookRAG采用了一种基于梯度的实体消解方法。

传统做法对所有实体执行二次复杂度的成对比较,BookRAG将其改造为增量查找:每提取一个新实体,判断它是否是某个已有实体的别名。做法是从向量数据库中召回候选列表,用评分模型排序再检查相似度分数是否出现陡降。如果检测到明显的分数断层,系统隔离出高置信度候选集,只有一个候选时直接合并多个候选时调用LLM选出规范实体再合并。没有明显断层的话,该实体视为独立条目。

这一方法避开了穷举配对的高昂开销,同时保持图谱的紧凑:像"LLM"和"Large Language Model"这样的变体会被归入同一个节点。

基于Agent的自适应检索


Figure 4: The general workflow of agent-based retrieval in BookRAG, which contains agent-based planning, retrieval, and generation processes.

BookRAG引入了一个Agent,借鉴信息觅食理论(IFT),根据问题类型定制检索策略:单跳查询做直接查找,多跳查询需要跨章节推理,全局聚合查询则需扫描整篇文档。

Figure 5: The BookRAG Operator Library and an Execution Example from MMLongBench dataset: (a) a visual depiction of the four operator types (Formulator, Selector, Reasoner, and Synthesizer) and (b) an execution trace for a "Single-hop" query, demonstrating the agent-based planning and step-by-step operator execution.

Agent会生成由模块化算子组成的动态计划:有的算子沿"信息线索"导航到相关片段,有的负责过滤内容块,有的执行推理或合成最终答案。每个查询根据待解决的问题在索引中走不同的路径,使系统在处理长篇复杂文档时兼顾精度与效率。

案例分析


Figure 6: Case study of responses across different query types from MMLongBench and Qasper. CYAN TEXT highlights correct content generated by BookRAG. GRAY TEXT describes the internal process, and marks omitted irrelevant parts.

图6展示了BookRAG处理三种查询的完整过程。

单跳查询的关键在于缩小搜索空间。以Qasper数据集中的一个事实性问题为例,BookRAG先用

Extract

算子识别相关实体,再通过

Select_by_Entity

过滤树,将推理范围从134个节点压缩到24个,之后运行

Graph_Reasoning

Text_Reasoning

分配重要性分数,最终由

Skyline_Ranker

选出8个高置信度节点生成答案。

全局聚合查询侧重精确过滤与计数。MMLongBench数据集中有一个问题要求统计特定页面范围内的图片数量,BookRAG用

Filter_Range

选定第1至第10页,用

Filter_Modal

隔离图片块,筛选出精确的节点子集后经

Map

Reduce

完成聚合操作(如COUNT),得出最终答案。

多跳查询的策略是分解再综合。面对一个比较两个系统的复杂问题,Agent用Decompose算子将其拆分为子问题,分别检索各子问题的答案后综合输出。

评估

实验验证的不仅是BookRAG的问答准确性,还有两个维度的表现:检索覆盖率——找到所有相关信息的能力;以及效率——运行成本和响应速度。完整评估数据可参阅原论文。

总结

面对长文档的复杂问答场景包括:结构化手册、技术报告、研究论文,BookRAG给出了一个经过基准验证的设计方向。它构建文档原生索引BookIndex,将层级树、知识图谱和图-树链接整合在一起,再配合一个能沿信息"线索"导航的Agent。

不过在实际部署中有一个值得关注的局限:实体消解目前仅支持单文档内的合并。企业级场景下知识往往分布在数百甚至数千个文档中,跨文档的实体统一是绕不开的问题。1·

一个有前景的方向是把BookIndex从检索索引提升为文档自身的原生知识层。问答之外,它还能支撑一致性检查、结构化摘要乃至交叉引用修复——树-图结构由此成为文档生命周期的一部分,而非仅仅服务于RAG的后端工程。

再往前看,Agent的算子规划是否能演化为一个可学习的策略层?积累足够的交互日志或引入强化学习后,系统或许能自行调优——决定调用哪些算子、何时简化流程、如何在不损失太多表达能力的前提下维持运行效率。这种精细的控制能力,正是生产环境所需要的。

论文:

https://avoid.overfit.cn/post/301d874592154a5bada4fd7c777e827e

By Florian June

目录
相关文章
|
14天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
20186 111
|
6天前
|
人工智能 安全 Linux
【OpenClaw保姆级图文教程】阿里云/本地部署集成模型Ollama/Qwen3.5/百炼 API 步骤流程及避坑指南
2026年,AI代理工具的部署逻辑已从“单一云端依赖”转向“云端+本地双轨模式”。OpenClaw(曾用名Clawdbot)作为开源AI代理框架,既支持对接阿里云百炼等云端免费API,也能通过Ollama部署本地大模型,完美解决两类核心需求:一是担心云端API泄露核心数据的隐私安全诉求;二是频繁调用导致token消耗过高的成本控制需求。
4490 7
|
8天前
|
人工智能 安全 API
OpenClaw“小龙虾”进阶保姆级攻略!阿里云/本地部署+百炼API配置+4种Skills安装方法
很多用户成功部署OpenClaw(昵称“小龙虾”)后,都会陷入“看似能用却不好用”的困境——默认状态下的OpenClaw更像一个聊天机器人,缺乏连接外部工具、执行实际任务的能力。而Skills(技能插件)作为OpenClaw的“动手能力核心”,正是打破这一局限的关键:装对Skills,它能帮你自动化处理流程、检索全网资源、管理平台账号,真正变身“能做事的AI管家”。
5161 7
|
9天前
|
人工智能 API 网络安全
Mac mini × OpenClaw 保姆级配置教程(附阿里云/本地部署OpenClaw配置百炼API图文指南)
Mac mini凭借小巧机身、低功耗和稳定性能,成为OpenClaw(原Clawdbot)本地部署的首选设备——既能作为家用AI节点实现7×24小时运行,又能通过本地存储保障数据隐私,搭配阿里云部署方案,可灵活满足“长期值守”与“隐私优先”的双重需求。对新手而言,无需复杂命令行操作,无需专业技术储备,按本文步骤复制粘贴代码,即可完成OpenClaw的全流程配置,同时接入阿里云百炼API,解锁更强的AI任务执行能力。
6451 2
|
10天前
|
人工智能 安全 前端开发
Team 版 OpenClaw:HiClaw 开源,5 分钟完成本地安装
HiClaw 基于 OpenClaw、Higress AI Gateway、Element IM 客户端+Tuwunel IM 服务器(均基于 Matrix 实时通信协议)、MinIO 共享文件系统打造。
7799 6
|
12天前
|
人工智能 JSON API
保姆级教程:OpenClaw阿里云及本地部署+模型切换流程+GLM5.0/Seedance2.0/MiniMax M2.5接入指南
2026年,GLM5.0、Seedance2.0、MiniMax M2.5等旗舰大模型相继发布,凭借出色的性能与极具竞争力的成本优势,成为AI工具的热门选择。OpenClaw作为灵活的AI Agent平台,支持无缝接入这些主流模型,通过简单配置即可实现“永久切换、快速切换、主备切换”三种模式,让不同场景下的任务执行更高效、更稳定。
7315 4
|
12天前
|
人工智能 JavaScript API
保姆级教程:OpenClaw阿里云/本地部署配置Tavily Search skill 实时联网,让OpenClaw“睁眼看世界”
默认状态下的OpenClaw如同“闭门造车”的隐士,仅能依赖模型训练数据回答问题,无法获取实时新闻、最新数据或训练截止日期后的新信息。2026年,激活其联网能力的最优方案是配置Tavily Search技能——无需科学上网、无需信用卡验证,每月1000次免费搜索额度完全满足个人需求,搭配ClawHub技能市场,还能一键拓展天气查询、邮件管理等实用功能。
7323 5
|
18天前
|
人工智能 自然语言处理 JavaScript
2026年Windows+Ollama本地部署OpenClaw保姆级教程:本地AI Agent+阿里云上快速搭建
2026年OpenClaw凭借本地部署、私有化运行的特性,成为打造个人智能体的核心工具,而Ollama作为轻量级本地大模型管理工具,能让OpenClaw摆脱对云端大模型的依赖,实现**本地推理、数据不泄露、全流程私有化**的智能体验。本文基于Windows 11系统,从硬件环境准备、Ollama安装与模型定制、OpenClaw部署配置、技能扩展到常见问题排查,打造保姆级本地部署教程,同时补充阿里云OpenClaw(Clawdbot)快速部署步骤,兼顾本地私有化需求与云端7×24小时运行需求,文中所有代码命令均可直接复制执行,确保零基础用户也能快速搭建属于自己的本地智能体。
19373 116

热门文章

最新文章