让RAG更聪明,ViDoRAG开启视觉文档检索增强生成新范式,上阿里云百炼可直接体验

简介: 视觉丰富文档的高效检索与生成是自然语言处理领域的重大挑战。ViDoRAG(Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents)由阿里巴巴通义实验室、中国科学技术大学和上海交通大学联合提出,通过多智能体框架和动态迭代推理机制解决此问题。其核心包括多模态混合检索策略和多智能体生成流程,同时发布的ViDoSeek数据集,专为大规模文档集合设计,提供复杂推理与精准问答的评估基准。实验表明,ViDoRAG在准确率和效率上优于传统方法,未来将优化系统性能并降低计算成本。

在数字化浪潮席卷⽽来的今天,视觉⽂档已然成为信息传递的重要载体。从学术报告中的复杂图表,到商业计划书⾥的精妙布局,再到医疗档案中的多维数据展示,这些富含视觉元素的⽂档,不仅仅是简单的⽂字堆砌,⽽是融合了多种视觉元素。它们在教育、⾦融、法律等多个领域发挥着重要的作⽤,帮助我们更直观、⾼效地理解和传递信息。然⽽,如何从海量的视觉丰富⽂档中⾼效检索并⽣成准确的答案,⼀直是⾃然语⾔处理领域的重⼤挑战,同时也具有极⾼的应⽤价值。


来⾃阿⾥巴巴通义实验室、中国科学技术⼤学和上海交通⼤学的最新研究成果⸺ViDoRAG(VisualDocument Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents),通过创新的多智能体框架和动态迭代推理机制,为视觉丰富⽂档检索增强⽣成(RAG)提供有效解决⽅案。


论⽂地址:https://arxiv.org/abs/2502.18017

Github地址:https://github.com/Alibaba-NLP/ViDoRAG

数据集地址:https://huggingface.co/datasets/autumncc/ViDoSeek


为了解决现有RAG⽅法在处理视觉丰富⽂档时⾯临的挑战,尤其是检索阶段⽆法有效整合⽂本和视觉特征,以及⽣成阶段推理能⼒不⾜的问题,我们提出了ViDoRAG框架。ViDoRAG通过引⼊基于⾼斯混合模型(GMM)的多模态混合检索策略,以及多智能体迭代推理机制,显著提升了模型在视觉丰富⽂档上的检索和推理能⼒,为相关领域的研究提供了新的思路和⽅法。


与此同时,我们注意到现有数据集仅聚焦于单张图⽚或单个⽂档的问答任务,缺乏在⼤规模⽂档集合情景下针对检索和复杂推理能⼒的系统性评估。为弥补这⼀空⽩,我们提出了ViDoSeek 数据集。该数据集专为视觉丰富⽂档的检索-推理-回答任务设计,旨在为⼤规模⽂档集合的检索和⽣成能⼒评估提供⼀个更具挑战性和实⽤性的基准。ViDoSeek 的推出,不仅为 ViDoRAG 框架的验证和优化提供了有⼒⽀持,更为未来相关研究提供了⼀个⾼质量的基准,推动视觉⽂档问答领域的进⼀步发展。


ViDoSeek Benchmark:专注于⼤规模数据⽂档集合下的检索和复杂推理,为精准评测 RAG 在视觉⽂档处理上的性能,我们精⼼打造了 ViDoSeek 数据集。这并⾮传统意义上简单的图像问答或⽂档问答集合,⽽是⼀个专为⼤规模⽂档检索、复杂推理与精准问答设计的综合性评估。在 ViDoSeek中,每个查询都指向⼤型⽂档集合中的唯⼀答案,并配有明确的参考⻚⾯标注,涵盖了⽂本、图表、表格、布局等多种内容类型,完美模拟真实世界中多样化的⽂档场景。

image.png ViDoSeek ViDoSeek 汇聚了约 1200 个精⼼设计的问题,覆盖了⽂本、图表、表格和⼆维布局等多种内容类型。每⼀个问题都能在⼤规模⽂档集合中找到唯⼀的答案,并且配有明确的参考⻚⾯标注。这使得 ViDoSeek 不仅能够评估模型的检索能⼒,还能全⾯考察其在⼤型⽂档集合情境下的推理和理解能⼒。ViDoSeek 对问题类型进⾏了细致划分,单跳推理问题要求模型从单⼀信息源中直接获取答案,⽽多跳推理问题则需要模型在多个⽂档或信息⽚段之间建⽴联系,进⾏深层次的推理和整合。这种复杂性要求整个系统不仅要具备精准的检索能⼒,还要能够有效地整合和分析来⾃不同⽂档的信息。这种设计不仅增加了数据集的挑战性,也为模型的推理能⼒提供了全⽅位的试炼场,从⽽对 RAG 系统的综合能⼒提出更⾼要求。这种对复杂⽂档结构和内容的深度把控,正是 ViDoSeek 的独特魅⼒所在,它为 RAG 系统提供了⼀个贴近实战的演练场,让模型在 “真⼑真枪” 的考验中锤炼能⼒。

可把文档上传至阿里云百炼平台上的知识库索引内进行体验。体验入口:https://bailian.console.aliyun.com/#/knowledge-base

ViDoRAG:多智能体迭代推理,开启类⼈思考新范式

我们进⼀步提出了ViDoRAG,⼀个针对视觉⽂档复杂推理的多智能体RAG框架。相⽐于传统的RAG框架,

ViDoRAG的核⼼在于其多模态混合检索策略和多智能体⽣成流程。这些特性使得ViDoRAG在处理视觉⽂档时如⻥得⽔,能够更加精准地检索、理解和⽣成答案。

image.png

多模态混合检索:打破视觉与⽂本的隔阂

在处理视觉⽂档时,传统的RAG⽅法往往⾯临着⼀个棘⼿的问题:如何有效地整合视觉和⽂本信息。纯视觉检索⽅法虽然能够捕捉到图像中的关键信息,但在理解⽂本内容时却显得⼒不从⼼;⽽纯⽂本检索⽅法则在处理视觉信息时存在天然的局限性。这种割裂的检索⽅式,不仅导致了检索结果的不准确,也限制了模型对⽂档的全⾯理解。

为了解决这⼀问题,ViDoRAG提出了多模态混合检索策略。这⼀策略的核⼼在于将视觉和⽂本特征进⾏有机结合,通过⾼斯混合模型(GMM)动态调整检索结果的分布。具体来说,ViDoRAG⾸先分别通过视觉和⽂本管道进⾏信息检索,然后利⽤GMM模型对检索结果进⾏融合。GMM模型能够根据查询与⽂档集合之间的相似度分布,⾃动确定每个模态的最优检索数量。这种⽅法不仅提⾼了检索的准确性,还减少了不必要的计算,使得模型能够更⾼效地处理⼤规模⽂档集合。

多智能体迭代推理:开启类⼈思考新范式

在检索到相关信息后,如何⽣成准确且全⾯的答案,是RAG系统的另⼀个关键挑战。传统的RAG⽅法在⽣成答案时,往往缺乏⾜够的推理能⼒,尤其是在处理复杂推理任务时,容易出现答案不准确或不完整的问题。为了解决这⼀问题,ViDoRAG引⼊了多智能体⽣成流程,通过模拟⼈类的推理过程,逐步提炼出最终的答案。

ViDoRAG的多智能体⽣成流程包括三个智能体:探索者(Seeker)、检查员(Inspector)和回答者(Answerer)。探索者负责从粗略的视图中选择相关的图⽚,基于查询和检查员的反馈,逐步筛选出最相关的图⽚。检查员对探索者选择的图⽚进⾏详细审查,提供反馈或初步答案。如果当前信息⾜以回答查询,检查员会提供⼀个草稿答案和相关图⽚的引⽤;如果信息不⾜,检查员则会指出需要进⼀步获取的信息,并保留相关图⽚以供后续审查。回答者在最终步骤中,验证检查员草稿答案的⼀致性,并根据参考图⽚和草稿答案,给出最终答案。这种多智能体的协作⽅式,不仅提⾼了⽣成答案的准确性,还使得整个过程更加⾼效。通过模拟⼈类的推理过程,ViDoRAG能够更好地处理复杂的视觉⽂档任务,⽣成更加准确和全⾯的答案。

image.png

实验与分析

在实验中,研究者们采⽤了多种模型进⾏端到端评估,评估指标主要为准确率,通过 GPT-4o 对参考答案和最终答案进⾏⽐较打分。实验结果显示,ViDoRAG 在 ViDoSeek 基准测试中表现出⾊,显著优于现有的⽅法。例如,在 GPT-4o 模型上,ViDoRAG 的准确率达到了 79.4%,⽐传统 RAG ⽅法提⾼约10%以上,这⼀结果充分证明了 ViDoRAG 框架的有效性和优越性。

image.png

在检索性能⽅⾯,ViDoRAG 的动态检索策略展现了显著的优势。通过 GMM 动态确定检索⽂档数量,不仅提⾼了检索的准确性,还为⽣成阶段减少了不必要的计算开销。这种动态调整机制使得 ViDoRAG 能够更加⾼效地处理⼤规模⽂档集合,进⼀步提升了模型的性能和效率。

image.png

研究者基于ViDoRAG 验证了其Test-Time Scaling。研究发现,在 ViDoRAG 框架下,不同模型的交互轮次存在明显差异:性能更强的模型由于其出⾊的推理能⼒,能够更快地理解任务需求并⽣成⾼质量的答案,因此所需的推理迭代次数更少;⽽性能相对较弱的模型则需要更多的推理迭代次数,通过逐步积累信息和调整思路,最终才能⽣成较为准确的答案。这种差异表明 ViDoRAG 能够根据模型的性能特点,灵活地调整推理过程,从⽽在不同模型上都能实现较好的效果。

image.png

在时延分析中,由于多智能体系统的迭代特性,ViDoRAG的延迟相较于传统RAG有所增加。具体来说,每个智能体依次执⾏特定任务,这虽增加了时延,但⽣成答案的质量却显著提升。因此,在复杂RAG任务中,这种延迟与准确率之间的权衡是值得的。

image.png

总结和展望

ViDoRAG 的提出,为⼤规模视觉⽂档集合的检索增强⽣成提供了⼀条全新的路径。凭借创新的多智能体框架和多模态混合检索策略,ViDoRAG 在复杂视觉⽂档的推理和⽣成能⼒⽅⾯取得了显著提升,同时也为未来的研究和应⽤指明了新⽅向。接下来的⼯作将重点聚焦于优化系统效率和减少模型幻觉,以在保持⾼准确率的同时,进⼀步降低计算成本,提⾼响应速度和可扩展性。这包括对多智能体框架的优化,以及更精细的检索和⽣成流程管理。此外,我们还将探索更加严格的验证机制和更精准的推理步骤,以确保⽣成的答案更具可靠性和准确性。ViDoRAG 的发展不仅推动了视觉⽂档问答技术的进步,也为未来 RAG 领域的研究提供了重要的参考和启示。


🚀需要了解阿里云百炼可点击以下链接:

👉阿里云百炼详情了解可点击此官网链接:阿里云百炼官网介绍

👉阿里云百炼控制台页面可点击此链接直接进入阿里云百炼控制台


相关实践学习
如何快速创建插件agent
阿里云百炼应用基于Assistant API技术架构,结合大语言模型(LLM)的推理、知识检索增强、插件调度等能力,构建应对各类复杂场景任务的场景应用。通过集成化、直观易用的产品界面,为开发者提供了丰富的应用配置选项,包括大型语言模型(LLM)选择、Pro
相关文章
|
自然语言处理
阿里云百炼大模型服务--企业知识检索问答指南
阿里云百炼提供的企业知识检索问答应用可以帮助大家实现让大模型瞬间“开挂”的技能。结合上传的知识数据,大模型识别解析学习文档内容,最终给出生成式回复。我们在通义千问-Turbo/Max大模型基础上,将文件上传、读取、切片、向量化等过程都开发好预置在应用中,实现开箱即用,更能满足您的日常需求。
|
2月前
|
存储 人工智能 自然语言处理
方案介绍|基于百炼生成向量数据并使用阿里云Milvus存储和检索
阿⾥云Milvus是⼀款云上全托管服务,提供⼤规模向量数据的相似性检索服务。100%兼容开源Milvus,在开源版本的基础上增强了可扩展性,具备易⽤性、可⽤性、安全性、低成本与⽣态优势。阿⾥云Milvus可以⽀持⼏乎所有涉及到向量搜索的场景。例如检索增强⽣成RAG,以及经典的搜索推荐、多模态检索等。阿里云Milvus可存储百炼产生的向量数据,并进行大规模向量数据的检索。本文将重点介绍这一过程的方案。
|
5月前
|
API 数据库 决策智能
基于百炼平台qwen-max的api 打造一套 检索增强 图谱增强 智能工具调用决策的智能体
本文介绍了一种基于阿里云百炼平台的`qwen-max` API构建的智能体方案,该方案集成了检索增强、图谱增强及智能工具调用决策三大模块,旨在通过结合外部数据源、知识图谱和自动化决策提高智能回答的准确性和丰富度。通过具体代码示例展示了如何实现这些功能,最终形成一个能灵活应对多种查询需求的智能系统。
438 11
|
5月前
|
自然语言处理 NoSQL API
基于百炼平台qwen-max的api 打造一套 检索增强 图谱增强 基于指令的智能工具调用决策 智能体
基于百炼平台的 `qwen-max` API,设计了一套融合检索增强、图谱增强及指令驱动的智能工具调用决策系统。该系统通过解析用户指令,智能选择调用检索、图谱推理或模型生成等工具,以提高问题回答的准确性和丰富性。系统设计包括指令解析、工具调用决策、检索增强、图谱增强等模块,旨在通过多种技术手段综合提升智能体的能力。
438 5
|
9月前
|
Java API 数据中心
百炼平台Java 集成API上传文档到数据中心并添加索引
本文主要演示阿里云百炼产品,如何通过API实现数据中心文档的上传和索引的添加。
530 4
|
10月前
|
自然语言处理 数据管理 数据挖掘
阿里云百炼知识检索应用评测:构建智能问答助手【开发者评测|阿里云百炼】
阿里云百炼是基于大模型的一站式开发平台,支持快速构建智能问答助手。评测中,通过上传企业数据创建知识库,并配置应用参数如温度系数、最长回复长度等,最终通过API实现问答功能。实操难点包括数据上传限制及参数配置复杂度。建议增加上传灵活性、提供更多配置指南和功能扩展插件。总体而言,阿里云百炼提供了强大且灵活的工具,有助于高效开发大模型应用。
2561 6
|
10月前
|
数据管理 API 调度
阿里云百炼平台知识检索应用评测:搭建之旅与一点建议
阿里云百炼平台成为企业智能化转型的重要工具之一。
|
10月前
|
自然语言处理 监控 搜索推荐
阿里云百炼知识检索应用评测:搭建个人/企业专属智能问答助手
阿里云百炼知识检索应用评测:搭建个人/企业专属智能问答助手
475 3
|
10月前
|
数据采集 自然语言处理 监控
阿里云百炼知识检索应用测评
阿里云百炼知识检索应用测评
|
2月前
|
机器学习/深度学习 人工智能 测试技术
【自定义插件系列】0基础在阿里云百炼上玩转大模型自定义插件
本文介绍了如何在阿里云百炼平台上创建大模型自定义插件,以增强AI模型功能或适配特定需求。通过编程接口(API)或框架设计外部扩展模块,开发者可在不修改底层参数的情况下扩展模型能力。文章以万相文生图V2版模型为例,详细说明了创建自定义插件的五个步骤:新建插件、创建工具、测试工具、复制第二个工具及最终测试发布。同时,提供了官方文档参考链接和具体参数设置指导,帮助用户轻松实现插件开发与应用,推动AI技术在各行业的广泛应用。

相关产品

  • 大模型服务平台百炼