视觉感知RAG×多模态推理×强化学习=VRAG-RL

简介: 通义实验室自然语言智能团队发布并开源了VRAG-RL,一种视觉感知驱动的多模态RAG推理框架。它能像人一样“边看边想”,通过粗到细的视觉仿生感知机制,逐步聚焦关键区域,精准提取信息。VRAG-RL结合强化学习与多专家采样策略,优化检索与推理路径,在多个视觉语言基准数据集上表现出色,显著提升准确性和效率。项目已发布技术方案并开源代码,支持快速部署和二次开发。

在真实业务场景中大量关键信息都藏在图像、表格、设计稿中这些“视觉语言”,对 AI 来说不仅是理解的挑战,更是推理能力的终极考验。
如何在复杂的视觉文档知识库中检索关键信息,并精细化推理给出答案? 通义实验室自然语言智能团队发布并开源了 VRAG-RL——视觉感知驱动的多模态RAG推理框架。

640 (65).png

不仅能“看见”文档,更能像人一样“边看边想”。从粗粒度观察到细粒度聚焦,一步步提取关键信息,完成复杂检索推理任务。

640 (66).png

640 (3).gif

640 (4).gif

640 (5).gif

视觉文档处理新挑战:传统RAG的局限性

传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,基于文本的 RAG 方法难以应对图像、图表、设计稿等视觉内容,缺乏对视觉数据的理解和推理能力;另一方面,现有的视觉 RAG 方法大多依赖于固定的检索-生成流程,限制了模型在复杂任务中的动态推理表现,难以充分挖掘视觉信息中蕴含的关键知识。

为了解决这些问题,VRAG-RL 从强化学习赋能多模态智能体训练视觉感知机制设计以及检索与推理协同优化三个维度进行了系统性的创新,构建了一种能够主动感知、动态推理并高效检索的新型视觉增强生成框架。

从粗到细“看懂图像”:视觉仿生感知机制

VRAG-RL 彻底革新了传统的检索生成范式,引入了多样化的视觉感知动作,其中包括区域选择、裁剪、缩放等操作。这些动作使视觉语言模型(VLMs)能够从粗粒度到细粒度逐步聚焦信息密集区域精准提取关键视觉信息。


640 (67).png


例如,在处理复杂的图表或布局时,模型可以先从整体图像中提取大致信息,然后逐步聚焦到图像中的关键区域,通过裁剪和缩放操作,获取更清晰、更详细的视觉信息。这种从粗粒度到细粒度的感知方式,不仅提高了模型对视觉信息的理解能力,还显著提升了检索效率,使模型能够更快速定位与问题相关的图像内容。


640 (68).png


在训练过程中,VRAG-RL 采用多专家采样策略,大规模模型负责确定整体的推理路径,专家模型则在大规模模型的指导下,对图像中的关键区域进行精确标注。结合大规模模型的推理能力和专家模型的精确标注能力,模型能够在训练过程中学习到更有效的视觉感知策略,从而在实际应用中表现出更强的信息提取与逻辑推理能力。

检索与推理协同:效率与深度双重提升

VRAG-RL 的细粒度奖励机制将检索效率、模式一致性与生成质量三方面因素融合,引导模型在与搜索引擎的交互中不断优化其检索与推理路径。

  • 检索效率奖励 :借鉴信息检索领域广泛使用的 NDCG(Normalized Discounted Cumulative Gain)指标,激励模型优先检索相关度高的图像内容,快速构建高质量上下文;
  • 模式一致性奖励 :确保模型遵循预设的推理逻辑路径,避免因模式偏差导致生成结果偏离任务目标;
  • 生成质量奖励 :通过评估模型对生成答案的质量打分,引导模型输出更准确、连贯的答案。

640 (69).png


这种多维度奖励机制实现了检索与推理的双向驱动——高效的检索为深入推理提供支撑,而推理反馈又进一步指导模型优化检索策略,形成闭环优化。

强化学习驱动:训练多模态智能体自主进化

VRAG-RL 基于强化学习的训练策略,引入业界领先的 GRPO 算法,让视觉语言模型(VLMs)在与搜索引擎的多轮交互中,持续优化检索与推理能力。

640 (70).png


同时,通过本地部署搜索引擎模拟真实世界应用场景,实现搜索引擎调用零成本,模型训练更加高效。这种训练方式,不仅提升了模型的泛化能力,使其在不同领域、不同类型的视觉任务中都能表现出色,为多模态智能体的训练提供全新的解决方案。


实验结果:从准确性到效率全面突破

VRAG-RL 在多个视觉语言基准数据集上均取得了显著优于现有方法的性能表现,任务类型涵盖从单跳到多跳推理从纯文本理解到图表识别复杂布局解析等多种视觉丰富场景。实验结果表明,VRAG-RL 在处理视觉信息时展现出更强的检索能力、推理深度以及生成质量。

无论是在传统的 prompt-based 方法(如 Vanilla RAG 和 ReAct RAG),还是在基于强化学习的方法(如 Search-R1)基础上,VRAG-RL 都展现出了更出色的综合性能。


640 (71).png

在传统的RAG方法中,模型通常在进行一次或多次检索后直接生成答案。然而,在处理复杂的视觉任务时,这种方法往往表现不佳,因为它缺乏对视觉信息的深入理解和多轮推理能力。

相比之下,我们的VRAG-RL方法支持多轮交互。具体来说,通过定义视觉感知动作空间,VRAG-RL能够在推理阶段逐步聚焦于信息密集区域,从而实现从粗到细的信息获取。同时,该方法通过优化检索效率和推理路径,在保持高效率的同时,显著提升了模型在视觉任务上的性能。

我们已将 VRAG-RL 的完整技术方案发布在 arXiv,并将全部源代码开源至 GitHub。为了便于大家快速体验与二次开发,我们在项目中提供了可一键运行的 Demo 示例,支持本地快速部署。你可以轻松使用自己的文档构建视觉 RAG 推理服务,探索多模态智能体在复杂图像理解任务中的强大能力。

Paper

Github

相关文章
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
31852 78
如何保证分布式文件系统的数据一致性
|
前端开发 容器
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17655 18
|
人工智能 负载均衡 网络性能优化
灵骏可预期网络:Built for AI Infrastructure
通用人工智能离我们越来越近,全世界的关注和投入正在带来日新“周”异的变化。回顾人工智能的诞生和发展历程,人类计算能力的进步几乎牵动了每一次的重大技术突破,当前的大模型热潮更是如此,只是动辄千万亿参数级的模型体量,所需计算资源远超单颗芯片的上限,超大规模的计算集群成为支撑技术发展和应用创新的关键基础设施。面向智能:云基础设施网络技术面临新挑战如何突破单个芯片、单个服务器节点的算力上限,在超大规模情况
31193 10
灵骏可预期网络:Built for AI Infrastructure
|
设计模式 存储 监控
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36193 19
设计模式(C++版)
|
存储 编译器 C语言
抽丝剥茧C语言(初阶 下)(下)
抽丝剥茧C语言(初阶 下)
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24468 14
|
机器学习/深度学习 弹性计算 监控
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36515 15
重生之---我测阿里云U1实例(通用算力型)
为笔记本更换固态硬盘的方法
本文介绍为笔记本电脑拆机、更换固态硬盘的具体方法~
18010 41
为笔记本更换固态硬盘的方法
|
SQL 存储 弹性计算
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
|
存储 算法 Java
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29747 52