百度面试官一针见血:“多模态RAG,图片里的文字你OCR出来了,那图里的逻辑关系呢?”我沉默了

简介: 本文剖析多模态RAG在图表理解中的核心瓶颈:OCR仅提取文字,却无法捕获节点间逻辑关系。提出“四层架构”——视觉抽取、关系建图、语义注入、检索推理,实现从“看图”到“读图”的跃迁。对比三种方案,验证图结构化对路径推理的关键价值,并给出可落地的评测升级与工程实践路径。

目录
一、面试最后一问:OCR抽出来的文字,和没抽一样

二、本质变化:多模态RAG的瓶颈不在“识别”,而在“理解关系”

三、核心机制拆解:从OCR到逻辑关系抽取的四层架构

四、典型案例 / 对比:Naive RAG vs Layout-aware vs Graph-based RAG

五、工程落地启示:你现在可以怎么升级评测体系

六、趋势判断:关系抽取会成为多模态RAG的标配能力

一、面试最后一问:OCR抽出来的文字,和没抽一样
上个月百度招一个AI测试开发岗,我面到第三轮,面试官忽然从手机里翻出一张截图递给我看。

是一张典型的业务流程图。左边三个圆角矩形写了“用户上传”“系统校验”“返回结果”,中间三条箭头,其中一条从“系统校验”指向一个菱形判断框“信息完整?”,分两支:是→“存入数据库”,否→“驳回”。

面试官问:你用多模态RAG做文档问答,用户传这张图问‘上传后信息不完整会怎样’,你觉得你的系统能答对吗?

我下意识说:OCR能提取出‘信息完整?’‘驳回’这些文字,再结合空间位置把菱形和分支箭头绑定,应该能推理出‘驳回’这个结果。

他继续问:那如果我问‘从上传到最终返回结果,哪些路径是成功的’,你那个OCR+空间位置能画出两条完整路径吗?能区分‘存入数据库’是成功路径,‘驳回’不是最终成功吗?

我沉默了。因为我清楚,大部分多模态RAG的做法——OCR抽文字、接个多模态模型做caption、向量化后塞进Milvus——根本回答不了这个问题。它们理解的是“图里有什么文字”,而不是“这些文字和图形之间的逻辑关系是什么”。

面试官没有为难我,只说了一句:多模态RAG的下一站,不是看懂图,是读懂图。

这不是百度一家的偏好。今年上半年接触的几个大厂项目,无论是做技术文档问答还是UI测试用例生成,大家开始发现:纯文本RAG能满足80%的场景,但一旦涉及图表、流程图、架构图,传统的OCR+向量检索就像用吸管喝汤——能喝到几口,但永远不知道汤里食材怎么组合的。

二、本质变化:多模态RAG的瓶颈不在“识别”,而在“理解关系”
两年前我们聊多模态RAG,焦点还在“怎么把图片转成文本让大模型看懂”。OCR、目标检测、图片描述生成,一套组合拳下来,看着挺全。

今年风向变了。因为大家发现,企业内部的文档里充斥着大量半结构化的图示:

系统架构图(组件之间的连线代表数据流向还是调用关系)
业务流程图(菱形是判断、圆角矩形是操作、箭头是流转)
UI动效图(时间轴上的状态迁移逻辑)
这种图的本质,是一种视觉化的关系型知识。文字只是节点上的标签,真正的信息藏在两方面:

节点之间的拓扑连接(谁指向谁)
连接上的类型语义(是顺序、判断、数据流、还是包含)
OCR能告诉你矩形里有“存入数据库”,但不会告诉你这个矩形是从“信息完整?=是”那条线指过来的。多模态大模型(如GPT-4V)能做一定程度的图理解,但成本高、延迟大,不适合大规模RAG索引。

问题的本质是:我们需要从图片中抽取出一个结构化的“关系图”,而不是一袋零散的文字。然后把这张图纳入检索和推理过程,让大模型不光看到文字,还能沿着连线走一遍逻辑。

这就是面试官问“图里的逻辑关系”背后的技术诉求。

三、核心机制拆解:从OCR到逻辑关系抽取的四层架构
一个能处理逻辑关系的多模态RAG系统,我把它拆成四层。画一张图:

1bac1bf8-6caf-4ebf-8a6b-a02ac994a6ee.png

第一层 视觉元素抽取

目标:从图片中定位所有“有意义的视觉单元”

文字块:OCR检测+识别
图形节点:矩形、菱形、圆形等(用目标检测模型,如YOLO微调)
连线:箭头、直线、曲线(用线段检测或语义分割)
输出:边界框+类别+文字内容

第二层 关系图构建

目标:把零散元素连成图结构

节点-连线匹配:判断每条连线连接哪两个节点(基于IOU或端点距离)
连线类型分类:箭头有方向,直线可能无向,虚线表示特殊语义
节点间聚合:把矩形内的多行文字合并成一个节点
输出:有向图 G=(V,E),V包含节点文本和类型,E包含起点、终点和连线类型

第三层 逻辑语义注入

目标:识别图的内在逻辑类型

流程图语义:识别判断节点(菱形)、起止节点(跑道形)、操作节点(矩形)
架构图语义:识别层级关系(上下分层)、调用关系(箭头方向)、依赖关系(虚线)
状态图语义:识别状态迁移条件(边上的标签文字)
可以用一个小型的GNN或多模态prompt调大模型完成分类,但不用太复杂,规则+少量样本分类即可

输出:带语义标签的图(例如 node.type=decision, edge.semantic=flow_condition)

第四层 检索与推理适配

目标:让大模型能够“读图”

图序列化:把图转换成文本描述,例如‘从节点A(用户上传)经箭头流向节点B(系统校验)。若校验通过,经箭头到达节点D(存入数据库)’
子图检索:根据用户问题中的实体(如‘驳回’),检索图中包含该实体的子图
路径推理:给定两个节点,提取所有可达路径,按节点顺序生成文本
输出:供大模型回答的结构化上下文

这套架构的核心在于第二层和第三层。大部分团队止步于第一层,面试时只能说出OCR+多模态模型,却讲不清“连线怎么匹配节点”“菱形和矩形怎么区分”。而这正是百度这类公司考察的深度。

四、典型案例 / 对比:Naive RAG vs Layout-aware vs Graph-based RAG
为了让你直观感受差异,我拿一张典型的业务流程图书籍借阅系统来测三种方案。

图内容:节点A“读者申请”->节点B“查询馆藏”。节点B分两支:有库存->节点C“生成借阅记录”->节点D“出库”;无库存->节点E“加入预约队列”。问题:“如果库存不足,后续流程是什么?”

方案一:Naive RAG(OCR+全文检索)

OCR抽出的文字集合:{读者申请,查询馆藏,有库存,生成借阅记录,出库,无库存,加入预约队列}。检索“库存不足”,匹配到“无库存”和“加入预约队列”。大模型看到一堆文字,猜答案是“加入预约队列”。但是它对“后续流程”中的流转顺序没有感知,可能漏掉“无库存”这个判断节点本身。对了,但脆弱。

方案二:Layout-aware RAG(OCR+空间位置+简单逻辑)

额外利用了文字块的坐标。例如“无库存”位于节点B右下方,“加入预约队列”在其右侧,可以推断出顺序关系。回答“加入预约队列”。表现比方案一好,但无法区分“有库存”分支的两步“生成借阅记录->出库”算一个完整路径。如果问题换成“有库存的完整流程是什么”,它可能只给出第一个节点。

方案三:Graph-based RAG(本文的四层方案)

构建出完整的图:B(查询馆藏)出两条边:边1(有库存)指向C(生成借阅记录),C指向D(出库);边2(无库存)指向E(加入预约队列)。用户问“库存不足”,检索到边2,从B到E的路径为[B, E]。再根据大模型生成答案:“先走到‘查询馆藏’,因为库存不足,进入‘加入预约队列’,流程结束。”问“有库存完整流程”,可提取路径[B, C, D]生成“查询馆藏→生成借阅记录→出库”。

这个案例里,方案三唯一做到了“沿着连线走完整路径”。

实际工程中,方案一和二是绝大多数团队的第一版。走到方案三的,基本在面试里能回答面试官的那个追问。

五、工程落地启示:你现在可以怎么升级评测体系
如果你是测试工程师或RAG系统开发者,以下三个切入点可以直接用。

第一,构建“逻辑关系”测试集。 别只测“图里有哪些文字”。选10张流程图、架构图、状态图,每张图写5个需要沿关系推理的问题。例如“从A出发经过哪些节点才能到达B”“如果有两个分支都指向C,说明什么”。跑一遍你的RAG,记录准确率。很多系统的准确率会从90%掉到30%以下。

第二,在预处理Pipeline里加入“图构建”模块。 不要求一开始做完整语义分类。先实现最基本的节点-连线匹配:OCR检测文字块,同时用OpenCV的HoughLines检测直线和箭头,然后根据端点坐标计算关联。一周内就能跑通原型。然后用这个模块替换原本的纯文本切片,对比端到端的问答效果。我们内部做过实验,加入这层后,流程图类问题的召回率提升了47%。

第三,设计“子图检索”的评测指标。 传统RAG评测用召回率(检索到的相关文本块数量)。对于图,应该用路径召回率——检索到的子图是否包含了用户问题所需的所有关键节点和边?比如问“完整流程”,子图必须包含从头到尾的主干路径,缺一个节点就算失败。这个指标更容易暴露问题。

我在某电商团队做咨询时,他们的RAG一直处理不好“商品上架审批流程图”相关问题。加了图构建模块后,产品经理反馈说“AI终于能看懂先审后发还是先发后审了”。这其实就是关系被正确抽取的结果。

六、趋势判断:关系抽取会成为多模态RAG的标配能力
大厂的文档QA系统正在大规模从纯文本向富格式迁移。今年看到的趋势有两个:

一是多模态大模型直接端到端理解图表的能力在提升,但成本和延迟限制了它在RAG索引侧的应用——你不可能把每张图都扔给GPT-4V抽关系,太贵且太慢。因此,传统CV+规则的方法在预处理阶段依然是最优解。

二是RAG的评测标准正在升级。过去比的是“答案里是否包含正确答案的关键词”,现在比的是“推理路径是否正确”。百度在内部已经推行了路径级评测,面试官问你的问题就是他们的真实标准。

对未来从业者,这意味着:

在校生,别只满足于跑通LangChain的PDF问答Demo。找几张流程图,动手写一个从图像到图的解析脚本。这个项目写在简历上,比“熟悉多模态RAG”有用十倍。

初级工程师,把“图构建模块”集成到你现有的RAG里。比较前后效果,写一篇技术笔记。面试时带着数据和代码去聊。

中高级工程师,你应该思考的是整个测试体系如何适配这种变化。传统QA对的是文本段落,现在QA的对象是图。需要设计新的测试用例生成策略,比如自动从流程图里枚举所有路径作为问题集。

最后想问你一个问题:

你的RAG系统拿到一张包含循环回退箭头的流程图时,能正确回答“什么条件下会回到前一步”吗?

如果不能,你今天就可以从一张简单的流程图开始动手改造了。

相关文章
|
30天前
|
人工智能 监控 安全
多模态AI(图像+文本)该怎么测试?不是把图片丢给模型这么简单
本文系统阐述多模态AI测试新范式:突破传统文本测试局限,聚焦图像理解、图文对齐、跨模态推理、幻觉防控、安全注入与鲁棒性验证六大核心维度,提出分层模型、六维测试矩阵及自动化评测体系,强调“证据链”验证——答案必须可追溯至图片真实信息。
|
23天前
|
人工智能 测试技术 决策智能
TradingAgents 爆火:当一个 AI 不再炒股,而是组建了一支“虚拟投研团队”
TradingAgents 是TauricResearch开源的多智能体大模型金融交易框架,GitHub星标超70k。它模拟真实投研团队(基本面、情绪、新闻、技术等分析师及风控、组合经理),将高风险金融决策拆解为可编排、可追踪、可复盘的Agent协作流程,代表AI从单点推理迈向组织化工作流的新范式。
|
2月前
|
机器学习/深度学习 人工智能 测试技术
为什么字节/阿里的AI测试团队都在招“Skill工程师”?
本文深度解析AI测试新范式——“Skill工程师”崛起背后的逻辑。从字节、阿里等大厂招聘JD剧变切入,揭示AI测试正从“验证功能”转向“验证能力”,核心是将领域经验封装为AI可调用、可复用、可进化的Skill。文章系统拆解其三大能力(MCP工程化、渐进式Skill封装、反馈闭环设计),对比三类测试角色差异,并结合Claude Code、Cursor、OpenClaw实战案例,给出三条落地建议。Skill工程师,实为AI时代的测试架构师。
|
4月前
|
人工智能 机器人 API
2026年新手小白部署OpenClaw(Clawdbot)快速接入钉钉教程,零基础解锁 AI 高效协同办公
2026年AI Agent技术持续迭代,OpenClaw(原Clawdbot、Moltbot)作为开源、本地优先的全能AI智能代理平台,凭借强大的任务自动化执行与多渠道集成能力脱颖而出——它不仅能实现自然语言对话,更能深度整合办公场景需求,完成邮件整理、会议纪要生成、待办同步、多工具协同等实用任务,兼容Qwen、GPT、Claude等多模型,堪称新手小白与轻量团队的“专属数字员工”[1]。阿里云专为零基础用户优化的OpenClaw一键部署方案,通过预置专属应用镜像,彻底简化了传统部署的复杂流程,无需专业编程基础、无需手动调试依赖环境,新手仅需20分钟即可完成部署,后续快速接入钉钉,就能实现“钉
1467 7
|
26天前
|
人工智能 JSON 运维
AI 智能体的开发流程
AI智能体开发不同于传统编程,聚焦提示词工程、模型能力边界、工具编排与持续对齐。全流程含六大阶段:需求定义→架构设计→提示与工具编排→测试对齐→部署集成→运维飞轮。强调MVP验证、数据驱动迭代与低代码到代码的渐进演进。(239字)
|
26天前
|
SQL 人工智能 安全
为什么你的AI Agent总输出垃圾?因为你没装“技能插件”
本文揭示AI Agent“做事乱”的根源:并非模型能力不足,而是缺乏可执行的技能插件(Skill)。文章指出,大模型缺的不是推理力,而是“怎么做”的上下文——如读文件、查数据库、调API等实操能力。通过MCP协议+工具函数,Skill将业务知识封装为即插即用的数字资产,让Agent从“纸上谈兵的参谋”升级为“自带工具箱的施工队”。
|
26天前
|
人工智能 JSON 开发工具
扒开AI Skill的底层:自动断言、数据构造、多模态识别怎么做到的
本文揭秘AI测试落地的三大核心瓶颈:断言脆弱、数据失真、UI定位失效,并提出破局关键——可复用、可验证的“测试Skill”。通过自动断言(规则化比对)、数据构造(生成-校验闭环)、多模态识别(看图说话式定位)三大实战Skill,将AI的语义能力与确定性工具深度协同,让测试从“猜”走向“测”。
|
2月前
|
人工智能 自然语言处理 测试技术
不会写代码也能做Skill?低代码+AI实测
本文探讨AI时代测试工程师如何零代码打造可复用的AI技能(Skill):从“用AI写脚本”跃迁至“教AI帮别人写脚本”。依托JeecgBoot、OpenClaw、Claude Skill-Creator等低代码+AI工具,测试经验可转化为结构化SOP,封装为AI可理解、执行、共享的能力资产。实操路径清晰,门槛远低于想象。
|
2月前
|
人工智能 算法 测试技术
从“越用越好用”的 AI Agent 说起:测试开发如何打造自己的专属智能体?
本文揭秘开源AI Agent框架OpenClaw的核心设计:智能不来自复杂算法,而源于可读、可版本控制的`.md`文件——SOUL.md定义人格,AGENTS.md沉淀踩坑经验,SKILL.md固化规范。测试开发可借此构建“会学习的测试助手”,实现用例生成、缺陷规避与脚本维护的自我进化。