InternVerse具身数据平台发布,从数据供给到模型迭代,助力物理智能全链路提效

简介: 百度千帆发布端到端文档智能模型Qianfan-OCR,4B参数统一视觉语言架构,融合版面分析、文字识别与语义理解。在OmniDocBench等权威评测中全面领先,支持复杂图表与多栏文档解析,已开源并上线千帆平台。(239字)

近日,百度千帆正式发布全新端到端文档智能模型Qianfan-OCR。

该模型基于统一的视觉语言架构打造,以4B参数规模实现了对文档解析、版面分析、文字识别与语义理解的全面融合,在多项权威评测中取得领先表现,标志着文档智能能力正从“流程拼接”迈向“模型统一”的新阶段。

在核心Benchmark中,Qianfan-OCR表现尤为突出:在OmniDocBench v1.5上取得93.12分,端到端模型中位列第一;OCRBench远高于同尺寸通用VL模型和专用OCR模型;KIE(Key Information Extraction)在多个公开榜单的总和成绩超过Google Gemini 3-Pro等商用模型。


进一步来看,在图表理解等复杂任务中,端到端模型的优势更加明显。Qianfan-OCR在ChartQA、ChartBench等关键评测中表现领先,在6项任务中拿下5项最佳成绩,充分体现其在复杂结构理解与多模态推理上的能力优势。

这一结果的核心原因在于传统Pipeline在文本提取过程中往往会丢失空间结构与视觉上下文信息,从而限制了对图表与复杂文档的理解能力;而端到端模型能够完整保留视觉信息,使模型在结构理解与推理任务中具备更高的一致性与准确性。

整体来看,Qianfan-OCR在文档解析与理解一体化能力上的领先表现,进一步验证了端到端技术路线的可行性与先进性。目前,Qianfan-OCR已在千帆平台上线,并同步在HuggingFace开源模型权重,面向开发者与企业用户开放使用。


论文:https://arxiv.org/abs/2603.13398

Model:https://modelscope.cn/models/baidu-qianfan/Qianfan-OCR

GitHub:https://github.com/baidubce/Qianfan-VL

Qianfan-OCR文档智能skills:

https://github.com/baidubce/skills/tree/develop/skills/qianfanocr-document-intelligence

千帆平台:https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/detail/am-52d29fea1063


一个模型重构文档智能能力边界

长期以来,工业级OCR系统大多沿用“检测—识别—理解”的三段式Pipeline架构:先通过检测模型定位版面元素,再由识别模型提取文本内容,最终借助大模型完成语义理解。这一模式在工程实践中已经非常成熟,但其本质仍是多阶段串联的处理流程。

随着文档形态日益复杂,这种架构的局限性也逐渐显现。一方面,多阶段处理带来的误差会在链路中不断放大,影响最终结果的稳定性;另一方面,文本在被逐块提取的过程中,原有的空间结构与视觉上下文被打散,使得图表、表格等复杂内容的理解能力受到限制。同时,多模型协同运行也显著增加了系统部署与运维的复杂度。

在这一背景下,Qianfan-OCR从底层架构出发进行了重构。通过统一的端到端视觉语言模型,系统可以直接从文档图像生成结构化结果,跳过传统的多阶段拆分流程,实现从“看见文档”到“理解文档”的一步完成。这一转变不仅大幅简化了技术链路,也为文档智能能力的提升提供了一条更高效、更一致的实现路径。


核心突破:让模型具备“版面理解能力”


在端到端模型的演进过程中,一个核心挑战在于如何弥补传统Pipeline天然具备的版面分析能力。相比多阶段架构中显式的检测与结构解析过程,端到端模型往往缺乏对版面结构的直接建模能力。

针对这一问题,Qianfan-OCR提出了Layout-as-Thought机制,将版面理解能力内化为模型推理过程的一部分。在生成最终结果之前,模型通过<think> token进入“思考阶段”,先对文档结构进行显式建模,生成包括元素位置、类型以及阅读顺序在内的结构化信息,随后再完成整体解析输出。

这一设计使模型在统一框架下同时具备结构感知与语义理解能力。一方面在端到端架构中补齐了版面分析这一关键能力;另一方面通过引入结构先验信息,有效提升了复杂文档场景下的解析准确性与稳定性。

因此在多栏排版、复杂表格以及非标准阅读顺序等典型复杂场景中,Qianfan-OCR能够表现出更强的鲁棒性与一致性。此外在部署效率上,单张A100 GPU,W8A8量化,吞吐量达1.024页/秒;相比pipeline系统需要CPU做检测+GPU做识别+GPU做LLM的异构编排,Qianfan-OCR只需一个vLLM实例。


从OCR到文档智能:范式正在发生变化

Qianfan-OCR的发布,不仅是一次模型能力的升级,更体现了文档处理技术路径的演进:从多模型拼接的流程式架构走向统一建模的端到端范式。这一变化使文档智能从“工具能力”进一步演进为“系统能力”,也为企业级应用提供了更高效、更稳定的技术基础。

同时,Qianfan-OCR模型已在GitHub发布配套skills,用户可自行下载使用,为自己的小龙虾“加点技能”,轻松实现文档转化与理解。

未来,百度千帆将持续推进多模态模型在产业场景中的落地应用,推动AI能力在更广泛行业中释放价值。

再发五大企业级Skills,小龙虾秒变小神龙!

点击可跳转模型链接~

https://modelscope.cn/models/baidu-qianfan/Qianfan-OCR


目录
相关文章
|
5天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
10724 62
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
3084 126
|
1天前
|
人工智能 自然语言处理 供应链
【最新】阿里云ClawHub Skill扫描:3万个AI Agent技能中的安全度量
阿里云扫描3万+AI Skill,发现AI检测引擎可识别80%+威胁,远高于传统引擎。
1196 1
|
11天前
|
人工智能 JavaScript API
解放双手!OpenClaw Agent Browser全攻略(阿里云+本地部署+免费API+网页自动化场景落地)
“让AI聊聊天、写代码不难,难的是让它自己打开网页、填表单、查数据”——2026年,无数OpenClaw用户被这个痛点困扰。参考文章直击核心:当AI只能“纸上谈兵”,无法实际操控浏览器,就永远成不了真正的“数字员工”。而Agent Browser技能的出现,彻底打破了这一壁垒——它给OpenClaw装上“上网的手和眼睛”,让AI能像真人一样打开网页、点击按钮、填写表单、提取数据,24小时不间断完成网页自动化任务。
2556 6
|
25天前
|
人工智能 JavaScript Ubuntu
5分钟上手龙虾AI!OpenClaw部署(阿里云+本地)+ 免费多模型配置保姆级教程(MiniMax、Claude、阿里云百炼)
OpenClaw(昵称“龙虾AI”)作为2026年热门的开源个人AI助手,由PSPDFKit创始人Peter Steinberger开发,核心优势在于“真正执行任务”——不仅能聊天互动,还能自动处理邮件、管理日程、订机票、写代码等,且所有数据本地处理,隐私完全可控。它支持接入MiniMax、Claude、GPT等多类大模型,兼容微信、Telegram、飞书等主流聊天工具,搭配100+可扩展技能,成为兼顾实用性与隐私性的AI工具首选。
24370 122

热门文章

最新文章