百度文心开源0.9B参数 PaddleOCR-VL-1.5,全球首个支持异形框定位的文档解析模型!

简介: 百度文心开源新一代文档解析模型PaddleOCR-VL-1.5:仅0.9B参数,在OmniDocBench v1.5达94.5%精度,全球首个支持异形框定位,精准识别倾斜、弯折、反光等“歪文档”,集成印章识别、多语种(含藏语/孟加拉语)及古籍解析能力,推理速度超MinerU2.5达43%。(239字)

近期,百度文心开源了其新一代文档解析模型PaddleOCR-VL-1.5。在全面优化 1.0 版本核心能力的基础上,作为仅有0.9B参数规模的PaddleOCR-VL-1.5,在文档解析权威评测集OmniDocBench v1.5上斩获了 94.5%的高精度,超越了全球的顶尖通用大模型及文档解析专用模型。

  • 项目地址:https://github.com/PaddlePaddle/PaddleOCR
  • 模型地址:https://www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.5
  • 体验Demo:https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL-1.5_Online_Demo
  • 在线使用/API:https://www.paddleocr.com

PaddleOCR-VL-1.5创新性地支持了文档元素的异形框定位,使得PaddleOCR-VL-1.5在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实落地场景中均表现卓越,实现了全面的SOTA,被誉为“歪文档克星”。此外,模型进一步集成了印章识别文本检测识别任务,关键指标持续领跑主流模型。

OmniDocBench v1.5和自建Real5-OmniDocBench全面领先

模型关键能力

  • 在 OmniDocBench v1.5 上以 0.9B 的参数量实现 94.5% 的精度,超越了上一代 SOTA 模型PaddleOCR-VL,表格、公式及文本识别能力大幅提升。
  • 全球首个支持异形框定位的文档解析模型,可精准返回倾斜、弯折场景下的多边形检测框。在扫描、弯折、倾斜、屏幕拍照、光线变化5 个场景下,精度均优于目前主流的开源与闭源模型。
  • 新增文本行定位/识别与印章识别能力,各项技术指标均刷新领域SOTA。
  • 精进特殊场景及多语种识别能力。优化了生僻字、古籍、多语种表格、下划线及复选框的识别效果,并扩展了藏语和孟加拉语的识别支持。
  • 支持跨页表格自动合并与跨页段落标题识别,解决了长文档解析中的断层问题
  • 推理速度进一步提升。在A100上以PDF文件进行测试时,模型每秒可处理1.43个文档页,速度较MinerU2.5快43%,是DeepSeek-OCR的两倍以上。

模型架构

作为面向多模态文档理解的端到端模型,PaddleOCR-VL-1.5 采用视觉-语言双流架构设计。其核心由视觉编码器(Vision Encoder)与语言解码器(LLM Decoder)构成:

  • 视觉编码器通过 PP-DocLayoutV3 完成文档布局分析与多点边界框生成,输出结构化视觉表征;
  • 语言解码器基于 ERNIE-4.5-0.3B 大语言模型,结合 PaddleOCR-VL-1.5-0.9B 的任务适配模块,实现文档解析(Task1)与文本定位(Task2)的联合建模。
  • 其中,文档解析任务通过布局分析、位置与类别排序等子模块,完成印刷/扫描文档的结构化信息抽取;
  • 文本定位任务则聚焦复杂场景下的文本区域识别与内容提取。


模型通过视觉特征与语言模型的深度融合,支持从原始图像到 Markdown/JSON 等结构化输出的端到端推理,显著提升多场景文档理解的准确率与泛化能力。

评测指标

OmniDocBench v1.5指标:实现对上代的超越,总指标94.5%,领跑全球所有模型。

自建多场景文档解析评估集合Real5-OmniDocBench数据集,在扫描、弯折、屏幕拍照、光线变化、倾斜 5 大场景中全面领先,总指标领先第二名Gemini3 Pro 近3个百分点。

评测效果

PaddleOCR-VL-1.5全球首次实现了 OCR 模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。这个能力,解决了传统 OCR 模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。


复杂光影


各类弯折

屏幕反光

PaddleOCR-VL-1.5是基于文心大模型进行开发的,在表格结构理解(92.8 分)阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型2–5分不等。


在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这样让PaddleOCR-VL-1.5在合同、财报等高复杂度业务场景中,就拥有了更高的可用性。


盖章表格

复杂表格

去年10月16日,PaddleOCR-VL 模型首次发布并开源,在 OmniDocBench V1.5 榜单中取得全球 SOTA 成绩,并连续五天登顶 HuggingFace 全球模型总趋势榜与 ModelScope 全球模型总趋势榜双榜第一。


相比于上代,在功能层面,PaddleOCR-VL-1.5进一步集成印章识别、文本检测与识别等任务能力,关键指标持续领跑。


同时针对特殊场景与多语种识别进行系统优化,在特殊符号、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升,并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。


设计图纸

漫画文字

传统古籍

抽象的手写

神奇的印章


阿拉伯语、泰米尔语等小语种

点击即可跳转模型体验

https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL-1.5_Online_Demo


目录
相关文章
|
2月前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
570 8
|
安全 数据安全/隐私保护 Web App开发
CEH-Orbit 协议技术规范(Spec)V1.0
CEH-Orbit是一种基于格密码的后量子认证协议(V1.0),由陈恩华提出。其核心通过随机掩码生成高维轨道向量,压缩为OrbitHead,结合消息派生挑战,并验证轨道重建一致性,确保抗量子攻击能力。
1019 10
|
2月前
|
人工智能 安全 前端开发
D2大会 界面即推理:解读 Google A2UI 如何探索 Agent 交互新标准
Google A2UI开源项目,以声明式JSON协议让AI按需生成安全、跨平台的动态界面,破解Agent交互“最后一公里”难题。D2大会将揭秘其设计哲学、多智能体UI协作及开源路线图。
|
2月前
|
边缘计算 人工智能 物联网
Ultralytics YOLO26来啦!5种尺寸全家桶,速度与精度兼顾
Ultralytics发布YOLO26,系列迄今最先进、易部署的模型,支持分类、检测、分割、姿态估计等多任务。五种尺寸灵活适配边缘设备,CPU推理提速43%,首创无NMS端到端推理,移除DFL提升兼容性,已上架魔搭社区。(239字)
895 14
|
2月前
|
人工智能 文字识别 物联网
ModelScope魔搭社区发布月报 -- 26年2月
临近年关,ModelScope迎来春节模型发布潮:Qwen3、GLM-4.7、MiniMax M2.1等大模型密集上新;AIGC生图、语音合成、具身智能全面突破;OpenAPI、OAuth、Gallery等生态基建同步升级,加速AI开源普惠。(239字)
623 7
|
编解码 自然语言处理 数据挖掘
Recognize Anything:一个强大的图像标记模型
Recognize Anything是一种新的图像标记基础模型,与传统模型不同,它不依赖于手动注释进行训练
526 2
|
2月前
|
人工智能 API 调度
别再只依赖 ChatGPT 了:多模型协同,才是 AI 项目走向生产的关键一步
本文剖析AI项目落地困局:ChatGPT Agent类应用用户流失率超70%,根源不在模型不够强,而在于单模型架构难以支撑生产环境——稳定性差、成本高、难治理。文章从数据冲击、痛点直击等五维度论证,提出“多模型协同”是破局关键:按场景选模、统一调度、动态兜底,构建可控、可替换、可长期运行的AI系统架构。
|
2月前
|
机器学习/深度学习 JSON 文字识别
0.9B 小模型,OCR 大能力——GLM-OCR 模型实战教程
智谱开源多模态OCR模型GLM-OCR,基于GLM-V架构,融合CogViT视觉编码器与GLM-0.5B语言解码器,支持公式、表格、代码等复杂文档识别,性能达OmniDocBench榜首(94.62分),仅0.9B参数,轻量高效,开箱即用。
2172 3
|
2月前
|
人工智能 边缘计算 分布式计算
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
阶跃星辰发布开源大模型Step 3.5 Flash:专为Agent设计,推理速度达350 TPS,支持256K长上下文,采用稀疏MoE+MTP-3+混合注意力架构,在数学与Agent任务上媲美闭源模型,现已全量开放使用。
1948 2
|
2月前
|
机器学习/深度学习 自然语言处理 算法
RAG 文档切分攻略:做好这步,检索精度提升 50%
本文深度解析RAG系统中易被忽视却至关重要的文档切分环节,系统拆解固定长度、语义结构化、混合切分三大方法,结合片段长度、重叠率、元数据标注等5大实操技巧与典型场景案例,助你避开常见陷阱,显著提升检索精度与大模型回答质量。

热门文章

最新文章