百度文心开源0.9B参数 PaddleOCR-VL-1.5，全球首个支持异形框定位的文档解析模型！-阿里云开发者社区

百度文心开源0.9B参数 PaddleOCR-VL-1.5，全球首个支持异形框定位的文档解析模型！

2026-02-03 1300

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 百度文心开源新一代文档解析模型PaddleOCR-VL-1.5：仅0.9B参数，在OmniDocBench v1.5达94.5%精度，全球首个支持异形框定位，精准识别倾斜、弯折、反光等“歪文档”，集成印章识别、多语种（含藏语/孟加拉语）及古籍解析能力，推理速度超MinerU2.5达43%。（239字）

近期，百度文心开源了其新一代文档解析模型PaddleOCR-VL-1.5。在全面优化 1.0 版本核心能力的基础上，作为仅有0.9B参数规模的PaddleOCR-VL-1.5，在文档解析权威评测集OmniDocBench v1.5上斩获了 94.5%的高精度，超越了全球的顶尖通用大模型及文档解析专用模型。

项目地址：https://github.com/PaddlePaddle/PaddleOCR
模型地址：https://www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.5
体验Demo：https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL-1.5_Online_Demo
在线使用/API：https://www.paddleocr.com

PaddleOCR-VL-1.5创新性地支持了文档元素的异形框定位，使得PaddleOCR-VL-1.5在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实落地场景中均表现卓越，实现了全面的SOTA，被誉为“歪文档克星”。此外，模型进一步集成了印章识别与文本检测识别任务，关键指标持续领跑主流模型。

OmniDocBench v1.5和自建Real5-OmniDocBench全面领先

模型关键能力

在 OmniDocBench v1.5 上以 0.9B 的参数量实现 94.5% 的精度，超越了上一代 SOTA 模型PaddleOCR-VL，表格、公式及文本识别能力大幅提升。
全球首个支持异形框定位的文档解析模型，可精准返回倾斜、弯折场景下的多边形检测框。在扫描、弯折、倾斜、屏幕拍照、光线变化5 个场景下，精度均优于目前主流的开源与闭源模型。
新增文本行定位/识别与印章识别能力，各项技术指标均刷新领域SOTA。
精进特殊场景及多语种识别能力。优化了生僻字、古籍、多语种表格、下划线及复选框的识别效果，并扩展了藏语和孟加拉语的识别支持。
支持跨页表格自动合并与跨页段落标题识别，解决了长文档解析中的断层问题
推理速度进一步提升。在A100上以PDF文件进行测试时，模型每秒可处理1.43个文档页，速度较MinerU2.5快43%，是DeepSeek-OCR的两倍以上。

模型架构

作为面向多模态文档理解的端到端模型，PaddleOCR-VL-1.5 采用视觉-语言双流架构设计。其核心由视觉编码器（Vision Encoder）与语言解码器（LLM Decoder）构成：

视觉编码器通过 PP-DocLayoutV3 完成文档布局分析与多点边界框生成，输出结构化视觉表征；
语言解码器基于 ERNIE-4.5-0.3B 大语言模型，结合 PaddleOCR-VL-1.5-0.9B 的任务适配模块，实现文档解析（Task1）与文本定位（Task2）的联合建模。

其中，文档解析任务通过布局分析、位置与类别排序等子模块，完成印刷/扫描文档的结构化信息抽取；
文本定位任务则聚焦复杂场景下的文本区域识别与内容提取。

模型通过视觉特征与语言模型的深度融合，支持从原始图像到 Markdown/JSON 等结构化输出的端到端推理，显著提升多场景文档理解的准确率与泛化能力。

评测指标

OmniDocBench v1.5指标：实现对上代的超越，总指标94.5%，领跑全球所有模型。

自建多场景文档解析评估集合Real5-OmniDocBench数据集，在扫描、弯折、屏幕拍照、光线变化、倾斜 5 大场景中全面领先，总指标领先第二名Gemini3 Pro 近3个百分点。

评测效果

PaddleOCR-VL-1.5全球首次实现了 OCR 模型的“异形框定位”能力，使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态，首次让“歪文档”实现稳定、可规模化解析。这个能力，解决了传统 OCR 模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题，可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。

复杂光影