近期,百度文心开源了其新一代文档解析模型PaddleOCR-VL-1.5。在全面优化 1.0 版本核心能力的基础上,作为仅有0.9B参数规模的PaddleOCR-VL-1.5,在文档解析权威评测集OmniDocBench v1.5上斩获了 94.5%的高精度,超越了全球的顶尖通用大模型及文档解析专用模型。
- 项目地址:https://github.com/PaddlePaddle/PaddleOCR
- 模型地址:https://www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.5
- 体验Demo:https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL-1.5_Online_Demo
- 在线使用/API:https://www.paddleocr.com
PaddleOCR-VL-1.5创新性地支持了文档元素的异形框定位,使得PaddleOCR-VL-1.5在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实落地场景中均表现卓越,实现了全面的SOTA,被誉为“歪文档克星”。此外,模型进一步集成了印章识别与文本检测识别任务,关键指标持续领跑主流模型。
OmniDocBench v1.5和自建Real5-OmniDocBench全面领先
模型关键能力
- 在 OmniDocBench v1.5 上以 0.9B 的参数量实现 94.5% 的精度,超越了上一代 SOTA 模型PaddleOCR-VL,表格、公式及文本识别能力大幅提升。
- 全球首个支持异形框定位的文档解析模型,可精准返回倾斜、弯折场景下的多边形检测框。在扫描、弯折、倾斜、屏幕拍照、光线变化5 个场景下,精度均优于目前主流的开源与闭源模型。
- 新增文本行定位/识别与印章识别能力,各项技术指标均刷新领域SOTA。
- 精进特殊场景及多语种识别能力。优化了生僻字、古籍、多语种表格、下划线及复选框的识别效果,并扩展了藏语和孟加拉语的识别支持。
- 支持跨页表格自动合并与跨页段落标题识别,解决了长文档解析中的断层问题
- 推理速度进一步提升。在A100上以PDF文件进行测试时,模型每秒可处理1.43个文档页,速度较MinerU2.5快43%,是DeepSeek-OCR的两倍以上。
模型架构
作为面向多模态文档理解的端到端模型,PaddleOCR-VL-1.5 采用视觉-语言双流架构设计。其核心由视觉编码器(Vision Encoder)与语言解码器(LLM Decoder)构成:
- 视觉编码器通过 PP-DocLayoutV3 完成文档布局分析与多点边界框生成,输出结构化视觉表征;
- 语言解码器基于 ERNIE-4.5-0.3B 大语言模型,结合 PaddleOCR-VL-1.5-0.9B 的任务适配模块,实现文档解析(Task1)与文本定位(Task2)的联合建模。
- 其中,文档解析任务通过布局分析、位置与类别排序等子模块,完成印刷/扫描文档的结构化信息抽取;
- 文本定位任务则聚焦复杂场景下的文本区域识别与内容提取。
模型通过视觉特征与语言模型的深度融合,支持从原始图像到 Markdown/JSON 等结构化输出的端到端推理,显著提升多场景文档理解的准确率与泛化能力。
评测指标
OmniDocBench v1.5指标:实现对上代的超越,总指标94.5%,领跑全球所有模型。
自建多场景文档解析评估集合Real5-OmniDocBench数据集,在扫描、弯折、屏幕拍照、光线变化、倾斜 5 大场景中全面领先,总指标领先第二名Gemini3 Pro 近3个百分点。
评测效果
PaddleOCR-VL-1.5全球首次实现了 OCR 模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。这个能力,解决了传统 OCR 模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。
复杂光影
各类弯折
屏幕反光
PaddleOCR-VL-1.5是基于文心大模型进行开发的,在表格结构理解(92.8 分)和阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型2–5分不等。
在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这样让PaddleOCR-VL-1.5在合同、财报等高复杂度业务场景中,就拥有了更高的可用性。
盖章表格
复杂表格
去年10月16日,PaddleOCR-VL 模型首次发布并开源,在 OmniDocBench V1.5 榜单中取得全球 SOTA 成绩,并连续五天登顶 HuggingFace 全球模型总趋势榜与 ModelScope 全球模型总趋势榜双榜第一。
相比于上代,在功能层面,PaddleOCR-VL-1.5进一步集成印章识别、文本检测与识别等任务能力,关键指标持续领跑。
同时针对特殊场景与多语种识别进行系统优化,在特殊符号、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升,并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。
设计图纸
漫画文字
传统古籍
抽象的手写
神奇的印章
阿拉伯语、泰米尔语等小语种
点击即可跳转模型体验
https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL-1.5_Online_Demo