百度文心开源0.9B参数 PaddleOCR-VL-1.5,全球首个支持异形框定位的文档解析模型!

简介: 百度文心开源新一代文档解析模型PaddleOCR-VL-1.5:仅0.9B参数,在OmniDocBench v1.5达94.5%精度,全球首个支持异形框定位,精准识别倾斜、弯折、反光等“歪文档”,集成印章识别、多语种(含藏语/孟加拉语)及古籍解析能力,推理速度超MinerU2.5达43%。(239字)

近期,百度文心开源了其新一代文档解析模型PaddleOCR-VL-1.5。在全面优化 1.0 版本核心能力的基础上,作为仅有0.9B参数规模的PaddleOCR-VL-1.5,在文档解析权威评测集OmniDocBench v1.5上斩获了 94.5%的高精度,超越了全球的顶尖通用大模型及文档解析专用模型。

  • 项目地址:https://github.com/PaddlePaddle/PaddleOCR
  • 模型地址:https://www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.5
  • 体验Demo:https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL-1.5_Online_Demo
  • 在线使用/API:https://www.paddleocr.com

PaddleOCR-VL-1.5创新性地支持了文档元素的异形框定位,使得PaddleOCR-VL-1.5在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实落地场景中均表现卓越,实现了全面的SOTA,被誉为“歪文档克星”。此外,模型进一步集成了印章识别文本检测识别任务,关键指标持续领跑主流模型。

OmniDocBench v1.5和自建Real5-OmniDocBench全面领先

模型关键能力

  • 在 OmniDocBench v1.5 上以 0.9B 的参数量实现 94.5% 的精度,超越了上一代 SOTA 模型PaddleOCR-VL,表格、公式及文本识别能力大幅提升。
  • 全球首个支持异形框定位的文档解析模型,可精准返回倾斜、弯折场景下的多边形检测框。在扫描、弯折、倾斜、屏幕拍照、光线变化5 个场景下,精度均优于目前主流的开源与闭源模型。
  • 新增文本行定位/识别与印章识别能力,各项技术指标均刷新领域SOTA。
  • 精进特殊场景及多语种识别能力。优化了生僻字、古籍、多语种表格、下划线及复选框的识别效果,并扩展了藏语和孟加拉语的识别支持。
  • 支持跨页表格自动合并与跨页段落标题识别,解决了长文档解析中的断层问题
  • 推理速度进一步提升。在A100上以PDF文件进行测试时,模型每秒可处理1.43个文档页,速度较MinerU2.5快43%,是DeepSeek-OCR的两倍以上。

模型架构

作为面向多模态文档理解的端到端模型,PaddleOCR-VL-1.5 采用视觉-语言双流架构设计。其核心由视觉编码器(Vision Encoder)与语言解码器(LLM Decoder)构成:

  • 视觉编码器通过 PP-DocLayoutV3 完成文档布局分析与多点边界框生成,输出结构化视觉表征;
  • 语言解码器基于 ERNIE-4.5-0.3B 大语言模型,结合 PaddleOCR-VL-1.5-0.9B 的任务适配模块,实现文档解析(Task1)与文本定位(Task2)的联合建模。
  • 其中,文档解析任务通过布局分析、位置与类别排序等子模块,完成印刷/扫描文档的结构化信息抽取;
  • 文本定位任务则聚焦复杂场景下的文本区域识别与内容提取。


模型通过视觉特征与语言模型的深度融合,支持从原始图像到 Markdown/JSON 等结构化输出的端到端推理,显著提升多场景文档理解的准确率与泛化能力。

评测指标

OmniDocBench v1.5指标:实现对上代的超越,总指标94.5%,领跑全球所有模型。

自建多场景文档解析评估集合Real5-OmniDocBench数据集,在扫描、弯折、屏幕拍照、光线变化、倾斜 5 大场景中全面领先,总指标领先第二名Gemini3 Pro 近3个百分点。

评测效果

PaddleOCR-VL-1.5全球首次实现了 OCR 模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。这个能力,解决了传统 OCR 模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。


复杂光影


各类弯折

屏幕反光

PaddleOCR-VL-1.5是基于文心大模型进行开发的,在表格结构理解(92.8 分)阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型2–5分不等。


在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这样让PaddleOCR-VL-1.5在合同、财报等高复杂度业务场景中,就拥有了更高的可用性。


盖章表格

复杂表格

去年10月16日,PaddleOCR-VL 模型首次发布并开源,在 OmniDocBench V1.5 榜单中取得全球 SOTA 成绩,并连续五天登顶 HuggingFace 全球模型总趋势榜与 ModelScope 全球模型总趋势榜双榜第一。


相比于上代,在功能层面,PaddleOCR-VL-1.5进一步集成印章识别、文本检测与识别等任务能力,关键指标持续领跑。


同时针对特殊场景与多语种识别进行系统优化,在特殊符号、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升,并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。


设计图纸

漫画文字

传统古籍

抽象的手写

神奇的印章


阿拉伯语、泰米尔语等小语种

点击即可跳转模型体验

https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL-1.5_Online_Demo


目录
相关文章
|
7天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
5天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
6178 12
|
3天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
3359 8
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
5天前
|
人工智能 JavaScript API
零门槛部署本地 AI 助手:Clawdbot/Meltbot 部署深度保姆级教程
Clawdbot(Moltbot)是一款智能体AI助手,具备“手”(读写文件、执行代码)、“脚”(联网搜索、分析网页)和“脑”(接入Qwen/OpenAI等API或本地GPU模型)。本指南详解Windows下从Node.js环境搭建、一键安装到Token配置的全流程,助你快速部署本地AI助理。(239字)
3895 21
|
11天前
|
人工智能 API 开发者
Claude Code 国内保姆级使用指南:实测 GLM-4.7 与 Claude Opus 4.5 全方案解
Claude Code是Anthropic推出的编程AI代理工具。2026年国内开发者可通过配置`ANTHROPIC_BASE_URL`实现本地化接入:①极速平替——用Qwen Code v0.5.0或GLM-4.7,毫秒响应,适合日常编码;②满血原版——经灵芽API中转调用Claude Opus 4.5,胜任复杂架构与深度推理。
7374 12
|
3天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
3631 3
|
3天前
|
存储 安全 数据库
2026年使用Docker部署OpenClaw(原Clawdbot/Moltbot)完整步骤教程
OpenClaw(原Clawdbot/Moltbot)是一款开源的本地运行个人AI助手,支持WhatsApp、Telegram、Slack等十余种通信渠道,兼容macOS、iOS、Android系统,还可渲染实时Canvas界面。本文提供基于Docker Compose的生产级部署指南,涵盖环境准备、源码获取、配置、构建、启动及运维等关键环节,补充生产环境必需的安全配置、数据持久化、备份与监控建议,与官方配置无冲突,适用于希望通过Docker快速部署的用户。需说明的是,OpenClaw暂无官方预构建Docker镜像,需通过源码+Dockerfile本地构建,这也是官方推荐的最稳定部署方式。
2628 0
|
4天前
|
人工智能 JavaScript 安全
Clawdbot 对接飞书详细教程 手把手搭建你的专属 AI 助手
本教程手把手教你将 Moltbot(原 Clawdbot)部署在 Linux 服务器,并对接飞书打造专属 AI 助手:涵盖环境准备、Node.js/NVM 安装、Moltbot 快速安装(支持 Qwen 模型)、Web 管理面板配置及飞书应用创建、权限设置与事件回调对接,全程图文指引,安全可靠。
2521 3
Clawdbot 对接飞书详细教程 手把手搭建你的专属 AI 助手
|
6天前
|
人工智能 安全 Shell
在 Moltbot (Clawdbot) 里配置调用阿里云百炼 API 完整教程
Moltbot(原Clawdbot)是一款开源AI个人助手,支持通过自然语言控制设备、处理自动化任务,兼容Qwen、Claude、GPT等主流大语言模型。若需在Moltbot中调用阿里云百炼提供的模型能力(如通义千问3系列),需完成API配置、环境变量设置、配置文件编辑等步骤。本文将严格遵循原教程逻辑,用通俗易懂的语言拆解完整流程,涵盖前置条件、安装部署、API获取、配置验证等核心环节,确保不改变原意且无营销表述。
2262 6
|
6天前
|
机器人 API 数据安全/隐私保护
只需3步,无影云电脑一键部署Moltbot(Clawdbot)
本指南详解Moltbot(Clawdbot)部署全流程:一、购买无影云电脑Moltbot专属套餐(含2000核时);二、下载客户端并配置百炼API Key、钉钉APP KEY及QQ通道;三、验证钉钉/群聊交互。支持多端,7×24运行可关闭休眠。
3594 7