离谱！我以为 OCR 还在一页页抠字，结果百度 1.2 万 Star Unlimited-OCR 直接把长文档一口气读完-阿里云开发者社区

离谱！我以为 OCR 还在一页页抠字，结果百度 1.2 万 Star Unlimited-OCR 直接把长文档一口气读完

2026-07-01 39

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 百度开源 Unlimited-OCR，把图片、长文档、多页 PDF 这类非结构化资料推进到 Markdown、表格和可检索文本，适合 RAG、知识库和 Agent 文档入口。

嗨，我是小华同学，专注解锁高效工作与前沿AI工具！每日精选开源技术、实战技巧，助你省时50%、领先他人一步。👉免费订阅，与10万+技术人共享升级秘籍！

如果你还把 OCR 理解成“截张图、抠几个字”，那这次真的有点低估它了。

百度刚开源的 Unlimited-OCR，目标不是单页识别，而是把图片、长文档、多页 PDF 这一类“看得见但不好结构化”的资料，往 Markdown、表格、可检索文本 方向推进。

这篇不讲复杂论文公式，只用 3 分钟讲清：它为什么突然冲到 1.2 万 Star，以及程序员能拿它做什么。

官方截图：Unlimited-OCR 项目概览

这项目是什么

Unlimited-OCR 是百度开源的 OCR / 文档解析项目，项目标语很直接：Welcome the Era of One-shot Long-horizon Parsing。

翻译成人话就是：它想解决的不只是“识别一张图里的文字”，而是更接近 一次处理更长、更复杂的视觉文档。

它目前提供了几条开发者比较关心的入口：

能力	项目里怎么体现	对程序员的价值
单图解析	Transformers 推理示例	适合截图、票据、表单、扫描页
多页解析	`infer_multi` 和多图输入	适合多页文档、长材料拆页处理
PDF 路径	PDF 先转图片，再进入多页解析	适合接入已有文档流
服务化	vLLM / SGLang 支持	方便做 API、批量任务、内部工具
输出方向	Markdown、文本、表格等结构化结果	更容易接 RAG、搜索、归档和自动化

注意，这里最关键的不是“它也能 OCR”，而是 OCR 正在从工具函数，变成文档理解流水线的一部分。

白板定位对比图：普通 OCR 到长文档解析

为什么值得关注

很多团队其实都被“文档非结构化”卡过。

合同是 PDF，发票是图片，供应商报价是扫描件，历史资料是截图，表格嵌在报告里。你想让 AI 分析它，第一步往往不是写 Prompt，而是先把这些东西变成模型能吃的文本。

传统 OCR 当然能用，但经常会遇到几个问题：

第一，单页还行，长文档容易散。
页与页之间的上下文、表格结构、标题层级，一旦断开，后续做检索和问答就很麻烦。

第二，纯文本不够，结构更重要。
程序员真正想要的不是一坨字，而是 Markdown、表格、段落、字段，这样才能继续进数据库、知识库或者 Agent 工作流。

第三，批量化和服务化是刚需。
项目里已经给出 Transformers、vLLM、SGLang 的路线，这意味着它不是只停留在 Demo 截图，而是在往可接入工程链路的方向走。

能用来做什么

如果你做过企业系统、知识库、RPA、AI Agent 或数据中台，这类项目的想象空间会非常直接。

你可以把它理解成一个“文档入口层”：

趣味白板流程图：Unlimited-OCR 接入开发者流水线

几个比较实在的方向：

1. 给 RAG 做文档预处理
把扫描 PDF、图片报告、表格页面先转成更干净的 Markdown，再进入切分、向量化和检索。

2. 做内部资料归档
历史合同、培训材料、会议截图、票据凭证，可以先批量解析，再统一搜索。

3. 给业务系统补一个“看图录入”能力
比如表单录入、发票字段提取、报价单整理、客服截图整理，减少人工复制粘贴。

4. 给 Agent 加一双“读文档的眼睛”
很多 Agent 卡住，不是推理不行，而是看不到 PDF 和图片里的信息。OCR + 文档解析就是前置基础设施。

小白怎么理解

你可以把普通 OCR 想成一个很勤奋的打字员：你给它一张图，它把字敲出来。

而 Unlimited-OCR 更像一个升级版资料助理：它不只盯着一小块文字，而是尝试理解更长的页面、更复杂的排版，并把结果整理成后续程序更好处理的格式。

这也是为什么我觉得它适合收藏：它不一定马上替代你现有 OCR，但它代表了 OCR 的下一步方向。

但别无脑上

这类项目目前仍然有边界。

它不是万能文档大脑，也不是“丢任何 PDF 都 100% 正确”的魔法工具。项目 README 里给的 PDF 路径，本质上还是 先把 PDF 页面转成图片，再做多页解析；复杂表格、低清扫描、手写混排、极长文档，仍然需要测试和人工校验。

另外，它对 GPU、推理框架和依赖环境也有要求。比如 README 中 Transformers 示例测试在 Python 3.12.3 + CUDA 12.9，服务化路线还涉及 vLLM 或 SGLang。

所以更合理的期待是：先把它当成“文档解析基础组件”评估，而不是马上当成生产级万金油。

我的判断

Unlimited-OCR 火得快，核心不是因为“百度又开源了一个 OCR”，而是它踩中了一个越来越明显的趋势：

AI 应用越往企业和真实业务走，越需要把图片、PDF、表格、扫描件这些非结构化资料，稳定地变成可计算的数据。

这就是它对程序员的价值。

如果你最近在做知识库、企业搜索、Agent 自动化、文档审查、票据识别，这个项目值得先收藏。后面我也可以继续拆它的推理方式、部署链路，以及怎么接到自己的 RAG / Agent 项目里。

项目地址

GitHub：https://github.com/baidu/Unlimited-OCR

Hugging Face Model：https://huggingface.co/baidu/Unlimited-OCR

arXiv：https://arxiv.org/abs/2606.23050

离谱！我以为 OCR 还在一页页抠字，结果百度 1.2 万 Star Unlimited-OCR 直接把长文档一口气读完

这项目是什么

为什么值得关注

能用来做什么

小白怎么理解

但别无脑上

我的判断

项目地址

千问大模型

热门文章

最新文章

相关电子书