嗨,我是小华同学,专注解锁高效工作与前沿AI工具!每日精选开源技术、实战技巧,助你省时50%、领先他人一步。👉免费订阅,与10万+技术人共享升级秘籍!
如果你还把 OCR 理解成“截张图、抠几个字”,那这次真的有点低估它了。
百度刚开源的 Unlimited-OCR,目标不是单页识别,而是把图片、长文档、多页 PDF 这一类“看得见但不好结构化”的资料,往 Markdown、表格、可检索文本 方向推进。
这篇不讲复杂论文公式,只用 3 分钟讲清:它为什么突然冲到 1.2 万 Star,以及程序员能拿它做什么。

这项目是什么
Unlimited-OCR 是百度开源的 OCR / 文档解析项目,项目标语很直接:Welcome the Era of One-shot Long-horizon Parsing。
翻译成人话就是:它想解决的不只是“识别一张图里的文字”,而是更接近 一次处理更长、更复杂的视觉文档。
它目前提供了几条开发者比较关心的入口:
| 能力 | 项目里怎么体现 | 对程序员的价值 |
|---|---|---|
| 单图解析 | Transformers 推理示例 | 适合截图、票据、表单、扫描页 |
| 多页解析 | infer_multi 和多图输入 |
适合多页文档、长材料拆页处理 |
| PDF 路径 | PDF 先转图片,再进入多页解析 | 适合接入已有文档流 |
| 服务化 | vLLM / SGLang 支持 | 方便做 API、批量任务、内部工具 |
| 输出方向 | Markdown、文本、表格等结构化结果 | 更容易接 RAG、搜索、归档和自动化 |
注意,这里最关键的不是“它也能 OCR”,而是 OCR 正在从工具函数,变成文档理解流水线的一部分。

为什么值得关注
很多团队其实都被“文档非结构化”卡过。
合同是 PDF,发票是图片,供应商报价是扫描件,历史资料是截图,表格嵌在报告里。你想让 AI 分析它,第一步往往不是写 Prompt,而是先把这些东西变成模型能吃的文本。
传统 OCR 当然能用,但经常会遇到几个问题:
第一,单页还行,长文档容易散。
页与页之间的上下文、表格结构、标题层级,一旦断开,后续做检索和问答就很麻烦。
第二,纯文本不够,结构更重要。
程序员真正想要的不是一坨字,而是 Markdown、表格、段落、字段,这样才能继续进数据库、知识库或者 Agent 工作流。
第三,批量化和服务化是刚需。
项目里已经给出 Transformers、vLLM、SGLang 的路线,这意味着它不是只停留在 Demo 截图,而是在往可接入工程链路的方向走。
能用来做什么
如果你做过企业系统、知识库、RPA、AI Agent 或数据中台,这类项目的想象空间会非常直接。
你可以把它理解成一个“文档入口层”:

几个比较实在的方向:
1. 给 RAG 做文档预处理
把扫描 PDF、图片报告、表格页面先转成更干净的 Markdown,再进入切分、向量化和检索。
2. 做内部资料归档
历史合同、培训材料、会议截图、票据凭证,可以先批量解析,再统一搜索。
3. 给业务系统补一个“看图录入”能力
比如表单录入、发票字段提取、报价单整理、客服截图整理,减少人工复制粘贴。
4. 给 Agent 加一双“读文档的眼睛”
很多 Agent 卡住,不是推理不行,而是看不到 PDF 和图片里的信息。OCR + 文档解析就是前置基础设施。
小白怎么理解
你可以把普通 OCR 想成一个很勤奋的打字员:你给它一张图,它把字敲出来。
而 Unlimited-OCR 更像一个升级版资料助理:它不只盯着一小块文字,而是尝试理解更长的页面、更复杂的排版,并把结果整理成后续程序更好处理的格式。
这也是为什么我觉得它适合收藏:它不一定马上替代你现有 OCR,但它代表了 OCR 的下一步方向。
但别无脑上
这类项目目前仍然有边界。
它不是万能文档大脑,也不是“丢任何 PDF 都 100% 正确”的魔法工具。项目 README 里给的 PDF 路径,本质上还是 先把 PDF 页面转成图片,再做多页解析;复杂表格、低清扫描、手写混排、极长文档,仍然需要测试和人工校验。
另外,它对 GPU、推理框架和依赖环境也有要求。比如 README 中 Transformers 示例测试在 Python 3.12.3 + CUDA 12.9,服务化路线还涉及 vLLM 或 SGLang。
所以更合理的期待是:先把它当成“文档解析基础组件”评估,而不是马上当成生产级万金油。
我的判断
Unlimited-OCR 火得快,核心不是因为“百度又开源了一个 OCR”,而是它踩中了一个越来越明显的趋势:
AI 应用越往企业和真实业务走,越需要把图片、PDF、表格、扫描件这些非结构化资料,稳定地变成可计算的数据。
这就是它对程序员的价值。
如果你最近在做知识库、企业搜索、Agent 自动化、文档审查、票据识别,这个项目值得先收藏。后面我也可以继续拆它的推理方式、部署链路,以及怎么接到自己的 RAG / Agent 项目里。
项目地址
GitHub:https://github.com/baidu/Unlimited-OCR
Hugging Face Model:https://huggingface.co/baidu/Unlimited-OCR