离谱!我以为 OCR 还在一页页抠字,结果百度 1.2 万 Star Unlimited-OCR 直接把长文档一口气读完

简介: 百度开源 Unlimited-OCR,把图片、长文档、多页 PDF 这类非结构化资料推进到 Markdown、表格和可检索文本,适合 RAG、知识库和 Agent 文档入口。

嗨,我是小华同学,专注解锁高效工作与前沿AI工具!每日精选开源技术、实战技巧,助你省时50%、领先他人一步。👉免费订阅,与10万+技术人共享升级秘籍!

如果你还把 OCR 理解成“截张图、抠几个字”,那这次真的有点低估它了。

百度刚开源的 Unlimited-OCR,目标不是单页识别,而是把图片、长文档、多页 PDF 这一类“看得见但不好结构化”的资料,往 Markdown、表格、可检索文本 方向推进。

这篇不讲复杂论文公式,只用 3 分钟讲清:它为什么突然冲到 1.2 万 Star,以及程序员能拿它做什么。

官方截图:Unlimited-OCR 项目概览

这项目是什么

Unlimited-OCR 是百度开源的 OCR / 文档解析项目,项目标语很直接:Welcome the Era of One-shot Long-horizon Parsing

翻译成人话就是:它想解决的不只是“识别一张图里的文字”,而是更接近 一次处理更长、更复杂的视觉文档

它目前提供了几条开发者比较关心的入口:

能力 项目里怎么体现 对程序员的价值
单图解析 Transformers 推理示例 适合截图、票据、表单、扫描页
多页解析 infer_multi 和多图输入 适合多页文档、长材料拆页处理
PDF 路径 PDF 先转图片,再进入多页解析 适合接入已有文档流
服务化 vLLM / SGLang 支持 方便做 API、批量任务、内部工具
输出方向 Markdown、文本、表格等结构化结果 更容易接 RAG、搜索、归档和自动化

注意,这里最关键的不是“它也能 OCR”,而是 OCR 正在从工具函数,变成文档理解流水线的一部分

白板定位对比图:普通 OCR 到长文档解析

为什么值得关注

很多团队其实都被“文档非结构化”卡过。

合同是 PDF,发票是图片,供应商报价是扫描件,历史资料是截图,表格嵌在报告里。你想让 AI 分析它,第一步往往不是写 Prompt,而是先把这些东西变成模型能吃的文本。

传统 OCR 当然能用,但经常会遇到几个问题:

第一,单页还行,长文档容易散。
页与页之间的上下文、表格结构、标题层级,一旦断开,后续做检索和问答就很麻烦。

第二,纯文本不够,结构更重要。
程序员真正想要的不是一坨字,而是 Markdown、表格、段落、字段,这样才能继续进数据库、知识库或者 Agent 工作流。

第三,批量化和服务化是刚需。
项目里已经给出 Transformers、vLLM、SGLang 的路线,这意味着它不是只停留在 Demo 截图,而是在往可接入工程链路的方向走。

能用来做什么

如果你做过企业系统、知识库、RPA、AI Agent 或数据中台,这类项目的想象空间会非常直接。

你可以把它理解成一个“文档入口层”:

趣味白板流程图:Unlimited-OCR 接入开发者流水线

几个比较实在的方向:

1. 给 RAG 做文档预处理
把扫描 PDF、图片报告、表格页面先转成更干净的 Markdown,再进入切分、向量化和检索。

2. 做内部资料归档
历史合同、培训材料、会议截图、票据凭证,可以先批量解析,再统一搜索。

3. 给业务系统补一个“看图录入”能力
比如表单录入、发票字段提取、报价单整理、客服截图整理,减少人工复制粘贴。

4. 给 Agent 加一双“读文档的眼睛”
很多 Agent 卡住,不是推理不行,而是看不到 PDF 和图片里的信息。OCR + 文档解析就是前置基础设施。

小白怎么理解

你可以把普通 OCR 想成一个很勤奋的打字员:你给它一张图,它把字敲出来。

而 Unlimited-OCR 更像一个升级版资料助理:它不只盯着一小块文字,而是尝试理解更长的页面、更复杂的排版,并把结果整理成后续程序更好处理的格式。

这也是为什么我觉得它适合收藏:它不一定马上替代你现有 OCR,但它代表了 OCR 的下一步方向。

但别无脑上

这类项目目前仍然有边界。

它不是万能文档大脑,也不是“丢任何 PDF 都 100% 正确”的魔法工具。项目 README 里给的 PDF 路径,本质上还是 先把 PDF 页面转成图片,再做多页解析;复杂表格、低清扫描、手写混排、极长文档,仍然需要测试和人工校验。

另外,它对 GPU、推理框架和依赖环境也有要求。比如 README 中 Transformers 示例测试在 Python 3.12.3 + CUDA 12.9,服务化路线还涉及 vLLM 或 SGLang。

所以更合理的期待是:先把它当成“文档解析基础组件”评估,而不是马上当成生产级万金油。

我的判断

Unlimited-OCR 火得快,核心不是因为“百度又开源了一个 OCR”,而是它踩中了一个越来越明显的趋势:

AI 应用越往企业和真实业务走,越需要把图片、PDF、表格、扫描件这些非结构化资料,稳定地变成可计算的数据。

这就是它对程序员的价值。

如果你最近在做知识库、企业搜索、Agent 自动化、文档审查、票据识别,这个项目值得先收藏。后面我也可以继续拆它的推理方式、部署链路,以及怎么接到自己的 RAG / Agent 项目里。

项目地址

GitHub:https://github.com/baidu/Unlimited-OCR

Hugging Face Model:https://huggingface.co/baidu/Unlimited-OCR

arXiv:https://arxiv.org/abs/2606.23050

相关文章
|
1天前
|
人工智能 文字识别 API
阿里云百炼Qwen3.7模型怎么选?Qwen3.7-Max、Qwen3.7-Plus、Qwen3.7-Flash、Qwen-VL区别与选择参考
本文针对阿里云百炼平台四款核心千问3.7系列模型,提供了清晰的选型指南与优惠解读。旗舰款Qwen3.7-Max主打长链路推理与复杂代码任务,限时5折;均衡款Qwen3.7-Plus为全能多模态选手,限时8折;轻量款Qwen3.6-Flash适配高并发低延迟场景,成本最低;Qwen-VL系列则聚焦纯视觉理解与工业质检等专用场景。用户可通过Token Plan包季订阅叠加折扣,全模型通用抵扣最低至4.5折,结合错峰调用进一步压缩成本,实现不同业务场景下的最优AI投入产出比。
|
4天前
|
Web App开发 人工智能 自然语言处理
我解放啦,网页终于能自己干活了!阿里 2 万 Star 开源 Page Agent,20 次点击变一句话
Page Agent 是阿里开源的页面内 GUI Agent:不用 Python、无头浏览器或强制浏览器插件,前端接入 JavaScript 后,就能让用户用自然语言操作网页。
136 3
我解放啦,网页终于能自己干活了!阿里 2 万 Star 开源 Page Agent,20 次点击变一句话
|
7月前
|
小程序 JavaScript Android开发
独立开发者必收,移动端多端适配好烦?试试滴滴这套开源星河小程序框架,一键跑通 Android / iOS / 鸿蒙 / Web
滴滴开源的星河小程序框架Dimina,支持Android、iOS、鸿蒙及Web四端适配,一套代码一键打包多端运行。沿用小程序语法,开发门槛低,性能优化佳,适合独立开发者与企业级项目,助力跨平台应用高效落地。
462 0
|
5月前
|
边缘计算 Serverless 数据库
Next.js+Vercel+Turso:全栈开发者的终极免费套餐,让数据库查询快10倍、成本降90%!
Turso是基于libSQL(SQLite开源分支)的边缘分布式数据库,支持全球35+节点自动复制、嵌入式本地副本、多写入并发及向量搜索。兼容SQLite生态,查询延迟降至5ms,成本降低90%,免费版即够用。完美适配Next.js/Vercel等全栈场景。
615 1
|
6月前
|
人工智能 前端开发 开发者
这几个开源项目太火啦,抓紧收藏哟起来!!!
KnowNote:本地优先AI知识库桌面应用,无需Docker,私有化部署;Remotion:用React编程生成MP4视频的开源框架;Superpowers:为AI编程助手赋能的Agentic技能框架。三者均开源,各具创新特色!
500 11
|
6月前
|
人工智能 移动开发 小程序
开源啦,1天交付,报价翻5倍,接私活要电子签功能?我把"印章+证据链"封装成可二开底座
开源电子签底座Mini Contract.Pro,聚焦印章管理、落章稳定、证据链留存与多方签署闭环,支持司法级存证与轻量级协作双模式,可私有化部署,助力企业快速构建可控、可证、可换的电子合同系统。
277 4
|
6月前
|
人工智能 JSON 数据可视化
独立开发者必看,前端人想做低代码?先把这个 5k star 可视化拖拽编辑器 Demo 跑起来
小华同学带你玩转AI与高效工具!推荐开源项目「visual-drag-demo」,一个低代码可视化拖拽编辑器教学示例,涵盖拖拽、对齐、撤销重做、图层、导出等核心功能,助你快速掌握搭建器开发精髓。适合前端开发者、想入门低代码平台的你。项目结构清晰,学习成本低,支持自定义组件与交互扩展。立即免费订阅,加入10万+技术人行列,解锁更多实战秘籍!
355 6
|
11月前
|
移动开发 缓存 安全
我去,Gitee官方推荐的开源项目,这程序我是不能干了,这功能真是逆天了
ShopXO 是一款为商业落地而生的集成式电商系统,免费、开源、功能齐全,真正解决中小企业多端运营 + 可视化装修 + 模块扩展 + 安全性能等痛点。生态成熟、社区活跃,是值得收藏与二次开发的优秀项目。欢迎 Clone 或 Star 项目,一起见证中国开源电商力量!
504 0
|
11月前
|
JSON Kubernetes 安全
找到啦,我们已上车,Github 27000+ star,研发团队必备开源工具项目,真丝滑!!!
Trivy 是一款高效灵活的开源安全扫描工具,支持容器镜像、文件系统、Kubernetes 等多目标扫描,具备快速、易用、集成性强等特点,适用于 DevSecOps 全流程安全检测。
405 0
|
11月前
|
自然语言处理 数据可视化 C++
Github 68000+ star,一款提升论文写作效率的黑科技,挖掘大语言模型的学术潜能,为什么gpt_academic能成为你论文写作的秘密武器?
binary-husky/gpt_academic 是一款集成 GPT/GLM 类大模型的学术写作优化神器,学术界和科研领域都在快速拥抱大语言模型 (LLM),但真正能助力论文阅读、润色、写作的工具却少之又少。gpt_academic(GPT 学术优化)正是为此诞生:聚焦论文生产全流程,从阅读理解、翻译润色、结构优化,到理工项目剖析,提供一站式解决方案。
718 0

热门文章

最新文章