Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式

简介: Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持零样本OCR识别,兼容PDF、DOCX、图片等多种格式文件。
  2. 技术:基于GPT-4o-mini模型,能够处理复杂布局文档,输出Markdown格式结果。
  3. 应用:提供API接口,便于集成到企业文档管理、学术研究等场景中。

正文(附运行示例)

Zerox 是什么

zerox

Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练即可实现零样本识别。它支持PDF、DOCX、图片等多种格式文件,尤其擅长处理扫描版文档及复杂布局文件,如含表格、图表等。

Zerox 的工作流程是将文件转换为图像后进行OCR识别,最终输出Markdown格式文档,方便用户编辑和使用。此外,Zerox 提供API接口,便于开发者集成到应用中,实现自动化文档处理,广泛应用于企业文档管理、学术研究、法律金融以及教育等领域,极大提升文档信息提取的效率和准确性。

Zerox 的主要功能

  • 零样本OCR识别:无需用户提供大量样本进行训练,直接对各种类型的文档进行高精度的文本提取,节省训练模型的时间和精力。
  • 多格式文件支持:兼容PDF、DOCX、图片等多种常见格式的文件,对扫描版文档有很好的处理效果。
  • 复杂布局处理:准确识别和处理包含表格、图表等复杂布局的文件,提取出完整的文档信息,为用户提供更全面、准确的文档内容。
  • Markdown格式输出:将识别结果转换为Markdown格式,方便用户进行后续的编辑和整理,能较好地保持文档的视觉和结构完整性。
  • API接口提供:具备API接口,方便开发者集成到自己的应用程序中,实现自动化、批量化的文档处理功能,提高工作效率,拓展工具的应用范围和灵活性。

Zerox 的技术原理

  • 文件转换:将用户提交的PDF、DOCX等格式的文件转换为一系列图像。针对图像中的文字进行识别,将文件转换为图像格式是进行OCR识别的必要步骤,便于后续模型对文字内容进行准确提取。
  • GPT-4o-mini模型识别:基于GPT-4o-mini模型对转换后的图像进行OCR识别。模型基于深度学习技术,对图像中的文字进行分析和识别,理解复杂的布局和格式,准确提取出文字内容。
  • 结果转换与汇总:将每个图像的OCR识别结果转换成Markdown格式,将所有页面的Markdown结果汇总在一起,形成一个完整的Markdown文档。这一过程涉及到格式的转换,且需要对识别结果进行整合和优化,确保输出的文档内容完整、结构清晰,方便用户进行后续的查看、编辑和使用。

如何运行 Zerox

Zerox 提供了 Node 和 Python 两种运行方式,以下是 Node 的示例代码:

1. 安装 Zerox

npm install zerox

2. 使用 Zerox 进行 OCR 识别

import {
    zerox } from "zerox";

const result = await zerox({
   
  filePath: "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf",
  openaiAPIKey: process.env.OPENAI_API_KEY,
});

3. 输出结果

{
   
  completionTime: 10038,
  fileName: 'invoice_36258',
  inputTokens: 25543,
  outputTokens: 210,
  pages: [
    {
   
      content: '# INVOICE # 36258\n' +
        '**Date:** Mar 06 2012  \n' +
        '**Ship Mode:** First Class  \n' +
        '**Balance Due:** $50.10  \n' +
        '## Bill To:\n' +
        'Aaron Bergman  \n' +
        '98103, Seattle,  \n' +
        'Washington, United States  \n' +
        '## Ship To:\n' +
        'Aaron Bergman  \n' +
        '98103, Seattle,  \n' +
        'Washington, United States  \n' +
        '\n' +
        '| Item                                       | Quantity | Rate   | Amount  |\n' +
        '|--------------------------------------------|----------|--------|---------|\n' +
        "| Global Push Button Manager's Chair, Indigo | 1        | $48.71 | $48.71  |\n" +
        '| Chairs, Furniture, FUR-CH-4421             |          |        |         |\n' +
        '\n' +
        '**Subtotal:** $48.71  \n' +
        '**Discount (20%):** $9.74  \n' +
        '**Shipping:** $11.13  \n' +
        '**Total:** $50.10  \n' +
        '---\n' +
        '**Notes:**  \n' +
        'Thanks for your business!  \n' +
        '**Terms:**  \n' +
        'Order ID : CA-2012-AB10015140-40974  ',
      page: 1,
      contentLength: 747,
      status: 'SUCCESS',
    }
  ],
  summary: {
   
    failedPages: 0,
    successfulPages: 1,
    totalPages: 1,
  },
}

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
存储 消息中间件 人工智能
【05】AI辅助编程完整的安卓二次商业实战-消息页面媒体对象(Media Object)布局实战调整-按钮样式调整实践-优雅草伊凡
【05】AI辅助编程完整的安卓二次商业实战-消息页面媒体对象(Media Object)布局实战调整-按钮样式调整实践-优雅草伊凡
247 11
【05】AI辅助编程完整的安卓二次商业实战-消息页面媒体对象(Media Object)布局实战调整-按钮样式调整实践-优雅草伊凡
|
8月前
|
XML 存储 Java
【06】AI辅助编程完整的安卓二次商业实战-背景布局变更增加背景-二开发现页面跳转逻辑-替换剩余图标-优雅草卓伊凡
【06】AI辅助编程完整的安卓二次商业实战-背景布局变更增加背景-二开发现页面跳转逻辑-替换剩余图标-优雅草卓伊凡
198 3
【06】AI辅助编程完整的安卓二次商业实战-背景布局变更增加背景-二开发现页面跳转逻辑-替换剩余图标-优雅草卓伊凡
|
8月前
|
机器学习/深度学习 文字识别 Java
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
2024 0
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
2991 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
|
11月前
|
人工智能 文字识别 自然语言处理
熊猫 OCR 识别软件下载,支持截图 OCR、PDF 识别、多语言翻译的免费全能工具,熊猫OCR识别
本文介绍了几款实用的图文识别软件,包括熊猫OCR、Umi-OCR和天若OCR_本地版。熊猫OCR功能强大,支持多窗口操作、AI找图找色、OCR识别等;Umi-OCR免费且高效,具备截图OCR、批量处理等功能;天若OCR界面简洁,适合快速文字识别。文章还提供了下载链接及软件特点、界面展示等内容,便于用户根据需求选择合适的工具。
1267 36
|
10月前
|
存储 人工智能 前端开发
AI数字人口播直播模式系统开发布局逻辑
AI数字人口播直播系统结合先进AI技术,实现数字人自动化直播,适用于品牌推广与内容创作。系统涵盖形象设计、技术架构、直播流程优化及合规性布局,为新媒体提供高效、智能的直播解决方案。
|
11月前
|
存储 人工智能 文字识别
Nanonets-OCR-s开源!复杂文档转Markdown SoTA,颠覆复杂文档工作流
Nanonets团队开源了 Nanonets-OCR-s,该模型基于Qwen2.5-VL-3B微调,9G显存就能跑。
1082 2
|
12月前
|
人工智能 搜索推荐 算法
PDF 转 JPG 图片小工具:CodeBuddy 助力解决转换痛点
在 PDF 转 JPG 的实际应用中,用户普遍面临转换质量差、批量处理效率低、格式兼容性不足以及编程实现困难等痛点。而 CodeBuddy 凭借智能代码生成与优化、实时错误诊断修复、助力代码学习拓展,以及支持多场景适配与个性化定制等强大的 AI 编程能力,精准直击这些难题。使用 CodeBuddy 开发 Python PDF 转 JPG 小工具,能够有效提升转换效率与质量,降低开发门槛和成本,为用户带来高效、优质的文件格式转换体验。
456 16
|
12月前
|
人工智能 自然语言处理 安全
CodeBuddy 开发本地 PDF 转图工具
市场上的 PDF 转图片工具存在收费昂贵、功能有限、隐私安全风险等痛点,而使用 CodeBuddy 实现的本地 PDF 批量转图片工具可以有效解决这些问题。CodeBuddy 的强大编程能力让我们可以快速开发出满足需求的工具,而且工具可以在本地运行,保证了文件的隐私安全。此外,工具还支持批量处理和自定义功能,提高了工作效率。如果你也有 PDF 转图片的需求,不妨尝试使用 CodeBuddy 来实现一个属于自己的工具。
443 11
|
12月前
|
人工智能 算法 安全
使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具
通过 CodeBuddy 实现本地批量转换工具,让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程,真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把
766 10

热门文章

最新文章