Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

2025-01-21 1808

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：支持零样本OCR识别，兼容PDF、DOCX、图片等多种格式文件。
技术：基于GPT-4o-mini模型，能够处理复杂布局文档，输出Markdown格式结果。
应用：提供API接口，便于集成到企业文档管理、学术研究等场景中。

正文（附运行示例）

Zerox 是什么

zerox

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，无需提前训练即可实现零样本识别。它支持PDF、DOCX、图片等多种格式文件，尤其擅长处理扫描版文档及复杂布局文件，如含表格、图表等。

Zerox 的工作流程是将文件转换为图像后进行OCR识别，最终输出Markdown格式文档，方便用户编辑和使用。此外，Zerox 提供API接口，便于开发者集成到应用中，实现自动化文档处理，广泛应用于企业文档管理、学术研究、法律金融以及教育等领域，极大提升文档信息提取的效率和准确性。

Zerox 的主要功能

零样本OCR识别：无需用户提供大量样本进行训练，直接对各种类型的文档进行高精度的文本提取，节省训练模型的时间和精力。
多格式文件支持：兼容PDF、DOCX、图片等多种常见格式的文件，对扫描版文档有很好的处理效果。
复杂布局处理：准确识别和处理包含表格、图表等复杂布局的文件，提取出完整的文档信息，为用户提供更全面、准确的文档内容。
Markdown格式输出：将识别结果转换为Markdown格式，方便用户进行后续的编辑和整理，能较好地保持文档的视觉和结构完整性。
API接口提供：具备API接口，方便开发者集成到自己的应用程序中，实现自动化、批量化的文档处理功能，提高工作效率，拓展工具的应用范围和灵活性。

Zerox 的技术原理

文件转换：将用户提交的PDF、DOCX等格式的文件转换为一系列图像。针对图像中的文字进行识别，将文件转换为图像格式是进行OCR识别的必要步骤，便于后续模型对文字内容进行准确提取。
GPT-4o-mini模型识别：基于GPT-4o-mini模型对转换后的图像进行OCR识别。模型基于深度学习技术，对图像中的文字进行分析和识别，理解复杂的布局和格式，准确提取出文字内容。
结果转换与汇总：将每个图像的OCR识别结果转换成Markdown格式，将所有页面的Markdown结果汇总在一起，形成一个完整的Markdown文档。这一过程涉及到格式的转换，且需要对识别结果进行整合和优化，确保输出的文档内容完整、结构清晰，方便用户进行后续的查看、编辑和使用。

如何运行 Zerox

Zerox 提供了 Node 和 Python 两种运行方式，以下是 Node 的示例代码：

1. 安装 Zerox

npm install zerox

2. 使用 Zerox 进行 OCR 识别

import {
    zerox } from "zerox";

const result = await zerox({
   
  filePath: "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf",
  openaiAPIKey: process.env.OPENAI_API_KEY,
});

3. 输出结果

{
   
  completionTime: 10038,
  fileName: 'invoice_36258',
  inputTokens: 25543,
  outputTokens: 210,
  pages: [
    {
   
      content: '# INVOICE # 36258\n' +
        '**Date:** Mar 06 2012  \n' +
        '**Ship Mode:** First Class  \n' +
        '**Balance Due:** $50.10  \n' +
        '## Bill To:\n' +
        'Aaron Bergman  \n' +
        '98103, Seattle,  \n' +
        'Washington, United States  \n' +
        '## Ship To:\n' +
        'Aaron Bergman  \n' +
        '98103, Seattle,  \n' +
        'Washington, United States  \n' +
        '\n' +
        '| Item                                       | Quantity | Rate   | Amount  |\n' +
        '|--------------------------------------------|----------|--------|---------|\n' +
        "| Global Push Button Manager's Chair, Indigo | 1        | $48.71 | $48.71  |\n" +
        '| Chairs, Furniture, FUR-CH-4421             |          |        |         |\n' +
        '\n' +
        '**Subtotal:** $48.71  \n' +
        '**Discount (20%):** $9.74  \n' +
        '**Shipping:** $11.13  \n' +
        '**Total:** $50.10  \n' +
        '---\n' +
        '**Notes:**  \n' +
        'Thanks for your business!  \n' +
        '**Terms:**  \n' +
        'Order ID : CA-2012-AB10015140-40974  ',
      page: 1,
      contentLength: 747,
      status: 'SUCCESS',
    }
  ],
  summary: {
   
    failedPages: 0,
    successfulPages: 1,
    totalPages: 1,
  },
}

资源

GitHub 仓库：https://github.com/getomni-ai/zerox
在线体验Demo：https://getomni.ai/ocr-demo