OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能强大:OCRmyPDF 支持生成可搜索的 PDF/A 文件,保持原始图像分辨率,同时优化图像质量。
  2. 多语言支持:支持超过 100 种语言,确保不同语言的文档都能准确识别。
  3. 高效处理:利用多核处理和批量处理功能,快速处理大量文件。

OCRmyPDF 是什么

OCRmyPDF

OCRmyPDF 是一款开源的命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。通过添加 OCR 文本层,OCRmyPDF 能够将无法直接编辑的扫描 PDF 文件变为可以搜索和编辑的格式。该工具基于 Tesseract OCR 引擎实现高效的文字识别,并支持多种语言和图像优化功能。

OCRmyPDF 还具备自动纠偏、清洁图像、旋转页面等功能,确保识别结果的准确性。它能够充分利用系统资源,通过多核处理和批量处理,快速处理大量文件,适用于各种场景下的文档管理和数字化需求。

OCRmyPDF 的主要功能

  • 生成可搜索的 PDF/A 文件:从普通 PDF 文件生成可搜索的 PDF/A 文件,同时保持原始嵌入图像的分辨率。
  • 多语言支持:支持超过 100 种语言,用户可以根据文档的语言选择合适的语言包,提高 OCR 的准确率。
  • 图像优化:OCRmyPDF 可以优化 PDF 中的图像,包括调整分辨率、压缩图像大小等,生成更小的文件,保持图像质量。
  • 纠偏和清洁:在执行 OCR 之前,OCRmyPDF 可以对图像进行纠偏(纠正倾斜)和清洁(去除污点、噪点等),提高 OCR 的准确率。
  • 旋转页面:自动检测页面的方向并旋转页面,确保所有页面的方向一致,便于阅读和处理。
  • 多核处理:默认利用所有可用的 CPU 核心进行处理,提高了处理速度,适合处理大型文件或批量任务。
  • 批量处理:可以结合 GNU 并行工具或其他脚本,批量处理多个 PDF 文件,提高工作效率。
  • 数据安全性:OCRmyPDF 完全离线运行,数据存在用户的本地设备,确保数据安全和隐私。
  • 灵活的命令行选项:提供丰富的命令行选项,用户可以根据需求调整 OCR 的行为,例如跳过已包含文本的页面、设置图像质量等。

OCRmyPDF 的技术原理

  • 预处理:在正式进行 OCR 识别之前,OCRmyPDF 会对输入的 PDF 文件进行预处理。包括对图像进行去噪、锐化、纠偏等操作,提高后续字符识别的准确性。
  • 图像提取与分割:OCRmyPDF 使用 Poppler 库将 PDF 文件中的页面转换为图像。然后,程序会将图像中的文字区域分割出来,分别对待每一个可能包含字符的部分。
  • OCR 识别:OCRmyPDF 基于 Tesseract OCR 引擎进行字符识别。Tesseract 会提取字符图像的关键特征,如形状、边缘等信息,将这些特征与数据库中存储的标准字符模板进行比对,确定每个字符的具体内容。

如何运行 OCRmyPDF

1. 安装 OCRmyPDF

OCRmyPDF 支持多种操作系统,安装方法如下:

操作系统 安装命令
Debian, Ubuntu apt install ocrmypdf
Windows Subsystem for Linux apt install ocrmypdf
Fedora dnf install ocrmypdf
macOS (Homebrew) brew install ocrmypdf
macOS (MacPorts) port install ocrmypdf
macOS (nix) nix-env -i ocrmypdf
FreeBSD pkg install py-ocrmypdf
Ubuntu Snap snap install ocrmypdf

2. 使用 OCRmyPDF

以下是一些常用的命令示例:

# 添加 OCR 层并转换为 PDF/A
ocrmypdf input.pdf output.pdf

# 将图像转换为单页 PDF
ocrmypdf input.jpg output.pdf

# 在原文件基础上添加 OCR(仅在成功时修改文件)
ocrmypdf myfile.pdf myfile.pdf

# 使用非英语语言进行 OCR(查找 ISO 639-3 代码)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# 处理多语言文档
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# 纠正倾斜的页面
ocrmypdf --deskew input.pdf output.pdf
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
16
17
1
401
分享
相关文章
|
11天前
|
C#
【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件,PDF自动提取内容命名的方案和详细步骤
本工具可批量提取PDF中的合同编号、日期、发票号等关键信息,支持PDF自定义区域提取并自动重命名文件,适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现,提供完整代码示例与百度、腾讯网盘下载链接,助力高效处理PDF文档。
116 40
如何将 Swagger 文档导出为 PDF 文件
你会发现自己可能需要将 Swagger 文档导出为 PDF 或文件,以便于共享和存档。在这篇博文中,我们将指导你完成将 Swagger 文档导出为 PDF 格式的过程。
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具
通过 CodeBuddy 实现本地批量转换工具,让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程,真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把
109 10
Python爬虫结合API接口批量获取PDF文件
Python爬虫结合API接口批量获取PDF文件
1.6K star!这个开源文本提取神器,5分钟搞定PDF/图片/Office文档!
Kreuzberg 是一个基于 Python 的文本提取库,支持从 PDF、图像、Office 文档等 20+ 格式中提取文本内容。采用 MIT 开源协议,具备本地处理、异步架构、智能 OCR 等特性,特别适合需要隐私保护的文档处理场景。
228 1
DeepSeek + Xmind,1分钟自动把pdf/word文档转成思维导图
DeepSeek与Xmind结合,1分钟将PDF、Word文档转换为思维导图。只需四步:上传文档至DeepSeek,请求转换为Markdown格式,保存文件并修改后缀为.md,最后导入Xmind生成思维导图。轻松驾驭复杂文档,适用于学习笔记、工作报告、项目规划等场景,大幅提升效率!
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
PDF-Guru 是一款开箱即用的全能型PDF处理工具,支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计,提供简洁的Web界面和API接口,开发者可快速集成到现有系统中。
270 1
【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名
学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。 链接: - 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)
527 5
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
548 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问