OCRmypdf安装部署深入详解

简介: 1、OCRmypdf简介OCRmyPDF使用最好的可用开源OCR引擎Tesseract执行OCR。OCRmyPDF是一个Python 3包,将OCR图层处理结果添加到PDF。OCRmyPDF是功能最丰富且经过彻底测试的OCR PDF转换工具。2、OCRmypdf支持的系统1) macOS2) Ubuntu 16.04 LTS3)ArchLinux4)Windows此外,OCRmypdf提供了docker镜像,可以直接下载镜像、使用。

3、centos6.9 下 OCRmypdf源码安装

Centos版本:

[root@bc22c4e1 ~]# cat /etc/issue

CentOS release 6.9 (Final)


3.1 安装前提要求

1)Python > 3.5


[root@bc22c4e1 ~]# python -V

Python 3.5.0

1

2

2)pip > 0.9.1


[root@bc22c4e1 ~]# pip -V

pip 9.0.1 from /usr/local/python3/lib/python3.5/site-packages (python 3.5)

1

2

3) Python3导入sqlite3成功


4)基础配置


*CentOS/RHEL 6.x*

# yum install gcc python-devel python-setuptools

# easy_install pip

# pip install fabric

1

2

3

4

5)其他功能配置

pdftotext依赖如下:


yum install poppler-utils

1

3.2 具体安装步骤

步骤1:下载git源文件。

git clone -b master https://github.com/jbarlow83/OCRmyPDF.git


步骤2:设置环境


python3 -m venv  ./

1

步骤3:源码编译


source venv/bin/activate

1

步骤4:执行安装


cd OCRmyPDF

pip3 install .

1

2

4、OCRmyPDF安装中遇到的错误及解决方案

问题1:gs版本低。

错误如下:

Running setup.py install for ocrmypdf … error

Complete output from command /usr/local/bin/python -u -c “import setuptools, tokenize;file=’/tmp/pip-lio4mtqk-build/setup.py’;f=getattr(tokenize, ‘open’, open)(file);code=f.read().replace(‘\r\n’, ‘\n’);f.close();exec(compile(code, file, ‘exec’))” install –record /tmp/pip-qnapqha6-record/install-record.txt –single-version-externally-managed –compile:

Checking for tesseract >= 3.04…

Found tesseract 3.04.00

Checking for gs >= 9.15..


解决方案:

curl -O http://downloads.ghostscript.com/public/ghostscript-9.14.tar.gz &&

tar -xzf ghostscript-9.14.tar.gz &&

cd ghostscript-9.14 &&

./configure &&

make install &&

make so &&

cp ghostscript-9.14/sobin/libgs.so.9.14 /usr/lib &&

ln -s /usr/lib/libgs.so.9.14 /usr/lib/libgs.so &&

mkdir -p /etc/ld.so.conf.d/ &&

echo “/usr/lib/libgs.so” > /etc/ld.so.conf.d/libgs.conf &&

ldconfig &&

echo “Installing ghostscript finish” &&

gs

参考地址:https://unix.stackexchange.com/questions/79025/install-ghostscript-v-9-05-or-newer-on-centos


问题2:unpaper没有正确安装的错误提示。

解决方案:

步骤1:下载6.1版本unpaper


# cd /var/bin && wget https://www.flameeyes.eu/files/unpaper-6.1.tar.xz && tar -xvf unpaper-6.1.tar.xz

1

步骤2: 编译、安装、运行unpaper6.1


# cd unpaper-6.1 && ./configure && make && make install

1

参考地址:https://github.com/Flameeyes/unpaper/issues/44


问题3:qpdf没有安装错误提示。

解决方案:

qpdf编译、安装、运行。


./configure


make

make install

1

2

3

4

参考:https://github.com/qpdf/qpdf


问题4:

configure: error: Package requirements (libavformat libavcodec libavutil) were not met:

No package 'libavformat' found

No package 'libavcodec' found

No package 'libavutil' found

1

2

3

4

或者:


No package 'libavformat' found No package 'libavcodec' found No package 'libavutil' found

1

解决方案:

步骤1:安装依赖。


yum install libvorbis yasm freetype zlib bzip2 faac lame speex libvpx libogg libtheora x264 XviD openjpeg15 opencore-amr

1

步骤2:下载&安装

wget https://www.libav.org/releases/libav-10.5.tar.gz

tar xvf libav-10.5.tar.gz

cd libav-10.5

/configure –extra-cflags=-I/opt/local/include –extra-ldflags=-L/opt/local/lib –enable-gpl –enable-version3 –enable-libvpx

make

make install


参考:https://superuser.com/questions/850808/how-to-install-libav-tools-in-centos-6


问题5:”No package ‘libffi’ found” error during pip install

解决方案:

yum search ffi | grep python

yum install python-cffi

yum install libffi-devel

pip install –upgrade cffi


参考:https://github.com/Kozea/cairocffi/issues/14


5、安装成功标志。

ages (from reportlab>=3.3.0->ocrmypdf==5.2.post0+g3a7c341.d20170710)

Requirement already satisfied: pycparser in /home/centos001/lib/python3.5/site-packages (from cffi>=1.9.1->ocrmypdf==5.2.post0+g3a7c341.d20170710)

Installing collected packages: ocrmypdf

Running setup.py install for ocrmypdf ... done

Successfully installed ocrmypdf-5.2.post0+g3a7c341.d20170710

1

2

3

4

5

参考

python3、pip3安装参考 :http://www.jianshu.com/p/6199b5c26725

sqlite3安装参考:http://www.cnblogs.com/greentomlee/p/6561509.html


小结

事件出真知,有问题就努力一个个排查问题,直到全部解决。(耗时2天)

相关文章
|
Ubuntu Python 文字识别
OCRmypdf安装部署深入详解
OCRmyPDF使用最好的可用开源OCR引擎Tesseract执行OCR。 OCRmyPDF是一个Python 3包,将OCR图层处理结果添加到PDF。 OCRmyPDF是功能最丰富且经过彻底测试的OCR PDF转换工具。
3098 0
OCRmypdf安装部署深入详解
|
SQL 存储 消息中间件
大厂偏爱的Agent技术究竟是个啥
为了解释什么是Agent技术,我在网上搜了一圈,但没有找到想要的结果。反倒是搜到了不少Java Agent技术,要注意Java Agent技术指的是一种Java字节码修改技术,和本文要说的完全是两码事。 既然搜不到,我就说下自己的理解吧。Agent技术是在「客户端」机器上部署一个Agent进程,「客户端」与「服务端」的交互通过这个Agent进行代理,其中Agent与Client通常在同一主机,即可通过「localhost」进行访问。
1749 0
大厂偏爱的Agent技术究竟是个啥
|
11月前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
14649 86
|
Kubernetes 监控 开发者
Docker有什么优点
【10月更文挑战第18天】Docker有什么优点
|
10月前
|
人工智能 编解码 文字识别
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
1076 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
|
12月前
|
人工智能 算法 搜索推荐
AI宠物 适合当代年轻人吗
在当今社会,年轻人面临巨大工作压力和社交时长受限的挑战,AI宠物应运而生。它无需实际喂养,能24小时在线互动,提供情感支持,满足现代年轻人对陪伴的需求。相较于传统宠物,AI宠物无需专门空间和额外成本,却能通过算法学习主人习惯,给予贴心陪伴。未来,AI宠物有望在心理健康辅导等领域发挥更大作用,为人们带来多元的情感体验。
|
机器学习/深度学习 自然语言处理 PyTorch
Transformers入门指南:从零开始理解Transformer模型
【10月更文挑战第29天】作为一名机器学习爱好者,我深知在自然语言处理(NLP)领域,Transformer模型的重要性。自从2017年Google的研究团队提出Transformer以来,它迅速成为NLP领域的主流模型,广泛应用于机器翻译、文本生成、情感分析等多个任务。本文旨在为初学者提供一个全面的Transformers入门指南,介绍Transformer模型的基本概念、结构组成及其相对于传统RNN和CNN模型的优势。
11778 1
|
Web App开发 安全 网络安全
tplink虚拟服务器设置方法
为了更全面地理解云服务及其在企业应用中的角色,推荐访问,他们提供了一系列高性能、安全稳定的云服务器解决方案,包括但不限于香港云服务器、高防服务器等,特别适合寻求全球化业务扩展的企业。蓝易云不仅拥有全球化的基础设施布局,还提供针对各种行业定制的全栈云解决方案,助力企业实现云端部署,跨越传统界限,即刻启航云端之旅。
718 0
|
人工智能 物联网 异构计算
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
2048 1
|
网络协议 安全 网络安全
WireShark 中的数据包捕获和过滤器详解
【8月更文挑战第20天】
1681 0