【Python • 图片识别】pytesseract快速识别提取图片中的文字

简介: 【Python • 图片识别】pytesseract快速识别提取图片中的文字



前言

利用python做图片识别,识别提取图片中的文字会有很多方法,但是想要简单一点怎么办,那就可以使用tesseract识别引擎来实现,一行代码就可以做到提取图片文本。


一、配置环境

1. 安装python依赖

本程序用到了两个python库,pytesseract和PIL,所以先来安装。

运行以下命令

pip install Pillow
pip install pytesseract

如果在python中没有报错,说明程序安装成功,

2. 安装识别引擎

安装完以上两个依赖还需要对应的识别引擎。点击去下载

咱们直接使用5月10号构建的最新版本。

安装tesseract识别引擎(可跳过)

下载完成后打开程序进行安装,先选择语言,这里选择英语English就行,然后点ok

接下来就是next,完了点击I Agree同意协议,

为所有用户安装,然后点next,如图,

接下来安装中文的语言包用来识别中文,需要滑到下面,选择中文,我这里横排简体中文和竖排简体中文都选择了,完成后点击next,

选择安装路径,建议安装到C盘以外,然后点击next

这里点击安装install

等待安装完成

安装完成后,点击next,再点击finish完成安装,

验证是否安装成功

添加环境变量,就是你安装到的那个文件夹路径,直接加到path里面,

然后在命令行运行tesseract -v,如果和下图一样,说明你已经安装成功了,

二、使用步骤

1.引入库

from PIL import Image
import pytesseract

2.提取图片文字

将读取图片的一行代码封装为一个函数,

def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))

main函数中直接调用即可,

def main():
    read_image('1657158527412.jpg')

3.运行效果

以以下图片为例,

运行效果如下,


总结

本文介绍了tesseract的python调用,也就是pytesseract库,其中还有一些其他的内容并没有涉及,仅涉及到了图片提取文字,如果你对其感兴趣,可以深入探索一下,也希望能和我探讨一下。

完整代码

from PIL import Image
import pytesseract
def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))
def main():
    read_image('img.png')
if __name__ == '__main__':
    main()


目录
相关文章
|
1月前
|
Python
Python实用记录(六):如何打开txt文档并删除指定绝对路径下图片
这篇文章介绍了如何使用Python打开txt文档,删除文档中指定路径的图片,并提供了一段示例代码来展示这一过程。
30 1
|
1月前
|
计算机视觉 Python
Python实用记录(一):如何将不同类型视频按关键帧提取并保存图片,实现图片裁剪功能
这篇文章介绍了如何使用Python和OpenCV库从不同格式的视频文件中按关键帧提取图片,并展示了图片裁剪的方法。
77 0
|
1月前
|
Python
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
使用Python的socket库实现客户端到服务器端的图片传输,包括客户端和服务器端的代码实现,以及传输结果的展示。
140 3
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
|
1月前
|
Python
Python实用记录(四):os模块-去后缀或者改后缀/指定目录下图片或者子目录图片写入txt/csv
本文介绍了如何使用Python的os模块来操作文件,包括更改文件后缀、分割文件路径和后缀、将指定目录下的所有图片写入txt文档,以及将指定目录下所有子目录中的图片写入csv文档,并为每个子目录分配一个标签。
20 1
|
21天前
|
文字识别 自然语言处理 API
Python中的文字识别利器:pytesseract库
`pytesseract` 是一个基于 Google Tesseract-OCR 引擎的 Python 库,能够从图像中提取文字,支持多种语言,易于使用且兼容性强。本文介绍了 `pytesseract` 的安装、基本功能、高级特性和实际应用场景,帮助读者快速掌握 OCR 技术。
37 0
|
1月前
|
编解码 UED Python
Python批量修改指定目录下图片的大小名文章
Python批量修改指定目录下图片的大小名文章
16 1
|
1月前
|
机器学习/深度学习 Python
基于python-django的肺结核图片识别系统
基于python-django的肺结核图片识别系统
16 0
|
1月前
|
Python
Python实现图片的拼接
Python实现图片的拼接
|
6月前
|
数据安全/隐私保护 Python
Python3给图片添加水印
Python3给图片添加水印
99 1
|
数据采集 分布式计算 搜索推荐
使用Python实现网页中图片的批量下载和水印添加保存
使用Python实现网页中图片的批量下载和水印添加保存
下一篇
无影云桌面