用python中的pytesseract实现文字识别的教程

本文涉及的产品
通用文字识别,通用文字识别 200次/月
文档理解,结构化解析 100页
企业资质识别,企业资质识别 200次/月
简介: 用python中的pytesseract实现文字识别的教程

前言

本文章简单介绍如何用python中的pytesseract工具调用Tesseract库实现文字识别。本篇文章是搜集网络资料再结合本人的观点和思考编撰而成,在此十分感谢作者提供的帮助!

代码前准备

调用模块

首先,win+R在弹出的窗口中输入cmd(如图 1.1)

(tips:在此建议大家用“管理员”身份运行cmd)

输入后会弹出一个对话框,在对话框内先后输入以下两行代码

pip install pytesseract
pip install pillow


下载并安装Tesseract

介绍

Tesseract 是一个OCR 库,你可以用pytesseract这个OCR工具来调用它

下载安装

我们可以到这个网站 https://digi.bib.uni-mannheim.de/tesseract/中选择适合你电脑电脑系统以及Tesseract的版本(一般来说数字越大,版本越高)

选择合适的版本下载下来(图1.2)(注意这个w64和w32)

直接点击这个已经下好的安装包开始安装,点击Next>(图1.3)

再点击I Agree(图1.4)

这一步可以默认操作点击Next>(图1.5)


之后就是配置语言操作

Additional language data  (download)..........这是语言包下载(注意:因为Tesseract它本身并未有这个中文简体或繁体的识别语言包,所以这需要手动下载。除此还可以选择其它国家的语言包,来相对应识别文字的语言)(图1.6 和图1.7)

点击Next>点击后默认安装路径(注意:最好是默认安装路径!

原因是等会安装之后运行代码会报错报错的原因可能是“系统找不到指定文件”,这类的问题文章后面会说明如何解决

环境配置

(我说你做)首先在系统环境变量中的path复制这个安装后的文件(图1.8-图1.9)

代码实现

import os
import pytesseract
# 文字图片的路径
path = 'text_img/'
# 获取图片路径列表
imgs = [path + i for i in os.listdir(path)]
# 打开文件
f = open('text.txt', 'w+', encoding='utf-8')
# 将各个图片的路径写入text.txt文件当中
for img in imgs:
    f.write(img + '\n')
# 关闭文件
f.close()
# 文字识别
string = pytesseract.image_to_string('text.txt', lang='chi_sim')
print(string)

或者是这种

import os
import pytesseract
# 文字图片的路径
path = 'text_img/'
# 获取图片路径列表
imgs = [path + i for i in os.listdir(path)]
# 打开文件
f = open('text.txt', 'w+', encoding='utf-8')
# 将各个图片的路径写入text.txt文件当中
for img in imgs:
    f.write(img + '\n')
# 关闭文件
f.close()
# 文字识别
string = pytesseract.image_to_string('text.txt', lang='chi_sim')
print(string)

注意下!图片存放的位置要注意是在同级还是在非同级

如代码一它这个是图片与程序非同级,代码二则是同级的!!!(图1.10代码一;图1.11代码二)

算便说一下代码一中的“text”是储存识别图片的名字数据(注意图片的名字不含中文、字符等等)

常见问题解答

一、FileNotFoundError:[WinError 2]系统找不到指定文件。

前面提过了吧!若是要保留这样你可以这么做试试(python-文字识别-tesseract - 知乎 (zhihu.com))#这是别人的作者提供的方案。十分感谢他。

二、(错误如下)

没错这是图片的名称含有这个特殊字符、中文等(总之是名称不规范)改一下试试。文章的“代码实现”还提供了两个方式若实在不行换另一个试试。


好了该篇文章结束了,也希望这也能帮助到你,愿你的python编程实力不断增强!

(若文章有一些问题请及时联系作者以便即使改正,谢谢!)

目录
打赏
0
0
0
0
5
分享
相关文章
Python 中调用 DeepSeek-R1 API的方法介绍,图文教程
本教程详细介绍了如何使用 Python 调用 DeepSeek 的 R1 大模型 API,适合编程新手。首先登录 DeepSeek 控制台获取 API Key,安装 Python 和 requests 库后,编写基础调用代码并运行。文末包含常见问题解答和更简单的可视化调用方法,建议收藏备用。 原文链接:[如何使用 Python 调用 DeepSeek-R1 API?](https://apifox.com/apiskills/how-to-call-the-deepseek-r1-api-using-python/)
Python语法糖详解教程
《Python语法糖详解教程》介绍了编程语言中的“语法糖”,即通过特殊语法形式简化代码,使代码更简洁、易读和高效。文章详细解析了列表推导式、字典推导式、元组解包、条件表达式、with语句和装饰器等核心语法糖,并提供了具体示例和最佳实践指南。通过这些技巧,开发者可以在保持底层功能不变的前提下,显著提升开发效率和代码质量。
22 8
【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!
PyCharm是由JetBrains开发的Python集成开发环境(IDE),专为Python开发者设计,支持Web开发、调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试和版本控制等功能。它有专业版、教育版和社区版三个版本,其中社区版免费且适合个人和小型团队使用,包含基本的Python开发功能。安装PyCharm前需先安装Python解释器,并配置环境变量。通过简单的步骤即可在PyCharm中创建并运行Python项目,如输出“Hello World”。
305 13
【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!
Python学习:内建属性、内建函数的教程
本文介绍了Python中的内建属性和内建函数。内建属性包括`__init__`、`__new__`、`__class__`等,通过`dir()`函数可以查看类的所有内建属性。内建函数如`range`、`map`、`filter`、`reduce`和`sorted`等,分别用于生成序列、映射操作、过滤操作、累积计算和排序。其中,`reduce`在Python 3中需从`functools`模块导入。示例代码展示了这些特性和函数的具体用法及注意事项。
Seaborn 教程-绘图函数
Seaborn 教程-绘图函数
100 8
|
3月前
Seaborn 教程-主题(Theme)
Seaborn 教程-主题(Theme)
163 7
|
3月前
|
Seaborn 教程-模板(Context)
Seaborn 教程-模板(Context)
59 4
Seaborn 教程
Seaborn 教程
67 5
|
4月前
|
SciPy 教程 之 Scipy 显著性检验 9
SciPy 教程之 Scipy 显著性检验第9部分,介绍了显著性检验的基本概念、作用及原理,通过样本信息判断假设是否成立。着重讲解了使用scipy.stats模块进行显著性检验的方法,包括正态性检验中的偏度和峰度计算,以及如何利用normaltest()函数评估数据是否符合正态分布。示例代码展示了如何计算一组随机数的偏度和峰度。
48 1
|
4月前
|
SciPy 教程 之 Scipy 显著性检验 8
本教程介绍SciPy中显著性检验的应用,包括如何利用scipy.stats模块进行显著性检验,以判断样本与总体假设间的差异是否显著。通过示例代码展示了如何使用describe()函数获取数组的统计描述信息,如观测次数、最小最大值、均值、方差等。
51 1

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等