Python3,自动识别图片文字,这个库,我爱了。

简介: Python3,自动识别图片文字,这个库,我爱了。

1、引言


小鱼:小屌丝,你在干啥呢?

小屌丝:我女神给我的任务啊,把图片上的文字都给写下来。

小鱼:这图片上的文字,可不少啊,你都是手敲的??

小屌丝:可不,不然还有啥法子?


小鱼:我敬佩你是一条汉子。

小屌丝:鱼哥,难道你有什么好的法子?

小鱼:嗯,突然想到的, OCR 。

小屌丝:那你还不赶紧救救我,

小鱼:唉~ ~ 好吧…


图像识别,这里就要提到OCR了,

但是提到OCR,又不得不提到的两个库:


cnocr :识别图片的汉字;

Pytesseract:识别图片的英文

分别对图片的文字的中文和英文进行识别的。

话不多说,我们直接代码示例演示。


2、Cnocr


2.1 安装

老规矩,直接pip 安装


pip install cnocr

其它安装方式,直接看这两篇:


《Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!》

《Python3:我低调的只用一行代码,就导入Python所有库!》


提示一下,

cnocr下的torch 有161.8MB,

所以下载的话,最好在网速快或者国内镜像网站进行下载,否则就会下载失败。


image.png

2.2 代码示例

代码示例


# -*- coding:utf-8 -*-
# @Time   : 2022-10-16
# @Author : Carl_DJ
'''
实现功能:
  识别图片中的汉字
'''
from cnocr import CnOcr
#图片名称
file_name = './data/cn_name.png'
ocr = CnOcr()
result = ocr.ocr(file_name)
print(f"Predicted Chars:{result}")

3、Pytesseract


3.1 安装

1、pytesseract,

老规矩,直接pip 安装


pip install pytesseract

2、Tesseract

Windows版本,需要手动安装,下载地址如下:


Tesseract-OCR:https://github.com/tesseract-ocr/tesseract/wiki

下载完成后,手动添加路径到到环境变量(path)里面即可。


3.1 代码示例


代码示例


# -*- coding:utf-8 -*-
# @Time   : 2022-10-16
# @Author : Carl_DJ
'''
实现功能:
  识别图片中的英文
'''
import pytesseract
from PIL import Image
#图片名称
file_name = './data/en_name.png'
#打开图片
image = Image.open(file_name)
result = pytesseract.image_to_string(image, lang='eng')
print(f'识别结果:{result}')

4、总结


看到这里,今天的分享就到这里了。

关于识别图片中的文字,这里例举了OCR中的 cnocr 与pytesseract,

其实代码很简单,只是安装过程中需要一点点的耐心。


目录
相关文章
|
3天前
|
XML 前端开发 数据格式
BeautifulSoup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据
BeautifulSoup 是 Python 的一个库,用于解析 HTML 和 XML 文件,即使在格式不规范的情况下也能有效工作。通过创建 BeautifulSoup 对象并使用方法如 find_all 和 get,可以方便地提取和查找文档中的信息。以下是一段示例代码,展示如何安装库、解析 HTML 数据以及打印段落、链接和特定类名的元素。BeautifulSoup 还支持更复杂的查询和文档修改功能。
11 1
|
21小时前
|
机器学习/深度学习 数据挖掘 PyTorch
10个非常有用的Python库,你知道几个?
这些库覆盖了数据科学、机器学习、Web开发和其他领域,使Python成为一个多用途的编程语言。它们在各种项目和领域中都非常有用。
15 2
|
1天前
|
SQL 关系型数据库 数据库连接
使用 Python 访问数据库的基本方法
【5月更文挑战第12天】在Python中操作数据库涉及安装数据库驱动(如mysql-connector-python, psycopg2, pymongo)、连接数据库、执行查询/更新、处理结果集及关闭连接。使用ORM(如SQLAlchemy)可简化操作。通过上下文管理器(with语句)能更好地管理资源和错误。注意根据实际需求处理事务、错误和安全性,例如使用SSL连接。
11 2
|
2天前
|
计算机视觉 Python
【Python实战】——Python+Opencv是实现车牌自动识别
【Python实战】——Python+Opencv是实现车牌自动识别
|
2天前
|
JSON 监控 调度
局域网管理软件的自动化任务调度:Python 中的 APScheduler 库的应用
使用 Python 的 APScheduler 库可简化局域网管理中的自动化任务调度。APScheduler 是一个轻量级定时任务调度库,支持多种触发方式如间隔、时间、日期和 Cron 表达式。示例代码展示了如何创建每 10 秒执行一次的定时任务。在局域网管理场景中,可以利用 APScheduler 定期监控设备状态,当设备离线时自动提交数据到网站,提升管理效率。
14 0
|
2天前
|
数据采集 数据可视化 数据挖掘
如何利用Python中的Pandas库进行数据分析和可视化
Python的Pandas库是一种功能强大的工具,可以用于数据分析和处理。本文将介绍如何使用Pandas库进行数据分析和可视化,包括数据导入、清洗、转换以及基本的统计分析和图表绘制。通过学习本文,读者将能够掌握利用Python中的Pandas库进行高效数据处理和可视化的技能。
|
4天前
|
机器学习/深度学习 自然语言处理 算法
Gensim详细介绍和使用:一个Python文本建模库
Gensim详细介绍和使用:一个Python文本建模库
15 1
|
4天前
|
JSON 数据格式 Python
Python 的 requests 库是一个强大的 HTTP 客户端库,用于发送各种类型的 HTTP 请求
`requests` 库是 Python 中用于HTTP请求的强大工具。要开始使用,需通过 `pip install requests` 进行安装。发送GET请求可使用 `requests.get(url)`,而POST请求则需结合 `json.dumps(data)` 以JSON格式发送数据。PUT和DELETE请求类似,分别调用 `requests.put()` 和 `requests.delete()`。
14 2
|
5天前
|
JSON 数据格式 索引
python之JMESPath:JSON 查询语法库示例详解
python之JMESPath:JSON 查询语法库示例详解
14 0
|
6天前
|
机器学习/深度学习 TensorFlow 算法框架/工具