python opencv+pytesseract 验证码识别

2022-05-30 244

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 人总要呆在一种什么东西里，沉溺其中，苟有所得，才能证明自己的存在，切实地活出自己的价值 ——汪曾祺

一、环境配置

需要 pillow 和 pytesseract 这两个依赖库，pip install安装上就好了。

pipinstallpillow-ihttp://pypi.douban.com/simple--trusted-hostpypi.douban.compipinstallpytesseract-ihttp://pypi.douban.com/simple--trusted-hostpypi.douban.com

安装好Tesseract-OCR.exe
pytesseract库的配置：搜索找到pytesseract.py，打开该.py文件，找到tesseract_cmd，改变它的值为刚才安装 tesseract.exe 的路径。

二、验证码识别

识别验证码，需要先对图像进行预处理，去除会影响识别准确度的线条或噪点，提高识别准确度。

实例1

# -*- coding: UTF-8 -*-"""@公众号      ： AI庭云君@Author     ： 叶庭云@CSDN       ： https://yetingyun.blog.csdn.net/"""importcv2ascvimportpytesseractfromPILimportImagedefrecognize_text(image):
# 边缘保留滤波  去噪dst=cv.pyrMeanShiftFiltering(image, sp=10, sr=150)
# 灰度图像gray=cv.cvtColor(dst, cv.COLOR_BGR2GRAY)
# 二值化ret, binary=cv.threshold(gray, 0, 255, cv.THRESH_BINARY_INV|cv.THRESH_OTSU)
# 形态学操作   腐蚀  膨胀erode=cv.erode(binary, None, iterations=2)
dilate=cv.dilate(erode, None, iterations=1)
cv.imshow('dilate', dilate)
# 逻辑运算  让背景为白色  字体为黑  便于识别cv.bitwise_not(dilate, dilate)
cv.imshow('binary-image', dilate)
# 识别test_message=Image.fromarray(dilate)
text=pytesseract.image_to_string(test_message)
print(f'识别结果：{text}')
src=cv.imread(r'./test/044.png')
cv.imshow('input image', src)
recognize_text(src)
cv.waitKey(0)
cv.destroyAllWindows()

运行效果如下：

识别结果：3n3DProcessfinishedwithexitcode0

实例2

"""@公众号      ： AI庭云君@Author     ： 叶庭云@CSDN       ： https://yetingyun.blog.csdn.net/"""importcv2ascvimportpytesseractfromPILimportImagedefrecognize_text(image):
# 边缘保留滤波  去噪blur=cv.pyrMeanShiftFiltering(image, sp=8, sr=60)
cv.imshow('dst', blur)
# 灰度图像gray=cv.cvtColor(blur, cv.COLOR_BGR2GRAY)
# 二值化ret, binary=cv.threshold(gray, 0, 255, cv.THRESH_BINARY_INV|cv.THRESH_OTSU)
print(f'二值化自适应阈值：{ret}')
cv.imshow('binary', binary)
# 形态学操作  获取结构元素  开操作kernel=cv.getStructuringElement(cv.MORPH_RECT, (3, 2))
bin1=cv.morphologyEx(binary, cv.MORPH_OPEN, kernel)
cv.imshow('bin1', bin1)
kernel=cv.getStructuringElement(cv.MORPH_OPEN, (2, 3))
bin2=cv.morphologyEx(bin1, cv.MORPH_OPEN, kernel)
cv.imshow('bin2', bin2)
# 逻辑运算  让背景为白色  字体为黑  便于识别cv.bitwise_not(bin2, bin2)
cv.imshow('binary-image', bin2)
# 识别test_message=Image.fromarray(bin2)
text=pytesseract.image_to_string(test_message)
print(f'识别结果：{text}')
src=cv.imread(r'./test/045.png')
cv.imshow('input image', src)
recognize_text(src)
cv.waitKey(0)
cv.destroyAllWindows()

运行效果如下：

二值化自适应阈值：181.0识别结果：8A62N1Processfinishedwithexitcode0

实例3

"""@公众号      ： AI庭云君@Author     ： 叶庭云@CSDN       ： https://yetingyun.blog.csdn.net/"""importcv2ascvimportpytesseractfromPILimportImagedefrecognize_text(image):
# 边缘保留滤波  去噪blur=cv.pyrMeanShiftFiltering(image, sp=8, sr=60)
cv.imshow('dst', blur)
# 灰度图像gray=cv.cvtColor(blur, cv.COLOR_BGR2GRAY)
# 二值化  设置阈值  自适应阈值的话 黄色的4会提取不出来ret, binary=cv.threshold(gray, 185, 255, cv.THRESH_BINARY_INV)
print(f'二值化设置的阈值：{ret}')
cv.imshow('binary', binary)
# 逻辑运算  让背景为白色  字体为黑  便于识别cv.bitwise_not(binary, binary)
cv.imshow('bg_image', binary)
# 识别test_message=Image.fromarray(binary)
text=pytesseract.image_to_string(test_message)
print(f'识别结果：{text}')
src=cv.imread(r'./test/045.jpg')
cv.imshow('input image', src)
recognize_text(src)
cv.waitKey(0)
cv.destroyAllWindows()

运行效果如下：

二值化设置的阈值：185.0识别结果：7364Processfinishedwithexitcode0

python opencv+pytesseract 验证码识别

一、环境配置

二、验证码识别

实例1

实例2

实例3

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

python opencv+pytesseract 验证码识别

一、环境配置

二、验证码识别

实例1

实例2

实例3

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像