Tesseract OCR与文本智能识别

本文涉及的产品
文档理解,结构化解析 100页
小语种识别,小语种识别 200次/月
通用文字识别,通用文字识别 200次/月
简介: Tesseract OCR与文本智能识别

Tesseract OCR的安装与配置


Tesseract OCR可以跨平台应用于Windows,Linux,macOS等不同操作系统。博主用的是windows10操作系统。


Tesseract OCR的官网:Tesseract OCR下载。


下载后的Tesseract OCR安装后,需要配置环境,具体的配置方法就和我们平时配置c++环境相似。复制好Tesseract OCR文件所在路径,添加到环境变量中就可以了。这里博主推荐一篇文章:http://t.csdn.cn/A5Hc7


配置好环境后,打开cmd控制台,输入命令“tesseract -v”,如果出现版本标识,则为配置成功。


Tesseract OCR是可以单独的使用取识别图片的,例如,在命令行中输入以下的命令:


tesserct test.jpg test.text -1 chi_sim


其中,test.jpg是包含字符的图片,test.text是输出结果文件。-1为语言包选项,默认为英语,chi_sim为中文识别包。


博主这里要介绍的是如何使用python来进行文本识别,在此之前,我们需要先下载Pytesseract库。


pip install pytesseract -i Simple Index


基于Pytesseract的字符识别


利用Pytesseract进行字符的识别,主要通过调用image_to_string()函数来实现。以下的代码可以进行简单的字符识别。


import pytesseract
from PIL import Image
image=Image.open('D:\Image\\test.png')
result=pytesseract.image_to_string(image)
print(result)


155be5762a64093120446a3eb15efe4d_1765479f66254d4cb680d912368878fb.png


Output exceeds the size limit. Open the full output data in a text editor


11:03 352 Big “28110004, < fifiififii 1. They who cannot do as they would,must do as th ey can. $§E§DEfifiiiE3fi§73fifi7flo 2. When an opportunity is neglected,it never comes back to you. ?I‘J'L7FEJ9iE‘J‘7Ffifié; ?HLfi—iiiféfifi 3 What may be done at any time will be done at no time. EiEiTEJ‘iIEfiB—JME’JEEHEIE'EEEflBfl‘iIfiWF iflflg$ 1m 4. Tomorrow comes never. tflfifififififiio 5 ?til]flfl9€¥,ifl7i<§ EEEO We can be disappoin ted, but not blind. 6. He that thinks his business below him will alway s be above his business Eh“ p,fl<7_i'/J\Ffi EEEEF}? iEEo 7. One today is worth two tomorrows. —’IV7‘\3EH$


...

< E Q [E]


通过上面的运行结果和原图片的对比可以发现,对于英文的识别是可以比较准确地识别,而出现的乱码则是由于其中有中文,只需要转换一下即可。


result=pytesseract.image_to_string("D:/Image//test.jpg",lang='chi_sim')

对于颜色较深或者文本文字含有多种不同语言的图片,识别起来会出现乱码的情况,识别的精度也会降低。


条形码检测与识别


条形码(Barcode)也称条码,是将宽度不等的多个黑条和白条,按照一定的编码规则排列,用来表达一组星系的图形标识符。常见的条形码是由反射率想相差较大的黑条(简称条)和白条(简称空)排成的平行图案。 条形码可以标注处武平的生产国,制造产家,商品名称,生产日期,图书分类号等重要的信息。因而在商品流通中起到了广泛的应用,不仅仅在此领域有很大的发展,在其他领域也有很大的发展。


条形码一般有8个区域,:左侧空白区,起始符,左侧数据符,中间分隔符,右侧数据符,效验符,,终止符,右侧空白区。


391db65de23dbfd95ac9381b9ed09421_9a500fcf0d4245e6acf3e78e11e716db.jpeg


条形码有多种,在我国广泛的使用的是EAN13条形码(以下简称条形码)。该条形码一共有13位,前2~3位称为前缀,表示国家,地区或者某种特定的商品类型,例如,中国区条形码开头位690~699;前缀后的4~5位称为厂商代码,表示产品制造商;厂商代码后5位称为商品代码,表示具体的商品项目;最后一位是效验码,根据前12位计算而得,可以用来防伪或者识别效验。 如果按照一定步骤处识别出的前12位数据计算结果和识别出的效验码进行比对,如果结果相等,则正确,若不相等,则需重新识别,纠错再效验。


效验码的计算方法:


1.偶位数数值相加并称以3.


2不含效验位的奇位数数值相加。


3.前两步结果相加。


4用10减去上面相加结果的个位数。


5.最终结果即为效验码。


029487c3e9ec84f141539b55310a1850_c172762cf17149d5ba20f5266aeee8dd.png


以下示例代码可用于检测一幅图像中是否有条形码:


import numpy as np
import argparse #解析命令行参数
import cv2
import imutils #opencv辅助工具包
'''
ap=argparse.ArgumentParser()
ap.add_argument('-i','--Testimage.jpg',required=True,help='path to the image file')
args=vars(ap.parse_args())
'''
#灰度化处理
image=cv2.imread('D:\Image\Testimage.jpg')
gray=cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
#用sobel算子计算x,y方向上的梯度
ddepth=cv2.cv.CV_32F if imutils.is_cv2() else cv2.CV_32F
gradx=cv2.Sobel(gray,ddepth=ddepth,dx=1,dy=0,ksize=-1) #sobel算子横向边缘检测
grady=cv2.Sobel(gray,ddepth=ddepth,dx=0,dy=1,ksize=-1) #sobel算子纵向边缘检测
'''
从x-grdient中减去y-gradient的减法操作,
最终得到包含高水平和低垂直梯度的图像区域
'''
gradient=cv2.subtract(gradx,grady)
gradient=cv2.convertScaleAbs(gradient)
'''
利用9*9的内核对梯度图进行平均模糊处理
利用opencv中的threshold(src,threah,maxral,cv2.THRESH_BINARY)进行二值化处理。
第一个参数是图像,第二个参数是阈值,第三个是最大值,第四个是方法选择,默认为0,即cv2.THRESH_BINARY
'''
blurred=cv2.blur(gradient,(9,9))
(_,thresh)=cv2.threshold(blurred,225,255,cv2.THRESH_BINARY)
#消除间隙
kernel=cv2.getStructuringElement(cv2.MORPH_RECT,(21,7))
closed=cv2.morphologyEx(thresh,cv2.MORPH_CLOSE,kernel)
'''
进行4次腐蚀,然后进行4次膨胀
'''
closed=cv2.erode(closed,None,iterations=4)
closed=cv2.dilate(closed,None,iterations=4)
#找到图像中条形码的区域
cnts=cv2.findContours(closed.copy(),cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE)
cnts=cnts[0] if imutils.is_cv2() else cnts[1]
c=sorted(cnts,key=cv2.contourArea,reverse=True)[0]
#为最大轮廓确定最小边框
rect=cv2.minAreaRect(c)
box=cv2.cv.BoxPoints(rect) if imutils.is_cv2() else cv2.boxPoints(rect)
box=np.int0(box)
#显示检测到的条形码
cv2.drawContours(image,[box],-1,(0,255,0),3)
cv2.imshow('Barcode Detection',image)
cv2.waitKey(0)


对于检测出的条形码就可以进行字符识别:


from PIL import Image
import pytesseract
import cv2
threshold=140 #采用阈值分割法进行二值化,threshold为分割点
table=[]
for i in range(256):
    if i<threshold:
        table.append(0)
    else:
        table.append(1)
rap={'O':'0','I':'1','L':'1',
     'Z':'2','S':'8'};
def GetBarcode(name):
    im=Image.open(name)
    #im=cv2.imread(name)
    imgry=im.convert('L')#转换为灰度图像
   #imgry.save(name+'g') #保存图像
    out=imgry.point(table,'1') #图像二值化处理
    #out.save(name+'b')
    text=pytesseract.image_to_string(out)
#识别纠错处理
    text=text.strip()
    text=text.upper()
    for r in rap:
        text=text.replace(r,rap[r])
    return text
barcode=GetBarcode('D:\Image\\test.png')
print(barcode)


结果:5 012345 67890


6ac13845857ce381006f2cae74077643_6e089b34eb0c4225abf65b3752672706.png


基于百度AI的智能图像识别


百度AI开放平台是一个面型第三方开发者的交互技术平台,该频台提供包括语音合成,文字识别,图像识别,身份验证那等诸多语言AI编程接口以及相应的说明文档。


这里,博主建议大家先注册账号百度AI开放平台-全球领先的人工智能服务平台 ,然后找到开放能力中你想要的功能,然后创建应用,获取个人唯一APIKey,Secret Key。


c3b993491c41c4b8fde25497ec0b08ba_f15f35d515b14affa4e1c622760f479d.png


65612c5f62e7c431fb8ab23d2a4fd758_1b0a599fc8934b8fbca0bf3903919bf3.png


然后你就可以得到一个SDK文件。然后在setup.py文件的目录下执行“python setup.py install”命令即可。 也可以直接使用pip install baiidu-aip.


通用物体识别


通用物体识别要用到AipImageClassify,它是基于baiduAI图像识别引擎的API。利用该方法的代码如下:


这里需要用到自己获取的API_KEY,博主的代码不可以直接使用,需要你们自己去注册。


from aip import AipImageClassify  #导入通用物体识别引擎
APP_ID='30428562'
API_KEY='TNRLIT4ICRYFOcV0kewltQP7'
SECRET_KEY='HjPMiCW9tpAuNdVeA2KP2KuXdyg3zKiy'
client=AipImageClassify(APP_ID,API_KEY,SECRET_KEY) #构建识别与引擎对象
#读入图像
def get_file_content(filePath):
    with open(filePath,'rb') as fp:
        return fp.read()
image=get_file_content('D:\Image\insert.jpg')
ret=client.advancedGeneral(image) #调用通用物体识别接口并返回结果
print(ret)


初次使用,可能会报错,这是由于你的API访问次数受限,用的是百度的,需要充会员,所以你懂的。


车牌识别


车牌识别与前面的通用物体识别流程基本相似,稍有不同的是,用AipOcr代替AipImageClassify对象。而车牌识别主要是对一个图像中的字符进行识别。


示例代码如下:


#车牌识别
from aip import AipOcr
import cv2 as cv
import numpy as np
APP_ID='30429525'
API_KEY='gk5YyWAxggZGPmFtqGLQraeF'
SECRET_KEY='I0yINQbTicjmAWZDfA8mlFWbvGKMx5EX'
client=AipOcr(APP_ID,API_KEY,SECRET_KEY)
def get_file_content(filePath):
    with open(filePath,'rb') as fp:
        return fp.read()
image=get_file_content('D:\Image\\test1.jpeg')
options={}
options['multi_detect']='true' #支持多车牌识别
ret=client.licensePlate(image,options) #调用API进行车牌识别
result=ret['words_result'] #将车牌识别结果保存在字典中
img=cv.imread('D:\Image\\test1.jpeg')
for i in range(len(result)):
    plate_num=result[i]['number'] #显示被识别的车牌
    loc_coordinates=result[i]['vertexes_location'] #显示出车牌坐标
    print('Plate Number:',plate_num)
    print('Location',loc_coordinates)
    #用矩形来标记所识别的车牌的位置
    cv.rectangle(img,(np.int(loc_coordinates[0]['x']),np.int(loc_coordinates[0]['y'])),\
                 (0,255,0),2,cv.LINE_8,0)
    cv.imshow('result',img)
cv.waitKey(0)
cv.destroyAllWindows()


7e6147fa20b4d4160099b65b6116f677_20d05ed50bf34825a28da7731fbe1d32.png

相关文章
|
1月前
|
机器学习/深度学习 数据采集 文字识别
7大核心技术:智能OCR如何助力市政单位文档处理数字化转型
随着政务服务数字化的推进,市政单位面临复杂的文档处理需求。本文介绍了一种基于智能OCR技术的一站式文档处理方案,涵盖数据矫正、通用文字识别、表格与票据结构化提取、卡证分类、印章检测、手写文字识别及图像内容识别等核心技术,显著提升工作效率与文档解析的准确性。
|
11天前
|
机器学习/深度学习 人工智能 文字识别
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
k1视觉思考模型是kimi推出的k1系列强化学习AI模型,具备端到端图像理解和思维链技术,能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。
148 68
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
|
21天前
|
机器学习/深度学习 文字识别 自然语言处理
医疗行业化验单智能识别技术探讨:OCR与表格识别的应用
本文探讨了OCR与表格识别技术在医疗化验单处理中的应用,通过自动化数据提取和录入,显著提高了效率和准确性,降低了人工劳动强度和错误率。技术实现包括图像预处理、文字识别和表格解析等核心算法的优化,支持与医院信息管理系统集成,未来将向跨模态数据融合、多语言适配及数据安全方向发展。
|
1月前
|
机器学习/深度学习 存储 人工智能
政务部门人工智能OCR智能化升级:3大技术架构与4项核心功能解析
本项目针对政务服务数字化需求,建设智能文档处理平台,利用OCR、信息抽取和深度学习技术,实现文件自动解析、分类、比对与审核,提升效率与准确性。平台强调本地部署,确保数据安全,解决低质量扫描件、复杂表格等痛点,降低人工成本与错误率,助力智慧政务发展。
|
4月前
|
机器学习/深度学习 存储 文字识别
OCR -- 文本识别 -- 实践篇
OCR -- 文本识别 -- 实践篇
69 1
|
5月前
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
人工智能 JSON 文字识别
印刷文字识别使用问题之如何数电发票进行识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别 数据安全/隐私保护 iOS开发
印刷文字识别使用问题之如何识别礼品册上的卡号、密码信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别 开发工具
印刷文字识别使用问题之是否支持识别手写体
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
印刷文字识别使用问题之是否支持识别手写体
|
4月前
|
机器学习/深度学习 文字识别 自然语言处理
OCR -- 文本识别 -- 理论篇
OCR -- 文本识别 -- 理论篇
87 0

热门文章

最新文章