Tesseract-OCR 训练过程 V3.02

简介: 软件: jTessBoxEditor Version 0.9 (30 April 2013) Tesseract-OCR win32 v3.02 with Leptonica   训练步骤:   1.
软件:
jTessBoxEditor Version 0.9 (30 April 2013)
Tesseract-OCR win32 v3.02 with Leptonica
 
训练步骤:
 
1.使用jTessBoxEditor,tools->merge_tif,产生tif文件
2.产生box文件
tesseract.exe eng.arial.01.tif eng.arial.01 batch.nochop makebox
3.使用jTessBoxEditor打开,Insert或Delete,添加删除字符,并通过xywh调整对应的坐票
4.训练(如果遇到不可识别的字符,couldn t find a matching blob,尝试换位置或调坐标)
tesseract.exe eng.arial.01.tif eng.arial.01 nobatch box.train
5.字体预处理
unicharset_extractor.exe eng.arial.01.box
6.创建font_properties.txt,内容为:arial 0 0 0 0 0
7.字体处理
mftraining.exe -F font_properties.txt -U unicharset eng.arial.01.tr
8.cntraining.exe eng.arial.01.tr
9.把unicharset, inttemp, normproto, pffmtable这四个文件加上前缀“eng.arial.01.”
10.combine_tessdata.exe eng.arial.01.
 
显示:
Combining tessdata files
TessdataManager combined tesseract data files.
Offset for type 0 is -1
Offset for type 1 is 108
Offset for type 2 is -1
Offset for type 3 is 1660
Offset for type 4 is 327545
Offset for type 5 is 327781
Offset for type 6 is -1
Offset for type 7 is -1
Offset for type 8 is -1
Offset for type 9 is -1
Offset for type 10 is -1
Offset for type 11 is -1
Offset for type 12 is –1
 
必须确定的是第2、4、5、6行的数据不是-1,那么一个新的字典就算生成了。
 
11.此时目录下“eng.arial.01.traineddata”的文件拷贝到tesseract程序目录下的“tessdata”目录
12.
#tesseract.exe test.jpg result -l eng.arial.01
#tesseract.exe a.bmp result2 -l eng.arial.01
 
指定布局识别方式
tesseract.exe 42.png result2 -l eng.arial.01 -psm 7
 
 
布局参数描述:
 
-psm N
    Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are:
 
    0 = Orientation and script detection (OSD) only.
    1 = Automatic page segmentation with OSD.
    2 = Automatic page segmentation, but no OSD, or OCR.
    3 = Fully automatic page segmentation, but no OSD. (Default)
    4 = Assume a single column of text of variable sizes.
    5 = Assume a single uniform block of vertically aligned text.
    6 = Assume a single uniform block of text.
    7 = Treat the image as a single text line.
    8 = Treat the image as a single word.
    9 = Treat the image as a single word in a circle.
    10 = Treat the image as a single character.
 
目录
相关文章
|
11月前
|
机器学习/深度学习 文字识别 算法
【OCR学习笔记】2、OCR图像预处理(上)
【OCR学习笔记】2、OCR图像预处理(上)
557 0
|
文字识别 Java C++
Tesseract-OCR的简单使用与训练
Tesseract,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
5361 0
|
4月前
|
机器学习/深度学习 文字识别 算法
[Halcon&识别] OCR字符识别
[Halcon&识别] OCR字符识别
60 0
|
7月前
|
机器学习/深度学习 文字识别 算法
文本识别 (OCR)引擎之Tesseract的使用
esseract是一个开源文本识别 (OCR)引擎,用于识别图片中的文字并将其转换为可编辑的文本。
426 0
|
机器学习/深度学习 存储 文字识别
Halcon解决方案指南(18)OCR--字符识别
第18章 光学字符识别_OCR OCR(Optical Character Recongnition)即我们通常意义上讲的光学字符识别。在HALCON中,OCR常被用来分割区域及读取识别图像中的字符含义。
7067 0
|
9月前
|
机器学习/深度学习 文字识别
使用预训练的CRAFT网络和OCR自动检测和识别文本
使用基于深度学习的文本检测器和 OCR 执行文本识别。
159 0
|
11月前
|
文字识别 算法 Python
【OCR学习笔记】5、OCR传统特征提取方法(文末附python源码实现下载)(一)
【OCR学习笔记】5、OCR传统特征提取方法(文末附python源码实现下载)(一)
143 0
|
11月前
|
机器学习/深度学习 文字识别 Python
【OCR学习笔记】5、OCR传统特征提取方法(文末附python源码实现下载)(二)
【OCR学习笔记】5、OCR传统特征提取方法(文末附python源码实现下载)(二)
237 0
|
机器学习/深度学习 文字识别 算法
基于opencv-python的身份证识别(KNN与OCR两种算法)
本文是学习opencv之初的一个阶段性小任务,主要做练习使用,并没有过多的追求准确率和高可用性,比如对输入身份证照片有要求,必须是完全的身份证照片,不能有背景,如需改进,可以通过增加轮廓检测和透视变换来裁剪出身份证照片;还有对身份证号区域的检测,采用的是先裁剪出一个固定大小的模板,进行模板匹配,当时学的比较浅,所以直接草率的这样做了,其实也可以通过轮廓检测排序,从而查找到身份证号区域。 另外,利用KNN算法做识别,也是我当时刚接触KNN算法,一时兴起做的,这算是我初次做算法模型训练,然后进行检测,也是为后来学习的各种深度学习算法打基础。效果并不是很好,因为我训练用到的数据集就是
基于opencv-python的身份证识别(KNN与OCR两种算法)
|
人工智能 自然语言处理 达摩院
ModelScope 垂类检测系列模型介绍
ModelScope 垂类检测系列模型介绍,该系列模型基于面向工业落地的高性能检测框架DAMOYOLO,其精度和速度超越当前经典的YOLO系列方法。
309 0
ModelScope 垂类检测系列模型介绍