网上很多文章都总结的很好,这里就不做重复,只是简单的将步骤梳理
文章后面会有一个实例,来说明数据训练步骤
字库训练
下载jTessBoxEditorFX
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
文件名必须是如下格式:
[lang].[fontname].exp[num] • 1
lang:语言名(训练生成的示为语言)
fontname:字体名
num:序号(无所谓)
于是可以得到一个命名为 num.peng.exp1.tif 的文件
1、准备样本图片,合并为.tif文件
jTessBoxEditorFX -> tools->merge tiff
2、生成.bok文件
tesseract num.peng.exp1.tif num.peng.exp1 batch.nochop makebox
1
3、字符矫正
jTessBoxEditorFX -> Box Editor->Open,num.peng.exp1.tif,调整校正
生成训练数据
示例假设有3个文件,tif文件
1、创建font_properties文件
文件内容为 :