tesseract、jTessBoxEditorFX训练数据实践

简介: tesseract、jTessBoxEditorFX训练数据实践

网上很多文章都总结的很好,这里就不做重复,只是简单的将步骤梳理

文章后面会有一个实例,来说明数据训练步骤

字库训练

下载jTessBoxEditorFX

https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

文件名必须是如下格式:

[lang].[fontname].exp[num]
• 1

lang:语言名(训练生成的示为语言)

fontname:字体名

num:序号(无所谓)

于是可以得到一个命名为 num.peng.exp1.tif 的文件


1、准备样本图片,合并为.tif文件

jTessBoxEditorFX -> tools->merge tiff


2、生成.bok文件


tesseract num.peng.exp1.tif num.peng.exp1 batch.nochop makebox

1

3、字符矫正

jTessBoxEditorFX -> Box Editor->Open,num.peng.exp1.tif,调整校正


生成训练数据

示例假设有3个文件,tif文件


1、创建font_properties文件

文件内容为 :


相关文章
|
计算机视觉 C++ Windows
关于 百度飞浆paddleOCR编译32位版本 的解决方案
关于 百度飞浆paddleOCR编译32位版本 的解决方案
关于 百度飞浆paddleOCR编译32位版本 的解决方案
|
3月前
|
安全 算法 Java
在Spring Boot中应用Jasypt以加密配置信息。
通过以上步骤,可以在Spring Boot应用中有效地利用Jasypt对配置信息进行加密,这样即使配置文件被泄露,其中的敏感信息也不会直接暴露给攻击者。这是一种在不牺牲操作复杂度的情况下提升应用安全性的简便方法。
978 10
|
Java 监控 自然语言处理
一站式链路追踪:阿里云的端到端解决方案
端到端链路追踪是覆盖全部关联 IT 系统,能够完整记录用户行为在系统间调用路径与状态的最佳实践方案。而真正实现端到端链路追踪,需要解决三个难题:链路插桩、链路采集与加工、链路上下文透传。阿里云 ARMS 目前已支持全链路端到端追踪,快来查看转发吧~
61895 101
|
存储 Java 数据库
SpringBoot使用jasypt实现数据库配置加密
这样,你就成功地使用Jasypt实现了Spring Boot中的数据库配置加密,确保敏感信息在配置文件中以加密形式存储,并在应用启动时自动解密。
959 2
|
并行计算 Java API
Java List集合取交集的八种不同实现方式
Java List集合取交集的八种不同实现方式
|
存储 IDE 测试技术
【Protocol】一个简洁实用的自定义通信协议
【Protocol】一个简洁实用的自定义通信协议
385 0
spring-state-machine监听器
spring-state-machine监听器
172 0
|
JavaScript
IDEA安装vue开发插件
IDEA安装vue开发插件
918 0
|
机器学习/深度学习 文字识别 算法
文本识别 (OCR)引擎之Tesseract的使用
esseract是一个开源文本识别 (OCR)引擎,用于识别图片中的文字并将其转换为可编辑的文本。
2871 0
|
SQL 安全 数据库连接
解决Exception in thread “main“ com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications
解决Exception in thread “main“ com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications
解决Exception in thread “main“ com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications