开发者社区彭世瑜的博客文章正文

tesseract、jTessBoxEditorFX训练数据实践

2022-09-07 543

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： tesseract、jTessBoxEditorFX训练数据实践

网上很多文章都总结的很好，这里就不做重复，只是简单的将步骤梳理

文章后面会有一个实例，来说明数据训练步骤

字库训练

下载jTessBoxEditorFX

https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

文件名必须是如下格式：

[lang].[fontname].exp[num]
• 1

lang:语言名(训练生成的示为语言)

fontname:字体名

num:序号(无所谓)

于是可以得到一个命名为 num.peng.exp1.tif 的文件

1、准备样本图片，合并为.tif文件

jTessBoxEditorFX -> tools->merge tiff

2、生成.bok文件

tesseract num.peng.exp1.tif num.peng.exp1 batch.nochop makebox

3、字符矫正

jTessBoxEditorFX -> Box Editor->Open，num.peng.exp1.tif，调整校正

生成训练数据

示例假设有3个文件，tif文件

1、创建font_properties文件

文件内容为：

码农技术君

长沙红胖子Qt

计算机视觉 C++ Windows

关于百度飞浆paddleOCR编译32位版本的解决方案

长沙红胖子Qt

1058 0 0

蓝易云

3月前

安全算法 Java

在Spring Boot中应用Jasypt以加密配置信息。

通过以上步骤，可以在Spring Boot应用中有效地利用Jasypt对配置信息进行加密，这样即使配置文件被泄露，其中的敏感信息也不会直接暴露给攻击者。这是一种在不牺牲操作复杂度的情况下提升应用安全性的简便方法。

蓝易云

978 10 10

阿里云云原生

Java 监控自然语言处理

一站式链路追踪：阿里云的端到端解决方案

端到端链路追踪是覆盖全部关联 IT 系统，能够完整记录用户行为在系统间调用路径与状态的最佳实践方案。而真正实现端到端链路追踪，需要解决三个难题：链路插桩、链路采集与加工、链路上下文透传。阿里云 ARMS 目前已支持全链路端到端追踪，快来查看转发吧~

阿里云云原生

61895 101 150

蓝易云

存储 Java 数据库

SpringBoot使用jasypt实现数据库配置加密

这样，你就成功地使用Jasypt实现了Spring Boot中的数据库配置加密，确保敏感信息在配置文件中以加密形式存储，并在应用启动时自动解密。

蓝易云

959 2 2

公众号:码到三十五

并行计算 Java API

Java List集合取交集的八种不同实现方式

公众号:码到三十五

786 0 0

Hello阿尔法

存储 IDE 测试技术

【Protocol】一个简洁实用的自定义通信协议

Hello阿尔法

385 0 0

快乐阿超

spring-state-machine监听器

快乐阿超

172 0 0

左边的天堂

JavaScript

IDEA安装vue开发插件

左边的天堂

918 0 0

CodeDevMaster

机器学习/深度学习文字识别算法

文本识别 (OCR)引擎之Tesseract的使用

esseract是一个开源文本识别 (OCR)引擎，用于识别图片中的文字并将其转换为可编辑的文本。

CodeDevMaster

2871 0 0

游客4sqoqnfoxas4e

SQL 安全数据库连接

解决Exception in thread “main“ com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications

游客4sqoqnfoxas4e

1654 0 0

tesseract、jTessBoxEditorFX训练数据实践

字库训练

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

tesseract、jTessBoxEditorFX训练数据实践

字库训练

热门文章

最新文章

相关电子书