Tesseract-ocr

简介: 前言1、是什么OCR?  OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

前言

1、是什么OCR?

  OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

2、什么是Tesseract

  Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。 数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。 Tesseract目前已作为开源项目发布在Google Project,其项目主页在这里查看,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具。本次我们来测试一下Tesseract 3.0,由于命令行对最终用户不太友好,我用WPF简单封装了一下,就可以方便的进行中文OCR了。

使用

1、Ubuntu16.04 安装tessract-ocr

sudo apt-get install tesseract-ocr

查看安装版本

2、tesseract-ocr-for-php安装

首先,确保你已经安装了Tesseract OCR,在你的项目添加一下代码,使用composer install 安装

{
    "require": {
        "thiagoalessio/tesseract_ocr": "1.3.0"
    }
}

3、测试

测试图片text.png

测试代码

public function text(){
    $path = ROOT_PATH . 'public' . DS . 'text.png';
    echo (new \TesseractOCR($path))->run();
}

 测试结果

 

目录
相关文章
|
4天前
|
文字识别 Java API
文字识别OCR里这些包
【2月更文挑战第7天】文字识别OCR里这些包
52 1
|
机器学习/深度学习 文字识别 算法
【OCR学习笔记】2、OCR图像预处理(上)
【OCR学习笔记】2、OCR图像预处理(上)
623 0
|
文字识别 Java C++
Tesseract-OCR的简单使用与训练
Tesseract,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
5429 0
|
4天前
|
机器学习/深度学习 文字识别 并行计算
【C/C++ OCR识别】深入探索:Qt C++与OCR识别的完美结合
【C/C++ OCR识别】深入探索:Qt C++与OCR识别的完美结合
125 2
|
4天前
|
文字识别 JavaScript 前端开发
在文字识别OCR中,有没有 ts 调试ocr 的教程啊
在文字识别OCR中,有没有 ts 调试ocr 的教程啊
35 2
|
8月前
|
机器学习/深度学习 文字识别 算法
文本识别 (OCR)引擎之Tesseract的使用
esseract是一个开源文本识别 (OCR)引擎,用于识别图片中的文字并将其转换为可编辑的文本。
497 0
|
人工智能 文字识别 Linux
Tesseract OCR与文本智能识别
Tesseract OCR与文本智能识别
309 0
Tesseract-OCR安装及使用
Tesseract-OCR安装及使用
Tesseract-OCR安装及使用
|
文字识别
autojs之浩然ocr-不安装插件就能用ocr
使用场景 不想安装浩然ocr插件
1462 0
|
XML 文字识别 数据格式
PDF处理、Tesseract-OCR的介绍
PDF处理、Tesseract-OCR的介绍
299 0