Tesseract-ocr

简介: 前言1、是什么OCR?  OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

前言

1、是什么OCR?

  OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

2、什么是Tesseract

  Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。 数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。 Tesseract目前已作为开源项目发布在Google Project,其项目主页在这里查看,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具。本次我们来测试一下Tesseract 3.0,由于命令行对最终用户不太友好,我用WPF简单封装了一下,就可以方便的进行中文OCR了。

使用

1、Ubuntu16.04 安装tessract-ocr

sudo apt-get install tesseract-ocr

查看安装版本

2、tesseract-ocr-for-php安装

首先,确保你已经安装了Tesseract OCR,在你的项目添加一下代码,使用composer install 安装

{
    "require": {
        "thiagoalessio/tesseract_ocr": "1.3.0"
    }
}

3、测试

测试图片text.png

测试代码

public function text(){
    $path = ROOT_PATH . 'public' . DS . 'text.png';
    echo (new \TesseractOCR($path))->run();
}

 测试结果

 

目录
相关文章
|
缓存 网络协议 Ubuntu
dpdk课程学习之练习笔记一(接收,发送,arp,icmp功能测试)
dpdk课程学习之练习笔记一(接收,发送,arp,icmp功能测试)
619 0
|
25天前
|
人工智能 监控 算法
AI智能体的开发及上线
本文详解AI智能体从0到1的标准化开发与合规上线闭环:涵盖架构设计(大脑/规划/记忆/工具/感知)、低代码/代码级开发路径、RAG知识增强、算法备案、内容安全与数据脱敏等2026最新监管要求,助力高效、合规落地。
|
开发者 Python 设计模式
用 Python 轻松创建图形界面:Tkinter 入门指南
用几行Python代码就能创建桌面小工具?没错!tkinter是Python内置的GUI库,无需安装,跨平台支持。从窗口、按钮到弹窗,轻松实现图形界面交互,适合新手快速上手,打造专属小工具。#Python #tkinter
1197 0
|
Web App开发 数据采集 JavaScript
动态网页爬取:Python如何获取JS加载的数据?
动态网页爬取:Python如何获取JS加载的数据?
1801 58
|
11月前
|
存储 开发工具
flutter3.27+get电脑端仿微信聊天Exe程序
基于最新版flutter3.27+dart3.6+getx+bitsdojo_window仿微信电脑端Exe聊天系统。
173 4
|
机器学习/深度学习 安全 算法
基于YOLOv8深度学习的100种中草药智能识别系统【python源码+Pyqt5界面+数据集+训练代码】目标识别、深度学习实战
基于YOLOv8深度学习的100种中草药智能识别系统【python源码+Pyqt5界面+数据集+训练代码】目标识别、深度学习实战
基于YOLOv8深度学习的100种中草药智能识别系统【python源码+Pyqt5界面+数据集+训练代码】目标识别、深度学习实战
|
数据采集 Java PHP
使用Python+requests简单实现模拟登录以及抓取接口数据
本文通过Python的requests库演示了如何实现模拟登录和抓取接口数据的过程,包括设置请求头、发送POST请求进行登录以及使用登录后的会话进行GET请求获取数据。
1209 1
|
IDE Java Spring
Spring Boot中的多模块项目构建
Spring Boot中的多模块项目构建
|
移动开发 JavaScript 前端开发
vue实现调用手机拍照、录像功能
vue实现调用手机拍照、录像功能
1654 1
|
存储 监控 供应链
一文讲透阿里商旅账单系统架构设计实践
阿里商旅作为飞猪旅行旗下面向企业客户的数字化差旅解决方案产品,依托飞猪旅行机票、酒店供应链为企业客户提供一站式的机票、酒店、火车票、用车等预订管控及结算票据服务。阿里商旅不仅是集团欢行的供应商,而且近几年在商业化差旅市场上崭露头角,服务了2万+中大型客户,43万+小微企业。

热门文章

最新文章