技术好文共享:编写Tesseract的Python扩展

简介: 技术好文共享:编写Tesseract的Python扩展

Tesseract是一个开源的OCR(光学字符识别)引擎,用于识别并输出图片中的文字。虽然和商业软件比起来识别精度不算很高,但是如果你要寻找免费开源的OCR引擎,可能Tesseract就是唯一的选择了。Tesseract用起来还算是比较方便。它提供了一个简单的命令行工具,没有很多选项,输入图片输出就是文字。因为是开源的,你也可以直接编译使用它基于C++的库。


最近一段时间我对Python产生了很大的兴趣。它是如此的简洁高效,只要可以用Python完成的工作就懒得使用其他编程语言。所以到了应用Tesseract的时候我首先想到了去Google一下有没有Python binding。确实有人使用swig做了个tesseract的封装,不过不幸的是实际应用存在不少问题。首先是安装不便,尤其在mac上的安装令人崩溃。即使完成安装,不知为何又segment fault。其次,很多方法只做了简单的封装,又缺乏文档,想做深入一点的应用例如输出文字在图中的位置,感觉无从着手。不如从Tesseract的源代码入手,自己编写python的扩展,对tesseract的某些感兴趣的方法做个封装,也顺便熟悉下Python和C/C++集成的方法。可以在扩展里为所欲为,真是令人心情愉快。


首先,新建一个cpp源文件,然后为这个新模块想个名字,比如 tessex。然后,需要定义这个新模块,以及模块里需要暴露出来的方法。这样在Python里就可以用import tessex来载入模块。


static PyMethodDef tessexMethods【】 = {


{"recognize", (PyCFunction)tessex_recognize,


METH_VARARGS|METH_KEYWORDS,


"recognize text in an image."},


{NULL, NULL, 0, NULL}


};


PyMODINIT_FUNC inittessex(void) {


(void) Py_InitModule("tessex", tessexMethods);


}


这里,我们暴露一个方法recognize,用来扫描给定图片然后返回识别的文字以及位置。大家知道Python方法可以传两种参数,一种是无名的,一种是有名的,分别对应METH_VARARGS以及METH_KEYWORDS。作为一个有点完美主义倾向的人,我把两个选项都勾上了。然后我们看下recognize方法的定义。正如之前讲的,需要声明参数args以及kw。


static PyObject tessex_recognize(PyObject self, PyObject args, PyObject kw){


接下来是展开从Python调用传进来的参数。要使用有名参数,需要把所有参数名都先列出来。


  static const char kwlist【】={"data", "w", "h", "channels", "step", NULL};


然后调用PyArg_ParseTupleAndKeywords展开有名参数。一个格式字符串用于声明参数的类型。data是图像的像素buffer,适用S类型。w、h、channels、step分别是图像的宽度、高度、信道数、步长,都是整型变量,适用i类型。


PyStringObject data;


int w=0;


int h=0;


int channels=0;


int step=0;


if (!PyArg_ParseTupleAndKeywords(args, kw, "Siiii", (char*)(kwlist),


&data, &w, &h, &channels, &step)) {


PyErr_SetString(PyExc_Exception, "Tessex: Failed to parse arguments.");


return NULL;


}


我们要开始使用Tesseract的API了。Tesseract支持多种语言,不过语言包要分别下载安装。这里我们使用英语。


tesseract::TessBaseAPI api = new tesseract::TessBaseAPI();


if (api->Init(NULL, "eng")) {


PyErr_SetString(PyExc_Exception, "Tessex: Failed to initialize tesseract API.");


return NULL;


}


把传入的图像数据传递给Tesseract,然后进行识别。


api->SetImage((const unsigned char)PyString_AS_STRING(data),


w, h, channels, step);


api->Recognize(0);


识别结果的处理稍微复杂点。一般的应用如果只想得到所有文字,只要调用GetUTF8Text()就完了。但是我想知道每一行的文字,它们的具体位置以及可信度,就需要对识别结果进行详细的分析。幸运的是Tesseract提供了iterator接口,可以返回不同粒度的数据。这里我选择了按行输出,即RIL_TEXTLINE。

//代码效果参考:http://hnjlyzjd.com/xl/wz_25244.html


PyObject l = PyList_New(0);


tesseract::ResultIterator it = api->GetIterator();


it->Begin();


while(1) {


char utf8_text;


int left, top, right, bottom;


int confidence = 0;


utf8_text = it->GetUTF8Text(tesseract::RIL_TEXTLINE);


if (utf8_text == NULL)


break;


confidence = it->Confidence(tesseract::RIL_TEXTLINE);


it->BoundingBox(tesseract::RIL_TEXTLINE, &left, &top, &right, &bottom);


PyObject t = Py_BuildValue("(siiiii)", utf8_text,


left, top, right, bottom, confidence);


PyList_Append(l, t);


delete 【】utf8_text;


it->Next(tesseract::RIL_TEXTLINE);


}


api->End();


PyObject o = Py_BuildValue("O", l);


return o;


返回的是一个list,其每个元素都是一个tuple,代表识别出来的文字行,包括文字、位置和可信度。


最后不要忘了include需要的头文件,并在链接选项里加入需要的库。


#include "Python.h"


#include


#include


具体如何编译tesseract可以参考


在示例代码里我们并没有用到任何图形库。但是因为要使用Tesseract就必须链接leptonica库,所以需要加入链接选项-llept。


如果你想在扩展里使用leptonica的功能可以include 。或者你想使用openCV,可以include 并链接-lopencv_XXXXX。


这样代码部分算是完成了。不过接下来还有一步,我们需要打包完成一个Python扩展使之容易编译和安装。可以使用distutils模块。


from distutils.core import setup, Extension


tessenigma = Extension (


'tessex',


sources=【'tessex.cpp'】,


include_dirs = 【'/usr/local/include'】,


libraries=【 'tesseract'】,


library_dirs=【'/usr/local/lib'】


)


setup (name='tessex',


version='1.0',


description='This is a tesseract extensiion.',


ext_modules = 【tessex】)


把这些定义写入一个setup.py文件里。这样我们就可以用通常的方式编译和安装模块了。编译用setup.py build。一个动态链接库会生成。例如在Linux下面就是tessex.so。安装模块使用setup.py install。前面生成的库文件会被复制到Python的site-packages下面。当然你也可以手动复制到$PYTHONPATH路径下面,一样能被Python找到。


安装好扩展后,在Python里是这样调用的,假定我们使用一个openCV图像:


import tessex


import cv


cv_img = cv.LoadImage(path, cv.CV_LOAD_IMAGE_COLOR)


lines = tessex.recognize(


data=cv_img.tostring(),


w=cv_img.width,


h=cv_img.height,


channels=cv_img.nChannels,


step=cv_img.width cv_img.nChannels cv_img.depth / 8)


for line in lines:


  line_text, left, top, right, bottom, confidence = line


通过Tesseract扩展,可以在Python中比较方便地识别图像中的文字以及位置,对基于图像识别的自动化测试是很有帮助的。

相关文章
|
6天前
|
缓存 监控 测试技术
Python中的装饰器:功能扩展与代码复用的利器###
本文深入探讨了Python中装饰器的概念、实现机制及其在实际开发中的应用价值。通过生动的实例和详尽的解释,文章展示了装饰器如何增强函数功能、提升代码可读性和维护性,并鼓励读者在项目中灵活运用这一强大的语言特性。 ###
|
11天前
|
算法 Python
Python图论探索:从理论到实践,DFS与BFS遍历技巧让你秒变技术大牛
图论在数据结构与算法中占据重要地位,应用广泛。本文通过Python代码实现深度优先搜索(DFS)和广度优先搜索(BFS),帮助读者掌握图的遍历技巧。DFS沿路径深入搜索,BFS逐层向外扩展,两者各具优势。掌握这些技巧,为解决复杂问题打下坚实基础。
24 2
|
13天前
|
开发框架 开发者 Python
探索Python中的装饰器:技术感悟与实践
【10月更文挑战第31天】 在编程世界中,装饰器是Python中一种强大的工具,它允许我们在不修改函数代码的情况下增强函数的功能。本文将通过浅显易懂的方式,带你了解装饰器的概念、实现原理及其在实际开发中的应用。我们将一起探索如何利用装饰器简化代码、提高可读性和复用性,同时也会分享一些个人的技术感悟,帮助你更好地掌握这项技术。
29 2
|
17天前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
18天前
|
数据采集 存储 Web App开发
利用Python 的爬虫技术淘宝天猫销量和库存
使用 Python 爬虫技术获取淘宝天猫商品销量和库存的步骤包括:1. 安装 Python 和相关库(如 selenium、pandas),下载浏览器驱动;2. 使用 selenium 登录淘宝或天猫;3. 访问商品页面,分析网页结构,提取销量和库存信息;4. 处理和存储数据。注意网页结构可能变化,需遵守法律法规。
|
5天前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能浪潮下的自我修养:从Python编程入门到深度学习实践
【10月更文挑战第39天】本文旨在为初学者提供一条清晰的道路,从Python基础语法的掌握到深度学习领域的探索。我们将通过简明扼要的语言和实际代码示例,引导读者逐步构建起对人工智能技术的理解和应用能力。文章不仅涵盖Python编程的基础,还将深入探讨深度学习的核心概念、工具和实战技巧,帮助读者在AI的浪潮中找到自己的位置。
|
5天前
|
机器学习/深度学习 数据挖掘 Python
Python编程入门——从零开始构建你的第一个程序
【10月更文挑战第39天】本文将带你走进Python的世界,通过简单易懂的语言和实际的代码示例,让你快速掌握Python的基础语法。无论你是编程新手还是想学习新语言的老手,这篇文章都能为你提供有价值的信息。我们将从变量、数据类型、控制结构等基本概念入手,逐步过渡到函数、模块等高级特性,最后通过一个综合示例来巩固所学知识。让我们一起开启Python编程之旅吧!
|
5天前
|
存储 Python
Python编程入门:打造你的第一个程序
【10月更文挑战第39天】在数字时代的浪潮中,掌握编程技能如同掌握了一门新时代的语言。本文将引导你步入Python编程的奇妙世界,从零基础出发,一步步构建你的第一个程序。我们将探索编程的基本概念,通过简单示例理解变量、数据类型和控制结构,最终实现一个简单的猜数字游戏。这不仅是一段代码的旅程,更是逻辑思维和问题解决能力的锻炼之旅。准备好了吗?让我们开始吧!
|
7天前
|
设计模式 算法 搜索推荐
Python编程中的设计模式:优雅解决复杂问题的钥匙####
本文将探讨Python编程中几种核心设计模式的应用实例与优势,不涉及具体代码示例,而是聚焦于每种模式背后的设计理念、适用场景及其如何促进代码的可维护性和扩展性。通过理解这些设计模式,开发者可以更加高效地构建软件系统,实现代码复用,提升项目质量。 ####
|
6天前
|
机器学习/深度学习 存储 算法
探索Python编程:从基础到高级应用
【10月更文挑战第38天】本文旨在引导读者从Python的基础知识出发,逐渐深入到高级编程概念。通过简明的语言和实际代码示例,我们将一起探索这门语言的魅力和潜力,理解它如何帮助解决现实问题,并启发我们思考编程在现代社会中的作用和意义。