使用tesseract-ocr破解网站验证码

本文涉及的产品
票据凭证识别,票据凭证识别 200次/月
车辆物流识别,车辆物流识别 200次/月
教育场景识别,教育场景识别 200次/月
简介: 首先我得承认,关注tesseract-ocr, 是冲着下面这篇文章的噱头去的,26行groovy代码破解网站验证码 http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lin...
首先我得承认,关注tesseract-ocr, 是冲着下面这篇文章的噱头去的,26行groovy代码破解网站验证码 
http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/ 

当然,看了之后才知道,原来是调用了三方库tesseract-ocr…… 
http://code.google.com/p/tesseract-ocr/ 

尽管如此,本着邓爷爷的“不管白猫黑猫,能抓住老鼠的就是好猫”的原则,趁着假期也开始了“文字识别”的初级研究 

HP的tesseract最近被Google支持并开支持英文字母和数字,据说辨识程度是世界排名第三的;更难能可贵的是,提供多国语言包下载(包括中文,精度不咋的倒是真的……),并自带训练工具。 

安装完并跑过自带例子之后,首先想到的应用自然是用于验证码分析 

 

按照说明,送入tesseract的图片的质量直接影响识别的效果,因此,简单的预处理是不可或缺的 

1.首先灰度化,灰度值=0.3R+0.59G+0.11B: 
Java代码   收藏代码
  1.    
  2. for (int y = minY; y < height; y++) {  
  3.     for (int x = minX; x < width; x++) {  
  4.         int rgb = srcImg.getRGB(x, y);  
  5.         Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。  
  6.         int gray = (int) (0.3 * color.getRed() + 0.59  
  7.             * color.getGreen() + 0.11 * color.getBlue());  
  8.         Color newColor = new Color(gray, gray, gray);  
  9.         srcImg.setRGB(x, y, newColor.getRGB());  
  10.     }  
  11. }  

结果如图: 
 

2.其次是灰度反转: 
Java代码   收藏代码
  1. for (int y = minY; y < height; y++) {  
  2.     for (int x = minX; x < width; x++) {  
  3.         int rgb = buffImg.getRGB(x, y);  
  4.         Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。  
  5.         Color newColor = new Color(255 - color.getRed(), 255 - color  
  6.             .getGreen(), 255 - color.getBlue());  
  7.         buffImg.setRGB(x, y, newColor.getRGB());  
  8.     }  
  9. }  

结果如图: 
 

3.再次是二值化,取图片的平均灰度作为阈值,低于该值的全都为0,高于该值的全都为255: 
Java代码   收藏代码
  1. for (int y = minY; y < height; y++) {  
  2.     for (int x = minX; x < width; x++) {  
  3.         int rgb = buffImg.getRGB(x, y);  
  4.         Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。  
  5.         int value = 255 - color.getBlue();  
  6.         if (value > average) {  
  7.             Color newColor = new Color(0, 0, 0);  
  8.             buffImg.setRGB(x, y, newColor.getRGB());  
  9.         } else {  
  10.             Color newColor = new Color(255, 255, 255);  
  11.             buffImg.setRGB(x, y, newColor.getRGB());  
  12.         }  
  13.     }  
  14. }  

结果如图: 
 

看看效果还凑合,就省却尺寸调整、中值滤波以及噪点去除等步骤了。 

以上完成图片预处理工作;Tesseract没有开放api,纯命令行调用: 
Java代码   收藏代码
  1. List<String> cmd = new ArrayList<String>(); // 存放命令行参数的数组  
  2. cmd.add(tessPath + "\\tesseract");  
  3. cmd.add("");  
  4. cmd.add(outputFile.getName()); // 输出文件位置  
  5. cmd.add(LANG_OPTION); // 字符类别  
  6. cmd.add("eng"); // 英文,找到tessdata里对应的字典文件。  
  7. ProcessBuilder pb = new ProcessBuilder();  
  8. pb.directory(imageFile.getParentFile());  
  9.   
  10. cmd.set(1, tempImage.getName()); // 把图片文件位置放在第一个位置  
  11.   
  12. pb.command(cmd); // 执行命令行  
  13. pb.redirectErrorStream(true); // 通知进程生成器是否合并标准错误和标准输出,把进程错误保存起来。  
  14. Process process = pb.start(); // 开始执行进程  
  15.   
  16. int w = process.waitFor(); // 当前进程停止,直到process停止执行,返回执行结果.  


结果输出表示一切正常 

当然,真正要用好tesseract-ocr,还需用到其强大地训练工具,就是后话了…… 

另外,关于文字识别,除去作为破解验证码的反制手段之外,我们是否也有相关的应用呢? 

  • 大小: 1.1 KB
  • 大小: 1.3 KB
  • 大小: 1.3 KB
  • 大小: 1.4 KB
 
作者:Bonker
出处:http://www.cnblogs.com/Bonker
QQ:519841366
       
本页版权归作者和博客园所有,欢迎转载,但未经作者同意必须保留此段声明, 且在文章页面明显位置给出原文链接,否则保留追究法律责任的权利
目录
打赏
0
0
0
0
5
分享
相关文章
文本,文识11,解析OCR结果,paddOCR返回的数据,接口返回的数据有code,data,OCR返回是JSON的数据,得到JSON数据先安装依赖,Base64转换工具网站在21.14
文本,文识11,解析OCR结果,paddOCR返回的数据,接口返回的数据有code,data,OCR返回是JSON的数据,得到JSON数据先安装依赖,Base64转换工具网站在21.14
文本,文识11,解析OCR结果,paddOCR返回的数据,接口返回的数据有code,data,OCR返回是JSON的数据,得到JSON数据先安装依赖,Base64转换工具网站在21.14
印刷文字识别使用问题之进行表格解析时年份和灰色部分没解析出来,网站体验能检测到,该如何优化
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
提升爬虫OCR识别率:解决嘈杂验证码问题
使用OCR技术提升爬虫识别嘈杂验证码的准确率,结合Python代码示例展示了如何预处理图像、使用Tesseract和代理IP来规避反爬。通过灰度化、二值化增强验证码可读性,并利用代理IP保持爬虫稳定性。
252 0
PaddleOCR + Django 实现一个OCR在线识别网站,一起来玩呀
除了PaddleOCR之外,之前还介绍过一些其它好玩的开源项目,例如老照片修复 Bringing-Old-Photos-Back-to-Life 、黑白照片上色DeOldify 。因此,最近准备启动一个项目,做一个在线网站,将之前一些好玩的功能都陆续集成在这个网站中
Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术
今日的验证码之旅 今天你要学习的验证码采用通过第三方AI平台开放的OCR接口实现,OCR文字识别技术目前已经比较成熟了,而且第三方比较多,今天采用的是百度的。 注册百度AI平台 官方网址:http://ai.
2143 0
Tesseract Ocr 引擎识别图形验证码
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/catoop/article/details/52438892 1、Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。
1361 0
java语言后台管理若依框架-登录提示404-接口异常-系统接口404异常如何处理-登录验证码不显示prod-api/captchaImage 404 (Not Found) 如何处理-解决方案优雅草卓伊凡
java语言后台管理若依框架-登录提示404-接口异常-系统接口404异常如何处理-登录验证码不显示prod-api/captchaImage 404 (Not Found) 如何处理-解决方案优雅草卓伊凡
86 5
认证服务---整合短信验证码,用户注册和登录 ,密码采用MD5加密存储 【二】
这篇文章讲述了在分布式微服务系统中添加用户注册和登录功能的过程,重点介绍了用户注册时通过远程服务调用第三方服务获取短信验证码、使用Redis进行验证码校验、对密码进行MD5加密后存储到数据库,以及用户登录时的远程服务调用和密码匹配校验的实现细节。
认证服务---整合短信验证码,用户注册和登录 ,密码采用MD5加密存储 【二】

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等