java文字识别技术(亲测,识别率很高)

简介: java文字识别程序的关键是寻找一个可以调用的OCR引擎。tesseract-ocr就是一个这样的OCR引擎,在1985年到1995年由HP实验室开发,现在在Google。tesseract-ocr 3.0发布,支持中文。

   java文字识别程序的关键是寻找一个可以调用的OCR引擎。tesseract-ocr就是一个这样的OCR引擎,在1985年到1995年由HP实验室开发,现在在Google。tesseract-ocr 3.0发布,支持中文。不过tesseract-ocr 3.0不是图形化界面的客户端,别人写的FreeOCR图形化客户端还不支持导入新的 3.0 traineddata。但这标志着,现在有自由的中文OCR软件了。

   java中使用tesseract-ocr3.01的步骤如下:

1.下载安装tesseract-ocr-setup-3.01-1.exe(3.0以上版本才增加了中文识别)

2.在安装向导中可以选择需要下载的语言包。

3.到网上搜索下载java图形处理所需的2个包:jai_imageio-1.1-alpha.jar,swingx-1.6.1.jar

4.java程序清单:

ImageIOHelper 类:

  1. import java.awt.image.BufferedImage;
  2. import java.io.File;
  3. import java.io.IOException;
  4. import java.util.Iterator;
  5. import java.util.Locale;
  6. import javax.imageio.IIOImage;
  7. import javax.imageio.ImageIO;
  8. import javax.imageio.ImageReader;
  9. import javax.imageio.ImageWriteParam;
  10. import javax.imageio.ImageWriter;
  11. import javax.imageio.metadata.IIOMetadata;
  12. import javax.imageio.stream.ImageInputStream;
  13. import javax.imageio.stream.ImageOutputStream;
  14. import com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam;
  15. public class ImageIOHelper {
  16.     public static File createImage(File imageFile, String imageFormat) {
  17.         File tempFile = null;
  18.         try {
  19.             Iterator readers = ImageIO.getImageReadersByFormatName(imageFormat);
  20.             ImageReader reader = readers.next();
  21.             ImageInputStream iis = ImageIO.createImageInputStream(imageFile);
  22.             reader.setInput(iis);
  23.             //Read the stream metadata
  24.             IIOMetadata streamMetadata = reader.getStreamMetadata();
  25.             //Set up the writeParam
  26.             TIFFImageWriteParam tiffWriteParam = new TIFFImageWriteParam(Locale.CHINESE);
  27.             tiffWriteParam.setCompressionMode(ImageWriteParam.MODE_DISABLED);
  28.             //Get tif writer and set output to file
  29.             Iterator writers = ImageIO.getImageWritersByFormatName("tiff");
  30.             ImageWriter writer = writers.next();
  31.             BufferedImage bi = reader.read(0);
  32.             IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));
  33.             tempFile = tempImageFile(imageFile);
  34.             ImageOutputStream ios = ImageIO.createImageOutputStream(tempFile);
  35.             writer.setOutput(ios);
  36.             writer.write(streamMetadata, image, tiffWriteParam);
  37.             ios.close();
  38.             writer.dispose();
  39.             reader.dispose();
  40.         } catch (IOException e) {
  41.             e.printStackTrace();
  42.         }
  43.         return tempFile;
  44.     }
  45.     private static File tempImageFile(File imageFile) {
  46.         String path = imageFile.getPath();
  47.         StringBuffer strB = new StringBuffer(path);
  48.         strB.insert(path.lastIndexOf('.'),0);
  49.         return new File(strB.toString().replaceFirst("(?<=//.)(//w+)$", "tif"));
  50.     }
  51. }

OCR 类:

  1. package com.hhp.util;
  2. import java.io.BufferedReader;
  3. import java.io.File;
  4. import java.io.FileInputStream;
  5. import java.io.InputStreamReader;
  6. import java.util.ArrayList;
  7. import java.util.List;
  8. import org.jdesktop.swingx.util.OS;
  9. public class OCR {
  10.     private final String LANG_OPTION = "-l";  //英文字母小写l,并非数字1
  11.     private final String EOL = System.getProperty("line.separator");
  12.     private String tessPath = "C://Program Files (x86)//Tesseract-OCR";
  13.     //private String tessPath = new File("tesseract").getAbsolutePath();
  14.     public String recognizeText(File imageFile,String imageFormat)throws Exception{
  15.         File tempImage = ImageIOHelper.createImage(imageFile,imageFormat);
  16.         File outputFile = new File(imageFile.getParentFile(),"output");
  17.         StringBuffer strB = new StringBuffer();
  18.         List cmd = new ArrayList();
  19.         if(OS.isWindowsXP()){
  20.             cmd.add(tessPath+"//tesseract");
  21.         }else if(OS.isLinux()){
  22.             cmd.add("tesseract");
  23.         }else{
  24.             cmd.add(tessPath+"//tesseract");
  25.         }
  26.         cmd.add("");
  27.         cmd.add(outputFile.getName());
  28.         cmd.add(LANG_OPTION);
  29.         cmd.add("chi_sim");
  30.         //cmd.add("eng");
  31.         ProcessBuilder pb = new ProcessBuilder();
  32.         pb.directory(imageFile.getParentFile());
  33.         cmd.set(1, tempImage.getName());
  34.         pb.command(cmd);
  35.         pb.redirectErrorStream(true);
  36.         Process process = pb.start();
  37.         //tesseract.exe 1.jpg 1 -l chi_sim
  38.         int w = process.waitFor();
  39.         //删除临时正在工作文件
  40.         tempImage.delete();
  41.         if(w==0){
  42.             BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));
  43.             String str;
  44.             while((str = in.readLine())!=null){
  45.                 strB.append(str).append(EOL);
  46.             }
  47.             in.close();
  48.         }else{
  49.             String msg;
  50.             switch(w){
  51.                 case 1:
  52.                     msg = "Errors accessing files.There may be spaces in your image's filename.";
  53.                     break;
  54.                 case 29:
  55.                     msg = "Cannot recongnize the image or its selected region.";
  56.                     break;
  57.                 case 31:
  58.                     msg = "Unsupported image format.";
  59.                     break;
  60.                 default:
  61.                     msg = "Errors occurred.";
  62.             }
  63.             tempImage.delete();
  64.             throw new RuntimeException(msg);
  65.         }
  66.         new File(outputFile.getAbsolutePath()+".txt").delete();
  67.         return strB.toString();
  68.     }
  69. }

测试类TestOCR :

  1. import java.io.File;
  2. import java.io.IOException;
  3. import com.hhp.util.OCR;
  4. public class OcrTest {
  5.  public static void main(String[] args) {
  6.         String path = "C://temp//OCRcode//4.png";
  7.         System.out.println("ORC Test Begin......");
  8.         try {
  9.             String valCode = new OCR().recognizeText(new File(path), "png");
  10.             System.out.println(valCode);
  11.         } catch (IOException e) {
  12.             e.printStackTrace();
  13.         } catch (Exception e) {
  14.             e.printStackTrace();
  15.         }
  16.         System.out.println("ORC Test End......");
  17.     }
  18. }

经过测试,tesseract-ocr 3.01的文字识别率很高,对于网站中常见的验证码识别率也很高。

原文地址http://www.bieryun.com/558.html

相关文章
|
4月前
|
监控 Cloud Native Java
Quarkus 云原生Java框架技术详解与实践指南
本文档全面介绍 Quarkus 框架的核心概念、架构特性和实践应用。作为新一代的云原生 Java 框架,Quarkus 旨在为 OpenJDK HotSpot 和 GraalVM 量身定制,显著提升 Java 在容器化环境中的运行效率。本文将深入探讨其响应式编程模型、原生编译能力、扩展机制以及与微服务架构的深度集成,帮助开发者构建高效、轻量的云原生应用。
559 44
|
4月前
|
安全 Java API
Java Web 在线商城项目最新技术实操指南帮助开发者高效完成商城项目开发
本项目基于Spring Boot 3.2与Vue 3构建现代化在线商城,涵盖技术选型、核心功能实现、安全控制与容器化部署,助开发者掌握最新Java Web全栈开发实践。
516 1
|
5月前
|
安全 Java 编译器
new出来的对象,不一定在堆上?聊聊Java虚拟机的优化技术:逃逸分析
逃逸分析是一种静态程序分析技术,用于判断对象的可见性与生命周期。它帮助即时编译器优化内存使用、降低同步开销。根据对象是否逃逸出方法或线程,分析结果分为未逃逸、方法逃逸和线程逃逸三种。基于分析结果,编译器可进行同步锁消除、标量替换和栈上分配等优化,从而提升程序性能。尽管逃逸分析计算复杂度较高,但其在热点代码中的应用为Java虚拟机带来了显著的优化效果。
185 4
|
5月前
|
Java API Maven
2025 Java 零基础到实战最新技术实操全攻略与学习指南
本教程涵盖Java从零基础到实战的全流程,基于2025年最新技术栈,包括JDK 21、IntelliJ IDEA 2025.1、Spring Boot 3.x、Maven 4及Docker容器化部署,帮助开发者快速掌握现代Java开发技能。
1137 1
|
6月前
|
人工智能 Java
Java多任务编排技术
JDK 5引入Future接口实现异步任务处理,但获取结果不够灵活。Java 8新增CompletableFuture,实现异步任务编排,支持流式处理、多任务组合及异常处理,提升执行效率与代码可读性,简化并发编程复杂度。
156 0
|
3月前
|
人工智能 文字识别 API
医疗票据OCR技术演进:从模板匹配到智能理解的突破
医疗票据OCR正从传统模板匹配迈向智能理解新阶段。快瞳科技融合OCR与医疗知识图谱,实现高精度、自适应识别,显著提升效率与准确性,推动医疗数字化智能化升级。
|
5月前
|
Java 测试技术 API
2025 年 Java 开发者必知的最新技术实操指南全览
本指南涵盖Java 21+核心实操,详解虚拟线程、Spring Boot 3.3+GraalVM、Jakarta EE 10+MicroProfile 6微服务开发,并提供现代Java开发最佳实践,助力开发者高效构建高性能应用。
875 4
|
4月前
|
安全 Cloud Native Java
Java 模块化系统(JPMS)技术详解与实践指南
本文档全面介绍 Java 平台模块系统(JPMS)的核心概念、架构设计和实践应用。作为 Java 9 引入的最重要特性之一,JPMS 为 Java 应用程序提供了强大的模块化支持,解决了长期存在的 JAR 地狱问题,并改善了应用的安全性和可维护性。本文将深入探讨模块声明、模块路径、访问控制、服务绑定等核心机制,帮助开发者构建更加健壮和可维护的 Java 应用。
357 0
|
5月前
|
JavaScript 安全 前端开发
Java开发:最新技术驱动的病人挂号系统实操指南与全流程操作技巧汇总
本文介绍基于Spring Boot 3.x、Vue 3等最新技术构建现代化病人挂号系统,涵盖技术选型、核心功能实现与部署方案,助力开发者快速搭建高效、安全的医疗挂号平台。
311 3
|
6月前
|
存储 Java Linux
操作系统层面视角下 Java IO 的演进路径及核心技术变革解析
本文从操作系统层面深入解析Java IO的演进历程,涵盖BIO、NIO、多路复用器及Netty等核心技术。分析各阶段IO模型的原理、优缺点及系统调用机制,探讨Java如何通过底层优化提升并发性能与数据处理效率,全面呈现IO技术的变革路径与发展趋势。
150 2

热门文章

最新文章