AI工具【OCR 01】Java可使用的OCR工具Tess4J使用举例(身份证信息识别核心代码及信息提取方法分享)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 【2月更文挑战第1天】Lept4J和Tess4J都是基于Tesseract OCR引擎的Java接口,可以用来识别图像中的文本,本次介绍Tess4J

1.简介

1.1 简单介绍

Lept4J和Tess4J都是基于Tesseract OCR引擎的Java接口,可以用来识别图像中的文本:

  • 前者是Leptonica图像处理库的Java封装,提供了图像的加载、处理、分析等功能。
  • 后者是Tesseract OCR引擎的Java封装,提供了图像的OCR识别、PDF文档的生成等功能。

Lept4J和Tess4J的区别在于,Lept4J主要负责图像的预处理,而Tess4J主要负责图像的后处理,特点分别是:

  • Lept4J支持多种图像格式,可以进行图像的缩放、旋转、裁剪、二值化、降噪等操作,提高图像的质量和识别率。
  • Tess4J支持多种语言的识别,可以生成文本、HTML、PDF等格式的输出,提供了多种识别模式和参数设置,满足不同的需求。

根据具体场景和需求,可以选择使用Lept4J或Tess4J,或者结合使用两者,以达到最佳的效果。

1.2 官方说明

官网:https://tess4j.sourceforge.net/
描述:A Java JNA wrapper for Tesseract OCR API.Tess4J is released and distributed under the Apache License, v2.0 and is also available from Maven Central Repository.
特性:The library provides optical character recognition (OCR) support for:

  • TIFF, JPEG, GIF, PNG, and BMP image formats
  • Multi-page TIFF images
  • PDF document format

    2.使用举例

    2.1 依赖及语言数据包

    <!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j -->
    <dependency>
          <groupId>net.sourceforge.tess4j</groupId>
          <artifactId>tess4j</artifactId>
          <version>5.9.0</version>
    </dependency>
    

    语言数据包下载地址:https://github.com/tesseract-ocr/tessdata
    LanguageData.jpg

    2.2 核心代码

      /**
       * 识别图片字符信息
       *
       * @param imagePath 图片路径
       */
      private static String recognitionString(String imagePath) {
         
          File imageFile = new File(imagePath);
          ITesseract instance = new Tesseract();
          // 1.语言数据包路径
          instance.setDatapath("tessdata");
          // 2.加载语言文件名称
          instance.setLanguage("chi_sim");
          String result = "";
          try {
         
              result = instance.doOCR(imageFile);
          } catch (TesseractException e) {
         
              e.printStackTrace();
          }
          return result;
      }
    

    2.3 识别身份证信息

    2.3.1 核心代码

      /**
       * 识别身份证信息
       *
       * @param imagePath 图片路径
       */
      private static Map<String, Object> recognitionIdentityCardInfo(String imagePath) {
         
          Map<String, Object> res = new HashMap<>(2);
          // 识别图片
          File imageFile = new File(imagePath);
          BufferedImage bufferedImage = null;
          try {
         
              bufferedImage = ImageIO.read(imageFile);
          } catch (IOException e) {
         
              e.printStackTrace();
          }
          ITesseract instance = new Tesseract();
          instance.setDatapath("tessdata");
          instance.setLanguage("chi_sim");
          List<Word> words = instance.getWords(bufferedImage, 1);
          // 获取姓名
          int nameLineIndex = 0;
          if (words.size() > nameLineIndex) {
         
              res.put("name", getStringByIndex(words.get(0).getText(), 2));
          }
          // 获取性别和民族
          int genderAndNationLineIndex = 1;
          if (words.size() > genderAndNationLineIndex) {
         
              res.put("gender", getStringByIndex(words.get(1).getText(), 2, 1));
              res.put("nation", removeNonChinese(getStringByIndex(words.get(1).getText(), 5, -1)));
          }
          // 获取出生日期
          int birthLineIndex = 2;
          if (words.size() > birthLineIndex) {
         
              res.put("birth", extractBirthDate(getStringByIndex(words.get(2).getText(), 2)));
          }
          // 获取住址
          int addressLineIndex = 3;
          if (words.size() > addressLineIndex) {
         
              res.put("address", getStringByIndex(words.get(3).getText(), 2).replace("/", ""));
          }
          // 获取身份证号码
          int noLineIndex = 4;
          if (words.size() > noLineIndex) {
         
              res.put("no", getStringByIndex(words.get(4).getText(), 7));
          }
          return res;
      }
    

    2.3.2 截取指定字符

      /**
       * 截取指定字符
       *
       * @param inputString 字符串
       * @param indexStart  开始Index
       * @return 截取的字符串
       */
      private static String getStringByIndex(String inputString, int indexStart) {
         
          return getStringByIndex(inputString, indexStart, -1);
      }
    
      /**
       * 截取指定字符
       *
       * @param inputString 字符串
       * @param indexStart  开始Index
       * @param size        截取的字符个数
       * @return 截取的字符串
       */
      private static String getStringByIndex(String inputString, int indexStart, int size) {
         
          // 去除字符串两端的空白字符
          String trimmedString = inputString.trim();
          // 将字符串以空白字符分割
          StringBuilder res = new StringBuilder();
          String[] words = trimmedString.split("\\s+");
          int length = words.length;
          int contentSize = indexStart + size;
          if (length > indexStart) {
         
              int index = length;
              if (size > 0 && length > contentSize) {
         
                  index = contentSize;
              }
              for (int i = indexStart; i < index; i++) {
         
                  res.append(words[i]);
              }
          }
          return res.toString();
      }
    

    2.3.3 去掉字符串里的非中文字符

      /**
       * 去掉字符串里的非中文字符
       *
       * @param inputString 字符串
       * @return 中文字符串
       */
      private static String removeNonChinese(String inputString) {
         
          // 匹配非汉字字符的正则表达式
          String regex = "[^\u4E00-\u9FA5]";
          Pattern pattern = Pattern.compile(regex);
          Matcher matcher = pattern.matcher(inputString);
          // 替换非汉字字符为空格
          return matcher.replaceAll("");
      }
    

    2.3.4 提取出生日期(待优化)

      /**
       * 提取出生日期
       *
       * @param inputString 字符串
       * @return 出生日期
       */
      private static String extractBirthDate(String inputString) {
         
          // 匹配日期格式的正则表达式
          String regex = "(\\d{4}年\\d{2}月\\d{2}日)";
          Pattern pattern = Pattern.compile(regex);
          Matcher matcher = pattern.matcher(inputString);
          // 提取匹配到的日期
          if (matcher.find()) {
         
              return matcher.group(1);
          } else {
         
              return "未找到日期";
          }
      }
    

    2.3.5 实测

    图片:
    ID.jpg
    结果:

    {
         name=代用名, gender=男, nation=汉, birth=20130506, address=湖南省长沙市开福区送道街仪幸福小区居民组, no=30512198908131367}
    
  • 姓名 正确

  • 性别 正确
  • 民族 正确
  • 出生 正确
  • 住址 错了一个字(巡)多了一个字(仪)
  • 公民身份证号码 缺少首位(4)

    3.总结

  • Java能用挺友好

  • 缺点是识别率有点儿低
目录
相关文章
|
22天前
|
JSON 文字识别 数据可视化
Qwen2-VL微调实战:LaTex公式OCR识别任务(完整代码)
《SwanLab机器学习实战教程》推出了一项基于Qwen2-VL大语言模型的LaTeX OCR任务,通过指令微调实现多模态LLM的应用。本教程详述了环境配置、数据集准备、模型加载、SwanLab集成及微调训练等步骤,旨在帮助开发者轻松上手视觉大模型的微调实践。
|
16天前
|
机器学习/深度学习 Web App开发 人工智能
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
Amurex是一款开源的AI会议助手,提供实时建议、智能摘要、快速回顾关键信息等功能,帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。
70 18
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
|
6天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
21天前
|
人工智能 关系型数据库 数据库
Perplexideez:开源本地 AI 搜索助手,智能搜索信息来源追溯
Perplexideez 是一款开源的本地 AI 搜索助手,旨在通过智能搜索和信息来源追溯功能,提升用户的搜索体验。它支持多用户、单点登录(SSO),并提供美观的搜索结果展示。Perplexideez 基于 Postgres 数据库,集成了 Ollama 或 OpenAI 兼容的端点,使用 SearXNG 实例进行网络搜索。
69 14
Perplexideez:开源本地 AI 搜索助手,智能搜索信息来源追溯
|
1月前
|
人工智能 搜索推荐 API
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
Perplexica 是一款开源的 AI 驱动搜索引擎,支持多种搜索模式和实时信息更新,适用于个人、学术和企业等不同场景。
157 6
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
|
3天前
|
机器学习/深度学习 人工智能 安全
合合信息亮相CSIG AI可信论坛,全面拆解视觉内容安全的“终极防线”!
合合信息在CSIG AI可信论坛上,全面拆解了视觉内容安全的“终极防线”。面对AI伪造泛滥的问题,如Deepfake换脸、PS篡改等,合合信息展示了其前沿技术,包括通用PS检测系统和AIGC与换脸检测系统,有效应对视觉内容安全挑战。公司在国际赛事中屡获殊荣,并联合多方发布《文本图像篡改检测系统技术要求》,推动行业标准化发展。通过技术创新,合合信息为金融、政企等领域提供可靠保障,守护社会信任,引领视觉内容安全新方向。
20 0
|
2月前
|
人工智能 前端开发 JavaScript
拿下奇怪的前端报错(一):报错信息是一个看不懂的数字数组Buffer(475) [Uint8Array],让AI大模型帮忙解析
本文介绍了前端开发中遇到的奇怪报错问题,特别是当错误信息不明确时的处理方法。作者分享了自己通过还原代码、试错等方式解决问题的经验,并以一个Vue3+TypeScript项目的构建失败为例,详细解析了如何从错误信息中定位问题,最终通过解读错误信息中的ASCII码找到了具体的错误文件。文章强调了基础知识的重要性,并鼓励读者遇到类似问题时不要慌张,耐心分析。
|
2月前
|
JSON 文字识别 小程序
微信小程序OCR插件,实现身份证、行驶证、银行卡、营业执照和驾驶证等识别
微信小程序OCR插件,实现身份证、行驶证、银行卡、营业执照和驾驶证等识别
326 0
|
4月前
|
人工智能 运维 自然语言处理
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
【8月更文挑战第10天】从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
|
3月前
|
人工智能 运维 安全
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区
分享了关于 AI 原生化趋势下服务器操作系统进化的思考,以及浪潮信息在龙蜥社区开源贡献的思路、成果与未来技术发展规划。
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区