文档备案控制台

开发者社区视觉智能文字识别正文

JavaCV不到十行代码实现图片OCR文字识别

2023-01-15 958

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： JavaCV不到十行代码实现图片OCR文字识别

spring boot项目pom文件中添加以下依赖

<!-- https://mvnrepository.com/artifact/org.bytedeco/javacv-platform -->
    <dependency>
      <groupId>org.bytedeco</groupId>
      <artifactId>javacv-platform</artifactId>
      <version>1.5.5</version>
    </dependency>

单类代码实现，复制到idea编辑器里，右键run运行即可。

OCR方法参数说明，

1.lng 语言类型分为两种 1.eng 英语 2.chi_sim 中文简体

2.dataPath 语言数据集文件夹路径

编辑

3.imagePath 需要识别的图片文件路径

编辑

import org.bytedeco.javacpp.BytePointer;
import org.bytedeco.leptonica.PIX;
import org.bytedeco.leptonica.global.lept;
import org.bytedeco.tesseract.TessBaseAPI;
public class OcrTest {
    public static String OCR(String lng,String dataPath,String imagePath) {
        TessBaseAPI api=new TessBaseAPI();
        if (api.Init(dataPath, lng)!=0){
            System.out.println("error");
        }
        PIX image= lept.pixRead(imagePath);
        if (image==null){
            return "";
        }
        api.SetImage(image);
        BytePointer outText=api.GetUTF8Text();
        String result=outText.getString();
        api.End();
        outText.deallocate();
        lept.pixDestroy(image);
        return result;
    }
    public static void main(String[] args) {
       String text= OCR("chi_sim", "E:\\traineddata", "C:\\Users\\tarzan\\Desktop\\image\\test5.png");
        System.out.println(text);
    }
}

测试样例结果

test1.jpg

编辑

test2.jpg

编辑

test3.jpg

编辑

test4.jpg

编辑

test5.jpg

编辑

文章标签：

文字识别

视觉智能开放平台

Java

文字识别

Spring

关键词：

文字识别ocr

ocr印刷文字识别

印刷文字识别文字识别

ocr文字识别

图片印刷文字识别

洛阳泰山

目录

相关文章

啦啦啦191

|

9月前

|

机器学习/深度学习文字识别 Linux

Umi-OCR_文字识别工具免安装使用教程（附下载安装包）!永久免费，开源离线OCR识别软件下载

Umi-OCR是一款开源免费、支持离线运行的高精度OCR文字识别工具，基于深度学习技术，可快速识别中文、英文、日文等多种语言。无需联网，保护隐私，适用于Windows和Linux系统，解压即用，操作简便，是处理图片转文本的理想选择。

啦啦啦191

5701 7 7

站大爷

|

10月前

|

机器学习/深度学习文字识别 Java

Python实现PDF图片OCR识别：从原理到实战的全流程解析

本文详解2025年Python实现扫描PDF文本提取的四大OCR方案（Tesseract、EasyOCR、PaddleOCR、OCRmyPDF），涵盖环境配置、图像预处理、核心识别与性能优化，结合财务票据、古籍数字化等实战场景，助力高效构建自动化文档处理系统。

站大爷

2643 0 1

yunmai

|

机器学习/深度学习文字识别自然语言处理

OCR技术：解锁文字识别的无限可能

OCR（光学字符识别）技术是数字化浪潮中的关键工具，可将纸质文档、手写笔记或复杂背景下的文字图像转化为可编辑文本。本文从图像采集、预处理、字符识别到文本校正，全面解析OCR技术的原理，并探讨其在智能办公、智慧交通、便捷生活等领域的广泛应用。未来，OCR将与自然语言处理、计算机视觉等技术深度融合，推动智能化和综合化发展。通过开放生态系统和政策支持，开发者可探索更多创新场景，如古籍数字化、盲人阅读等，为社会带来更多价值。

yunmai

2289 57 57

34789737

|

人工智能文字识别自然语言处理

熊猫 OCR 识别软件下载，支持截图 OCR、PDF 识别、多语言翻译的免费全能工具，熊猫OCR识别

本文介绍了几款实用的图文识别软件，包括熊猫OCR、Umi-OCR和天若OCR_本地版。熊猫OCR功能强大，支持多窗口操作、AI找图找色、OCR识别等；Umi-OCR免费且高效，具备截图OCR、批量处理等功能；天若OCR界面简洁，适合快速文字识别。文章还提供了下载链接及软件特点、界面展示等内容，便于用户根据需求选择合适的工具。

34789737

1533 36 37

游客lijmi4663rgsa

|

机器学习/深度学习文字识别开发者

使用OCR库Pix2Text执行p2t.recognize()时出现list index out of range的错误信息（附有Pix2Text识别图片内容和laTex公式的代码）

有时候报错并不是你代码有问题，源码出错也是很常见的情况，比如之前使用mxgraph也出现了不知名bug，最后也是修改的源码解决的。有疑问欢迎交流~ 博客不应该只有代码和解决方案，重点应该在于给出解决方案的同时分享思维模式，只有思维才能可持续地解决问题，只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助，麻烦您点个赞支持一下，还可以收藏起来以备不时之需，有疑问和错误欢迎在评论区指出~

游客lijmi4663rgsa

539 1 1

游客lijmi4663rgsa

|

文字识别 UED Python

对双栏 | 单双栏混合 | 图表文字混合的复杂布局的图片OCR识别（对布局复杂的整个pdf进行OCR识别）

这个故事告诉我们要多尝试不同的库和引擎，尤其是需求比较偏门或者少见的时候。同一个方向不同的库所擅长的领域是不一样的。博客不应该只有代码和解决方案，重点应该在于给出解决方案的同时分享思维模式，只有思维才能可持续地解决问题，只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助，麻烦您点个赞支持一下，还可以收藏起来以备不时之需，有疑问和错误欢迎在评论区指出~

游客lijmi4663rgsa

889 0 0

蚝油菜花

|

人工智能文字识别 API

moonshot-v1-vision-preview：月之暗面Kimi推出多模态视觉理解模型，支持图像识别、OCR文字识别、数据提取

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型，具备强大的图像识别、OCR文字识别和数据提取能力，支持API调用，适用于多种应用场景。

蚝油菜花

3050 6 6

moonshot-v1-vision-preview：月之暗面Kimi推出多模态视觉理解模型，支持图像识别、OCR文字识别、数据提取

思通聚宝

|

存储人工智能文字识别

AI与OCR：数字档案馆图像扫描与文字识别技术实现与项目案例

本文介绍了纸质档案数字化的技术流程，包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取，以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术，提高图像质量，确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储，实现了高效、准确的档案数字化。具体应用案例显示，该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。

思通聚宝

2204 1 1

三分钟热度的鱼

|

文字识别 API 开发工具

印刷文字识别使用问题之如何提高OCR的识别率

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

三分钟热度的鱼

632 3 3

三分钟热度的鱼

|

文字识别前端开发 API

印刷文字识别操作报错合集之通过HTTPS连接到OCR服务的API时报错，该如何处理

在使用印刷文字识别(OCR)服务时，可能会遇到各种错误。例如：1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题（403 Forbidden）、6.调用拒绝（Refused）、7.智能纠错问题、8.图片质量或格式问题，以下是一些常见错误及其可能的原因和解决方案的合集。

三分钟热度的鱼

1030 1 1

视觉智能

文字识别

热门文章

最新文章

基于深度学习的自然场景文字检测及端到端的OCR中文文字识别

图像文字识别(OCR)用什么算法小结

吴恩达《机器学习》课程总结（18）应用实例：图片文字识别

阿里宜搭发布OCR文字识别插件助力合作伙伴升级

阿里云视觉智能开放平台--文字识别使用教程

分析对比大模型OCR、传统OCR和深度学习OCR

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

阿里云文字识别（OCR）服务 Quick Start

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

保单AI识别技术及代码示例解析

分析对比大模型OCR、传统OCR和深度学习OCR

阿里云多模态数据信息提取解决方案评测报告

印刷文字识别使用问题之是否支持将识别结果以键值对（key-value）的形式返回

印刷文字识别使用问题之调用代码需要传入哪些参数

相关电子书

更多

阿里云智能-印刷文字识别OCR-产品介绍

阿里巴巴读光OCR

印刷文字识别算法设计与在线服务

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！