文档备案控制台

开发者社区视觉智能文字识别正文

图像文字识别(OCR)用什么算法小结

2018-06-19 8319

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 说明：主要考虑深度学习的方法，传统的方法不在考虑范围之内。1.文字识别步骤1.1detection：找到有文字的区域（proposal)。1.2classification：识别区域中的文字。2.文字检测文字检测主要有两条线，两步法和一步法。

说明：主要考虑深度学习的方法，传统的方法不在考虑范围之内。

1.文字识别步骤

1.1detection：找到有文字的区域（proposal)。

1.2classification：识别区域中的文字。

2.文字检测

文字检测主要有两条线，两步法和一步法。

2.1两步法：faster-rcnn.

2.2一步法：yolo。相比于两步法，一步法速度更快，但是accuracy有损失。

文字检测按照文字的角度分。

2.1水平文字检测：四个自由度，类似于物体检测。水平文字检测比较好的算法是2016ECCV乔宇老师团队的CTPN。

2.2倾斜文字检测：文本框是不规则的四边形，八个自由度。倾斜文字检测个人比较喜欢的方法是2017CVPR的EAST和Seglink。套路：检测文本框－>用radon hough变换等方法进行文本矫正－>通过投影直方图分割出单行的文本的图片－>最后对单行OCR。

3.文字识别

只考虑了不需要对文字进行分割。

3.1定长的，各个字符之间看成是独立的：multi-digit number。

3.2不定长的：RNN/LSTM/GRU+CTC。白翔老师团队的CRNN写的比较清楚。

3.3不定长的attention-mechanism（CNN+RNN+Attention）:分为hard attention（直接给出hard location，不能直接暴力pb）、soft attention（可以暴力pb）、gradient-base attention。

参考:https://www.zhihu.com/question/20191727

文章标签：

文字识别

视觉智能开放平台

算法

文字识别

机器学习/深度学习

关键词：

文字识别ocr

印刷文字识别ocr

印刷文字识别图像

文字识别图像

图像印刷文字识别

ysyouaremyall

目录

相关文章

荔枝科研社

|

9月前

|

机器学习/深度学习算法机器人

【水下图像增强融合算法】基于融合的水下图像与视频增强研究（Matlab代码实现）

【水下图像增强融合算法】基于融合的水下图像与视频增强研究（Matlab代码实现）

荔枝科研社

783 0 2

游客dng4gjyb342he

|

11月前

|

编解码算法

改进SIFT算法实现光学图像和SAR图像配准

改进SIFT算法实现光学图像和SAR图像配准

游客dng4gjyb342he

462 1 1

荔枝科研社

|

9月前

|

机器学习/深度学习算法自动驾驶

基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究（Matlab代码实现）

基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究（Matlab代码实现）

荔枝科研社

463 8 8

啦啦啦191

|

9月前

|

机器学习/深度学习文字识别 Linux

Umi-OCR_文字识别工具免安装使用教程（附下载安装包）!永久免费，开源离线OCR识别软件下载

Umi-OCR是一款开源免费、支持离线运行的高精度OCR文字识别工具，基于深度学习技术，可快速识别中文、英文、日文等多种语言。无需联网，保护隐私，适用于Windows和Linux系统，解压即用，操作简便，是处理图片转文本的理想选择。

啦啦啦191

5732 7 7

荔枝科研社

|

10月前

|

存储监控算法

基于文化优化算法图像量化（Matlab代码实现）

基于文化优化算法图像量化（Matlab代码实现）

荔枝科研社

514 1 1

yunmai

|

机器学习/深度学习文字识别自然语言处理

OCR技术：解锁文字识别的无限可能

OCR（光学字符识别）技术是数字化浪潮中的关键工具，可将纸质文档、手写笔记或复杂背景下的文字图像转化为可编辑文本。本文从图像采集、预处理、字符识别到文本校正，全面解析OCR技术的原理，并探讨其在智能办公、智慧交通、便捷生活等领域的广泛应用。未来，OCR将与自然语言处理、计算机视觉等技术深度融合，推动智能化和综合化发展。通过开放生态系统和政策支持，开发者可探索更多创新场景，如古籍数字化、盲人阅读等，为社会带来更多价值。

yunmai

2299 57 57

34789737

|

人工智能文字识别自然语言处理

熊猫 OCR 识别软件下载，支持截图 OCR、PDF 识别、多语言翻译的免费全能工具，熊猫OCR识别

本文介绍了几款实用的图文识别软件，包括熊猫OCR、Umi-OCR和天若OCR_本地版。熊猫OCR功能强大，支持多窗口操作、AI找图找色、OCR识别等；Umi-OCR免费且高效，具备截图OCR、批量处理等功能；天若OCR界面简洁，适合快速文字识别。文章还提供了下载链接及软件特点、界面展示等内容，便于用户根据需求选择合适的工具。

34789737

1535 36 37

简简单单做算法

|

10月前

|

存储算法生物认证

基于Zhang-Suen算法的图像细化处理FPGA实现,包含testbench和matlab验证程序

本项目基于Zhang-Suen算法实现图像细化处理，支持FPGA与MATLAB双平台验证。通过对比，FPGA细化效果与MATLAB一致，可有效减少图像数据量，便于后续识别与矢量化处理。算法适用于字符识别、指纹识别等领域，配套完整仿真代码及操作说明。

简简单单做算法

335 0 0

荔枝科研社

|

10月前

|

机器学习/深度学习监控并行计算

【图像增强】局部对比度增强的CLAHE算法直方图增强研究（Matlab代码实现）

【图像增强】局部对比度增强的CLAHE算法直方图增强研究（Matlab代码实现）

荔枝科研社

1340 0 0

哈你真皮

|

机器学习/深度学习监控算法

基于单尺度Retinex和多尺度Retinex的图像增强算法实现

基于单尺度Retinex（SSR）和多尺度Retinex（MSR）的图像增强算法实现

哈你真皮

1418 1 1

视觉智能

文字识别

热门文章

最新文章

基于深度学习的自然场景文字检测及端到端的OCR中文文字识别

图像文字识别(OCR)用什么算法小结

浪潮发布业界最高GPU密度的SR-AI整机柜

视觉智能开放平台【文字识别】类目新增五个AI算法，快来看看吧~

阿里云视觉智能开放平台--文字识别使用教程

阿里云文字识别（OCR）通用文字识别-全文识别高精版产品说明

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

分析对比大模型OCR、传统OCR和深度学习OCR

阿里云文字识别（OCR）票据凭证识别Python SDK调用

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

保单AI识别技术及代码示例解析

分析对比大模型OCR、传统OCR和深度学习OCR

阿里云多模态数据信息提取解决方案评测报告

印刷文字识别使用问题之是否支持将识别结果以键值对（key-value）的形式返回

印刷文字识别使用问题之调用代码需要传入哪些参数

相关课程

更多

智能运维赛（复赛）：利用数据和算法，快速定位系统异常并进行根因分析

智能创作赛（复赛）：相册应用中的视频故事生成算法介绍

智能创作赛（初赛）：相册应用中的故事生成算法介绍

相册服务中的故事生成算法介绍

Go语言核心编程 - 数据结构和算法

神经网络概览及算法详解

相关电子书

更多

阿里云智能-印刷文字识别OCR-产品介绍

阿里巴巴读光OCR

印刷文字识别算法设计与在线服务

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！