图像文字识别(OCR)用什么算法小结

简介: 说明:主要考虑深度学习的方法,传统的方法不在考虑范围之内。1.文字识别步骤1.1detection:找到有文字的区域(proposal)。1.2classification:识别区域中的文字。2.文字检测文字检测主要有两条线,两步法和一步法。

说明:主要考虑深度学习的方法,传统的方法不在考虑范围之内。

1.文字识别步骤

1.1detection:找到有文字的区域(proposal)。

1.2classification:识别区域中的文字。

2.文字检测

文字检测主要有两条线,两步法和一步法。

2.1两步法:faster-rcnn.

2.2一步法:yolo。相比于两步法,一步法速度更快,但是accuracy有损失。

文字检测按照文字的角度分。

2.1水平文字检测:四个自由度,类似于物体检测。水平文字检测比较好的算法是2016ECCV乔宇老师团队的CTPN。

2.2倾斜文字检测:文本框是不规则的四边形,八个自由度。倾斜文字检测个人比较喜欢的方法是2017CVPR的EAST和Seglink。套路:检测文本框->用radon hough变换等方法进行文本矫正->通过投影直方图分割出单行的文本的图片->最后对单行OCR。

3.文字识别

只考虑了不需要对文字进行分割。

3.1定长的,各个字符之间看成是独立的:multi-digit number。

3.2不定长的:RNN/LSTM/GRU+CTC。白翔老师团队的CRNN写的比较清楚。

3.3不定长的attention-mechanism(CNN+RNN+Attention):分为hard attention(直接给出hard location,不能直接暴力pb)、soft attention(可以暴力pb)、gradient-base attention。

 

参考:https://www.zhihu.com/question/20191727

 

相关文章
|
12天前
|
编解码 监控 算法
图像和视频处理中DSP算法的研究与发展
图像和视频处理中DSP算法的研究与发展
32 2
|
7天前
|
人工智能 编解码 算法
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
在本教程中,您将学习在阿里云交互式建模平台PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理,实现文本驱动的图像编辑功能单卡即可完成AIGC图片风格变化、背景变化和主体变化等功能。让我们一同开启这场旅程,为您的图像编辑添上无限可能性的翅膀吧。
|
12天前
|
JSON 缓存 文字识别
【公众号开发】图像文字识别 · 模板消息推送 · 素材管理 · 带参数二维码的生成与事件的处理
【公众号开发】图像文字识别 · 模板消息推送 · 素材管理 · 带参数二维码的生成与事件的处理
26 0
|
6天前
|
存储 编解码 算法
图像的压缩算法--尺寸压缩、格式压缩和品质压缩
图像的压缩算法--尺寸压缩、格式压缩和品质压缩
12 0
|
11天前
|
文字识别 JavaScript Java
印刷文字识别产品使用合集之阿里云文字识别OCR demo主要有哪些
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
148 0
|
11天前
|
文字识别 API Swift
印刷文字识别产品使用合集之怎么进行牌匾文字识别
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
12天前
|
机器学习/深度学习 文字识别 监控
印刷文字识别产品使用合集之在OCR中,识别增值税专用发票的时候为什么会把不含税金额做取整处理
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
12天前
|
文字识别 JavaScript 前端开发
印刷文字识别产品使用合集之在OCR中,可以使用平台给的AppKey、AppSecret、AppCode进行调用吗
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
12天前
|
文字识别
印刷文字识别产品使用合集之OCR调用为什么会失败
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
12天前
|
算法
有史以来最全的图像相似度算法
有史以来最全的图像相似度算法
9 0

热门文章

最新文章