图像识别试验 - 字符验证码、车牌号、身份证号

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介:

© 野比 2012

欢迎大家和我讨论相关问题。

代码在此(注意此版并非最终版)

光学字符识别(OCR)是非常有用的技术。在验证码识别、车牌号识别、文字识别方面,基于字符的识别技术算是比较容易上手的了(相比图文识别)。

闲来看到有朋友研究验证码识别,一时手痒,野比自己动手来做做验证码识别。当然,肯定只是简单的验证码。

名为验证码,实际上并不限于,还可以识别车牌号、身份证号、门牌号等各种乱七八糟的内容。

识别的流程很明确:

1、预处理图像

2、做y轴的投影

3、分析直方图分区

4、根据分区拆分图像为多个字符(很关键,拆得越好,后续识别率越高)

5、丢弃空白或无效字符

6、自动旋转字符(如果有倾斜),识别字符

如果样本中个图像有粘连,则可能造成分区不准确。这种情况下,需要进行旋转,但是怎样自动旋转,是个难题。

目前已可拆分出字符,下一步准备研究如何识别。(如果单个字符比较规范,可以利用现成的OCR控件)

这里有一些例子。

普通的验证码(毫无难度)

带干扰的验证码

较高强度干扰(目前使用的分区算法不能解决,需要更好的算法,比如动态阈值)

CSDN的验证码(毫无压力)

身份证号码

车牌号

补充个QQ验证码,用单一阈值方法,识别很困难,需要结合字符宽度进行判断

这是单一阈值分区的结果(没有限制宽度),可以看到效果很差。

继续研究如何优化分区算法,如何识别单个文字(可以考虑多重识别+样本训练)。

 

附上太平洋网站验证码。

有些粘连,但是可以通过固定字符宽度解决(宽度基本一致)

参考这张图(获得整个宽度,然后除以字符数得到每个宽度,分别提取)

二值化我用的Otsu算法,参考文献:"A threshold selection method from gray-level histograms", IEEE Trans. Systems, Man and Cybernetics 9(1), pp. 62–66, 1979

关于验证码,这篇论文很不错,建议参考:"Text-based CAPTCHA Strengths and Weaknesses", ACM Computer and Communication security 2011 (CSS'2011)

© 野比 2012

改进的去污算法

 

污损车牌号拆分字符

 

Ref:

二值化我用的Otsu算法,参考文献:"A threshold selection method from gray-level histograms", IEEE Trans. Systems, Man and Cybernetics 9(1), pp. 62–66, 1979

关于验证码,这篇论文很不错,建议参考:"Text-based CAPTCHA Strengths and Weaknesses", ACM Computer and Communication security 2011 (CSS'2011)

相关文章
|
5月前
|
文字识别 数据安全/隐私保护 iOS开发
印刷文字识别使用问题之如何识别礼品册上的卡号、密码信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别 新能源
文本,文字识别14,身份证和车牌识别接口
文本,文字识别14,身份证和车牌识别接口
|
7月前
|
算法 开发工具 计算机视觉
条形码识别研究
条形码识别研究
167 0
|
7月前
|
人工智能 API 开发工具
【Python+百度API】实现人脸识别和颜值检测系统(包括人脸数量、年龄、颜值评分、性别、种族、表情检测)(超详细 附源码)
【Python+百度API】实现人脸识别和颜值检测系统(包括人脸数量、年龄、颜值评分、性别、种族、表情检测)(超详细 附源码)
337 0
|
机器学习/深度学习 算法 大数据
如何通过空号检测,验证电话号码数据的准确性
空号检测接口通过结合数据查询和验证算法,为企业和个人提供了一种有效的方式来确定电话号码的有效性。它在营销、客户服务、身份验证和运营商等方面发挥着重要作用,提高了资源利用效率、用户体验和数据准确性。随着通信技术的发展,空号检测接口将继续发挥更大的作用,帮助解决电话号码有效性的挑战
498 0
|
文字识别 UED
身份证OCR接口:提高录入效率+识别信息造假
现在的身份证登记多采用人工录入方式,这样做不仅费时而且效率很低。如何利用新兴的身份证OCR接口证件识别技术,快速、高效、完整地录入证件信息,并对其进行相应的管控与核验,已成为许多信息系统亟待解决的问题。
164 0
|
计算机视觉
openCV实践项目:银行卡卡号识别
openCV实践项目:银行卡卡号识别
openCV实践项目:银行卡卡号识别
|
机器学习/深度学习 存储 传感器
【汉字识别】基于模板匹配实现汉字精准识别附Matlab代码
【汉字识别】基于模板匹配实现汉字精准识别附Matlab代码
|
机器学习/深度学习 传感器 人工智能
盗取密码,AI表示只需20秒!通过拍摄热图像确定字母和顺序,成功率高达86%
最近,国内首部以网络安全为题材的作品《你安全吗?》大火。 电视剧中呈现了只有做不到没有想不到的种种黑客攻击手段,随之而来的便是网友们对自己网络安全的种种担忧。
166 0
盗取密码,AI表示只需20秒!通过拍摄热图像确定字母和顺序,成功率高达86%
|
机器学习/深度学习 人工智能 算法
根据“气质”,AI可以准确识别婴儿年龄、性别
仅根据外貌以及行为特征,例如婴儿表现出的恐惧、微笑或大笑,很难区分新生儿是男孩或女孩。但是一旦婴儿长到一岁左右,情况就会开始改变,不同新生儿的不同“气质”,就开始显现出来。
根据“气质”,AI可以准确识别婴儿年龄、性别