科普时间:OCR是人工智能的基础之一

简介:

作为计算机视觉领域的一个分支,OCR对于人机交互相当具有重要性。

在人机交互方面,大多人想到的都是语音交互,毕竟这是人类之间运用率最高的交流方式,且语音识别、自然语言理解等技术目前也发展的相当不错。

科普时间:OCR是人工智能的基础之一

但是,我们也不得不忽视这样一个事实:我们每天都被文字所包围,像每天办公的文件、上课的板书、商品的介绍等等都是由文字组成的,并且这些文字在某一程度上也是语音交互的基础,而这其中关乎一个关键的技术——OCR (Optical Character Recognition),光学字符识别

科普时间:OCR是人工智能的基础之一

什么是OCR?

OCR是指光学设备(扫描仪、数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。此概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

在20世纪50年代,IBM就开始利用OCR技术实现各类文档的数字化,到了80年代,平板扫描仪的诞生更是让OCR进入了商用阶段,但不管是哪个阶段,那时的OCR设备对于文字背景的要求非常之高,也需要很好的成像质量。

科普时间:OCR是人工智能的基础之一

OCR的工作原理

一般来讲,OCR的工作原理包括四个部分

影像输入:通过光学设备将图片转入计算机后,系统会对图片进行一些处理,包括字符格式的分离、二值化处理、图像降噪、倾斜校正、文字特征抽取等等,以提升图片的精确度;

对比识别:根据字符的不同特征,将之与数据库进行对比,并利用对比后的识别文字与其可能的相似候选字群众,根据前后的识别文字找出最合乎逻辑的词,再作出更正,以加强比对的正确性;

人工校正:目前为止还没有一款软件的文字识别时百分之百的,所以还需要用户亲自校正,确保输出的准确性;

影像输出:结果输出到txt、doc、exl等格式。

现实中,OCR的发展其实已经相当完善了,不过,随着人们需求的变更,此种OCR已经不能满足人们的要求。而在当前,自然环境OCR是人们最为关注的点

科普时间:OCR是人工智能的基础之一

自然环境OCR进展

相比于传统的OCR,自然环境OCR最难的部分在于文本检测(将文字从图片中提取出来),因为它具有极大的多样性和明显的不确定性。如文字中包含多种语言,每种语言含有多种字母,每个字母又可以有不同的大小、字体、颜色、亮度、对比度、排列和对齐方式等;因拍摄图像的随意性,文字区域还可能会产生变形、模糊断裂等现象。另外,背景也是一大干扰因素,如文字区域附近有非常复杂的纹理;非文字区域有着跟文字区域非常相似的纹理,比如窗户、树叶、栅栏、砖墙等。

文本检测首先要从图像中切割出可能存在的文字,即候选连通区域,目前被采取最多的方法是MSER(最大平稳极值区域)。当然,也有团队在此基础上开发出了自己的一套算法,比如微软研究院在传统检测方法ER(极值区域)和MSER基础之上采用了对比极值区域CER(Contrasting Extremal Region),CER是跟周围的背景有一定对比度的极值区域,在低对比度的图像上比MSER效果更好,而且获得的候选连通区域数量远小于ER,提高了算法的效率,并且,为了提高所获得连通区域的质量,微软又增加一个算法环节去增强CER。最后,微软采取了一套基于浅层神经网络的文字/非文字分类算法,进一步提高了对于连通区域字符的辨认率。

在此基础之上,微软研究院的成果也得到了世界的验证。2014年8月,在瑞典首都斯德哥尔摩举办的国际模式识别大会(ICPR)上,微软亚洲研究院团队公布的研究成果在自然场景文字检测的标准数据集(ICDAR-2013测试集)上取得了92.1%的检测精度和92.3%的召回率。据了解,此前业界最好技术的检测精度是88.5%,而召回率只有66.5%。

科普时间:OCR是人工智能的基础之一

OCR的应用前景

不管是传统OCR,还是自然环境OCR,其参与者还是不少的。在国内,涉足OCR的企业主要有汉王、文通、百度等,国外的像ABBYY、IRIS、Google、微软等等。此外,市面上也有不少OCR产品,传统的OCR产品有尚书、汉王等,自然环境OCR的有百度翻译、Google翻译,实用性相当的不错。

论起OCR的应用前景的话,仅看其隶属于计算机视觉领域的一个分支,再联系到当前人工智能的发展,其前景可想而知。再往细讲,除了翻译、智能购物意外,OCR未来最大的发展潜力在于人机交互

众所周知,人机交互一直是研究者追求的东西,但是目前也仅仅做到了语音交互和肢体交互。文字代表了人类的所有智慧与思想,如果机器人能够进行文字识别,那它将能够进一步获取知识、学习人类,进而与人类进行更为自然的交互,或是协助人类工作,提高效率。


原文发布时间: 2016-10-19 18:47
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
万字长文科普:人工智能是什么?它又是如何工作的呢?(三)
万字长文科普:人工智能是什么?它又是如何工作的呢?(三)
324 0
万字长文科普:人工智能是什么?它又是如何工作的呢?(三)
|
机器学习/深度学习 人工智能 自然语言处理
万字长文科普:人工智能是什么?它又是如何工作的呢?(二)
万字长文科普:人工智能是什么?它又是如何工作的呢?(二)
192 0
万字长文科普:人工智能是什么?它又是如何工作的呢?(二)
|
存储 人工智能 自然语言处理
万字长文科普:人工智能是什么?它又是如何工作的呢?(一)
万字长文科普:人工智能是什么?它又是如何工作的呢?(一)
247 0
万字长文科普:人工智能是什么?它又是如何工作的呢?(一)
|
机器学习/深度学习 人工智能 自然语言处理
科普贴:从人工智障到人工智能
人工智能(Artificial Intelligence),英文缩写为AI,是计算机科学的一个分支,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。而人工智能又分弱人工智能,强人工智能和超人工智能三个等级。
279 0
科普贴:从人工智障到人工智能
|
机器学习/深度学习 人工智能 语音技术
|
1月前
|
人工智能 安全 网络安全
欧盟《人工智能法案》对通用AI模型的监管要求
【2月更文挑战第24天】欧盟《人工智能法案》对通用AI模型的监管要求
82 1
欧盟《人工智能法案》对通用AI模型的监管要求
|
1月前
|
人工智能 安全 数据挖掘
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
|
28天前
|
机器学习/深度学习 人工智能 运维
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(二)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
59 1
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(一)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
73 1
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理

热门文章

最新文章