科普时间:OCR是人工智能的基础之一

本文涉及的产品
票据凭证识别,票据凭证识别 200次/月
车辆物流识别,车辆物流识别 200次/月
教育场景识别,教育场景识别 200次/月
简介:

作为计算机视觉领域的一个分支,OCR对于人机交互相当具有重要性。

在人机交互方面,大多人想到的都是语音交互,毕竟这是人类之间运用率最高的交流方式,且语音识别、自然语言理解等技术目前也发展的相当不错。

科普时间:OCR是人工智能的基础之一

但是,我们也不得不忽视这样一个事实:我们每天都被文字所包围,像每天办公的文件、上课的板书、商品的介绍等等都是由文字组成的,并且这些文字在某一程度上也是语音交互的基础,而这其中关乎一个关键的技术——OCR (Optical Character Recognition),光学字符识别

科普时间:OCR是人工智能的基础之一

什么是OCR?

OCR是指光学设备(扫描仪、数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。此概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

在20世纪50年代,IBM就开始利用OCR技术实现各类文档的数字化,到了80年代,平板扫描仪的诞生更是让OCR进入了商用阶段,但不管是哪个阶段,那时的OCR设备对于文字背景的要求非常之高,也需要很好的成像质量。

科普时间:OCR是人工智能的基础之一

OCR的工作原理

一般来讲,OCR的工作原理包括四个部分

影像输入:通过光学设备将图片转入计算机后,系统会对图片进行一些处理,包括字符格式的分离、二值化处理、图像降噪、倾斜校正、文字特征抽取等等,以提升图片的精确度;

对比识别:根据字符的不同特征,将之与数据库进行对比,并利用对比后的识别文字与其可能的相似候选字群众,根据前后的识别文字找出最合乎逻辑的词,再作出更正,以加强比对的正确性;

人工校正:目前为止还没有一款软件的文字识别时百分之百的,所以还需要用户亲自校正,确保输出的准确性;

影像输出:结果输出到txt、doc、exl等格式。

现实中,OCR的发展其实已经相当完善了,不过,随着人们需求的变更,此种OCR已经不能满足人们的要求。而在当前,自然环境OCR是人们最为关注的点

科普时间:OCR是人工智能的基础之一

自然环境OCR进展

相比于传统的OCR,自然环境OCR最难的部分在于文本检测(将文字从图片中提取出来),因为它具有极大的多样性和明显的不确定性。如文字中包含多种语言,每种语言含有多种字母,每个字母又可以有不同的大小、字体、颜色、亮度、对比度、排列和对齐方式等;因拍摄图像的随意性,文字区域还可能会产生变形、模糊断裂等现象。另外,背景也是一大干扰因素,如文字区域附近有非常复杂的纹理;非文字区域有着跟文字区域非常相似的纹理,比如窗户、树叶、栅栏、砖墙等。

文本检测首先要从图像中切割出可能存在的文字,即候选连通区域,目前被采取最多的方法是MSER(最大平稳极值区域)。当然,也有团队在此基础上开发出了自己的一套算法,比如微软研究院在传统检测方法ER(极值区域)和MSER基础之上采用了对比极值区域CER(Contrasting Extremal Region),CER是跟周围的背景有一定对比度的极值区域,在低对比度的图像上比MSER效果更好,而且获得的候选连通区域数量远小于ER,提高了算法的效率,并且,为了提高所获得连通区域的质量,微软又增加一个算法环节去增强CER。最后,微软采取了一套基于浅层神经网络的文字/非文字分类算法,进一步提高了对于连通区域字符的辨认率。

在此基础之上,微软研究院的成果也得到了世界的验证。2014年8月,在瑞典首都斯德哥尔摩举办的国际模式识别大会(ICPR)上,微软亚洲研究院团队公布的研究成果在自然场景文字检测的标准数据集(ICDAR-2013测试集)上取得了92.1%的检测精度和92.3%的召回率。据了解,此前业界最好技术的检测精度是88.5%,而召回率只有66.5%。

科普时间:OCR是人工智能的基础之一

OCR的应用前景

不管是传统OCR,还是自然环境OCR,其参与者还是不少的。在国内,涉足OCR的企业主要有汉王、文通、百度等,国外的像ABBYY、IRIS、Google、微软等等。此外,市面上也有不少OCR产品,传统的OCR产品有尚书、汉王等,自然环境OCR的有百度翻译、Google翻译,实用性相当的不错。

论起OCR的应用前景的话,仅看其隶属于计算机视觉领域的一个分支,再联系到当前人工智能的发展,其前景可想而知。再往细讲,除了翻译、智能购物意外,OCR未来最大的发展潜力在于人机交互

众所周知,人机交互一直是研究者追求的东西,但是目前也仅仅做到了语音交互和肢体交互。文字代表了人类的所有智慧与思想,如果机器人能够进行文字识别,那它将能够进一步获取知识、学习人类,进而与人类进行更为自然的交互,或是协助人类工作,提高效率。


原文发布时间: 2016-10-19 18:47
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
机器学习/深度学习 人工智能 文字识别
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI基础科普:揭开人工智能的神秘面纱
人工智能(Artificial Intelligence, AI)已经成为现代科技的热门话题,影响着我们的生活方方面面。从语音助手到自动驾驶汽车,AI正在以惊人的速度改变着世界。然而,对于许多人来说,AI仍然是一个模糊的概念。本文将通过通俗易懂的语言和丰富的图文,全面介绍AI的基础知识,帮助读者更好地理解这个激动人心的领域。
|
存储 人工智能 文字识别
极速搭建基于人工智能的OCR识别应用
本场景将使用阿里云函数计算,Serverless 应用中心,带大家 1分钟 Serverless 极速部署基于人工智能的OCR识别应用。
|
机器学习/深度学习 人工智能 自然语言处理
万字长文科普:人工智能是什么?它又是如何工作的呢?(三)
万字长文科普:人工智能是什么?它又是如何工作的呢?(三)
404 0
万字长文科普:人工智能是什么?它又是如何工作的呢?(三)
|
机器学习/深度学习 人工智能 自然语言处理
万字长文科普:人工智能是什么?它又是如何工作的呢?(二)
万字长文科普:人工智能是什么?它又是如何工作的呢?(二)
241 0
万字长文科普:人工智能是什么?它又是如何工作的呢?(二)
|
存储 人工智能 自然语言处理
万字长文科普:人工智能是什么?它又是如何工作的呢?(一)
万字长文科普:人工智能是什么?它又是如何工作的呢?(一)
319 0
万字长文科普:人工智能是什么?它又是如何工作的呢?(一)
|
人工智能 JSON 文字识别
百度人工智能OCR调用调试过程
百度人工智能OCR调用调试过程
296 0
百度人工智能OCR调用调试过程
|
机器学习/深度学习 人工智能 自然语言处理
科普贴:从人工智障到人工智能
人工智能(Artificial Intelligence),英文缩写为AI,是计算机科学的一个分支,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。而人工智能又分弱人工智能,强人工智能和超人工智能三个等级。
382 0
科普贴:从人工智障到人工智能
|
4月前
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
4月前
|
人工智能 JSON 文字识别
印刷文字识别使用问题之如何数电发票进行识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

热门文章

最新文章

  • 1
    【Python】已解决:Python正确安装文字识别库EasyOCR
    426
  • 2
    提升爬虫OCR识别率:解决嘈杂验证码问题
    123
  • 3
    文本,文字识别14,身份证和车牌识别接口
    28
  • 4
    文本,文字识别13,参数校验,实现参数校验,使用@Valid注解
    26
  • 5
    文本,文字识别12,接口返回值和异常封装,一个好的接口,应该包括,错误码,提示信息,返回的数据,应该知道出错,错在哪里,抛出业务异常应该怎样解决?出现业务异常的时候,抛出业务异常,全局异常处理
    37
  • 6
    文本,文识11,解析OCR结果,paddOCR返回的数据,接口返回的数据有code,data,OCR返回是JSON的数据,得到JSON数据先安装依赖,Base64转换工具网站在21.14
    95
  • 7
    文本,文识10,springBoot提供RestTemplate以调用Flask OCR接口,调用flask实现ocr接口,用paddleocr进行图片识别云服务技术,单个paddleocr接口有影响
    89
  • 8
    文本,文识08图片保存()上,最方便在于整体生成代码,serivce及实体类,base64编码保存图片文件,调用flask实现内部ocr接口,通过paddleocr识别,解析结果,base64转图片
    45
  • 9
    文本,文字识别07,SpringBoot服务开发-入参和返回值,编写接口的时候,要注意识别的文字返回的是多行,因此必须是List集合,Bean层,及实体类的搭建
    49
  • 10
    文本,文字识别,Flask实现内部接口开发,OCR外部接口的开发,如何开发一个识别接口,通过post调用,参数是图片的路径,内部调用,直接传图片路径就行
    64