科普时间:OCR是人工智能的基础之一

本文涉及的产品
企业资质识别,企业资质识别 200次/月
车辆物流识别,车辆物流识别 200次/月
票据凭证识别,票据凭证识别 200次/月
简介:

作为计算机视觉领域的一个分支,OCR对于人机交互相当具有重要性。

在人机交互方面,大多人想到的都是语音交互,毕竟这是人类之间运用率最高的交流方式,且语音识别、自然语言理解等技术目前也发展的相当不错。

科普时间:OCR是人工智能的基础之一

但是,我们也不得不忽视这样一个事实:我们每天都被文字所包围,像每天办公的文件、上课的板书、商品的介绍等等都是由文字组成的,并且这些文字在某一程度上也是语音交互的基础,而这其中关乎一个关键的技术——OCR (Optical Character Recognition),光学字符识别

科普时间:OCR是人工智能的基础之一

什么是OCR?

OCR是指光学设备(扫描仪、数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。此概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

在20世纪50年代,IBM就开始利用OCR技术实现各类文档的数字化,到了80年代,平板扫描仪的诞生更是让OCR进入了商用阶段,但不管是哪个阶段,那时的OCR设备对于文字背景的要求非常之高,也需要很好的成像质量。

科普时间:OCR是人工智能的基础之一

OCR的工作原理

一般来讲,OCR的工作原理包括四个部分

影像输入:通过光学设备将图片转入计算机后,系统会对图片进行一些处理,包括字符格式的分离、二值化处理、图像降噪、倾斜校正、文字特征抽取等等,以提升图片的精确度;

对比识别:根据字符的不同特征,将之与数据库进行对比,并利用对比后的识别文字与其可能的相似候选字群众,根据前后的识别文字找出最合乎逻辑的词,再作出更正,以加强比对的正确性;

人工校正:目前为止还没有一款软件的文字识别时百分之百的,所以还需要用户亲自校正,确保输出的准确性;

影像输出:结果输出到txt、doc、exl等格式。

现实中,OCR的发展其实已经相当完善了,不过,随着人们需求的变更,此种OCR已经不能满足人们的要求。而在当前,自然环境OCR是人们最为关注的点

科普时间:OCR是人工智能的基础之一

自然环境OCR进展

相比于传统的OCR,自然环境OCR最难的部分在于文本检测(将文字从图片中提取出来),因为它具有极大的多样性和明显的不确定性。如文字中包含多种语言,每种语言含有多种字母,每个字母又可以有不同的大小、字体、颜色、亮度、对比度、排列和对齐方式等;因拍摄图像的随意性,文字区域还可能会产生变形、模糊断裂等现象。另外,背景也是一大干扰因素,如文字区域附近有非常复杂的纹理;非文字区域有着跟文字区域非常相似的纹理,比如窗户、树叶、栅栏、砖墙等。

文本检测首先要从图像中切割出可能存在的文字,即候选连通区域,目前被采取最多的方法是MSER(最大平稳极值区域)。当然,也有团队在此基础上开发出了自己的一套算法,比如微软研究院在传统检测方法ER(极值区域)和MSER基础之上采用了对比极值区域CER(Contrasting Extremal Region),CER是跟周围的背景有一定对比度的极值区域,在低对比度的图像上比MSER效果更好,而且获得的候选连通区域数量远小于ER,提高了算法的效率,并且,为了提高所获得连通区域的质量,微软又增加一个算法环节去增强CER。最后,微软采取了一套基于浅层神经网络的文字/非文字分类算法,进一步提高了对于连通区域字符的辨认率。

在此基础之上,微软研究院的成果也得到了世界的验证。2014年8月,在瑞典首都斯德哥尔摩举办的国际模式识别大会(ICPR)上,微软亚洲研究院团队公布的研究成果在自然场景文字检测的标准数据集(ICDAR-2013测试集)上取得了92.1%的检测精度和92.3%的召回率。据了解,此前业界最好技术的检测精度是88.5%,而召回率只有66.5%。

科普时间:OCR是人工智能的基础之一

OCR的应用前景

不管是传统OCR,还是自然环境OCR,其参与者还是不少的。在国内,涉足OCR的企业主要有汉王、文通、百度等,国外的像ABBYY、IRIS、Google、微软等等。此外,市面上也有不少OCR产品,传统的OCR产品有尚书、汉王等,自然环境OCR的有百度翻译、Google翻译,实用性相当的不错。

论起OCR的应用前景的话,仅看其隶属于计算机视觉领域的一个分支,再联系到当前人工智能的发展,其前景可想而知。再往细讲,除了翻译、智能购物意外,OCR未来最大的发展潜力在于人机交互

众所周知,人机交互一直是研究者追求的东西,但是目前也仅仅做到了语音交互和肢体交互。文字代表了人类的所有智慧与思想,如果机器人能够进行文字识别,那它将能够进一步获取知识、学习人类,进而与人类进行更为自然的交互,或是协助人类工作,提高效率。


原文发布时间: 2016-10-19 18:47
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
机器学习/深度学习 存储 人工智能
政务部门人工智能OCR智能化升级:3大技术架构与4项核心功能解析
本项目针对政务服务数字化需求,建设智能文档处理平台,利用OCR、信息抽取和深度学习技术,实现文件自动解析、分类、比对与审核,提升效率与准确性。平台强调本地部署,确保数据安全,解决低质量扫描件、复杂表格等痛点,降低人工成本与错误率,助力智慧政务发展。
|
5月前
|
机器学习/深度学习 人工智能 文字识别
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI基础科普:揭开人工智能的神秘面纱
人工智能(Artificial Intelligence, AI)已经成为现代科技的热门话题,影响着我们的生活方方面面。从语音助手到自动驾驶汽车,AI正在以惊人的速度改变着世界。然而,对于许多人来说,AI仍然是一个模糊的概念。本文将通过通俗易懂的语言和丰富的图文,全面介绍AI的基础知识,帮助读者更好地理解这个激动人心的领域。
|
存储 人工智能 文字识别
极速搭建基于人工智能的OCR识别应用
本场景将使用阿里云函数计算,Serverless 应用中心,带大家 1分钟 Serverless 极速部署基于人工智能的OCR识别应用。
|
机器学习/深度学习 人工智能 自然语言处理
万字长文科普:人工智能是什么?它又是如何工作的呢?(三)
万字长文科普:人工智能是什么?它又是如何工作的呢?(三)
416 0
万字长文科普:人工智能是什么?它又是如何工作的呢?(三)
|
机器学习/深度学习 人工智能 自然语言处理
万字长文科普:人工智能是什么?它又是如何工作的呢?(二)
万字长文科普:人工智能是什么?它又是如何工作的呢?(二)
250 0
万字长文科普:人工智能是什么?它又是如何工作的呢?(二)
|
存储 人工智能 自然语言处理
万字长文科普:人工智能是什么?它又是如何工作的呢?(一)
万字长文科普:人工智能是什么?它又是如何工作的呢?(一)
334 0
万字长文科普:人工智能是什么?它又是如何工作的呢?(一)
|
人工智能 JSON 文字识别
百度人工智能OCR调用调试过程
百度人工智能OCR调用调试过程
306 0
百度人工智能OCR调用调试过程
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在医疗诊断中的应用与前景####
本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战及未来发展趋势。通过分析AI如何辅助医生进行疾病诊断,提高诊断效率和准确性,以及其在个性化医疗中的潜力,文章揭示了AI技术对医疗行业变革的推动作用。同时,也指出了数据隐私、算法偏见等伦理问题,并展望了AI与人类医生协同工作的前景。 ####
47 0
|
25天前
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在现代医疗中的革新应用
本文深入探讨了人工智能(AI)技术在医疗领域的最新进展,重点分析了AI如何通过提高诊断准确性、个性化治疗方案的制定以及优化患者管理流程来革新现代医疗。文章还讨论了AI技术面临的挑战和未来发展趋势,为读者提供了一个全面了解AI在医疗领域应用的视角。
59 11

热门文章

最新文章