科普时间:OCR是人工智能的基础之一

简介:

作为计算机视觉领域的一个分支,OCR对于人机交互相当具有重要性。

在人机交互方面,大多人想到的都是语音交互,毕竟这是人类之间运用率最高的交流方式,且语音识别、自然语言理解等技术目前也发展的相当不错。

科普时间:OCR是人工智能的基础之一

但是,我们也不得不忽视这样一个事实:我们每天都被文字所包围,像每天办公的文件、上课的板书、商品的介绍等等都是由文字组成的,并且这些文字在某一程度上也是语音交互的基础,而这其中关乎一个关键的技术——OCR (Optical Character Recognition),光学字符识别

科普时间:OCR是人工智能的基础之一

什么是OCR?

OCR是指光学设备(扫描仪、数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。此概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

在20世纪50年代,IBM就开始利用OCR技术实现各类文档的数字化,到了80年代,平板扫描仪的诞生更是让OCR进入了商用阶段,但不管是哪个阶段,那时的OCR设备对于文字背景的要求非常之高,也需要很好的成像质量。

科普时间:OCR是人工智能的基础之一

OCR的工作原理

一般来讲,OCR的工作原理包括四个部分

影像输入:通过光学设备将图片转入计算机后,系统会对图片进行一些处理,包括字符格式的分离、二值化处理、图像降噪、倾斜校正、文字特征抽取等等,以提升图片的精确度;

对比识别:根据字符的不同特征,将之与数据库进行对比,并利用对比后的识别文字与其可能的相似候选字群众,根据前后的识别文字找出最合乎逻辑的词,再作出更正,以加强比对的正确性;

人工校正:目前为止还没有一款软件的文字识别时百分之百的,所以还需要用户亲自校正,确保输出的准确性;

影像输出:结果输出到txt、doc、exl等格式。

现实中,OCR的发展其实已经相当完善了,不过,随着人们需求的变更,此种OCR已经不能满足人们的要求。而在当前,自然环境OCR是人们最为关注的点

科普时间:OCR是人工智能的基础之一

自然环境OCR进展

相比于传统的OCR,自然环境OCR最难的部分在于文本检测(将文字从图片中提取出来),因为它具有极大的多样性和明显的不确定性。如文字中包含多种语言,每种语言含有多种字母,每个字母又可以有不同的大小、字体、颜色、亮度、对比度、排列和对齐方式等;因拍摄图像的随意性,文字区域还可能会产生变形、模糊断裂等现象。另外,背景也是一大干扰因素,如文字区域附近有非常复杂的纹理;非文字区域有着跟文字区域非常相似的纹理,比如窗户、树叶、栅栏、砖墙等。

文本检测首先要从图像中切割出可能存在的文字,即候选连通区域,目前被采取最多的方法是MSER(最大平稳极值区域)。当然,也有团队在此基础上开发出了自己的一套算法,比如微软研究院在传统检测方法ER(极值区域)和MSER基础之上采用了对比极值区域CER(Contrasting Extremal Region),CER是跟周围的背景有一定对比度的极值区域,在低对比度的图像上比MSER效果更好,而且获得的候选连通区域数量远小于ER,提高了算法的效率,并且,为了提高所获得连通区域的质量,微软又增加一个算法环节去增强CER。最后,微软采取了一套基于浅层神经网络的文字/非文字分类算法,进一步提高了对于连通区域字符的辨认率。

在此基础之上,微软研究院的成果也得到了世界的验证。2014年8月,在瑞典首都斯德哥尔摩举办的国际模式识别大会(ICPR)上,微软亚洲研究院团队公布的研究成果在自然场景文字检测的标准数据集(ICDAR-2013测试集)上取得了92.1%的检测精度和92.3%的召回率。据了解,此前业界最好技术的检测精度是88.5%,而召回率只有66.5%。

科普时间:OCR是人工智能的基础之一

OCR的应用前景

不管是传统OCR,还是自然环境OCR,其参与者还是不少的。在国内,涉足OCR的企业主要有汉王、文通、百度等,国外的像ABBYY、IRIS、Google、微软等等。此外,市面上也有不少OCR产品,传统的OCR产品有尚书、汉王等,自然环境OCR的有百度翻译、Google翻译,实用性相当的不错。

论起OCR的应用前景的话,仅看其隶属于计算机视觉领域的一个分支,再联系到当前人工智能的发展,其前景可想而知。再往细讲,除了翻译、智能购物意外,OCR未来最大的发展潜力在于人机交互

众所周知,人机交互一直是研究者追求的东西,但是目前也仅仅做到了语音交互和肢体交互。文字代表了人类的所有智慧与思想,如果机器人能够进行文字识别,那它将能够进一步获取知识、学习人类,进而与人类进行更为自然的交互,或是协助人类工作,提高效率。


原文发布时间: 2016-10-19 18:47
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
8月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
2043 75
|
9月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1617 85
|
8月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
805 30
|
8月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
809 2
|
8月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
8月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
506 3
|
8月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
811 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
9月前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
850 12
|
8月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
1414 101
|
8月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
1264 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀