海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一-阿里云开发者社区

海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一

2017-07-04 2373

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

车辆物流识别，车辆物流识别 200次/月

教育场景识别，教育场景识别 200次/月

通用文字识别，通用文字识别 200次/月

简介：

近日，海康威视研究院预研团队基于深度学习技术研发的OCR(Optical Character Recognition，图像中文字识别)技术，刷新了ICDARRobust Reading竞赛数据集的全球最好成绩，并在“互联网图像文字”、“对焦自然场景文字”和“随拍自然场景文字”三项挑战的文字识别(Word Recognition)任务中，大幅超越国内外强劲参赛团队，标志着海康威视的文字识别技术达到国际领先水平。

ICDAR(InternationalConference on Document Analysis and Recognition)全称为文档分析与识别国际会议，由国际模式识别协会(IAPR)主办。它组织的文档分析与识别竞赛是当前OCR技术领域全球最具影响力的比赛，从2003年至今已举办5届。其中2015竞赛两年来，已吸引了来自82个国家的2367支队伍参加，其中包括Google、微软、百度、三星、旷视等团队，竞赛中涌现的许多方法都对文字识别技术的发展起到了强大的推动作用。

图1RobustReading竞赛的三项主要任务

这些任务中待识别的文字位于复杂图像背景中，成像存在噪声、模糊、透视、倾斜以及排列随意等不利因素，甚至字体格式种类繁多。海康威视的OCR技术，克服种种困难，在三项文字识别任务中均取得了世界第一，分别在Web and Email Born-Digital Images任务中以5.6%的优势超越第二名，在FocusedScene Text和Incidental Scene Text任务中超越第二名3.4%和3.1%。

图2 Born-Digital Images识别评测结果显示HIK_OCR排名第一

图3 Focused Scene Text识别评测结果显示HIK_OCR排名第一

图4 Incidental Scene Text识别评测结果显示HIK_OCR排名第一

近年来文字识别技术的突破，很大程度上依赖于深度学习的发展。海康威视预研团队设计了一个数十层的卷积神经网络来完成图像的信息编码，然后使用启发式的注意力模型，实现从特征到文字的解码。其中，专为文本识别设计的启发式机制，能够对注意力模型提取的特征进行合理性评估，使注意力模型在复杂场景中，具有强大的稳定性。

图5 海康威视文字识别技术原理示意

借助先进的OCR技术，海康威视的文字识别系统能够应对更为复杂文字识别场景，如污损及模糊、背景干扰及形变、恶劣天气等。目前，基于全新OCR技术的海康威视车牌识别系统已经覆盖全球六十余个国家和地区。基于车牌识别技术的卡口、电子警察、出入口控制、停车系统等应用也已经全面铺开。

图6 通用车牌识别的典型应用场景

除此之外，此次竞赛成果还可以应用到机器视觉领域的标签表单识别、民生领域的卡证执照识别、互联网领域的恶意图片识别、汽车辅助驾驶领域的路牌识别、城市管理领域的横幅标语和街景识别等产品中，大幅提升产品性能与应用效果。

在如今人工智能的浪潮里，海康威视将充分利用自身大数据的积累及人工智能技术优势，快速提升OCR技术性能，并不断推动机器的智能化和自动化水平的提高，在视频监控、智能感知和场景理解等方面为客户持续创造价值。

本文转自d1net（转载）

海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一

热门文章

最新文章

相关课程

相关电子书