海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一

本文涉及的产品
教育场景识别,教育场景识别 200次/月
个人证照识别,个人证照识别 200次/月
车辆物流识别,车辆物流识别 200次/月
简介:
近日,海康威视研究院预研团队基于深度学习技术研发的OCR(Optical Character Recognition,图像中文字识别)技术,刷新了ICDARRobust Reading竞赛数据集的全球最好成绩,并在“互联网图像文字”、“对焦自然场景文字”和“随拍自然场景文字”三项挑战的文字识别(Word Recognition)任务中,大幅超越国内外强劲参赛团队,标志着海康威视的文字识别技术达到国际领先水平。
 
ICDAR(InternationalConference on Document Analysis and Recognition)全称为文档分析与识别国际会议,由国际模式识别协会(IAPR)主办。它组织的文档分析与识别竞赛是当前OCR技术领域全球最具影响力的比赛,从2003年至今已举办5届。其中2015竞赛两年来,已吸引了来自82个国家的2367支队伍参加,其中包括Google、微软、百度、三星、旷视等团队,竞赛中涌现的许多方法都对文字识别技术的发展起到了强大的推动作用。
 
图1RobustReading竞赛的三项主要任务
 
这些任务中待识别的文字位于复杂图像背景中,成像存在噪声、模糊、透视、倾斜以及排列随意等不利因素,甚至字体格式种类繁多。海康威视的OCR技术,克服种种困难,在三项文字识别任务中均取得了世界第一,分别在Web and Email Born-Digital Images任务中以5.6%的优势超越第二名,在FocusedScene Text和Incidental Scene Text任务中超越第二名3.4%和3.1%。
 
图2 Born-Digital Images识别评测结果显示HIK_OCR排名第一
 
图3 Focused Scene Text识别评测结果显示HIK_OCR排名第一
 
图4 Incidental Scene Text识别评测结果显示HIK_OCR排名第一
 
近年来文字识别技术的突破,很大程度上依赖于深度学习的发展。海康威视预研团队设计了一个数十层的卷积神经网络来完成图像的信息编码,然后使用启发式的注意力模型,实现从特征到文字的解码。其中,专为文本识别设计的启发式机制,能够对注意力模型提取的特征进行合理性评估,使注意力模型在复杂场景中,具有强大的稳定性。
 
图5 海康威视文字识别技术原理示意
 
借助先进的OCR技术,海康威视的文字识别系统能够应对更为复杂文字识别场景,如污损及模糊、背景干扰及形变、恶劣天气等。目前,基于全新OCR技术的海康威视车牌识别系统已经覆盖全球六十余个国家和地区。基于车牌识别技术的卡口、电子警察、出入口控制、停车系统等应用也已经全面铺开。
 
图6 通用车牌识别的典型应用场景
 
除此之外,此次竞赛成果还可以应用到机器视觉领域的标签表单识别、民生领域的卡证执照识别、互联网领域的恶意图片识别、汽车辅助驾驶领域的路牌识别、城市管理领域的横幅标语和街景识别等产品中,大幅提升产品性能与应用效果。
 
在如今人工智能的浪潮里,海康威视将充分利用自身大数据的积累及人工智能技术优势,快速提升OCR技术性能,并不断推动机器的智能化和自动化水平的提高,在视频监控、智能感知和场景理解等方面为客户持续创造价值。


   

 

  
本文转自d1net(转载)  
目录
相关文章
|
10天前
|
机器学习/深度学习 人工智能
深度学习中的正则化技术及其应用
【9月更文挑战第8天】在深度学习的探索之旅中,正则化技术如同指南针,引导我们穿越过拟合的迷雾。本文将深入浅出地介绍几种常见的正则化方法,并通过实际代码示例揭示它们如何在模型训练中发挥作用。从L1和L2正则化的基本概念出发,到Dropout技术的随机性之美,再到数据增强的多样性魅力,我们将一起见证这些技术如何提升模型的泛化能力。你将发现,正则化不仅是防止过拟合的技术手段,更是深度学习艺术的一部分。让我们开始这段探索之旅,解锁深度学习中正则化的奥秘。
32 10
|
15天前
|
机器学习/深度学习 算法 TensorFlow
深度学习中的图像识别技术
【9月更文挑战第3天】本文介绍了深度学习在图像识别领域的应用,包括卷积神经网络(CNN)的原理、实现和优化方法。通过代码示例展示了如何使用Python和TensorFlow库构建一个简单的CNN模型进行图像分类。
|
2天前
|
机器学习/深度学习 监控 自动驾驶
基于深度学习的图像识别技术及其应用
【9月更文挑战第16天】本文深入探讨了基于深度学习的图像识别技术,并详细阐述了其在不同领域的应用。通过分析深度学习在图像识别中的作用机制和关键技术,本文揭示了该技术在自动驾驶、医疗诊断、安防监控等领域的应用前景。同时,文章还讨论了当前面临的挑战和未来的发展方向,为读者提供了对深度学习图像识别技术的全面认识。
|
1天前
|
机器学习/深度学习 存储 人工智能
深度学习中的模型压缩技术在人工智能领域,深度学习技术的迅猛发展带来了巨大的计算资源需求。为了解决这一问题,模型压缩技术应运而生。本文将介绍什么是模型压缩、常见的模型压缩方法以及其在实际应用中的意义。
随着深度学习技术的广泛应用,计算资源的需求也大幅增加。为减少资源消耗,提升模型效率,模型压缩技术成为研究热点。本文探讨了模型压缩的定义、主流方法和其重要性。通过量化、剪枝、知识蒸馏和轻量级架构等策略,模型得以在保持性能的同时减小体积,从而适用于资源受限的环境。这些技术不仅降低了计算成本,还推动了深度学习在移动设备和边缘计算等领域的应用,使AI技术更加普及和实用。总之,模型压缩在平衡模型性能与资源消耗之间发挥着关键作用,是未来AI发展的重要方向。
|
4天前
|
机器学习/深度学习 存储 自然语言处理
深度学习中的模型压缩技术:从理论到实践
本文深入探讨了深度学习领域中的模型压缩技术,包括权重剪枝、量化、知识蒸馏和轻量级模型设计。通过对比实验结果,展示了这些技术在保持模型精度的同时,显著降低计算资源和存储需求。
|
6天前
|
机器学习/深度学习 编解码 文件存储
深度学习中的模型压缩技术:从理论到实践
本文旨在探讨深度学习领域中的模型压缩技术,包括其背后的理论基础、常见方法以及在实际场景中的应用。我们将从基本的量化和剪枝技术开始,逐步深入到更高级的知识蒸馏和模型架构搜索。通过具体案例分析,本文将展示这些技术如何有效减少模型的大小与计算量,同时保持甚至提升模型的性能。最后,我们将讨论模型压缩技术未来的发展方向及其潜在影响。
|
6天前
|
机器学习/深度学习 自然语言处理 算法
深度学习中的模型压缩技术:从理论到实践
随着深度学习技术的迅速发展,复杂的神经网络模型在许多任务中取得了显著成果。然而,这些模型通常参数量大,计算复杂度高,难以部署到资源受限的设备上。为了解决这个问题,模型压缩技术应运而生。本文将探讨几种主流的模型压缩方法,包括权重剪枝、量化和知识蒸馏,介绍其基本原理、实现步骤以及在实际应用中的效果。通过具体案例分析,我们将展示如何有效地使用这些技术来减少模型的大小和计算需求,同时保持甚至提升模型的性能。最后,我们将讨论当前模型压缩技术面临的挑战和未来的发展方向。
|
6天前
|
机器学习/深度学习 算法框架/工具 Python
深度学习中的正则化技术及其应用
【9月更文挑战第12天】在深度学习领域,正则化技术是防止模型过拟合的重要手段。本文将深入探讨L1、L2以及Dropout等常见的正则化方法,并结合代码示例,展示如何在实际应用中有效利用这些技术提升模型的泛化能力。
15 1
|
17天前
|
机器学习/深度学习
深度学习中的正则化技术:防止过拟合的利器
在深度学习的探索之旅中,模型的性能往往受限于一个隐形的敌人——过拟合。本文通过深入浅出的方式,探讨了如何运用正则化技术这一护盾,保护我们的模型免受过拟合之害。从L1和L2正则化的基本概念出发,到深入理解Dropout和数据增强等高级技巧,我们将一起构建起防御过拟合的坚固堡垒。
|
16天前
|
机器学习/深度学习 监控 自动驾驶
深度学习中的图像识别技术
【9月更文挑战第2天】本文将介绍深度学习在图像识别领域的应用。我们将探讨如何通过深度学习模型,特别是卷积神经网络(CNN)来识别图像中的对象。我们将看到,通过训练一个深度学习模型,我们可以实现对图像中对象的自动识别,这对于许多实际应用来说都是非常有用的。