文字识别

首页 标签 文字识别
# 文字识别 #
关注
5650内容
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
场景文本检测—CTPN算法介绍
涉及到了图像中位置信息的选择,很容易联想到之前用于目标检测的R-CNN的模型。毕竟CNN(Convolutional Neural Network)在这两年的图像处理上一枝独秀已经“深入人心”。那么把“字符位置”标记成一类,然后直接放入CNN模型处理岂不美哉?不过,现实总不会这么美好,文字的多种情况、字体,以及大面积的文字信息的位置,都对我们直接用R-CNN的方法产生了干扰,让结果产生严重的偏差。
java文字识别技术(亲测,识别率很高)
java文字识别程序的关键是寻找一个可以调用的OCR引擎。tesseract-ocr就是一个这样的OCR引擎,在1985年到1995年由HP实验室开发,现在在Google。tesseract-ocr 3.0发布,支持中文。
信息与通信工程——重要国际学术会议和国际顶级期刊(仅供参考)
<p><strong>一、信息与通信工程的重要国际学术会议</strong></p> <p>主要包含两类:</p> <p>A类会议:本学科最顶尖级水平的国际会议;<br></p> <p>B类会议:学术水平较高、组织工作成熟、按一定时间间隔系列性召开的国际会议。<br></p> <p><br></p> <p>A类会议(序号不表示优先顺序)<br></p> <p>序号 / 英文名称
厉害了!阿里安全图灵实验室在ICDAR2017 MLT竞赛刷新世界最好成绩
近日,阿里安全图灵实验室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene text detection)自然场景多语言文本检测竞赛中刷新了世界最好成绩,以73.52%的Hmean排名第一。
API经济下,如何玩转API?
API究竟是个啥? 但凡身边有个码农朋友,总会时不时听到一个词——API。这个经常被提及的高频词究竟是个什么东东? 全称Application Programming Interface,缩写API,直译过来叫做应用程序接口,是指软件系统不同组成部分衔接的约定,旨在提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。
玩 High API 系列之:拍照翻译
谷歌翻译前些日子推出了一个很有意思的功能,就是通过手机获取拍摄照片,然后实时对图片中的文字进行翻译。终端用户不需要输入文字,去国外对不懂的地标、文字等只要拍照就能随时进行翻译了。看起来很炫酷有没有?好在,在API时代,我们自己也可以利用现成的API来快速实现同样的功能。
Halcon解决方案指南(18)OCR--字符识别
第18章 光学字符识别_OCR OCR(Optical Character Recongnition)即我们通常意义上讲的光学字符识别。在HALCON中,OCR常被用来分割区域及读取识别图像中的字符含义。
免费试用