YunOS场景文字识别
该文章先介绍常见的文字识别方法,然后介绍YunOS在场景文字识别方面取得的进展、结果和技术方案。将重点讲解技术方案的两个主要部分:1)基于全卷积网络的从局部到整体的文字行检测方法;2)基于BLSTM-CTC-Seq2Seq的文字行识别方案。
阿里OCR-图像文字的识别和理解
2018云栖大会上海峰会,阿里巴巴图像高级算法专家王永攀对阿里OCR-文字识别技术解读和应用实例分享。OCR的本质是识别图片中的文字,即在复杂的图片背景下对所需目标文字进行识别提取。主要从什么是OCR、OCR算法和读光产品及其应用进行了介绍。展示阿里OCR在文字识别中强大的应用。
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
场景文本检测—CTPN算法介绍
涉及到了图像中位置信息的选择,很容易联想到之前用于目标检测的R-CNN的模型。毕竟CNN(Convolutional Neural Network)在这两年的图像处理上一枝独秀已经“深入人心”。那么把“字符位置”标记成一类,然后直接放入CNN模型处理岂不美哉?不过,现实总不会这么美好,文字的多种情况、字体,以及大面积的文字信息的位置,都对我们直接用R-CNN的方法产生了干扰,让结果产生严重的偏差。
信息与通信工程——重要国际学术会议和国际顶级期刊(仅供参考)
<p><strong>一、信息与通信工程的重要国际学术会议</strong></p>
<p>主要包含两类:</p>
<p>A类会议:本学科最顶尖级水平的国际会议;<br></p>
<p>B类会议:学术水平较高、组织工作成熟、按一定时间间隔系列性召开的国际会议。<br></p>
<p><br></p>
<p>A类会议(序号不表示优先顺序)<br></p>
<p>序号 / 英文名称
图像文字识别(OCR)用什么算法小结
说明:主要考虑深度学习的方法,传统的方法不在考虑范围之内。
1.文字识别步骤
1.1detection:找到有文字的区域(proposal)。
1.2classification:识别区域中的文字。
2.文字检测
文字检测主要有两条线,两步法和一步法。