将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
AI魔幻行为大赏:细数机器视觉的9大应用场景
本文主要介绍了机器视觉的主要应用场景,目前绝大部分数字信息都是以图片或视频的形式存在的,若要对这些信息进行有效分析利用,则要依赖于机器视觉技术的发展,虽然目前已有的技术已经能够解决很多问题,但离解决所有问题还很遥远,因此机器视觉的应用前景还是非常广阔的。
读光OCR-文字识别技术解读与应用案例分析
大数据上云特惠活动系列直播,阿里巴巴高级算法专家永攀对读光OCR-文字识别技术和行业应用进行讲述。OCR的本质是识别图片中的文字,即在复杂的图片背景下中对所需目标文字进行识别提取。主要从OCR商业应用场景、OCR算法和读光产品进行了介绍。展示读光OCR在在文字识别中强大的应用。
API经济下,如何玩转API?
API究竟是个啥?
但凡身边有个码农朋友,总会时不时听到一个词——API。这个经常被提及的高频词究竟是个什么东东?
全称Application Programming Interface,缩写API,直译过来叫做应用程序接口,是指软件系统不同组成部分衔接的约定,旨在提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。
玩 High API 系列之:拍照翻译
谷歌翻译前些日子推出了一个很有意思的功能,就是通过手机获取拍摄照片,然后实时对图片中的文字进行翻译。终端用户不需要输入文字,去国外对不懂的地标、文字等只要拍照就能随时进行翻译了。看起来很炫酷有没有?好在,在API时代,我们自己也可以利用现成的API来快速实现同样的功能。
Halcon解决方案指南(18)OCR--字符识别
第18章 光学字符识别_OCR
OCR(Optical Character Recongnition)即我们通常意义上讲的光学字符识别。在HALCON中,OCR常被用来分割区域及读取识别图像中的字符含义。
玩转TensorFlow Lite:有道云笔记实操案例分享
这一两年来,在移动端实现实时的人工智能已经形成了一波潮流。去年,谷歌推出面向移动端和嵌入式的神经网络计算框架TensorFlow Lite,将这股潮流继续往前推。TensorFlow Lite如何进行操作?本文将介绍TFLite在有道云笔记中用于文档识别的实践过程,以及 TFLite 都有些哪些特性,供大家参考。