开发者社区> livevideostack> 正文

展望2018:人工智能为媒体服务赋能

简介: 人工智能为多媒体服务带来了更多、更有价值的新功能,让你的媒体、你的video更加智能化,帮助用户获取更好的体验。
+关注继续查看

人工智能为多媒体服务带来了更多、更有价值的新功能,让你的媒体、你的video更加智能化,帮助用户获取更好的体验。微软大中华区创新技术合作事业部 (CSE)资深技术顾问梁建为我们分享了人工智能与媒体服务的契合以及未来的发展方向。




大家好,我是来自微软创新技术合作事业部的梁建,很高兴接受LiveVideoStack的邀请,跟大家一同介绍和畅想媒体服务video在未来2018年可能的发展。


2017年,我们经历了整个媒体行业视频服务、视频处理的快速发展,与此同时人工智能和区块链也是去年的热点话题,那我们就一起来看下人工智能和我们的媒体服务如何进行结合。  


人工智能帮助我们实现更多场景


传统的媒体服务都会做哪些事情?比如线上直播、编解码、内容保护等等的服务,但随着人工智能技术的发展,很多媒体行业或者媒体业务处理行业的朋友,也在探索如何将人工智能应用到现在的媒体技术和行业发展上,包括视频的发展上。  


大家可以思考下在哪些场景上人工智能技术能帮助我们实现更多的场景?比如如何在越来越多的视频中发现更好的、更需要的内容;如何让视频内容里人物之间产生关系;在视频编辑和处理过程中,如何增加字幕的信息以及多语言的支持;如何让视频自动的增加评论,像大家熟知的视频里中比较流行的弹幕;以及如何让视频里产生更多的价值,比如在视频里如何更好的嵌入广告,让视频自动的把对用户的洞察力、想法展现出来。  


人工智能让媒体服务更“聪明”


这里我也想跟大家介绍在微软的Azure云平台上有一个Media Services媒体服务,它不仅仅包括了传统的视频直播、Encode、Decode这种编解码能力、内容保护能力,以及多渠道、多设备的Player的能力。它还提供了Video AI的能力。也就是除了在这个传统的Midea Services架构上,我们可以能帮助大家产生支持多种设备的流媒体Streaming的格式。同时它还 提供了Media Analytics媒体分析,它能够从视频汇总产生一些洞察力,帮助大家降低人工成本,同时自动拿到更多的信息。  


在微软的Media Analytics服务中,它融入了非常丰富的人工智能技术:Audio Transcript能够通过语音视频自动生成字幕信息;通过人脸检测知道视频中出现了哪些人物;通过视频OCR把视频中非数字的信息转化为数字的文字信息;根据视频中人脸的信息,选取人物自动增加人脸修正;通过Video summaries智能生成视频的总结或片段,比如一个小时的视频生成出一分钟的预告或者介绍;Content moderation可以智能审核内容信息,比如成人信息、用暴力等等;以及通过比较流行的DNN深度学习算法、神经网络来实现物体的识别。此外还有视频的稳定、情绪识等等。由此我们可以预见在2018年,除了传统的视频编解码、视频流以及最新的视频格式外,人工智能技术会给我们产生更多的价值,同时帮助我们降低成本。除了以上介绍的10种AI服务,我们也相信在2018年微软还将提供更多的智能服务,也欢迎大家持续关注微软Azure Media Services平台。  


除了传统服务,微软还提供了五大方面29类的认知服务,而这29类服务又分别都提供了自己相关的API,它不仅可以用在传统的图片、语音识别、知识搜索,你可以非常方便地将它应用到自己的媒体服务中。特别的,我们还有一个最新的服务Video Indexer,我们前面提到的10种人工智能服务都包含其中,包括translater——无论文字或者语言的,这样对于一个视频,它就会自动根据你的需求去进行说语音识别、人脸识别、字幕翻译、多语言翻译、视频内容总结、场景分析等等。那如果你希望视频有更多的拓展,比如知识搜索就非常重要,你可以根据视频去搜索相关的视频、图片,同样的你还可以进行新闻的搜寻。


这里我们还提供了Custom Services——从视觉、到语言理解、到语音服务、到搜索都有一个定制化的体验。其实我们的API都是通用的,只不过定制化的场景、训练的数据是需要大家来提供。比如你希望在视频服务中为用户做更多的拓展搜索,但又并不希望进行全网搜索找到一些不想要的信息,那么此时你就可以利用Custom Search定义相关的网站和希望的内容,从而得到你规定的信息。语言理解上,大家可以很方便地把一些用户在视频聊天对话中,给他的关键词、用户所要的意图、定义一些场景,通过自然语义理解抽取出来。包括我们说的Custom Vision可以通过frame这种方式把视频中的一些场景、物体识别、场景给他抽取出来,让我们的视频不仅仅是传统中的观看、编码、streaming,同样的你也可以通过人工智能拿到更多的信息。  


最后,我也希望在2018年有越来越多的媒体制作、开发的合作伙伴一定将人工智能技术用起来,让你的媒体、你的video更加智能化,拿到更多的信息。同样,我相信在2018年我们和LiveVideoStack音视频技术社区会有非常多的合作,也特别希望把更多的人工智能技术、更多的Media Services的服务给大家介绍出来,帮助大家更好的工作,同时带来更多的体验。也预祝LiveVideoStack社区越办越好,吸引更多的开发者,能够汇集开发者、汇集我们这些做人工智能、做媒体服务的合作伙伴,谢谢大家!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
数禾科技 AI 模型服务 Serverless 容器化之旅
数禾科技 AI 模型服务 Serverless 容器化之旅
134 0
机器学习平台PAI简测:PAI提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务
机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。
98 0
阿里视觉智能开放平台(灵杰AI开放服务)【评测】人脸活体检测、智能美肤、文字识别等功能很多等待你的开发
阿里视觉智能开放平台(灵杰AI开放服务)DetectLivingFace 人脸活体检测、智能美肤、文字识别等功能很多等待你的开发
49 0
ChatGPT聊天AI能火多久?华云天下智能VSBOT虚拟服务机器人不止于聊天
这两天,一款智能聊天机器人程序ChatGPT“出圈”了 很多朋友都在谈论它,使用过的人都惊叹于它强大的理解能力 仿佛在屏幕的另一端,真的有人在与自己对话。 不少商界大佬也纷纷夸赞ChatGPT。 马斯克表示,“ChatGPT很惊人,我们离强大到危险的人工智能不远了。”
80 0
含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)
所谓文无第一,武无第二,云原生人工智能技术目前呈现三足鼎立的态势,微软,谷歌以及亚马逊三大巨头各擅胜场,不分伯仲,但目前微软Azure平台不仅仅只是一个PaaS平台,相比AWS,以及GAE,它应该是目前提供云计算人工智能服务最全面的一个平台,尤其是语音合成领域,论AI语音的平顺、自然以及拟真性,无平台能出其右。
84 0
吾剑未尝不利,国内Azure平替,科大讯飞人工智能免费AI语音合成(TTS)服务Python3.10接入
微软Azure平台的语音合成(TTS)技术确实神乎其技,这一点在之前的一篇:[含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)](https://v3u.cn/a_id_260),已经做过详细介绍,然则Azure平台需要信用卡验证,有一定门槛,对国内用户不太友好,放眼神州,科大讯飞的讯飞开放平台也有语音合成服务接口,可以通过语音合成流式接口将文字信息转化为声音信息。
488 0
【微软 Azure 认知服务】零基础搭建微软 Azure AI 认知服务实验分享(下)
【微软 Azure 认知服务】零基础搭建微软 Azure AI 认知服务实验分享
70 0
【微软 Azure 认知服务】零基础搭建微软 Azure AI 认知服务实验分享(中)
【微软 Azure 认知服务】零基础搭建微软 Azure AI 认知服务实验分享
42 0
+关注
livevideostack
LiveVideoStack是专注在音视频领域的技术社区媒体,成立于2017年初,通过LiveVideoStackCon等技术大会、技术培训、高质量技术内容及咨询服务,推动相关开源项目与最佳实践普及和传播,帮助技术人成长,解决企业发展中的技术难点。
文章
问答
文章排行榜
最热
最新
相关电子书
更多
视觉AI能力的开放现状及ModelScope实战
立即下载
通用多模态AI构建
立即下载
阿里云AI产品必知必会系列电子书
立即下载