今年的疫情已将视频行业推向了风口,从线下到线上,很多行业和场景都能感受视频带来的变化,云会议、云课堂、云卖货、云旅游,一切都基于视频的场景全面爆发,以视频云技术为基础,诞生了新内容、新交互、新体验。阿里云视频云携手众多行业探索数字视频新形态,创造业务新价值,毋庸置疑,一个新交互时代将全面来临。
视频技术的极致追求:超低延时与超高清
从线下搬到线上的云活动,这背后的本质是直播技术,今年其已成为各行各业的标配。阿里云智能视频云资深技术专家何亚明在云栖大会上分享,直播有三个重要元素:成本、质量、延时。对于一场直播,成本考虑的是如何高效、便捷触达直播的受众,并能支撑百万千万的并发。质量,考虑的是音视频的画面清晰度,流畅度、卡顿度。再者是延迟,低延时是实时互动的关键,是视频直播的核心技术。成本、质量、延时之间是相互平衡的关系,在直播中,延时是最直接的体验,行业将延时分为普通延时、优化延时、低延时、超低延时几类,达到 5 秒的延时才可成为低延时,而阿里云提出的是超低延时技术(RTS),延时可以做到 1 秒以内,同时在低延时直播连麦的部分,主播和嘉宾是利用 WebRTC 通道,延时可达 300 毫秒,体验顺滑。视频云团队是通过对直播全链路的优化,来实现 1 秒以内的超低延时,这对用户端、企业端都是极大的技术普惠。
林昊 阿里云视频云业务负责人
阿里云视频云业务负责人林昊表示,他坚信视频的技术必然会朝着两个核心方向不断演进:超低延时和超高清。于是在不断探索超低延时的同时,视频云的另一个研发核心是如何通过窄带高清的技术普惠,带来极致的视频体验。
当下,视频内容全面爆炸,视频制作也愈发平民化,数据显示,2020 年中国人日均观看在线视频的时长高达 250 分钟,近三年全球每月的视频流量增长了三倍,这些视频分布在短视频、点播、直播等领域。阿里云视频云的重点任务就是让互联网上这些海量视频都提升为高质量视频,并追求这个过程中的极致成本,最终普惠影院级的视频服务。要达到这个目标,需要解决三个问题:第一,如何应对低质量的视频源;第二,互联网视频是将视频的制作成本转移到云端,所以制作成本极高,需要普惠降低成本;第三,电视广播一般带宽很高,动辄百兆级别,但很多用户还是在弱网低带宽情况下接入网络。阿里云智能视频云首席科学家陈颖表示,视频云团队通过窄带高清编码来解决上述问题,达到高清晰、低成本、低宽带,实现广播级的、普惠的视频服务。简单而言,“窄带高清” 就是把用户上传的视频,通过视频云的处理、转码之后,变得更清晰,同时对带宽的占用更低。在此,视频云团队对 “视频质量的提升” 进行了重新定义,基于用户主观质量并对其建模,通过千频千面的大数据分析对不同的视频达到最优效果。阿里云视频云最新推出的窄带高清版本,最大亮点更是将其成本相比原来有数量级的下降,从而实现技术的极大普惠和大规模的商业化。
阿里云视频云的技术普惠,攻克了疫情期间一些重要场景的互动形态问题,突破了一些商业发展的瓶颈问题,也在创造一些行业交互发展的新空间,很多行业和场景都演进到新的发展与探索阶段,我们能看到,视频云技术在引领行业增长的第二曲线。
视频云新基建助力在线教育 “战疫”
程卫星 全国高等学校学生信息咨询与就业指导中心
信息资源处处长 & 学信网技术负责人
疫情期间,全民教育从线下转为线上,阿里云视频云的网络与媒体处理产品,全面助力学校 “停课不停学 “,这得益于一直以来打造的数字视频新基建。针对在线教育领域,视频云拥有一站式教育解决方案,通过集成音视频通信 RTC、视频直播、点播等产品,可支持互动课堂、直播大班课、课堂录制存档、自动生成学员精彩集锦、授课效果分析、课堂录播等完整的在线教育功能。
不仅能服务在线课堂,视频云把服务能力拓展到了更广阔的教育场景。以学信网为例,在疫情期间恰逢整个中国的研究生复试,数据显示,2020 年硕士研究生招生报考人数达到了 341 万,远程视频面试作为其新的交互形式,可以通过多机位视频互动、多项技术核验认证,来保障面试过程科学有效、公平公正。学信网技术负责人程卫星讲述,学信网基于阿里云承接起了今年远程面试的重要任务,短期内,在学信网硬件条件有限的情况下,视频云团队将云服务集成到学信网的业务系统中,充分结合业务特点和业务流程,助力其极大提高系统的承载力和稳定性。在面试期间最高峰同时有 3199 考场、9758 路视频并发,整个系统运行平稳顺利。学信网通过视频面试系统的使用,与往年相比,复试的调剂效率显著提高,整个工作周期明显缩短。
AI 编辑部开启智慧新闻表达时代
杨海霞 人民日报媒体技术股份有限公司总经办成员
目前,传统媒体已经进入到深度融合阶段,如何利用视频 AI 的能力赋能是重要问题。人民日报媒体技术股份有限公司总经办成员杨海霞在论坛演讲提到,传统媒体的核心链条包含视频拍摄、生产制作、媒资管理和分发传播,面对大量的视频内容生产制作和审核分发,提高效率是核心问题,而视频 AI 恰起到关键作用。
针对媒体内容的生产制作环节,体现在智能转码、智能合成、智能配音三个场景能力。首先,针对大量外部视频素材的转码需求,可利用阿里云视频云的窄带高清技术,直接与自身业务系统集成,来完成转码智能动作,并在过程中对不佳画质做技术处理,提升整个视频的质量。第二,是生产精品视频的大量原材料的 AI 智能合成,包括对内容的智能提取、转场效果、背景音乐等按照一定模板进行智能合成,批量化生产输出视频,如现在很多赛事的精彩集锦和数据新闻等。第三,AI 智能配音,即 AI 通过声纹采集和文字转语音可系统智能地完成内容的自动配音和合成,极大提高生产效率。
在媒资管理和分发传播环节,人民日报与阿里云视频云团队合作,通过物理库,实现人物识别、物体识别、语音识别、OCR 识别,从而生成智能标签,利用于高效的媒体检索,并更好的在分发端进行智能推荐和相关推荐。此外,当前正在将 UGC 模式更好的应用其中,这就涉及要对 UGC 生产提供智能的支持,同时又要通过智能审核保障内容的安全性,在一些大的省级融媒云平台上,已经广泛应用到了这些智能技术。综合从全业务场景和链条来看,视频 AI 能力已提升了传统媒体生产、分发的效率和质量。
直播翻译系统助推电商出海
黄非 达摩院机器智能语言技术实验室研究员 & 资深总监
电商直播是今年的热门话题,它结合了视频直播和网红直播的优势,处在蓬勃发展中。被称为 “国际版淘宝” 的阿里巴巴跨境电商平台 “速卖通”(AE),面向海外买家,其平台商家也非常希望能更好地利用直播沟通把商品卖到海外。但是,AE 的商家中,87% 为中国人,受限于外语能力无法参与直播,同时,AE 的用户来自于上百个国家,即使主播有外语能力,也无法覆盖到每一个用户语种。基于此,阿里云视频云与达摩院共同打造了世界上第一个电商直播翻译系统,该系统依托于视频云强大的视频直播、媒体处理服务能力,结合了导播台的 ET 字幕产品方案和达摩院视频翻译技术方案,最终打造的 AE 直播翻译整体链路延时小于 1 秒,让电商直播沟通体验全新升级。
该系统在今年 5 月上线后,大批 “无外语能力” 的淘系商家涌入 AE 直播,自如的运用中文进行直播卖货,通过直播翻译系统译成英语、俄语、西班牙语等等,世界各地的观众都能看到带有当地语言字幕的直播视频,同时还可与主播互动沟通,最终,带来的销售转化高于普通 AE 商家的 20 倍。未来在此基础上,阿里云视频云还会联合达摩院深度研发多语向互译,让商业没有语言障碍,让技术普惠能量进一步升级释放。
虚拟交互技术驱动娱乐新价值
李静 阿里巴巴文娱集团资深算法专家
疫情期带来了在线娱乐行业的爆棚式发展,也让行业本身更加审视在交互体验上的突破价值。优酷联合阿里云视频云团队,开展了对互动视频体验的全新升级,集中体现在三个关键词:一是直播化,即基于 DIBR 重建技术,让用户在自由的视角进行任意的观看,实现自由视点互动直播化。二是游戏化,通过人脸识别、动捕系统等体感互动技术,赋能视频的游戏化体验,其中的技术已应用在优酷即将播出的动漫 IP 上,可实现用户和 IP 的互动,进而增加用户粘性。三是特效化,在综艺、体育领域与 AR 特效的融合,创造全新的交互体验,尤其当 AR 特效应用于体育赛事场景中,可以让观众实时了解当前赛事的情况,例如,优酷 2020 的 CBA 直播牵手视频云团队,比赛特效通过自动化、准实时的 CBA 云特效合成,让观众以自如的视角观看当前谁在投篮,显示命中率是多少,当前阵型如何等等,达到现场实时直播输出的效果。
所有以上的特效互动技术,都得益于目前 CV 和 CG 技术,两者结合助力于互动特效视频的自动化、批量化生产,相较于传统方案可以提速百倍。基于此,我们对未来的期待一定是虚拟世界、增强世界和物理世界三元合一的状态。
林昊在云栖大会分享观点
2020 年视频行业的爆发,加速了视频云技术的应用和对多场景互动形态的探索,日前,国际权威数据机构 IDC 曾发布一份中国视频云调查报告,数据显示阿里云连续两年整体市场份额占据第一。阿里云视频云团队致力于不断创新内容和交互方式的改变,“未来,随着人工智能、5G、AR、VR 技术的加速创新、视频与云计算的高效融合、以及视频云技术本身的不断演进,一定会有越来越多的行业和场景,基于视频进入新内容、新交互的时代!” 阿里云视频云负责人林昊表示。
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。