随着VR视频的普及,越来越频繁的出现在公众视野,相关标准、优化改进都在按部就班的推进中。随着5G商用临近,将助力VR视频进一步普及。LiveVideoStack邮件采访了优酷VR技术专家盛骁杰,畅聊了个人的成长经历,VR视频标准的演进、技术难点,以及未来应用前景的展望。
策划 / LiveVideoStack
LiveVideoStack:盛骁杰你好,能否简要介绍下自己,包括目前的主要工作及关注领域?
盛骁杰:我是2009年毕业于上海交通大学图像通信研究所,在加入阿里前在Pixelworks从事过多年的图像处理算法研究并获得了多项美国专利的授权。2013年来到阿里后,主导或参与过移动端视频编解码器优化,超高清视频处理算法研究等项目,目前的工作主要集中在两个方面:分别是虚拟现实视频编码和传输,以及高效的视频AI异构计算平台。我平时会主要关注一些多媒体领域的最新进展,如新一代视频编码技术和标准,超高清视频的处理,以及视频智能计算方面。
LiveVideoStack:许多开发者都有体会,做音视频的“坑”比较多,入门不易做好难。你为何选择钻研多媒体开发这一领域?对于有意愿进入这一领域的初学者,您有哪些经验可以分享的?
盛骁杰:我觉得多媒体这个领域是很有意思的:一方面多媒体包含的面很广,发展也很快,就拿视频这块来说,大的划分就有视频的压缩,视频的处理以及视频理解这些方面,这三个方面互有联系但又区别很大,其中的每一个方面又聚集了大量的技术人才不断的深入研究,可以说视频这个领域每年都有很丰富的新技术和新思路冒出来,对于充满好奇心的技术人来说是一个丰富的宝藏。
另一方面,多媒体的每个经典问题本身却有很长的历史,而且直到现在还是充满挑战。比如经典的视频压缩问题,视频图像质量提升问题,视频中物体的识别问题等等,这些问题从提出到现在已经有差不多半个世纪,但目前的解决方案还是在不断改进中。所以,无论是多媒体领域的老问题,还是新解法,都是非常吸引我去钻研的。
对于进入这个领域的初学者,我的建议是先要通过项目把基础打牢固,尽量能结合代码实践把原理搞明白。就拿视频压缩来说,里面有很多的模块,比如运动估计,熵编码,模式选择,码率控制等等,如果只用FFmpeg写一条命令去做压缩,那很多编解码原理的东西就没有机会去碰到了。所以这个领域停留在用这个阶段很容易,因为现在现成的开源工具已经很多了,但要时刻保持好奇心,不仅仅停留在用,而是钻进去看代码,看原理,才能够一步步走的扎实。
另外,就是对于一些经典问题,不但要了解一些最新的解法,对于一些经典方法的了解也非常重要,了解一个问题的解法的历史,其实可以加深对问题本身的理解,很多经典方法本身充满了思想上的启发性。
LiveVideoStack:关于Codec,因为有Google、Netflix等巨头的支持,AV1势头很猛。但在硬件Codec领域,H.264还是主流。而HEVC因为专利风险,正在面临来自AV1的挑战。当然还有国产的AVS系列。你如何看待未来Codec战争?
盛骁杰:目前在编码标准领域,AVS和H.26x系列相对来说属于历史比较久的,目前最新的H.265和AVS2也属于同一代的编码标准。我认为一个编码标准的成功与否有多方面的因素,比如压缩标准的复杂度和压缩效率,行业内芯片解决方案的普及度,灵活高效的配套软件编解码解决方案,以及专利的费用等等。目前来看,H.26x系列和AVS系列都通过几代标准的迭代,在以上的几点中做的各有特色。比如HEVC在芯片的支持覆盖上做的更有优势(目前主流的手机都已经支持了HEVC硬解码能力),但它的专利费用也是比较高昂的。所以国外出现了互联网巨头联合起来开发更为开放的AV1标准,以在某种程度上摆脱HEVC的标准垄断。而对于AV1来说,如果要在未来的竞争中取得优势,还是需要在以上的几个关键点中做的更好。
目前来看,从压缩标准的复杂度和压缩效率来看,AV1设计了一些比较复杂的编码工具来使得压缩率要优于HEVC,但同时编码的复杂度也大大上升,目前的参考软件的编码速度还是远远无法达到实用阶段,后续还有一个漫长的优化过程,同时,硬件支持的铺开速度目前也还有很大的不确定性。在此同时,H.266标准已经开始启动来进一步通过更复杂的编码工具使得压缩率优于AV1,而国内的AVS3编码标准也开始启动,所以未来Codec的竞争肯定不会是单一维度的,而是综合多方面实力的竞争。
LiveVideoStack:对于VR视频或直播,对Codec有哪些特定的要求和难点?
盛骁杰:VR视频在两个方面打破了传统Codec研究的思路,第一就是VR视频本身是球形的,要适应传统Codec矩形编码的形态,就要做球形到矩形的展开,这个过程就会造成像素的浪费,比如一个球形视频的南北两极展开后就会占据很大的面积,导致像素的浪费和压缩效率的损失。 第二就是VR视频的分辨率很高,目前一般的视频分辨率到4K的体验已经非常好了,但VR由于它是包裹住人的360度视频,所以整个VR视频如果分辨率是4K,那么用户眼前视野范围能看到的可能只有720p,所以VR视频要体验很好,要到8K,甚至16K的分辨率,而这又是目前的编码技术,或者终端的解码能力所处理不了的。所以说VR视频对传统Codec提出的挑战是很大的。VR视频的Codec要做到能够减少球形视频像素浪费的同时,又能够处理极高分辨率视频的高效编码,这是两大难点。
LiveVideoStack:VR视频或直播还面临哪些技术挑战?
盛骁杰:我认为VR视频和直播目前还面临的技术挑战主要在采集端和编码端,先说采集端,目前要采集VR视频一般用的是多个鱼眼广角镜头拍摄到整个360度范围的图像,然后对多个镜头的图像做实时拼接,形成一个完整的360度视频画面。但目前的鱼眼广角镜头由于焦距一般比较近,所以在采集稍微远处的物体时就不是非常清晰,这样就会使得大场景的VR直播受到限制。其次,在采集端的采集分辨率,数据处理和拼接效率方面,目前的VR视频和直播也很难做到8K以上分辨率。最后,VR采集端的成本也是非常高的,一般比较高端的采集设备都是几万以上,Nokia OZO这样的甚至需要几十万,成本也极大的限制了VR的使用场景。
再来说说编码,这点是和之前说的VR视频和Codec的问题相关联的。目前的传统编码器,对于4K及以上分辨率的VR视频,至少需要10Mbps以上的码率才能保证基本的观看质量,对于一些复杂场景,甚至需要30Mbps以上,这对于目前国内用户的带宽情况来说,是一个很大的挑战,一般来说,要把压缩码率控制在5Mbps,甚至3Mbps以下,才能够使得大部分用户能够流畅的观看VR内容。
LiveVideoStack:能否介绍下VR视频的标准在国内及国际上的演进状态?
盛骁杰:目前关于VR视频的标准在国内和国际上都在不断演进。在国际上,MPEG组织在2015年10月的113届MPEG会议上就提出OMAF(omnidirectional media application format,全景媒体的应用格式)标准。此后,业界很多知名公司以及国内外各大高校纷纷参与制定标准的队伍中。OMAF框架可用于将360度视频与二维图像帧之间的映射和渲染;此外,OMAF还定义了全景视频的传输机制和存储格式等等。在2017年4月的会议上,MPEG就公布了8种常用的映射格式。并且,MPEG还提出了适用于全景视频的几种按视角分块编码的方案,可供灵活的选择。按照计划,到2017年底,MPEG已经将三自由度(360度视频)的全景VR标准制定完毕,到2020年底,MPEG的六自由度全景VR系统也将会发布。
在国内,AVS(audio video coding standard,数字音视频编解码技术标准)工作组在2015年下半年也启动了VR全景视频标准计划,其任务和目标着重围绕高效视频编码和传输,定义全景视频的表示方法和编码工具以及系统传输和音频标准,以提升全景视频压缩效率。目前标准制定已经进入到第二阶段,也就是新的高效全景视频映射编码工具已经制定完毕。对于VR国标的下一步建设计划,AVS组织也将把标准制定的重点从三自由度的全景视频转向六自由度全景视频的编码。所以说,无论是国内还是国外,在VR视频标准的制定方向上还是比较清晰和一致的。
值得一提的是,从去年开始,阿里优酷也开始积极参与VR国标的建设,并在AVS VR第十次会议上代表阿里优酷提出了VR编码的技术提案。在随后经过标准组的主客观测试和评估后,我们的技术提案被标准组正式接收,作为VR编码标准的核心编码工具之一。通过我们这个提案所提出的方法,目前VR国标的非对称编码算法已经可以使得VR视频压缩技术在用户主视角画质不变的情况下,降低高达70%以上的编码码率。除了积极的参与VR标准的制定外,我们在业务场景中也正在积极的推进通用的VR云服务技术和VR标准的结合。因为随着VR标准的越来越成熟和完善,标准作为VR体验的标杆性示范效应就会越来越明显,而云服务作为一种通用化的技术服务平台,和标准的契合度就自然会比较高。我们希望能够将阿里云的通用VR服务平台和VR标准的标杆性体验结合起来,一方面使得VR云服务能够借力标准来提供示范性的用户体验,另一方面,VR标准也可以将阿里云VR服务看做是一个承载标准的最佳实践平台。这样,标准制定,技术实践,业务发展这三方面就能够有机的结合起来,并且对于VR产业的发展也能形成比较有力的推动。
LiveVideoStack:在今年的西班牙世界通信大会MWC上,5G成为热点。你如何看5G技术给多媒体生态及VR视频带来的机会?
盛骁杰:5G技术是无线传输的一个突破,如果说3G到4G是从移动互联网的文字图片时代到刚好迈入视频时代,那么5G就是彻底进入到多媒体应用爆发的时代。由于对于移动多媒体应用来说最大的阻力之一:带宽约束和成本在5G时代会大大降低,可想而知,5G时代的移动多媒体生态会逐渐丰富起来。目前的VR视频由于用户侧带宽的约束,使得即使只是4K的VR视频在压缩后也无法具有很好的体验。到5G时代,更高的分辨率(8K以上)的VR视频,更自由的视觉体验(比如6自由度)都会在移动设备上摆脱之前的巨大数据传输的束缚,而一旦VR视频的体验上升了,用户也肯定会越来越乐意接受消费VR视频。另外,目前电信正在推进的1G带宽入户其实也和5G类似,正在不断降低用户体验VR视频的门槛。而如果反过来看,在5G时代的带宽情况下,VR视频有机会成为最适合承载在上面的体验形态,因为和8K视频需要的超大电视屏幕或投影墙相比,VR头显的较轻量级的消费形式会变得更为容易普及。
LiveVideoStack:展望未来,你认为VR视频在哪些场景或行业有机会重度使用?
盛骁杰:我认为VR视频可能会在娱乐,教育方面首先表现出较大的应用潜力。在娱乐场景下,用户的身临其境的感觉显得尤为重要,目前的视频形态在这方面还是非常欠缺的,离现场的体验有很大的差距。VR视频在某种程度上可以弥补这种差距,特别是考虑到未来VR视频在采集端的清晰度提高,压缩的带宽压力减轻,以及VR终端的轻便程度提高,再加上VR全景声技术的普及,用户的临场体验感肯定会不断的加强,可以预见用户的接受程度也会不断增加。在这方面,阿里优酷其实已经有了比较多的尝试,优酷VR视频和直播在内容上已经覆盖了音乐,体育以及大型活动等多类场景,通过业务上不断的探索尝试和技术上的优化迭代,优酷VR视频和直播已经能够在不同类型的场景中做到比较好的沉浸式体验,并且也获得了不少用户的良好反馈。值得一提的是,去年的阿里年会也是通过我们的VR直播技术进行了整场的VR直播,各方面的反馈都不错。当然,在VR体验的提升和技术的改进方面是没有止境的,我们后续还会持续不断的对VR视频和直播的体验进行优化,能够让用户能越来越身临其境。
另外,在VR教育方面,我个人认为潜力也会很大,毕竟在教育领域用户的直观和形象的体验也是非常重要的,VR的一大特点就是能够极大的拓展用户的直观体验,能够把丰富多彩的知识更加形象的展现在用户面前,信息量也会比传统的图册或视频这种形式要更加丰富多样。
LiveVideoStack:AI等新技术对多媒体开发生态会产生怎样的影响?看到哪些场景的应用?
盛骁杰: AI对于多媒体领域目前的影响面已经比较大了,比如AI对于视频的理解,视频处理以及视频的压缩这三大领域都有不同程度的影响。
在视频理解这块,由于深度学习的普遍应用,内容识别和理解的准确率已经比之前的特征提取+SVM分类时代大幅度提升了,从而有不少应用开始步入实用化的阶段,比如视频的自动化审核,视频智能标签分析以及比如视频的自动拆条等等,这些应用使得机器有越来越多的机会能够提升原本非常消耗人力的审核,打标以及拆条等环节的生产效率。
在视频处理方面,深度神经网络也和一些经典的视频处理问题产生了新的化学反应,比如传统的通过滤波器精心设计的图像去噪算法,再比如超分辨率算法等等。通过深度学习的工具,传统的图像处理已经能够超越传统算法的一些局限,达到更具有自适应性的阶段。
而在视频编码方向,目前深度学习的影响相对而言还不是很深入,毕竟经典的视频编码框架还是有很多数学上的工具来支撑,深度学习一时间无法全部颠覆。但深度学习也开始在编解码的后处理模块,比如去块效应和SAO等模块开始进行了一些有益的尝试,并且也取得了一些不错的结果,这方面的潜力还需要持续观察。
更多精彩分享,我们在上海等你
如果你对VR视频感兴趣,如果你觉得短短的一篇采访不过瘾,如果你希望听到更多的新技术、新趋势、新实践,4月21日【多媒体开发新趋势沙龙】+5月19日-20日【WebRTCon 2018垂直大会】,我们将在上海等你!
盛骁杰老师将在两场活动中分享超高清VR直播技术挑战,探秘如何提高高流畅、高清晰的VR观影体验,怎样提升大规模视频数据的实时处理和编码分发,未来VR视频还将面临怎样的技术挑战。此外我们还准备了更多精彩的内容:
吴威麒 触宝科技音频技术专家 《实时语音通信的音频后处理技术》
曾小伟 苏宁文创技术副总监 《如何使用机器学习算法优化分发链路》
沈轲轶 腾讯天天P图iOS开发组长 《iOS实时相机的GPU实践》
崔文秀 三体云产品副总裁 《实时音视频技术赋能传统行业》
蔡锐涛 相芯科技图形引擎负责人 《Animoji动态表情的技术实现》
点击 [阅读原文] 了解相关活动信息,快来报名吧!