淘宝直播火爆的背后,阿里做了什么?

简介: 2020天猫双11的直播间里,平台必须在1秒内将主播声音、画面和商品信息同步给分布范围极广的百万级消费者,确保后者获得一致的、实时的、高水平的音视频体验,以及商品交易(尤其是秒杀)的可信度。为了进一步优化消费者体验,降低延时,阿里巴巴非常重视在音视频技术领域的投入。本文从最新的国际视频标准VVC(Versatile Video Coding,多功能影像编码)讲起,分享视频直播行业的全景与阿里的创新,以及达摩院和淘宝团队共同开发的VVC编解码器相关工作。

image.png

作者 | 叶琰
来源 | 阿里技术公众号

image.png

国际视频标准简史

上图显示的是两个重量级国际视频标准组织:国际通信联盟ITU-T以及国际标准化组织ISO/IEC MPEG。这两个巨头从30年前就开始做视频标准,到现在已经是做到第6代了。其中这两大巨头联合制定的几款视频标准对国际上视频产业尤其有非常深远的影响。比如MPEG2,它完美的帮助视频产业完成从模拟电视到数字电视的重要转型;H264对业界的贡献就更是不言而喻,大家都知道无论什么终端(电视、手机、电脑)和什么服务(广播,卫星,互联网,视频会议等)基本上全面支持这个标准;H265对高清超高清视频和HDR视频的普及做出了重要的贡献。最新出炉的第6代标准VVC,除了服务现在已有的应用,降低带宽成本提高用户体验,同时它也可以赋能5G下新兴的视频应用,像AR/VR、360度全景视频以及超高清的4K、8K等。

为什么我们要这样坚持不懈的做6代视频标准?每次标准更新换代时,视频产业链需要从服务端内容生产商一直到最后的消费者,包括中间每个环节上打通端到端的生态系统,每一个环节都要去做更新。因为视频标准更新换代需要付出这么大的努力,所以我们对每一代新标准都会有一个基本的要求:相同的视频质量下编码效率翻倍,也就是说相比上一代,新标准的带宽节省必须达到50%。

先来看一下VVC标准会经常碰到的一些词:

  • VVC:Versatile Video Coding,Versatinle指灵活多功能的特性
  • VTM:测试模型参考软件平台
  • JVET:ITU-T和ISO/IEC MPEG的联合委员会
  • H.266:VVC是两个国际标准组织的双标,H.266是VVC在ITU-T的标准编号

image.png

  • 历时近3年的pre-standard技术开发及积累工作,JEM(Joint Exploration Model)参考软件平台。
  • 相同PSNR指标下,JEM-7.0相对HEVC的参考平台HM达到34%的码率节省,为正式标准化提供了重要的技术支撑。
  • 同时,360Lib参考软件平台为全景视频的处理、压缩和质量评估提供了全套完整的工作流程。

在VVC正式标准化还没开始之前,国际标准组织和成员公司就进行了多年的技术预研和技术积累。从上图可以看到,从2015年初开始,JVET经过了历时两年半的编码技术预研,搭建并完善了JEM参考软件平台;到2017年中,在相同的PSNR的指标下,JEM相对HEVC已经可以达到34%的码率节省,为正式开始制定下一代视频标准提供了有力的技术支撑和性能证明。

另外,在JVET积累下一代编码技术的预研过程中,由于AR/VR等新兴应用的影响,JVET也对360度全景视频进行了充分研究。为此,JVET建立了360Lib参考软件平台,和JEM相结合,为全景视频的处理,压缩以及质量评估提供了一套完整的工作流程和性能分析的能力。2017年10月,VVC在JEM和360Lib基本上成熟时,ITU-T和ISO/IECMPEG这两个标准组织发表了联合技术征集书,里面包括3中主要视频格式:标准动态SDR视频(主流视频格式)、高动态HDR视频,以及360全景视频。这也是6代标准以来第一个考虑到多种视频格式的技术征集书。

2018年4月,全世界一共有32个单位提交了23份征求书的响应,在相同PSNR的情况下,最佳的响应提供了40%以上的码率节省,从此VVC标准化正式启程。2018年4月至2020年的7月,经过两年多的努力,VVC的第一版正式定稿。

达摩院视频标准团队在2019年年初时候开始参与VVC的标准制定,历时一年半,提交了很多技术提案被采纳到VVC标准中,为VVC标准的制定做出了重要的贡献。

image.png

上面图中的蓝色部分代表VVC参考软件平台VTM-1.0到VTM-9.0的性能演进,以及VVC相对HEVC在高清超高清视频上的性能增益。我们可以看到,VVC两年多的标准化进程主要分成两个阶段:前半阶段主要注重增加先进编码工具来提高VVC的性能增益,因此在VVC标准化的第一年期间压缩性能迅速上升;在后半阶段,标准委员会JVET更加注重VVC标准设计上的细化工作,注重各个VVC编码工具之间的设计融合,保证低功耗高效的软硬件实现,因此在VVC标准化的第二年中,我们也可以看到VVC的性能增益逐渐趋于稳定。

另外上图还提供了VVC参考软件平台VTM-1.0到VTM-9.0的复杂度演进过程。红色线显示的是编码时间,大家可以看到,随着编码性能增益的提升,编码复杂度的提升也很快。灰色线代表解码器的复杂度,相比HEVC来说一直维持在两倍不到,这说明VVC解码器的复杂度是非常可接受的。如何做一个好的VVC实时编码器,在最低复杂度的前提下拿到最高的性能,中间有很多技术和学问,这也是为什么后面手淘和达摩院要共同开发这个项目的重要原因。

image.png

上图列举了30多种VVC编码工具,在混合视频编码的框架下,所有的功能模块都增加了新的工具,用以提升VVC的压缩性能。另外VVC主打灵活多功能的特点,因此在标准制定过程中也一直考虑到一些重要特定场景的视频内容,比如针对屏幕内容以及360度全景视频的编码工具。

image.png

上图显示了VVC中各个编码工具对性能增益以及复杂度的贡献。在这个图上,如果一个编码工具落在图的右上方,则说明它的压缩性能好、同时复杂度低。但是我们可以看到其实没有免费的午餐,实际数据显示,编码性能好的工具,复杂度也一般相对较高,比如ALF。因此,我们在开发实际商用编码器的时候,如何合理选择使用这些编码工具,对编码器的在复杂度和性能上的可行性至关重要。另外,从上图我们可以看到在VVC的众多编码工具中,有8个性能增益可以超过1%,其他相对比较小。

image.png
上图显示了VVC在主流SDR视频上的性能增益。对于高清、超高清视频来说,在相同的PSNR指标下,VVC相对HEVC可以节省38.9%带宽,对于图片编码来说,这个性能增益为26.7%。

image.png

上面的表格中显示的码率节省并没有达到50%,那么VVC做为新一代的标准,是否达到了效率翻倍的设计目标?因为视频质量评判最权威的依据是主观质量,所以在每一代标准定稿前后,都会开展正式的主观质量验证工作,而每一代标准最后的带宽节省也是在相同的主观质量下来进行衡量。下面这个图显示了VVC主观质量验证工作在两个超高清4K视频通过非常严格的主观质量评测方法得到的初步数据,我们可以看到,相同的主观质量下,VVC相比HEVC的码率节省超过50%。

image.png

主流HDR视频序列,PQ & HLG,VTM-9.0 vs. HM16.18

image.png

360全景视频,8K & 4K,VTM-8.0 / HM-16.20 + 360Lib

更强的codec(VVC) + 更先进的投影格式(GCMP)

VVC有多功能灵活的特性,上图为HDR视频和360全景视频的客观性能。我们可以看到在相同客观性能下,VVC在两种主流HDR视频(PQ和HLG)内容的码率节省达到30%,在360全景视频上的码率节省达到32.5%。其中在360视频上的增益主要从两方面得到:一方面VVC代替HEVC,有更强大的编码内核,另外一部分的性能增益是通过使用更加先进的投影格式得来的。另外,上面的数据只显示了客观性能下的码率节省,针对HDR和360全景视频的主观评测工作也在有序开展,其中360全景视频的主观评测工作也由阿里标准团队主要牵头,预计明年初会有正式报告出炉。

达摩院视频标准团队参加VVC标准制定的过程中,在编码技术方面,贡献了和低延时实时通信、屏幕内容、无损压缩、高动态范围的压缩、帧间预测、高层语法等方面相关的技术。

同时,我们团队成员担任JVET大会和分会的代理主持人、VCC性能验收工作中全景视频方面的负责人、测试模型算法描述文档编辑、专题讨论组(AHG)主席、也是若干核心实验的负责人,为阿里巴巴在国际视频标准组织中建立了一定的影响力。

下面来看一下最新视频业界趋势以及VVC在这些视频趋势上的应用。

image.png

通过上面的行业报告对互联网各种类型的数据量的预测可以看到,视频将是永远的带宽大户;相比去年的饼状图(左边),5年后以后不光整体数据量会有5倍的增长,而且视频在整体数据量的占比也将持续快速增长。

视频数据的持续快速增长主要有四个原因:一、视频更加丰富,不论是电商(淘宝)、社交、娱乐(优酷)、还是新闻,包括智慧城市这些新兴应用,视频消费形式越来越多;二、大家越来越习惯随时随地,唾手可得的视频消费;三、消费者对视频的信号要求越来越高,由高清到超高清;最后,大家希望视频形式更加新颖,因此基于浸入式视频的AR/VR应用会快速兴起。

拿淘宝直播来讲,带宽成本占比很大。从日活和平均时长的角度来看,不到一年的时间增长非常迅速。月度带宽成本,有数量级的增长,占了整体业务成本中非常重要的一部分。现在的直播画面也很复杂,运动也较多,大家对主播的清晰度要求也越来越高,对分辨率和帧率等方面的技术指标提高了要求。目前淘宝已经将很有挑战性的视频内容做到平均800Kpbs的带宽,从H265编码器的角度来看,已经做到极致压缩。如果想要再显著的降低带宽成本,只能通过视频标准的更新换代来做到。

阿里266项目的主要目标是服务淘宝直播,希望在明后年的双11能够做到淘宝直播实时编码,同时相对阿里265来说压缩性能有显著的提升。

Fraunhofer HHI是一家非常有声望的德国研究机构,做了很多代的视频标准开发,对VVC标准开发也做出了很大的贡献。在今年9月公布了他们的开源VVC编解码器。我们对这个开源VVC编解码器做了一下实测,在淘宝直播的视频上,编码速度只能到达每秒0.5帧,和我们的实时编码要求相距甚远。而且对淘宝直播这样的应用来说,在解码器方面必须有最好的移动端优化。这些原因让我们更加认识到,我们需要自己去做一流的编解码器,能够高效服务我们集团内部业务,这是一件非常重要的事情,也是阿里266项目的主要目标。

最后我们再看一下MPEG中其他相关的视频标准,以及在其它视频标准组织的工作。前面我们讲了新颖的视频是一个大家要关注的主要视频趋势之一,这个主要是指浸入式视频。MPEG看到这个视频业界的重要趋势,除了制定VVC新一代视频压缩标准以外,还制定了一整套的MPEGImmersive浸入式媒体标准系列,其中包括点云压缩标准,六自由度视频和音频压缩标准,以及一些浸入式媒体的文件格式标准。

image.png

在国际视频标准组织之外,大家也都知道另外一个有影响力的视频标准制定联盟,Alliance for OpenMedia (AOM)。AOM从谷歌的VP8和VP9开始,2018年出台第一代AOM标准AV1,同时最近AOM也开始筹划开发下一代视频标准AV2。从国内的标准组织来说,AVS经过了三代主要标准,现在在开发AVS3第二器。AVS3第一期和VVC的时间线非常吻合,也是在2017年底发布技术征求书,2018年开始收集征求技术提案、征集的响应,也发布了HPM参考平台。经过一段时间的迭代,2019年底定稿AVS3第一版。目前AVS正在继续推进AVS3第二版的制定,目标是在明年年底定稿第二版,性能目标超过VVC。达摩院团队也在积极参与AVS3第二版的制定,为AVS3第二版的制定做出重要的技术贡献。

image.png

最后跟大家分享国际视频标准的未来会是什么样。我们在做视频标准时,不会只是看现代,更不会只看着过去,还要去看将来。从技术的趋势来说,基于深度学习的视频编码是一个给大家很多希望的技术方向。我们知道,过去6代国际视频标准都是基于传统的混合编码框架,其中有很多功能模块,但是做到今天这个框架已经差不多到了性能天花板。把DL技术引入编码有两条路线:一个是可以去和传统的框架相结合,在各个功能模块上增加DL的编码工具,使性能变更好;另一种路线是做端到端的DL视频编码结构。这两个方向,从技术趋势来说都是非常值得去深究的。因此MPEG在今年4月份成立了DNNVC专题组,这个专题组想要做的事情是探索深度学习在视频编码上的应用,用以打破传统框架的性能天花板,寻找视频编解码的未来方向。

image.png

最后和大家介绍一下达摩院视频技术团队主要负责的三部分工作:视频标准团队主攻VVC、AVS3、AV2、DL编码、VCM、DCM等硬核技术。在视频硬件实现上,我们团队开发了一款超高清的实时265编码器,在业界同类产品中压缩性能领先,同时还提供全硬件化的高效视频前处理的能力,目前服务于优酷直播业务。在视频软件实现上,我们的团队除了主导刚才所提到的阿里266项目,另外我们也和淘宝团队深度合作,为视频会议提供基于H264和H265的软硬件编码优化方案,降低业务成本,提高用户体验。

相关文章
|
编解码 算法 虚拟化
2022淘宝造物节3D直播虚拟营地技术亮点揭秘
2022年8月24日,淘宝造物节全新亮相!为了探索下一代互联网沉浸式购物体验,本次造物节除了在线下广交会展馆打造一个两万平⽶全景式的“未来营地”以外,线上首次上线可万人同时在线的虚拟互动空间“3D疯狂城-造物节虚拟营地”。
426 0
2022淘宝造物节3D直播虚拟营地技术亮点揭秘
|
缓存 监控 安全
天猫淘宝卡券包演进史
卡券包整体分为PC端以及无线端两大部分,最开始的卡券包是PC版,随着PC向无线化转型的大潮,无线端卡券包也同步产生。
235 0
天猫淘宝卡券包演进史
|
安全 算法
微信“抢红包”迅速火热:不费腾讯“一兵一卒”
随着5.2版微信在春节前的1月25日晚悄然上线,“抢红包”的小游戏迅速盖过“打飞机”,成为时下拇指族中最火的活动。 与投入数亿元、借嘀嘀打车等来培育用户习惯不同,微信红包几乎不费腾讯一兵一卒,就让用户在自娱自乐的同时,轻轻松松地“交出”了银行储蓄卡、加入了微信支付的大军。“确实!这种工具性的产品用社交的方法推广起来事半功倍。”一名腾讯内部人士感慨。
169 0
微信“抢红包”迅速火热:不费腾讯“一兵一卒”
|
搜索推荐 定位技术
6月开播 | 高德开放平台系列公开课来啦,大量技术干货强势来袭
高德开放平台公开课来啦,大量技术干货强势来袭。精彩主题抢先看:自定义地图与个性化展示,地图空间搜索,猎鹰轨迹服务,导航原理及应用...
|
前端开发 小程序 Serverless
今晚19:00!淘系【云+端】开源产品线上发布会
你是否在传统开发和 Serverless 中犹豫不决,对上云抱有怀疑?是否在开发项目的前端代码和后端代码中切换觉得特别繁琐?是否在开发中后台时觉得能力不足,需要申请服务器配合?是否在小程序开发中碰到资源调用,管理繁琐的问题? 9月23日淘系技术特此举办【云+端】开源产品线上发布会!和大咖连线,共同探索云+端的未来。
941 0
今晚19:00!淘系【云+端】开源产品线上发布会
|
机器学习/深度学习 Web App开发 编解码
淘宝直播三大核心技术揭秘
阿里巴巴淘系技术部 高级算法专家王立波(花名:庄恕)受邀参加LiveVideoStackCon 2020线上峰会的分享,为大家带来「淘宝直播窄带高清技术」,本文将结合现场演讲,从直播背景、直播痛点分析、窄带高清、云视频技术趋势几方面为大家详细介绍如何在确保用户体验QOS不变的前提下,实现淘宝直播的技术架构升级和成本大幅缩减。
4289 0
淘宝直播三大核心技术揭秘
|
传感器 新零售 监控
送外卖也要“黑科技”?阿里移动感知技术应用揭秘
送餐路上外卖骑手们所处的位置不仅牵动着大家的心,在本地生活的场景下,也是订单配送和调度系统的重要一环。其中骑手是否已到店取餐看似简单却难以准确观测。针对这一问题,阿里本地生活科技中心建立了基于移动感知的aBeacon系统来准确地观测骑手到店和离店行为。这一工作成果也发表在了网络系统领域的顶级会议NSDI’21上。本文将从实现原理为大家做一个简单介绍。
1855 0
送外卖也要“黑科技”?阿里移动感知技术应用揭秘
购物直播系统持续火爆的原因是什么,未来还是否存在风口
近年来购物直播系统的火爆不言而喻,是因为其深度的交互特点和独特的购物优势,给大量的电商群体带来了新的方向和指引。直播购物模式当前不仅能带来的利益,还包括其背后有别于传统电商的营销方法及所产生的效果,以及直播购物可以构建的新颖的场景,就形成了极具吸引力的直播购物模式。
购物直播系统持续火爆的原因是什么,未来还是否存在风口
|
搜索推荐 算法 数据挖掘
淘宝如何拥抱短视频时代?视频推荐算法实战
本文就目前推荐算法的巨大潜力空间下,先是分析了整个行业短视频业务和淘宝段视频业务现状。而后就视频推荐算法框架以及基于视频的召回和视频排序做了详细的讲解。最后说明了业务策略的几个要点。
2192 0
淘宝如何拥抱短视频时代?视频推荐算法实战