从能力开放走向生态，构建多媒体共享商业生态-阿里云开发者社区

摘要：对于移动技术而言，2017年是继往开来之年。一方面是移动技术领域进入深水区，另一方面移动技术边界和内涵被不断重塑。在过去的一年中，以VR视频直播为代表的数字媒体技术能力不断发展成熟，出现了更多的落地实践。在2017年杭州云栖大会上，淘宝资深技术专家仲寿和优酷技术专家徐昊就为大家分享了数字媒体云服务趋势，并介绍了淘宝和优酷数字媒体能力以及阿里巴巴所具有的业界最好的VR直播能力。

以下内容根据演讲视频以及PPT整理而成。

本次的分享主要分为以下四个部分：

数字媒体云服务趋势
淘宝/优酷数字媒体能力介绍
从能力开放走向商业生态
业界最好的VR直播能力

一、数字媒体云服务趋势

技术：数字媒体技术发展里程

6224e0bac9ec30a8630bb732765406a6af1b5983

数字媒体技术起步于上世纪90年代，最早基于网络和硬件能力形成了单向网络，有线传播可以达到30M以上的传输能力，数字电视地面转播和卫星单频点可以达到8M，模拟电视的分辨率可以达到576。当时的图像处理只是很简单的压缩，这个阶段能够提供就是只有电视屏的数字广播。

随着业务的发展，上一个阶段的技术已经不能满足用户的需要了。2000年前后，随着双向网络的飞速发展，DSL下行可以达到8M，上行可以超过512K，并且出现了1080的高清电视。在图像处理方面，H.264 压缩技术在行业内也比较成熟了，解码芯片也出来了。国内最早的RPTV除了可以被动接收电视直播以外还可以按照自己的需求进行点播。

从2000年初到2010年前后，比较大的特征就是移动网络发展，以及智能手机和3G、4G网络的发展。在视频消费的方面，大家不再局限于坐在家里通过PC或者电视观看了，可以使用智能手机随时随地观看视频。对于网络和硬件能力而言，3G网络下行可以达到2M，4G网络更高，图像处理理论方面，H.265刚刚出来但还没有成熟，此时还是延续H.264的压缩理论。从业务角度而言，大家可以在手机上看短视频，还可以在短视频外通过推送通道进行聊天以及文字消息的相互传递，已经具备了一定的互动性以及移动化。

从最新的进展来看，目前的网络已经进入4G时代了，下行可以达到100M，实测可以达到20M，上行可以达到50M，在正常网络情况下的实测中，上行网络达到2M或者3M是没有问题的，这意味着内容生产和播发不一定需要用到宽带了，现在主播可以拿着手机边走边拍。图像处理技术已经发展到H.265，这比H.264的理论极限压缩率可以高出30%多，实测也可以高15%到20%。另外，在一定程度上可以看到，Kinect等3D建模技术可以在4米的范围内探测出人以及背景的深度信息，深度学习与图像识别的技术也日趋成熟，目前应用最广泛的就是人脸识别，如今大家进入云栖大会的会场也可以通过人脸识别的方式进行身份认证，现在机器也可以分辨出图像中到底是一件衣服还是一个杯子了。随着技术能力和网络能力的增强，从业务角度来看，大家已经可以初步感受到VR虚拟现实、AR增强现实以及基于视频图像的交互体验了。

未来，我们预测网络能力，特别是5G网络下行可以达到千兆级别，延迟可以达到毫秒级。并且会出现海量终端，如果大家了解IoT技术应该知道，IoT技术一个非常明显特征是终端数量远比手机终端多，家里所有设备都可以用IoT的5G芯片接入到网络中。另外，显示设备不仅局限于电视和手机了。在业界的技术研究中,可以看到裸眼3D、激光全息、视网膜成像等技术的理论和模型设备都在逐渐成型。H.266压缩技术预计将在现有H.265的基础上将压缩率再提高30%到50%。基于视频图像的人工智能、完善的3D建模技术，可以通过视频拍摄还原出真实3D模型，识别并抠出中间的每一个物体，同时在图像序列中能够识别出故事的情节，并且将其转换成为自然语义。目前在业界，这些技术所针对的特定场景也已经出现了效果比较好的原型。

那么，业务到底是什么？基于上述的这些能力会出现多少新的玩法？是否能够真正地实现人与计算机虚拟对象之间的互动，形成千人千面的视频传输和交互，形成带内的而非带外的人和虚拟世界之间的触达？还有待于大家去探索。

技术：数字媒体技术突破的方向

3ccafe0dd52f7e38cdaf0d16cd398e39a7c79ea6

技术发展到这个阶段，数字媒体技术突破了一定的瓶颈，但是从生产、分发到使用的整条链路上，还是可以看到行业服务提供商所面临的重重困难，包括生产成本高、周期长、生产的视频内容不能完整地还原物理世界、视频内容分发无法精确理解多媒体和数字内容的语义，进而无法精准匹配用户的期望，无法通过计算机自动地提取多媒体内容的相关语义信息，只能通过人工进行选择。在系统侧，没有能力自动地根据用户喜好进行内容分发。在用户侧，成像质量依然很低，这里的成像质量并不是指的清晰度，现在4K和8K的清晰度都已经有了，而且4K也已经比较成熟了，但是3D的呈现清晰度却是不够的，而且3D的建模比较粗糙。对于播放和互动而言，由于压缩技术、设备以及网络延迟等原因，交互这方面的延迟是非常高的。此外，因为计算机无法对视频图像中的内容进行抠取并进行增强，所以互动参与感不强，大部分所谓的互动都是基于带外信息的，没有办法针对视频内容进行互动，而且因为机器无法理解视频内容，所以也无法对内容本身进行互动编辑，即使存在一些互动，用户被动接受的成分还是大于主动的期望成分。上述就是数字媒体技术发展的趋势和面临的挑战。

服务：数字媒体云服务的发展

eece2b1bd14a7f69e2fdae05d7480d416988216b

从服务角度来看，行业提供移动数字媒体云服务的发展历程经历了四个阶段：

云服务1.0时代。提供了单一资源服务，包括存储、计算、带宽。
云服务2.0时代。针对互联网内容提供了较强的能力，包括内容分发能力、图像处理能力、视频处理能力以及简单的图像识别能力。这个阶段比较典型的有微软的Azure视频云，它提供了CDN、拍摄、在线转码和一定的视频对象识别能力以及字幕自动生成能力。
云服务3.0时代。在这个阶段，所有的服务提供商必须基于基本能力去构建自己的业务系统，所有场景化和定制都必须自己做。很多新的服务提供商提供了更强的基于场景的业务服务，其中比较有代表性的就是金山视频云和腾讯视频云，他们可以针对互动直播的场景以及商业直播的场景提供不同的服务接口。这就是场景化的云服务3.0时代。
云服务4.0时代。云服务4.0时代是基于生态的多媒体服务，包括商业直播、教育视频等都应该有生产者到分发者，再到消费者之间的利益和关系的触达。比较典型的就是视频服务提供商Video++，Video++最主要的特点是两个：一是它内嵌了一定的视频人工智能的能力，当视频拍摄完之后可以自动识别背后的平面，将其抠出来并进行自动的广告植入；二是视频运营能力，服务提供商会收集用户消费数据、内容使用数据，可以提供报表，还可以借助生态的能力帮助视频主进行广告招商，把视频背景抠出来并植入广告，使服务提供商可以专注于视频服务的生产和提供。

服务：数字媒体云服务未来方向

3029e82d2052fcb8fd75b757e8522b9a524374ff

从发展趋势来看，我们认为数字媒体云服务方向是：一是商业场景化；二是双向互动体验；三是内容理解智能化。商业场景化是指针对垂直的商业场景提供商业化的数据运维能力以及生态链接能力；双向互动体验是指提供基于图文的互动，包括聊天、评论和点赞以及基于音视频的互动，比如现在的连麦，而未来希望在这一点上实现AR增强现实，使得最终消费者可以操纵视频中的图元。内容理解智能化主要包括几个方面，体验智能化包括美颜、动效、AR和VR等，效率的智能化包括对于黄恐暴内容进行自动过滤以及内容质量评价和提升，商业智能化则包括对象识别以及广告插入。

二、淘宝/优酷数字媒体能力介绍

在过去的一年，淘宝和优酷在数字媒体能力的方面也做了大量的尝试，这些尝试主要集中在五个方面：互动、智能、数据、生态、平台化。

a9bf7b58c9bbb5f8f1430476b192e55152a06693

多媒体互动能力

2ce49df90f2d96239a55d8246382a102bc8949c0

多媒体互动能力包括标准图文互动、带外互动、人与人的互动、人与视频的互动以及AR互动。对于标准互动在这里不做过多赘述，在手淘上的直播间中大家都可以聊天、点赞、评论和送礼物。基于视频内容的互动这里有两个例子，第一个是在视频中存在内容锚点，商家或者主播拍摄的视频上传到平台上之后，平台可以自动进行对象识别、抠取，之后定位到抠取的商品，并且在商品上添加锚点，这个锚点会跟随视频中的人物进行运动，并且锚点同时也是一个热链，点击之后可以连接到相关的商品信息上；第二个例子是人与人的互动，目前最常见的就是连麦，主播和粉丝之间以及粉丝和粉丝之间可以进行实时的音视频交互，这样的交互也会播发到所有的粉丝面前。此外，在智能方面和互动方面的结合就是AR，在淘宝造物节上也做了AR的直播。对于AR直播而言，主要有几种玩法，第一种就是在淘宝造物节的直播现场的最中间有虚拟的奥特曼形象，这个场景实际上是通过对于展厅拍摄现场和直播间的奥特曼主播在服务器播发侧合成的；第二种玩法就是在展厅中，行人的头上会掉下虚拟的俄罗斯方块和雨滴，而当俄罗斯方块和雨滴滴落到人头位置的时候会自动爆开，这就是人和图像单点信息的互动。

数字媒体智能化

44de331c946b4187c84c88de56d0d9744c73c7ca

淘宝在数字媒体智能化上主要做了以下三方面的工作：

自动技术审核。在数据审核方面实现了自动化。众所周知，淘宝每天的视频生产量是非常大的，这些视频需要进行自动的技术审核，需要审查出黄恐暴信息、降低视频质量的水印以及拼接的图文等，这些都是通过自动审核的工具在扫描视频之后审核出来的，这里就会涉及到对视频对象的抠取和识别。
智能内容质量评价。淘宝需要把高质量的视频内容分发给VIP客户，视频的质量也需要通过人工算法进行评价，面对百万量级的视频，是无法做到通过人工打标的。
对象识别和人脸监测。现在大家在手机淘宝中可以看到美颜和动态贴纸功能，这里主要涉及了人脸检测和特征点的提取以及人脸的替换。

可视化数据运营

22bc62ed40340447d9989ba37689cc88bbfb763c

可视化数据运营部分主要涉及到了体验和运营的两个看板。在整个链路中，存在大量的数据埋点，数据埋点所收集到的用户信息以及系统信息会统一地反馈到后台，并通过BI以及大数据系统形成有效的数据看板，可以展现出播放成功率以及来自于各区域的成交转换率等信息。

完整的生态内容

35b4a2769f6b6ab7d0e8fa8c295979aeedcd8266

整个生态包括从生产者到分发者再到消费者的连接过程，淘宝在生态方面主要做了以下几项工作：

创作者入驻。创作者可以入驻内容生产平台并提交自己创作的内容，平台背后有大量的数字媒体的能力进行支撑，包括媒体编辑能力、质量评价能力、自动识别以及自动打标能力。
交易交易撮合。这是向内容分发者提供的，通过自动识别和人工识别的内容特征以及用户特征，内容分发者可以高效指定内容分发的目标。
内容投放分佣。这是连接内容生产者、分发者和使用者的关键环节，淘宝会统计包括点击、成交转换等内容使用的相关信息，并按照一定的规则在内容生产者和分发者之间进行分佣，促进整个生态的健康成长。

统一的数字媒体内容平台架构

1492a35d51e77fe61301eae9676cc17bdb05f182

淘宝在做这些业务的时候也把所有能力进行平台化。如上图所示，数字媒体内容能力的平台化也是分层次的，最底层是算法能力，上面所提到的各项业务的背后都有大量的算法支持，包括图像质量评分算法、对象检测算法、自然语言处理算法、情感识别算法、运动跟踪算法、3D建模算法等。算法本身是无法支持业务处理的，所以淘宝会提供一个工具和基础设施，包括拍摄的工具、播放器、编转码、CDN、数据埋点以及内容标签等。并且对于工具和基础设施做了集成，针对不同的角色、交易的不同环节以及不同的商业场景形成的多个平台。通过这些平台向外提供了面向不同角色、不同生态链环节的服务，比如内容生产服务、运营数据服务、内容审核服务、内容播放服务以及交易分佣服务等。

以上这些这就是淘宝在近一年的时间内构建的完整数字媒体生态，特别是移动数字媒体的能力和业务。

三、从能力开放走向商业生态

阿里数字媒体云服务发展方向

31d00922decdf0464ade36224b2f38b6f00e637d

淘宝希望在构建数字媒体业务的同时将积淀的能力以平台方式进行组织，在未来能够和业界的生态伙伴进行共享。淘宝的一个愿景就是在阿里云的基础上提供数字媒体云服务，这与现在阿里云所提供的视频云服务不同，需要在互动、智能、场景、生态这四个方面进行增强，这些基础服务都还在，但是更进一步地进行了重新组织和增强。平台在互动方面提供实时消息通道、互动容器和实时音视频通道，并且提供带外服务以及人与人之间的连接互动和承载带外互动能力的统一框架。在智能方面提供自动鉴黄，对象识别和标签等，可以进行智能广告插入。在场景方面，目前主要针对的场景是商业直播、电商直播和教育直播。在生态方面，主要提供内容生产的生态平台支持和内容运营的数据平台支持。底层依然会使用现有的视频图像识别、音视频通道、边缘计算以及实时编辑的能力。

阿里数字媒体云服务产品架构

1fb7eb110bb6fc7ae32a9d6542b3ff4633f499bf

整体来看，未来阿里数字媒体云产品服务架构将会分为以下几层：

基础设施服务层，这就是数字媒体服务1.0的状态，这一层会提供各种基础服务，包括Proxy、OSS、RDS、ECS、SLB负载均衡等。
音视频工具，在基础设施服务层之上提供了一系列的音视频工具，目前已经提供了CDN、推流采集、编转码、移动消息、推拉流等功能，未来也会提供媒体分析、内容保护、实时编辑以及云通信等能力。
面向生态能力，在音视频工具之上提供了面向生态的能力，包括内容生产能力、云导播的能力，所谓云导播指的是在云侧对推上去流进行各种编辑，并且还包括互动容器、播放等能力。
行业解决方案，面向生态的能力支撑了行业的各种解决方案，提供了游戏直播、视频门户、短视频、在线教育、美女主播、垂直社交以及特定的VR直播的解决方案。

案例：阿里多媒体平台对优酷直播的支持

1428db2d2ac50a7f390e31beecaf4f630573294f

从2016年到2017年上半年，阿里多媒体平台的一个案例是集团内部的能力输出到对于优酷直播的支持上。如上图所示，在架构的底层可以看到阿里多媒体平台提供了基本的推流服务、云导播服务和播放服务，在底层之上同时也提供了包括直播源数据的管理和直播间管理在内的直播管理、互动框架、互动容器、互动通道以及直播运营数据服务。优酷在多媒体平台之上开发了自己的直播业务，包括发布会直播、新闻访谈直播、赛事泛娱乐直播以及电商直播等。如上图所示的就是优酷上的直播界面以及蚂蚁金服新闻发布会的直播界面。

核心服务介绍：流处理服务

c584ec172632758bea9f52d7f9dd05bfdc1c45fd

回到具体的服务能力，阿里数字媒体平台的底层提供了流处理的服务能力。流处理服务主要分为了几个方面，第一部分是最底层的推流SDK和播放器SDK；第二部分是上层的输入处理、输出处理、切换处理和包装处理。在编辑能力部分，可以在流上进行二次加工，可以对流的协议和格式进行转换，也可以进行推流、拉流以及背景图的替换，还可以进行各种输入预设；在输出部分，可以做协议转换、实时直转点、以及录制、码率和分辨率的切换，可以对于云端录入的信息进行剪辑，以及出于政策要求和安全考虑对于输出进行延迟，也可以打通短视频的媒资存储库，还可以进行低延迟返送；在视频处理部分，可以进行混流、并流，此外还提供了虚拟调音台，这已经和传统调音设备的编辑很接近了，可以进行广告的插入和替换、多集导播以及紧急情况下的视频切换。云导播完全可以胜任商业直播的场景，实际上就是一个虚拟的云化电视台。在流处理服务的最上层，还提供了直播云导播、直转点云编辑、流状态变更和回放合并这四个大的服务板块。

核心能力：互动直播运营

56e30ae1ab17aaedaef44ea4e956d10f68bd6ea7

在基本流之上，阿里数字媒体平台还提供了互动直播运营的能力，这包括了整个价值链的闭环。如上图所示，在价值链中有生产者、使用者、观看者以及运营策划等角色，所有这些人都会接入到系统，而系统在基本的流处理之外还提供了很多用于支撑运营的数据服务能力，比如包括主播定级、主播权限以及主播透出等在内的主播体系、包括生产者、观看者、使用者在内的多边市场、评级以及用于连接市场生态环节的消息以及社区。生态客户端接入之后会连接到阿里的直播中台，直播中台会提供直播内容管理、账号体系、管控、直播间管理以及互动平台。这样，平台上的互动直播服务提供商就能够提供一个完善的全链路的直播互动消息管理服务。此外，在整个流服务和数据服务的上层会将交互数据、播放数据、性能数据等进行统一采集和上报，并形成数据大盘。

核心能力：电商短视频运营

890f2659d6e2831d8a231128f97758e1c4f3879c

针对短视频，阿里巴巴也提供了具备商业生态能力的平台。从生产者环节来看，可以支持达人、商家、机构、用户、第三方视频和直播服务等，所有的这些内容来源都可以引入和管理。在视频的发布和编辑环节，提供了PC和无线的发布能力，包括新建、回放、对视频进行切片、直播录制等，同时对视频图像本身也提供的相应的处理工具，包括锐化、滤镜、美颜、动效以及物体识别等。在互动营销投放环节，提供了定时互动、即时互动，包括评论、打赏、点赞等。此外还可以提供为品牌营销临时构建的活动现场。在媒资中心进行媒体留存上可以帮助服务提供商对媒体资产进行二次加工和处理，实现媒体资产增值、音视频分析、音视频所依赖商品的分析、文本分析、生成用户标签以及对用户行为的分析，同时可以采集所有用户交互、营销和互动的行为形成数据大盘。而且底层有一系列算法和数据可以支撑和赋能平台和服务提供商，可以提供内容运营、用户运营、渠道运营以及流量运营的能力。

四、业界最好的VR直播能力

在2016年，VR技术特别火，在这方面进行尝试的团队和公司都比较多，但是在做VR直播路径上却存在非常多的技术挑战和困难。其实早在2016年5月份，阿里就曾经尝试过做VR直播，当时的清晰度远远不如今天。想要达到今天这样的清晰度，从采集、到编码、到推流、到后台转码和推送，很多个环节都需要做好才行。

可能大家原来对于直播的认识就是网红直接拿一个摄像头就可直播了，但是实际上在做VR直播之后才发现广播电视系统过去几十年积累了非常庞杂的技术体系，一场像春晚这样的直播里面所涉及到软件、硬件、算法以及链路层面的技术是极其庞杂的，VR作为一个新生事物想要插入到这样一个庞杂的技术体系中，并成为其中的一员是非常复杂的。在过去一年时间中，阿里做了非常多的VR直播的尝试，锤炼了其中端到端的技术。今天我们可以非常自信地说，自己在整个国际的业界中都位于非常领先的水平。

业界最好的VR直播所具备的能力

e08e05f8d9b92e7cbae0415e81a50f1473a6c251

作为业界最好的VR直播，我们有以下的能力：

多机位。这是第一步，因为VR没有办法拉近景，也没有办法给特写镜头，要想在大场景中给用户带来现场感，必须使用多机位，这就涉及到将整套VR拍摄体系嵌入到原来的广播电视体系中。
单台处理能力。VR视频的信息量远高于传统普通视频，阿里现在单台摄像机的数据流量是500M bps，那么5个机位就是2.5G，这样的数据流量是不可能推到云端进行处理的，所以对画面的采集处理必须在现场完成，我们做了相当多的努力和尝试，目前现场处理集群可以达到每秒10G的处理能力，可以完美地满足多机位直
实时3D拼接。谈到虚拟现实VR，往往想象是现场感，而这种现场感必须来自于3D的呈现，而现在看到的自称能够做VR直播的团队呈现基本上都是2D的或者3D 180度的，而优酷所做的是3D的360度VR直播，这一点上全世界范围没有看到很多的竞争对手。迄今为止，优酷上3D 360度的直播几乎是每周一场的节奏，大家也可以到优酷VR平台版本中看到3D 360度的直播回看。

多机位、强大现场处理能力以及3D 360度实时拼接这三点结合起来，才基本能够满足用户预期的VR体验。但是仅仅实现了以上的功能，还是远远不够的。

3e79417b3a729b759263052c7ef49af82ab0a080

首先，对直播的要求是场景和现场感，所以在产品层面特别希望实现虚拟的观众能够真正地和现场有所交流，这就意味着现场和线上用户进行交流时必须做到极低的延迟。2016年出现了很多网红直播，这种直播的延迟是非常低的，所以才可能在同一个场景中进行互动，但是网红直播的数据流量几乎只有今天的VR直播的几十分之一，所以想要实现VR直播的零延迟是非常困难的，过去的一年中，阿里也在延迟方面进行了很多的优化。

第二点是画质增强。其实对画质而言，技术同学们往往没有深刻理解，而对画质理解最深应该是电视和电影行业的DP，他们对画面的色彩、色调、对比度有非常深刻的理解。其实普通吃瓜群众在电视上看到的直播画面都是经过现场人员精心设计的，而对于技术人员而言，切入这样一个新的业务方向需要学习的东西有很多。而今天我们可以非常自信和大家讲，阿里在现场调色和现场灯光的处理方面已经达到了专业水准。

第三点是AR支持。大型现场直播存在的意义是服务于对现场感兴趣但是由于时间或空间关系没有办法到现场的人，为这些用户带来现场感。传统解决方案是通过大屏幕的电视给用户带来现场感，而在画面角度，VR可以为用户带来更加优秀的现场感。但是直播还要传递信息，传递的不仅仅是画面，还有一些元数据，比如比赛的比分、音乐节的嘉宾和歌曲等，想要通过VR的3D画面呈现这些信息，就需要通过AR的支持，需要对现场的画面元素做处理，找到合适的空间位置并插入需要的信息。对于AR支持，阿里也是刚刚开始尝试，目前在这方面，全世界都没有非常合适的解决方案，所以阿里自己在进行相关的研发，后续也会将这方面能力会开放出来。

接下来分享一些纯技术的部分。因为VR对带宽要求非常高，现场处理通常要求上行带宽达到50M，但是这样的上传质量不太令人满意，所以想要采用H.265进行编码，但是发现现场采集时真正使用H.265进行实时编码不是一件容易的事情，可以看到所有的现场直播几乎没有用H.265的，因为H.265算法比H.264复杂很多，真正做到实时编码的基本上是纯硬件方案，而纯硬件方案的算法就会比较差，无法实现很多的复杂的计算，所以纯硬件方案的编码效率要比软件方案低20%左右，同样带宽画质差20%。而且这还仅仅是传统的非VR视频部分，要在VR上做H.265编码又是更困难的事情。所以在搞定H.265编码的过程中，优酷在现场工作站端做了相当多的技术优化工作，目前的上行推流的峰值可以达到100兆MB/S，这就保证了现场直播的高画质上传，为在云端进行进一步处理留下了很大的空间。

f2fffa07c54cb428aae72346f6078eb68af47bea

下图所示的是阿里技术体系对于画面处理一些专业技术。除了HEVC之外，还有动态码率技术。其实现在大部分视频服务对于码率处理都是很简单的，单纯地限定标清为300K，超清为1M或1.5M，而实际上标清和超清都是用户的感受，基本上能看清楚是标情，看得很清楚是超清。为了使技术算法的结果符合用户预期，阿里实现了动态码率的编码，在一些情况下，用低码率其实也可以让用户觉得很清楚；而对于高动态的场面，则需要用超高码率才能够让用户看清楚。实现了这样的优化之后，实际的使用带宽也可以下降，这一点对于VR意义非常大。而对于普通视频而言，也应用了相应的技术，目前阿里云窄带高清技术占比也是非常高的。

01c535d09b3e3b38c57dae69ef23b2eb124115f2

另一个技术点叫做金字塔模型，因为传递的VR视频是360度的，而真正被大家看到的是正前方的内容，所以在传输的时候可以进行方向性的选择，让正面的清晰度高一些，侧面的清晰度可以低一些。这个虽然说起来很简单，但是目前在业界来看，真正能够在这方面做到实用的就只有Facebook，其他的几家硅谷的创业公司目前也只在实验室阶段。而阿里的金字塔模型技术已经在线上运行了大半年，基本上已经验证了技术的可行性和可用性，后续也会将这部分作为标准能力开放出来。

讲到直播，除了前面提到的体验之外，稳定性也非常重要。过去一年多时间中，阿里也在直播的稳定性方面积累了相当多的相关技术：

多路分发。不同的设备、不同的终端，都需要不同的版本。对VR而言尤其如此，要使得淘宝、优酷、以及VR设备都能看，而VR设备也是多种多样的，所以需要对于不同设备和终端要实现多路分发，类似于Restful的概念，只有做到这一点才够实现高可用性。多路分发对于后端直播流实时的编转码具有非常高的要求，基于此阿里对底层技术架构做了相当多的选型和优化，采用了CPU和GPU结合的做法实现底层算法，做到了对于如此高码率直播流的多路实时转码和分发。
容灾。容灾这部分实现了在端到端链路上，包括采集、编码、推流、转码等整个链路对各个单点进行备份和系统演练，这方面对系统的实用性有非常大的帮助。
数据监控。在业务中，大家往往非常关注直播过程中的数据监控，流量监控、用户行为监控，因为阿里自己也有这部分的需求，所以整个系统也会建立起来。

VR直播的案例

如下图所示的是几个案例。其中一场是邹市明拳赛的直播，机位就架在拳击台的一角，离拳击手非常近，展现的是3D画面，这样大家可以想象直播时的冲击力。因为这次直播，阿里对VR的体育类型直播充满了信心，后续阿里还会和国际奥委会有更多的合作。此外，阿里还尝试了音乐类直播，最近嘻哈比较火，我们在做了一两场嘻哈音乐会之后，发现VR直播传递高动态、高参与度、高活跃度的场景是非常合适的，阿里也非常看好这个场景。综合而言，在体育和音乐领域，VR对于现场体验的传达是非常有前景的，阿里也会在这两个领域进行更多的探索。技术的部分会逐步变成阿里云的公有服务开放出来，大家也可以尝试利用这些技术做更多的VR尝试。

691222105d99156824311e235648482f04acfef6

至于阿里的年会，则属于政治任务了，我们也尝试试用了VR，效果还是好于预期的。因为年会的直播在黄龙体育馆，空间非常大、非常远，理论上不太适合VR直播，但是在尝试中利用了AR技术，在场景中嵌入了一些画面信息，弥补大场景的画面感缺失，总体的效果好于预期，在这方面还有很多的探索空间。

对于VR而言，阿里一直认为立体视觉、沉浸感会是整个数字多媒体发展历程的下一步，它或许不一定适用于所有的场景，但是一定会对某些场景特别有意义。阿里巴巴并不希望单枪匹马地在这个领域进行探索，所以经过过去一年时间的积累，在未来的3到6个月里，阿里会将在VR方面的所有核心积累变成工具链并开放出来。

共建VR直播生态

51d8ef7f4e8fec69dfcf0bf44a14b660a55d7b90

未来将会开放出来的能力将包括两个部分：

直播平台。这包括两个方面：一方面是后端，后端会提供一个操作界面，可以帮助用户配置和监控VR直播，并在直播间和参与VR直播的用户进行互动；另一方面是PLAYSDK，其实其他产品支持VR直播最简单的方法是直接集成阿里的播放SDK，这样所有的技术工作都不需要过多操心了。
服务供应商。在过去一年探索VR直播的过程当中，阿里巴巴也逐步培育了一批VR直播的供应商。所以大家在做VR直播时，除了可以集成PLAYSDK之外，如果自己没有现场采集的能力，阿里可以提供服务供应商来帮助用户进行现场采集；如果用户想做一场VR直播只需要在自己的产品上集成PLAYSDK，并用云平台管理工具进行运营就可以了，拍摄工作可以交给服务供应商，这个事情就能够跑起来。

未来，我们希望降低VR直播的门槛，帮助大家将精力集中在对于体验和场景的尝试上，对于VR领域进行更多、更深刻的探索。阿里巴巴的VR直播技术是在阿里多媒体平台上长出来的一个果实，未来希望大家可以和阿里在具体应用上有所合作，成长出越来越多有意义的果实。