一、交互演进与挑战
在过去几年,视频交互产品发生了什么变化?
我们认为 RTC 产品对行业产生了两次非常重要的变革。
第一次变革是 2014 年开始的交互从图文到音视频的升级。
2014 年,互联网创业者与 RTC 产品供应商一起探索视频互动的商业化, 教育、娱乐成为主要的突破方向, 基于全球范围内的互动授课、秀场视频连麦、多人交友互动,也大多在这时间点完成了商业与技术的成功结合。
2017 年是一个标志性的时间点,RTC 产品已经帮助头部互联网客户实现了颠覆性发展,标志着互动视频技术与在线互动商业模式的成熟。
接下来几年更多的是不同体量、不同场景的规模复制,所以我们能看到,在 2018 年以及后续的几年,市场上并没有新场景、新互动的创新,而是基于不同内容、不同客群的业务复制, 视频互动从头部走向更多的细分市场。
第二个重要变革发生在 2020 年,受疫情影响,让云视频会议全面渗透,让这个时间提前了至少 5 年。
这次市场的变化,我们不能称之为一次技术革命,实际上对 RTC 产品并没有新的诉求,也没有产生新的互动场景和技术,但这次大规模的渗透,重新定义了供应商的市场格局,第一次让云厂商成为了市场极其重要的一部分,让市场从单一的会议厂商,分裂为云平台 + 会议终端供应商,让我们的客户有了更多的选择。
从 2018 年到现在我们没有场景上的根本突破,是不是因为我们的技术上遇到了瓶颈?
带着这样的问题,阿里云对 RTC 场景技术进行了深入的技术评测,我们试图发现整个行业大家的技术水位是什么样的,不同于单项的视频技术,RTC 的评测要更为复杂。
例如,对视频编码,我们可以通过 PSNR,SSIM,VMAF 等来分析,对于视频分类等视觉算法,我们可以通过 ROC 曲线来分析,但对视频 RTC 来说,涉及的主观感受非常多,是一件比较复杂的事情,目前业界也没有统一的评测标准。
我们从这些影响用户感受的指标里面抽出六个维度表征 RTC 的表现质量。
对评测感兴趣的话可以关注我们的「视频云技术」公众号,里面详细介绍了我们怎么进行自动化评测的,评测过程中我们会创造不同的网络环境,检测 RTC 在各方面的表现。
我们对行业里的 RTC 做了一些评测,发现有两个特点。
第一,RTC 有明显的技术门槛,比如说绿色的框代表一类典型的 RTC 能力,由规模较小的团队自研,投入较小,会有明显的差距。
第二个是几个比较大的供应商,包括在阿里云在内,外面这一圈,红色的线、蓝色的线,以及黄色的线,他们都处于相对比较一致的水平,但是没有一家有特别优秀的地方,所以技术同质化特别严重,大家基本上处于同样的水平。
我们当前视频的实时互动主要集中在线上线下场景,未来可能会有更广阔的应用场景,比如说一些交互场景,VR 操控类、虚拟现实类。
这时候我们会思考一个问题,我们的技术是不是已经发展到了瓶颈期,我们无法满足未来更广泛的需求,这后面的原因是什么?会不会是我们的技术发展到某个瓶颈了?因为技术通常是阶跃式的发展,不能突破就会陷入在一个层次上。
二、“零处理” 加速交互升级
我们希望分析一下,现在用户的体验到底怎么样?我们现在的技术存在什么问题?
通过比较各家 RTC 供应商,我们发现一个比较有意思的点,就是大家有千分之二的卡顿率是难以消除的。50%、60% 的丢包都可以做的很好,但是如果网络带宽受限,千分之二的卡顿就难以消除了。
我们有一些手段可以解决类似的问题,比如利用窄带高清技术,我们可以通过复杂计算解决这些问题,也可以通过非标屏幕编码类技术解决,但是实际上我们很难把这些技术进行非常广泛的利用。
最根本的原因是我们会发现端侧能力是有限制的,大家的手机各不相同,有可能有些人的手机特别好,可以做复杂算法,有些人手机差,无法进行复杂算法,同时,端的碎片化比较严重,要对所有端适配是比较困难的。
在应用上我们希望能够提供更有趣的交互,比如说实时生成卡通人物形象,这在端上可以运行,但是只有少数非常强大的设备才能运行。
一个自然的想法是,我们是不是能突破当前的应用架构?
我们把一个完全依赖端能力的架构,逐步转变成依靠云和端一起配合进行视频传输处理的架构,基于这个想法我们提出了云处理 + 端渲染技术,目的是希望从云上提供强大的处理能力,端上负责渲染,只需要提供很少的处理能力就能完成比较好的处理效果,使大家在不同的手机上都能得到一样的体验。
这就是视频云“零处理” 解决方案的基本架构图,在端上只需要进行比较简单的视频采集以及视频传输,然后通过我们构建的覆盖全球的 GRTN 网络到达云端,云端使用 GRTP 的云端实时处理引擎对视频进行处理,再把处理好的视频传到端上,端上只需要做简单的呈现。这样可以很好的解决刚才提到端计算能力不够和碎片化的问题。
但是天下没有免费的午餐,采用上面的架构,很容易发现几个问题。
第一,我们的云上是不是能承受这么大规模的处理。
第二,云上能不能承担这么大规模的成本。
第三,云上能不能持续提供这么多类型的处理服务。
我们自己的信心来自于几个方面。
第一,通过阿里多年的积累,我们积累了业界最大规模的云上视频处理集群,所以我们在技术上已经具备承担超大规模处理的能力。
第二,关于成本。
下图是我们处理的一张业务图的示例图,横坐标是时间,纵坐标是资源使用量,黑色的线一种业务,红色线是另一种业务,可以看到,每种业务都存在大量的业务空闲期,业务空闲期可以让我们有大量资源供我们复用,当我们把多种业务混跑时,就能把资源利用起来,大幅度降低成本。
除了在时间上的混跑,我们也可以通过空间上的混跑和异构的混跑,将整体的成本降下来。
第三,由于我们背靠阿里集团,包括我们自己也有很多视频算法处理积累,所以我们有机会持续不断的提供丰富的算法和处理能力。
三、“零处理” 实践分享
接下来是阿里云视频云在零处理的实践。
第一个场景是使用 MCU 解放端侧算力。
通常情况下,我们做 RTC 直播时,观众看到的直播画面是通过 RTMP 协议来完成的,这种情况下由于延迟的原因观众是无法参与到直播互动的。要增强观众的互动性,需要大家都加入 RTC 网络,每个端订阅多个流对端的算力和网络流量都是非常大的负担。
我们通过云端的 MCU 把流合并,重新进入到 RTC 会议里,这样观众可以通过 RTC 方式看到直播流,非常方便进行互动,同时也无需消耗过多的端上资源。这种模式我们称为互动低延时模式,已经是我们一个成熟的产品能力。
第二个场景,云转推。
这是一个我们打通阿里内部服务能力的例子,我们通过和阿里集团安全部的合作,将 RTC 的流通过内网和安全部的产品打通,减少了中间环节,实现低成本、低延迟的内容审核。
第三个场景,云特效。
相信这个场景大家已经看过,利用云端的处理,我们实现了虚拟会议室,通过云端的 MCU 将所有人进行抠图 + 贴图,来提升视频会议时的参会体验,这是阿里内部开会时已经可以运用到、并看到的技术。
上面展示的实时虚拟形象,是依托 GRTN 实时传输网络,将视频流传输到云端,云端对视频进行抠图,变声,卡通化等复杂的 AI 处理,终端只负责展示,从而实现了端侧零处理。
“零处理“作为下一代实时交互解决方案,在云厂商中率先推出,解决了新交互时代因端侧算力受限而无法实现的虚拟交互场景难题,充分利用云端一体的超精细算力,以云特效构建实时虚拟场景,是全面打开沉浸交互新世界的一项重要演进。
AliRTC 系列内容
阿里云 RTC QoS 屏幕共享弱网优化之若干编码器相关优化
阿里云 RTC QoS 弱网对抗之 LTR 及其硬件解码支持
扫码入群和作者一起探讨音视频技术
获取更多视频云行业最新信息👇
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。