原创 淘系音视频技术 淘系技术 2020-11-27
相信大家对网络直播已经不再陌生了。2016年被称为直播元年,基础技术逐渐成熟,引出千播大战。在红海下,纯粹的直播逐渐失去竞争力,不少企业开始走内容垂直化,跟秀场、游戏、电商、广电等内容特点深度结合。其中内容垂直化最为成功的,莫过于电商直播。据一些行业调查报告,2020年中国电商直播市场规模接近万亿元,年增长超过100%,增长势头强劲。2020年S1疫情爆发,电商为病毒隔离贡献巨大,同时疫情也为电商直播购物按下了加速键。
电商直播中,多媒体传输网络处于关键位置,承载着内容中台的基座。
体验
质量
智能
互动
超大规楼低变封直播
创东修交互场司
实时的万物识别
瓦质和成本更优
支支付宝
淘崽
淘宝
考拉油购
TMALL天猫
飞猪
钉钉
盒马
YOUKU
内容中台
核心
视频
图文
直插
场景
内容与商品匹配
智能
用户与内容匹配
商品与商家理解
达人与商品匹配
算法
主婿选品
个性化推荐
有能创作
销量预爽
沈主调控
同教匹配
清侧有构
内容理解
商家人群分层运营
巴配召图
内容质量
内容配黄
暂献主顾
个性化港送
行业标滩质性本
商器品牌运营
人鲜简瑰
人群选品
价格力
实时互动
商品理解
主题人卧诊断
以货线人
俱金分配
达人理解
高商品图文新听
再家页格/特色识封
场景达品
内容冷启动
绘势发氛
轮丝优化
效果日想
音视频
GRTN新一代多媒体传输网络
技术
音视频通话|低廷时直播|265编解码器实时智能调度|自学习参数体系
云计算
计算资源ECS
存储资源OSS
媒体转码MTS
边绿计算ENS
淘系电商内容体系架构图
电商体系中,内容中台为主要增长引擎。2020年淘宝双十一GMV达到4982亿,淘宝直播带宽峰值比去年增长超过1倍。直播玩法、用户体验、系统稳定性都比去年大幅提升,GRTN(Global Realtime Transport Network)新一代多媒体传输网络为双十一的增长保驾护航,整个双十一期间,系统如丝般顺滑。
GRTN新一代多媒体传输网络架构
多媒体传输网络,是不是就是CDN?答案当然是否定的,CDN只是传输网络的一部分。多媒体传输网络包括内容生产、编解码、内容分发、观看体验、宏观控制。GRTN是一套从生产到消费,从功能到管控的完整的系统。
业务退肇
宏观在村
*京
¥
内春分发
领解码
现着体验
内客生产
ECS
ENS
MTS
0SS
CDN
GRTN新一代多媒体传输网络架构
▐ 内容生产:让直播更好玩
淘宝直播走到现在已经5个年头,主播的能力有了很大提高,我们的权益互动也做了很多创新,今年我们更注重直播的内容,我们希望主播在直播卖货的同时,也能产生很多很有趣的内容,让大家买买买的同时,保持好心情。所以我们重点做了直播游戏互动玩法,使得直播在卖货的同时也能更加有趣好玩。
内容生产流内互动的系统主要分为3个部分:功能强大的素材玩法编辑器、灵活通用的脚本编辑器、跨平台渲染计算引擎。编辑器是内容生产的用户界面,提供各种素材、玩法的编辑能力。然而,有时简单的素材和玩法不能满足需求,需要用一套脚本来控制素材和玩法的运行,为了降低脚本开发难度,脚本必须灵活通用。最后所有的素材、玩法要在流里面展现出来,必须依靠渲染计算引擎。
▐ 编解码:成本更低,体验更好
S265是直播成本极佳的编解码方案
带宽是直播运营中最大的成本,根据前瞻网估算算全行业2020年的CDN费用支出将超过300亿元,在2025年接近1000亿规模(https://bg.qianzhan.com/trends/detail/506/200715-ec767b9b.html),在保证视频质量的前提下降低带宽是成本控制中至关重要的一环。
相机采集到的视频数字信号通常是yuv格式,每个像素点需要1.5个Byte来表示,以720p 25fps为例,带宽有263.67Mbps,直播1小时总流量有124.4GB,如有100万人观看这场直播,CDN费用高达1.58亿。好在视频图像内部帧与帧之间存在非常高的相关性,采用视频压缩技术去除相关性后,可以将带宽降低到原来的1/100-1/400;
视频压缩标准主要有ISO(国际标准组织)制定的MPEG系列和ITU(国际电信联盟)主导的H.26X系列,2003年两大组织组成联合专家组(JVT),共同制定了AVC(H.264)编码标准,2013年JVT发布了HEVC(H.265)标准,HEVC 作为比AVC更新一代的视频压缩标准,相同画质下可以节省一半码率.
S265是基于H.265标准实现的软编码器,具有高压缩、高效率、适应场景广三大特点,对比业界开源的X265可节约20%以上的码率且编码速度提升100%-600%;目前已在淘宝直播、优酷视频、阿里云MTS、VMate、钉钉会议等业务中上线使用;
S265的优化思路包含两个方面,一方面从码率控制、编码工具两个方向优化编码质量,另一方面从快速算法及工程优化两方面优化编码速度,下表可以看到,S265相比X265和X264都有更高的码率优势或速度优势;
S265 JCTVC class B~F sequence
Ali265 VS X265(RC=ABR) |
Ali265 VS X264(RC=ABR) |
|||
速度档次 |
BitSaving@ Same quality |
SpeedRatio@ same bitrate |
BitSaving@ Same quality |
SpeedRatio@ same bitrate |
Veryfast |
-20.2% |
210% |
-40.7% |
55% |
Medium |
-18% |
396% |
-42.3% |
66% |
veryslow |
-21.5% |
620% |
-50.4% |
62% |
下面是一个demo视频,左边是S265的压缩结果,右边是X265的压缩结果。可以看到,同等码率下S265的地面瓷砖的纹理及水纹更清晰。
左边S265,右边X265
从另一个角度看,相同质量下,S265的码率可以大幅节省,从而降低带宽成本。下图左侧是X264的压缩2400kbps,右侧是S265 1200kbps的结果,码率相差一倍,S265的质量还更好。
过去一年,淘宝直播的在线规模增加超过一倍,而CDN的带宽成本几乎未增加,这还是在FY20相比FY19已经降低一倍的前提下发生,S265起到了至关重要的作用。
S265降低成本前提下不降体验
虽然S265大幅降低了直播成本,但体验并未降低。
在清晰度方面,淘宝直播S265 在720p分辨率下的平均推流码率在 800kbs以下,但大盘监控的平均psnr大于42db。在今年双十一还上线了1080p高清直播,满足用户极致高清的需求。
在流量控制方面,S265支持秒级码率调控,可以让GRTN流量调度在1秒内完成对大盘流量的控制,实现CDN流量的全面掌控;
在编码延时方面,S265实现了低延时压缩模式,相比X265 Medium模式降低了70%的编码延,且编码质量几乎不损失。
最后,伴随着码率降低,网络传输的压力也相应下降,用户体验的卡顿率和秒开指标都有显著提升,过去一年淘宝直播的卡顿vv下降了25%,秒开率绝对值提升了1%,跟码率下降有直接的关系。
▐ 内容分发:二网合一的传输系统
在流媒体领域,提到直播技术,往往会想到RTMP、HTTP-FLV、QUIC-FLV、SRT,只有提到连麦、通话、视频会议,才会想到RTC(webrtc)。如今淘宝直播架构整体升级,一改往日印象,将直播全链路跑在了RTC之上,实现了直播网和通信网的融合,完成了二网合一。
统一架构后,实时音视频通话和直播两大业务,使用统一套代码,一套运维体系,减少维护成本。同时,淘宝直播针对业务特点,对融合网络架构进行了深度定制,自研了适合直播业务的拥塞控制算法和网络传输策略。针对 WebRTC 中网络传输的核心,淘宝直播对拥塞控制算法的探索层层深入。从基于特定网络场景的深度定制优化,到系统性的参数探测优化,再到基于神经网络的拥塞控制算法相关的前沿探索,深度定制的优化落地,使得推流端卡顿总体下降 40% ,延迟也下降了 12%,主播推流更加平滑稳定;前沿探索的学术结果,也已经两次由网络方向国际顶级会议 MobiCom 接收和发表。
低延迟传输是一个综合性问题,对于直播来说要兼顾成本,体验,延迟,需要客户端,服务器配合,基于线上数据不断迭代。相关控制算法从webrtc完整模块化剥离和重构,性能是webrtc原来实现的2倍以上,针对直播大的I帧场景深度定制优化,同时兼顾秒开和延迟,追求最大吞吐率。在网络小范围抖动情况下不受影响,最大支持20%丢包和500ms内的抖动。相对于去年同期指标,卡顿率降低79%,卡顿VV降低44%,秒开率提升32%,延迟和首帧到达时间降低100多ms。
83.6%
40.8%
7998
7876
36.1%
5049
0.0%
手淘
C直播
B直描
A直播
延时一网损卡锁率
淘宝直播与其他直播应用对比
通过用秒表内容推流,拍摄推流和播放内容的方式,测得端到端延时,手淘基本在2秒以下,而行业内大部分直播软件还是FLV技术,延时通常在5秒以上。通过严格的AB测试证明,端到端延时降低,对促进GMV有正面效果。网络好时,对比卡顿没有意义,大家卡顿率都为0,因此通过网损仪增加30%丢包、100ms延时测试,卡顿情况就不一样了,由于RTC有拥塞控制、网络抗丢包策略,30%丢包完全无卡顿,而FLV直播则有较高的卡顿率。
后续会继续在统一的直播通信网上优化,不断提高淘宝直播的用户体验,敬请期待。
▐ 观看体验:真实还原现场
阿里集团CTO程立分享了他购买古琴的经历,买古琴不能通过常规的图文描述来分辨古琴的好坏,卖家将程立引导到直播间,通过主播讲解,在直播间听声音来分辨古琴好坏。买到琴后发现琴的声音跟直播间里听到的完全一样,CTO对淘宝乐器直播间的音质大加赞赏,这种所见即所得的感觉是直播最大的优势。
“让画面更清晰,让声音更真实”,是淘宝直播的极致追求。淘宝直播通过自研3A、智能降噪、高音质模式、窄带高清等技术,克服生产设备、观看设备及网络条件多样性适配困难,为主播提供低成本直播方案,为观众打造高清音视频体验。
音乐直播间高保真体验:
电商直播中,讲解声音的清晰度直接影响沟通效率,因此要尽量屏蔽干扰声音,降噪能力至关重要,淘宝直播团队在智能降噪上深入研究,在技术上创新,比传统技术降噪能力更强,降噪后声音可懂度更高。
降噪前原始语音:
通过AliDenoise智能降噪后的语音:
在画质上,淘宝直播团队通过去抖、降噪、超分等技术,实现画质增强。并且借助S265编码器高压缩率的优势,我们以业界720p的码率实现了1080P分辨率的高清直播。
左边720P,右边1080P
▐ 宏观控制:大象也能跳舞
无论怎么设计,系统的复杂度都会逐渐增加,变成一头臃肿的大象。一般的系统,牵一发而动全身,平时已不敢随意变动,更何况大促等关键时刻。然而淘宝直播今年打造了宏观控制系统,让这头大象灵活起来,数据系统如同大象的眼镜、智能策略系统如同大象的大脑、任务执行系统如同大象的四肢,而业务策略配置系统如同驯兽师手里的指挥棍。
宏观控制系统将复杂系统闭环,使得整个系统能观能控,增强了系统的鲁棒性。宏观控制系统的输入是当前主播的编码码率和直播效果等;基于blink搭建的多数据源自纠错的实时数据平台作为检测环节将当前的在线主播数、在线观众数、CDN带宽、以及预测的接下来一段时间内的各个数据清洗统计后输入至决策系统;决策系统融合了限峰策略、时间策略和大主播策略等多种策略,结合数据平台的反馈数据作出最优决策后通知执行模块进行调控;基于集团多维消息群发中间件MASS与长连通道ACCS实现的执行模块会实时调控主播的编码码率、观众观看的清晰度等,实现提高带宽利用率、提高用户体验、降低成本、确保稳定的目的;客户端编码器支持实时动态调整编码码率和智能码控档位,支持帧级实时调控,码率调控秒级生效。宏观控制系统让资源管控更加弹性,在我们无法准确预见未来时,申请资源以及准备资源是一个大难题,有了宏观控制系统情况后,不用为资源预估不准而犯愁,宏观控制系统可以根据实时数据进行预测并且弹性地调整人均消耗的资源。
下调
恢复
10-24
20:30
23:00
20:00
22:00
21:00
19:00
22:30
23:30
19:30
21:30
宏观控制对带宽调整的效果
在今年双十一期间,宏观控制系统通过上下调整码率等策略,实现了人均消耗带宽在平时的0.5倍~1.5倍之间浮动。再也不用因为在线人数偏低而浪费带宽,也不用因为在线人数偏高而导致部分用户被限流,值班同学可以安心地边吃零食边看直播了。
内容生产通过AI等技术,产生更有趣的直播内容,然后通过高效率的S265压缩算法编码,得到较低的音视频码率,在然后通过去中心化的RTC网络分发到各个观众,最后通过高质量的观看体验,真实还原现场,整个系统需要宏观控制带宽、质量,需要有一个系统从大局控制。今年淘宝直播全方位升级换代,整个系统内容比较多,接下来将会对这一些列技术展开描述,后续文章请大家持续关注哦~