软硬协同:基于倚天的视频云编码性能升级

简介: 视频云x倚天ECS

头图.jpeg

算力时代,靠吃「硬件红利」便能搞定新应用场景的「甜蜜期」已经过去。

人类社会的每一次科技跃迁,其本质都是计算力的突破与演进。

算盘拨出农耕文明的繁荣,机械计算机催生出第一次工业革命的袅袅蒸汽,而云计算的发展让万物互联成为真正可能。

在数据爆发式增长以及算法日益精进的大背景下,属于「算力」的时代俨然到来。

以音视频行业为例,趋近饱和的场景渗透率、用户对体验的极致追求、多元化的场景及技术需求,为底层算力和视频编码能力带来更大的挑战。

然而,在算力需求暴涨的同时,摩尔定律的演进速度却在放缓,「硬件红利」已然见底。

对于整个视频云赛道的算力困局,不仅需要上层软件系统的优化,也需要在底层硬件基础设施上,寻求破局之法。

01风口之下的算力困境

我们已经迈入社会视频化时代。视频无处不在,由此产生的流量已呈井喷式增长。

据《2022年中国网络视听发展研究报告》披露,截至2021年12月,我国网络视频(含短视频)用户规模达9.75亿,较2020年12 月增长4794万,占网民整体的94.5%。

网络视听正成为大众的娱乐刚需,视频正在成为各行业连接客户最广泛的载体,也成为各巨头抢占风口的关键点。

而在5G时代,视频流量将进一步增长。

视频流量激增的另一大原因,是用户对视频体验的「不将就」。

在视频规模持续增长的同时,随着网络和终端硬件设备的迭代,用户对视频清晰度体验的追求持续提升;视频超高清化也是继视频数字化之后的新一轮重大技术革新。

移动互联网终端观看分辨率从最开始的360P,480P,快速提升到720P,1080P以及近年出现的4K/8K超高清视频。

当前,国家也连续出台超高清产业支持措施并加速应用,如:5G+8K超高清技术在冬奥会和春晚实现商用;体育直播开始进入到4K HDR直播时代。

除了高分辨率,沉浸式视频体验还追求高帧率和宽色域,而每一次分辨率的提升,帧率的提升,色域增加带来的都是视频信息量的成倍增加。

因此,需要技术解决方案能更快应对更高清晰度、更低时延的视频编解码和转码,满足高清、高帧率、宽色域视频所带来的不断“扩容”的音视频数据流。

02难以调和的「视频编解码」矛盾

由于Raw(原始图像编码数据)视频数据是非常大的,如果不进行编码和压缩,不论是视频的存储还是传输,都将带来很大的麻烦,视频编码技术便是由此而来。

视频编解码起源于广播电视,从1951年第一部数字电视和广播诞生起,广播电视在很长一段时间里是视频编解码技术变革的核心推动力。

而到互联网时代,随着互联网的高速发展,使用互联网的用户和视频流量出现井喷式增长,互联网成为视频编码的主战场。

为了应对视频流量的不断增长,视频标准组织一直在推动视频编码技术的持续迭代。

从MPEG2开始,视频编码标准压缩率大约每10年提升50%,以2021年推出的h.266为例:相对于h.265压缩率提升50%,但其编码计算成本提升15倍。

图片 1.png

然而,用户对视频极致体验的追求与视频编码的演进其实存在着巨大的矛盾。

❖编码标准升级速度远慢于视频信息量膨胀的速度:「十年磨一剑」的视频编解码技术(10年50%压缩率的提升)已经远远慢于视频化和体验升级带来的流量增长(过去3年音视频流量已高达68.9%的增速),而未来带宽压力会越来越大。

新编码标准压缩率的提升远低于视频分辨率提升的速度:每一代编码标准的演进,都是在不断探索极限压缩率。新一代的编码标准对比上一代的标准通常有50%的压缩率提升。然而如果视频分辨率每提升一档,比如360P到720P,则会使信息量增加4倍。

新编码标准复杂度的增加远高于CPU处理能力的增加:新一代的编码标准对比上一代的标准大多增加10倍以上的复杂度,远高于CPU处理能力的增强,而视频编码的高复杂度导致编码技术难以普惠,尤其在实时场景。

随着AR,VR时代的到来,4K-8K高分辨率,60-120FPS高帧率,10-12bit宽色域,让视频的信息量更是成倍增加;加之低延时意味着对编码速度有更高的要求;而CPU芯片处理能力也不再遵循摩尔定律快速增长,视频体验-带宽-计算成本-编码速度的矛和盾的冲突会越来越严重。

03软硬协同,锚定性能升级

视频编码与视频处理为计算密集型场景,面对视频云赛道的算力困局,如何让高压缩率的编码算法,更加普惠?

解法是:软硬协同+深度自研编码内核。

在该方向,我们一直在持续优化、迭代,而倚天ECS的出现带来更好的答案。

2021年云栖大会,阿里平头哥发布首颗为云而生的CPU芯片倚天710,该芯片针对云场景研发,同时兼顾了性能与易用性。

经过一年的业务验证,倚天710已大规模部署并提供云上服务,算力性价比提升超30%,单位算力功耗降低60%。

图片1.5.png

搭载倚天710的ECS自设计初就是一款云原生服务器,凭借其灵活、先进、弹性的云原生芯片特性和优异的CPU算力,超低功耗,与视频云的转码服务特点强匹配,为视频云云原生转码业务带来更多可能。

图片 2.png

基于倚天ECS,阿里云视频云与平头哥数据中心解决方案团队联合,对s264、s265编码器进行深度优化。

最终实现:相对于C7,转码性能提升30%,在8K直播场景中提升达到33%,助力更普惠,更高清的转码服务。

04四维优化,释放「软硬结合」最大效能

基于阿里自研的倚天710芯片进行优化,通过深度重构视频编码数据结构、并行框架,重新调优快速算法策略,从软件、汇编、硬件层面跨层深度优化,打造ARM友好的视频编码器的同时,塑造极致性能。

主要体现在以下四方面的核心优化:

计算密集型汇编优化

计算密集型函数通过汇编实现单指令多数据操作优化,除常规汇编指令优化外,基于倚天710的特点,在视频编码中充分利用可伸缩向量指令集,mmla类型高并发指令的优势,塑造更高的汇编加速比,总体性能提升40%;

例如:在ME搜索优化中,结合710 SVE寄存器预取特性,设计内存预取算法以及寄存器访问流程优化,大幅降低内存访问次数,如一次六边形搜索,可以减少3.8倍行访问次数。

图片 3.png

计算函数并行优化

在计算密集型函数汇编优化基础上,充分对有性能增益但原本串行处理数据的算法(如SDH)进行并行处理优化,并实现基于ARM平台的汇编版本代码,在压缩性能基本一致的情况下函数速度性能提升约40%。

图片 4.png

偏控制函数优化

根据倚天710芯片特性,我们重构了视频编码数据结构,并行框架,同时重新调优了快速算法策略,联合提升总体性能,例如快速算法checkSkip,Earlyskip等,总体性能提升20%。

系统层优化

在算法优化的基础上,针对视频转码特点,结合倚天710平台和视频云特有场景下进行系统配置优化,将二者结合的能力发挥到最大。

目前倚天ECS已经在视频云点播上线,性能提升30%,压缩率提升5%,同时阿里云视频云同步探索AI辅助视频编码方向。

初步结果显示:借助倚天ECS的超强算力,倚天ECS在Saliencymap推理上成本低于G6ni 50%以上,在窄带高清的普惠化方面展现出了巨大空间。

未来,我们将基于自研处理器展开预研,深度结合视频云业务,沉淀视频云技术能力,从架构、指令、访存等方面优化设计。

同时,继续与平头哥开展深度合作,共建软硬件结合自研芯片竞争力,算法、加速库、驱动、固件一体化设计,不断探索创新音视频技术,加强其在更多视频应用、更多终端设备上的普适性。

将更多的技术普惠到广大消费者,赋能千行百业的视频化需求,催生新兴产品形态和业务模式,为客户提供更快、更省、更低功耗、更高清、更实时的编码力,并为广大观众带来更极致的视听体验和更创新的互动玩法。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5月前
|
安全 机器人
力纳克推出ELEVATE™升降码垛解决方案,助力协作机器人提质升级
协作机器人在物料搬运中日益重要,提升码垛效率与灵活性。丹麦力纳克创新ELEVATE™升降解决方案,采用大推力升降柱,使机器人在纵向空间高效作业,弥补横向码垛局限。ELEVATE™确保高速恒速,适配多设计,简化系统,提供精准码垛。相比大型机器人,搭配小型机器人使用更经济、空间利用率高。力纳克以创新驱动,满足客户高效、灵活需求,展现深厚技术积累与市场理解。 (237字符)
|
大数据 编译器 Anolis
龙蜥解锁倚天底层算力,加速数据智能化关键技术落地
龙蜥+倚天软硬件结合,加速企业数据智能底层算力关键技术,以及倚天 ECS 产品大规模落地实践等内容。
|
机器学习/深度学习 监控 负载均衡
金融风控系统的演进与升级:从第一代到第四代(1)
金融风控系统的演进与升级:从第一代到第四代
763 0
|
SQL 运维 Oracle
云上“升舱”,升级到速度更快,功能更全面,性价比更高的数仓平台
阿里云AnalyticDB“升舱”活动致力于帮助您将线下或自建的数仓全面迁移至云原生架构之上,享受全托管的使用体验;为企业构建数据平台带来速度更快,功能更全面,性价比更高的数据平台
云上“升舱”,升级到速度更快,功能更全面,性价比更高的数仓平台
|
机器学习/深度学习 人工智能 NoSQL
金融风控系统的演进与升级:从第一代到第四代(2)
金融风控系统的演进与升级:从第一代到第四代
280 0
|
存储 算法 网络协议
磐久网络 | 阿里云首次揭秘自研可编程网络核心技术和应用场景
阿里云首次揭秘自研可编程网络核心技术和应用场景
磐久网络 | 阿里云首次揭秘自研可编程网络核心技术和应用场景
|
人工智能 运维 监控
重磅升级 | 混合云管理平台2.0 开启智能管云新时代
「混合云管理平台」是面向阿里云专有云和混合云场景的企业级云管理平台,提供全方位的云资源供给、运维和运营管理能力。为了持续满足企业级客户与时俱进的管好云诉求,12月15日,阿里云混合云管理平台2.0正式重磅升级发布!
709 0
重磅升级 | 混合云管理平台2.0  开启智能管云新时代
|
存储 达摩院 安全
阿里云底层自研技术迎来大爆发,倚天、磐久等多款产品接连发布
今天,2021杭州·云栖大会正式开幕。大会上,阿里巴巴正式发布自研云芯片倚天710,这是阿里云推进「一云多芯」策略的重要一步,也是阿里第一颗为云而生的CPU芯片,将在阿里云数据中心部署应用。
1478 0
阿里云底层自研技术迎来大爆发,倚天、磐久等多款产品接连发布
|
API 数据库 云栖大会
云栖大会SaaS加速器专场 | 阿里云李立峰:阿里云全域集成方案——提升5倍全域集成效率
阿里云高级技术专家李立峰(花名:申峰)发布了阿里云全域集成解决方案,并从它的四大核心特点和主要优势,讲述阿里云全域集成解决方案如何帮助实现现代企业数字化转型的中台策略。
3908 0
云栖大会SaaS加速器专场 | 阿里云李立峰:阿里云全域集成方案——提升5倍全域集成效率