多维评测指标解读2022MSU世界编码器大赛结果

简介: MSU2022世界编码器大赛


是极致性能,更是最佳商用。


19项第一之上,是63%的极致带宽降低


近日,2022 MSU世界视频编码器大赛成绩正式揭晓。报告显示,阿里媒体处理服务MPS(Alibaba Media Processing Service)s264及s265编码器共计斩获19项评测第一,相较大赛指定基准编码器(AWS Elemental MediaConvert),可再节省高达63%的码率,极大幅降低带宽和存储成本。



MSU世界视频编码器大赛是视频编码压缩领域最具权威和影响力的全球顶级赛事,迄今为止已举办17届。仅在今年的云转码赛道中,就有国内外8家参赛单位的19款编码器参加比赛,包括微软、亚马逊、腾讯等知名科技企业。


此次,阿里云视频云自研s264编码器在H264主观赛道及客观赛道全面领先,获得了19大细分赛道中的15项第一,并在相同主观质量下至少可节省16%的带宽、存储成本,在转码效率上较友商领先13倍;同时,自研s265编码器在相当的带宽及存储成本下,具有较友商2~6倍的转码效率及更精准的码率控制


480p Comparison


720p Comparison


1080p Comparison


1080p Subjective Comparison(主观赛道)

为了全面地评测参赛编码器的水平,MSU比赛采用了PSNR、SSIM、VMAF等多个经典客观指标,和基于人眼打分的主观指标


PSNR,基于对应像素点计算原始视频和失真视频之间的误差来评价失真视频的质量,是目前视频质量评估中最传统最基本的评估准则,但是由于PSNR并未直接考虑人眼视觉特性,因此其评价结果与人的主观感受并不完全一致;

SSIM,从亮度、对比度和结构信息三个方面来估计失真图像的视觉质量,旨在比较原始视频和失真视频的结构相似度,研究感知结构的损伤来评估视频质量,可以更好地反映人眼主观特性;

VMAF,是将人类视觉建模与机器学习相结合的一种视频质量评价指标,将不同评估维度的算法进行“融合”,旨在得到一个能准确反映主观意志的画质评价标准,但人眼视觉系统是一个复杂系统,该指标还需有大量有效的、符合实际评测环境的数据集。

人眼主观质量,代表了视频质量的黄金标准(golden standard),因为人是视频最终的消费者,因此主观质量评估是站在观测者的角度,真实反映人的视觉感受和审美水平,避免各种客观质量模型都无法全面模拟人的视觉系统的问题。


观察MSU赛事会发现,其中的“SSIM”也被MSU主办方选为主要评价指标。


“For objective quality measurements we used YUV-SSIM metric (see Appendix F.1) as a main objective indicator, and other metrics (PSNR, VMAF) as an additional quality metrics. Our team is constantly researching the area of objective video quality metrics to find good solutions for large comparisons.”


在编码器的实际开发过程中,为了降低测试难度和测试成本,往往以客观评价为主,但在最终版本发布时,仍然将主观质量作为最重要的评价依据。实践表明,对编码器采用这样的评价方法,不仅可以保证编码器的开发效率,同时也可以保证编码图像质量符合人眼的主观特性。


云转码,何为最佳商用?


无论是主观还是客观指标,在大众的有限焦点中,往往过度关注单维的画面质量,而忽略了更为关键的应用指标——转码速度和码率控制。


本次赛事中,除编码视频的画面质量外,MSU大赛主办方还评测了各云转码厂商的转码速度、码率控制(码率准确度)等重要指标,可全方位地评价各厂商的编码器性能及商用价值。而真实性能和商用价值,也正是编码器的核心所在。


首先,是转码速度。


我们知道,码率越高,视频压缩程度越低,相反,码率越低,表示视频压缩程度越高,该指标在保证画质的同时,最直接影响的是带宽及存储成本


同时,转码速度越快,则意味着转码任务的时效性高,在实际商用场景中,速度带来的效率提升不言而喻,转码效率更高也意味着功耗更低


如下图所示,在相同质量下,纵坐标表示各厂商编码器相对于基准编码器输出文件的平均码率(bitrate)大小;横坐标表示,在相同质量下,较基准编码器所需的编码时间比例。


以H264 1080P,YUV(6:1:1)SSIM metric子赛道为图例


正如横(Faster)纵(Better)箭头所指,越靠近图片左上角则表示:在相同质量下,该编码器的码率越低,转码速度越快。可见,除了前文提到的主客观画质卓越,阿里MPS s264在编码器性能及商用价值维度更加处于领先之势。


同样在HEVC/AV1赛道中,根据下图所示,纵向对比,阿里MPS s265编码器在质量相同的情况下,较大赛基准编码器可节省高达63%的码率。同时,横向对比,在相同质量及相当的带宽、存储成本情况下,具有较友商2~6倍的转码效率。


以HEVC 1080P,YUV(6:1:1)SSIM metric子赛道为图例


值得一提的是,如下图,MSU官网首页结果显示:阿里MPS转码速度最快,转码所需时长波动最小,这背后意味着阿里云视频云能够提供更加稳定可靠、实时满足商用要求的相关转码服务,而这也是云厂商技术实力和综合能力的体现。


横坐标表示转码时长,图例长度表示转码时长的波动


再者,是码率控制。


码率控制精准率也是实际商用中需要参考的重要指标,为什么这么说?


在实际商用中,客户对画面质量与成本是十分敏感的。若码控不佳,编码器实际输出码率可能与目标码率差异较大,对客户的实际体验产生较大影响。


例如,当客户的需求是降低带宽、存储成本时,编码器实际输出码率可能比目标码率高出很多,这会导致客户带宽、存储成本的增加;而当客户的需求是画质的高度保真时,编码器输出的视频码率可能低于目标码率很多,这会导致整体画质受损严重、无法满足终端客户需求。综合来看,高度不稳定的码控最终将导致商业价值的受损。


可见,码率控制的基础性和必要性。


针对码率控制,下图则表示HEVC/AV1赛道的实际输出码率与预设目标码率的比例,无限接近1表示该编码器码率控制的精准度越高


以下图举例,假设客户需要将视频压缩至500M,如果码率控制不佳,实际输出码率和预设目标码率之间差距少则2倍,多则7倍,则输出视频可能在1000M到3500M之间随机产生。



因此,一款最佳编码器,其核心目标并非比拼单一性能的指标,而是在极致质量、极致码率、极致效率和成本之间,寻求最极致的多维度平衡,最终为赛道和客户带来最有效的应用突破,而这更是一款商用编码器所具备的最佳品格。


“软硬一体”的自我进化


从MSU大赛视角,转移到商业落地,能够看到更多的技术突破和应用创新。


阿里MPS主要基于视频云自研的两大编码器s264和s265,覆盖直播,点播,RTC场景,从内核、前处理到码控各个部分,基于不同应用场景开发了100多个算法。


此外,阿里云视频云与平头哥数据中心解决方案团队联合,针对倚天ECS进行s264,s265编码器的深度优化,打造了ARM友好的视频编码器。


在ARM视频编码优化上,重构了视频编码数据结构,并行框架,重新调优了快速算法策略,从软件汇编硬件层面跨层深度优化,打造极致成本。


未来,阿里云视频云会基于倚天ECS的超强算力,聚焦视频编解码、视频处理持续挖掘算力空间,通过“软硬一体”的联合优化,持续塑造极致性能。

目录
打赏
0
0
0
0
311
分享
相关文章
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
本文介绍阿里巴巴达摩院决策智能实验室时间序列预测方向的最新(ICML 2022 accepted)工作:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting论文链接:https://arxiv.org/abs/2201.12740代码链接:https://github.com/DA
2880 0
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽
WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试,通过基于相机轨迹的布局规范和3000个多样化样本,全面评测生成内容的可控性、质量与动态性。
119 46
WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽
|
1月前
|
一次推理,实现六大3D点云分割任务!华科发布大一统算法UniSeg3D,性能新SOTA
华中科技大学研究团队提出了一种名为UniSeg3D的创新算法,该算法通过一次推理即可完成六大3D点云分割任务(全景、语义、实例、交互式、指代和开放词汇分割),并基于Transformer架构实现任务间知识共享与互惠。实验表明,UniSeg3D在多个基准数据集上超越现有SOTA方法,为3D场景理解提供了全新统一框架。然而,模型较大可能限制实际部署。
86 15
生物医药蛋白分子数据采集:支撑大模型训练的技术实践分享
作为生物信息学领域的数据工程师,近期在为蛋白质相互作用预测AI大模型构建训练集时,我面临着从PDB、UniProt等学术数据库获取高质量三维结构、序列及功能注释数据的核心挑战。通过综合运用反爬对抗技术,成功突破了数据库的速率限制、验证码验证等反爬机制,将数据采集效率提升4倍,为蛋白质-配体结合预测模型训练提供了包含10万+条有效数据的基础数据集,提高了该模型预测的准确性。
75 1
生物医药领域-分子对接SOTA模型洞察
该文介绍了分子对接的作用过程、应用场景及分类,总结了现有软件的核心内容与评估指标,并分析了KarmaDock、DiffBindFR和RosettaVS三种最新模型的细节、性能和应用领域。研究指出,未来应关注模型长板特征,开发超大规模虚拟筛选平台以提升药物发现效率。
MME-CoT:多模态模型推理能力终极评测!六大领域细粒度评估,港中大等机构联合推出
MME-CoT 是由港中文等机构推出的用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,提供细粒度的推理质量、鲁棒性和效率评估。
103 0
|
8月前
KDD 2024:零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT
【8月更文挑战第21天】UrbanGPT是由香港大学等机构研发的时空大模型,针对城市管理中因数据稀缺导致的预测难题,通过时空依赖编码器与指令调整技术实现强大的泛化能力。此模型能在多种城市任务中无需样本进行准确预测,如交通流量和人群流动等,有效应对数据收集难的问题,在零样本场景下表现优异,为智慧城市管理提供了有力工具。[论文](https://arxiv.org/abs/2403.00813)
125 1
|
11月前
|
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
145 4
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(下)
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(下)
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等