多维评测指标解读2022MSU世界编码器大赛结果

简介: MSU2022世界编码器大赛


是极致性能,更是最佳商用。


19项第一之上,是63%的极致带宽降低


近日,2022 MSU世界视频编码器大赛成绩正式揭晓。报告显示,阿里媒体处理服务MPS(Alibaba Media Processing Service)s264及s265编码器共计斩获19项评测第一,相较大赛指定基准编码器(AWS Elemental MediaConvert),可再节省高达63%的码率,极大幅降低带宽和存储成本。



MSU世界视频编码器大赛是视频编码压缩领域最具权威和影响力的全球顶级赛事,迄今为止已举办17届。仅在今年的云转码赛道中,就有国内外8家参赛单位的19款编码器参加比赛,包括微软、亚马逊、腾讯等知名科技企业。


此次,阿里云视频云自研s264编码器在H264主观赛道及客观赛道全面领先,获得了19大细分赛道中的15项第一,并在相同主观质量下至少可节省16%的带宽、存储成本,在转码效率上较友商领先13倍;同时,自研s265编码器在相当的带宽及存储成本下,具有较友商2~6倍的转码效率及更精准的码率控制


480p Comparison


720p Comparison


1080p Comparison


1080p Subjective Comparison(主观赛道)

为了全面地评测参赛编码器的水平,MSU比赛采用了PSNR、SSIM、VMAF等多个经典客观指标,和基于人眼打分的主观指标


PSNR,基于对应像素点计算原始视频和失真视频之间的误差来评价失真视频的质量,是目前视频质量评估中最传统最基本的评估准则,但是由于PSNR并未直接考虑人眼视觉特性,因此其评价结果与人的主观感受并不完全一致;

SSIM,从亮度、对比度和结构信息三个方面来估计失真图像的视觉质量,旨在比较原始视频和失真视频的结构相似度,研究感知结构的损伤来评估视频质量,可以更好地反映人眼主观特性;

VMAF,是将人类视觉建模与机器学习相结合的一种视频质量评价指标,将不同评估维度的算法进行“融合”,旨在得到一个能准确反映主观意志的画质评价标准,但人眼视觉系统是一个复杂系统,该指标还需有大量有效的、符合实际评测环境的数据集。

人眼主观质量,代表了视频质量的黄金标准(golden standard),因为人是视频最终的消费者,因此主观质量评估是站在观测者的角度,真实反映人的视觉感受和审美水平,避免各种客观质量模型都无法全面模拟人的视觉系统的问题。


观察MSU赛事会发现,其中的“SSIM”也被MSU主办方选为主要评价指标。


“For objective quality measurements we used YUV-SSIM metric (see Appendix F.1) as a main objective indicator, and other metrics (PSNR, VMAF) as an additional quality metrics. Our team is constantly researching the area of objective video quality metrics to find good solutions for large comparisons.”


在编码器的实际开发过程中,为了降低测试难度和测试成本,往往以客观评价为主,但在最终版本发布时,仍然将主观质量作为最重要的评价依据。实践表明,对编码器采用这样的评价方法,不仅可以保证编码器的开发效率,同时也可以保证编码图像质量符合人眼的主观特性。


云转码,何为最佳商用?


无论是主观还是客观指标,在大众的有限焦点中,往往过度关注单维的画面质量,而忽略了更为关键的应用指标——转码速度和码率控制。


本次赛事中,除编码视频的画面质量外,MSU大赛主办方还评测了各云转码厂商的转码速度、码率控制(码率准确度)等重要指标,可全方位地评价各厂商的编码器性能及商用价值。而真实性能和商用价值,也正是编码器的核心所在。


首先,是转码速度。


我们知道,码率越高,视频压缩程度越低,相反,码率越低,表示视频压缩程度越高,该指标在保证画质的同时,最直接影响的是带宽及存储成本


同时,转码速度越快,则意味着转码任务的时效性高,在实际商用场景中,速度带来的效率提升不言而喻,转码效率更高也意味着功耗更低


如下图所示,在相同质量下,纵坐标表示各厂商编码器相对于基准编码器输出文件的平均码率(bitrate)大小;横坐标表示,在相同质量下,较基准编码器所需的编码时间比例。


以H264 1080P,YUV(6:1:1)SSIM metric子赛道为图例


正如横(Faster)纵(Better)箭头所指,越靠近图片左上角则表示:在相同质量下,该编码器的码率越低,转码速度越快。可见,除了前文提到的主客观画质卓越,阿里MPS s264在编码器性能及商用价值维度更加处于领先之势。


同样在HEVC/AV1赛道中,根据下图所示,纵向对比,阿里MPS s265编码器在质量相同的情况下,较大赛基准编码器可节省高达63%的码率。同时,横向对比,在相同质量及相当的带宽、存储成本情况下,具有较友商2~6倍的转码效率。


以HEVC 1080P,YUV(6:1:1)SSIM metric子赛道为图例


值得一提的是,如下图,MSU官网首页结果显示:阿里MPS转码速度最快,转码所需时长波动最小,这背后意味着阿里云视频云能够提供更加稳定可靠、实时满足商用要求的相关转码服务,而这也是云厂商技术实力和综合能力的体现。


横坐标表示转码时长,图例长度表示转码时长的波动


再者,是码率控制。


码率控制精准率也是实际商用中需要参考的重要指标,为什么这么说?


在实际商用中,客户对画面质量与成本是十分敏感的。若码控不佳,编码器实际输出码率可能与目标码率差异较大,对客户的实际体验产生较大影响。


例如,当客户的需求是降低带宽、存储成本时,编码器实际输出码率可能比目标码率高出很多,这会导致客户带宽、存储成本的增加;而当客户的需求是画质的高度保真时,编码器输出的视频码率可能低于目标码率很多,这会导致整体画质受损严重、无法满足终端客户需求。综合来看,高度不稳定的码控最终将导致商业价值的受损。


可见,码率控制的基础性和必要性。


针对码率控制,下图则表示HEVC/AV1赛道的实际输出码率与预设目标码率的比例,无限接近1表示该编码器码率控制的精准度越高


以下图举例,假设客户需要将视频压缩至500M,如果码率控制不佳,实际输出码率和预设目标码率之间差距少则2倍,多则7倍,则输出视频可能在1000M到3500M之间随机产生。



因此,一款最佳编码器,其核心目标并非比拼单一性能的指标,而是在极致质量、极致码率、极致效率和成本之间,寻求最极致的多维度平衡,最终为赛道和客户带来最有效的应用突破,而这更是一款商用编码器所具备的最佳品格。


“软硬一体”的自我进化


从MSU大赛视角,转移到商业落地,能够看到更多的技术突破和应用创新。


阿里MPS主要基于视频云自研的两大编码器s264和s265,覆盖直播,点播,RTC场景,从内核、前处理到码控各个部分,基于不同应用场景开发了100多个算法。


此外,阿里云视频云与平头哥数据中心解决方案团队联合,针对倚天ECS进行s264,s265编码器的深度优化,打造了ARM友好的视频编码器。


在ARM视频编码优化上,重构了视频编码数据结构,并行框架,重新调优了快速算法策略,从软件汇编硬件层面跨层深度优化,打造极致成本。


未来,阿里云视频云会基于倚天ECS的超强算力,聚焦视频编解码、视频处理持续挖掘算力空间,通过“软硬一体”的联合优化,持续塑造极致性能。

相关文章
|
6月前
|
人工智能
港科大等发布多模态图推理问答数据集GITQA
【2月更文挑战第14天】港科大等发布多模态图推理问答数据集GITQA
138 7
港科大等发布多模态图推理问答数据集GITQA
|
1月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
143 60
|
3月前
KDD 2024:零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT
【8月更文挑战第21天】UrbanGPT是由香港大学等机构研发的时空大模型,针对城市管理中因数据稀缺导致的预测难题,通过时空依赖编码器与指令调整技术实现强大的泛化能力。此模型能在多种城市任务中无需样本进行准确预测,如交通流量和人群流动等,有效应对数据收集难的问题,在零样本场景下表现优异,为智慧城市管理提供了有力工具。[论文](https://arxiv.org/abs/2403.00813)
44 1
|
3月前
|
机器学习/深度学习
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
【8月更文挑战第16天】近日,清华大学等机构发布了MultiTrust多模态评估研究,旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准,覆盖真实性、安全性等五大方面,包含32个任务。研究对21个现代模型进行了实验,揭示了可信度问题和风险,强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型,特别是在安全性方面。此外,研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。
55 1
|
6月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
79 4
|
6月前
|
运维
ICLR 2024:跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIP
【5月更文挑战第12天】 浙大、新大和哈佛研究人员合作提出AnomalyCLIP,利用预训练的视觉-语言模型CLIP,学习对象无关文本提示,实现准确的跨领域异常检测。在17个数据集上表现出色,但存在特定领域适应性和计算复杂度问题。研究表明潜力,尤其对工业和医学图像分析。[论文链接](https://arxiv.org/pdf/2310.18961.pdf)
158 1
|
12月前
|
机器学习/深度学习 算法 计算机视觉
多目标跟踪 | 评测指标
多目标跟踪器的性能需要某些指标来进行度量,目前使用比较广泛的评测指标主要有 Bernardin 等人定义的 CLEAR MOT 指标、Ristani 等人定义的 ID scores 指标以及最新的 Luiten 等人定义的HOTA 指标。
1069 2
|
数据采集 人工智能 算法
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
175 0
|
机器学习/深度学习 JSON 编解码
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测
233 0