MSU2021世界编码器大赛成绩公布,阿里自研编码器获六项第一

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
简介: MSU2021世界编码器大赛成绩公布,阿里自研编码器获六项第一

111.gif

10月30日,一年一度的MSU世界编码器大赛全高清(FullHD)客观性能赛道成绩公布,官方正式报告显示,继去年阿里自研S265取得两项PSNR指标第一名,阿里自研的VVC编码器S266首次亮相,就一举获得离线(1fps)档9项评测指标中的6项第一,2项第二,1项第三。另外,在包含56项评测指标的企业版完整测试报告中,S266更是获得其中的40项第一,10项第二,6项第三,成为唯一一个离线(1fps)档所有指标都进入前三的编码器。

阿里巴巴音视频实验室负责人、淘系产品技术&平台生态业务负责人汤兴(平畴)表示,内容化正在驱动互联网进入新周期,音视频技术的重要性越来越高。此次阿里S266在MSU取得出色成绩,是淘系技术长期以来对音视频领域的持续投入和不断创新的阶段性成果。随着以淘宝直播、逛逛为代表的内容化业务的发展,内容场和电商场的双重复杂度不断叠加,未来不仅是音视频技术,淘系技术在多模态、3D XR、认知计算与知识图谱等技术领域的迭代长期都会处在加速状态。



6项指标第一


今年MSU世界编码器大赛云集了国内外14家参赛单位的22款编码器,包括华为、腾讯、爱奇艺、Google、Intel、MulticoreWare、HHI等知名科技企业或研究机构,可谓高手云集,竞争十分激烈。


MSU本次发布了全高清客观性能赛道的测试报告:


https://www.compression.ru/video/codec_comparison/2021/main_report.html


该报告给出了各个参赛编码器在多项质量评价指标下的压缩性能,这些指标包括实际业务场景中广泛采用的SSIM、PSNR、MS-SSIM、VMAF等客观质量评价指标。


最终,经过激烈地角逐,阿里巴巴继去年S265取得两个档次PSNR指标第一名成绩之后,今年自主研发的VVC编码器S266一共获得了离线(1fps)档9项评测指标中的6项第一、2项第二和1项第三,即:


6项指标第一

YUV (4:1:1)-VMAF NEG、YUV (6:1:1)-VMAF NEG、YUV (4:1:1)-PSNR (avg. log)、YUV (6:1:1)-PSNR (avg. log)、YUV (4:1:1)-PSNR (avg. MSE)、YUV (6:1:1)-PSNR (avg. MSE)


2项指标第二

YUV (4:1:1)-SSIM、YUV (6:1:1)-SSIM


1项指标第三

Y-VMAF


S266也因此成为唯一一个离线(1fps)档所有指标都进入前三的编码器。

先来看全高清客观性能离线(1fps)档赛道MSU官方成绩:1.jpg

 按YUV (4:1:1)-VMAF NEG和YUV (6:1:1)-VMAF NEG这两个指标排名:

第一名:阿里巴巴S266_v2
第二名:阿里巴巴S266_v1
第三名:华为HW266、腾讯Tencent266

2.jpg

图中显示,在同等YUV (4:1:1)-PSNR (avg. log)画质下,S266比基准编码器x265节省了50.9%的文件大小;在同等YUV (6:1:1)-PSNR (avg. log)画质下,S266比基准编码器x265节省了45.9%的文件大小。


 按YUV (4:1:1)-PSNR (avg. MSE)指标排名:

3.jpg

图中显示,在同等YUV (4:1:1)-PSNR (avg. MSE)画质下,S266比基准编码器x265节省了44.4%的文件大小。


▐  按YUV (6:1:1)-PSNR (avg. MSE)指标排名:

第一名:阿里巴巴S266_v1

第二名:腾讯Tencent VAV1

第三名:腾讯Tencent266

4.jpg


图中显示,在同等YUV (6:1:1)-PSNR (avg. MSE)画质下,S266比基准编码器x265节省了41.3%的文件大小。


MSU世界编码器大赛


MSU世界编码器大赛是指由莫斯科国立大学(Moscow State University)主办的面向全球各大公司、学术机构、开源社区和个人的编码器比赛,从2005年起每年举办一次,现已成为视频编解码领域影响力最大的顶级权威赛事,谷歌、Intel、Netflix等在视频编解码领域颇有技术积累的科技巨头都曾多次参加该项赛事,参赛编码器代表了行业发展的风向标。

MSU的图形与媒体实验室(Graphics & Media Lab)作为权威的第三方视频编码器评测机构,在编码器评测方面颇有年头,从H.264、H.265、VP9、AV1到最新的VVC,其评测报告已被全球广泛认可,有较高公信力,对推动全球编解码技术发展、促进编码器性能提升方面有标杆示范作用。

本届大赛共有22款编码器参赛(包括参照编码器在内),分别来自于14家单位或个人,涵盖了H.264、VP9、H.265、AV1、AVS3、H.266等多种视频编解码标准,这些标准在业界具有广泛的代表性。

5.jpg

为什么需要多种维度的评价指标?


和商用编码器在实际业务中进行质量评估时并不能只依赖一种质量指标一样,MSU世界编码器大赛也采用多种客观质量评价指标,其中,SSIM(含MS-SSIM)、PSNR、VMAF是在实际业务场景中被广泛采用的全参考客观质量评价指标,分别从结构相似性、均方误差、多个时空度量组合模拟主观质量这三个维度评价编码器输出的失真视频相对于原始视频的相似程度或保真程度。

PSNR指标使用最为普遍,历史也更为悠久,是基于对应像素点间的误差,即基于误差敏感的图像质量评价方法。PSNR在促进编解码标准发展进程中起到了至关重要的作用,目前仍是视频编解码器标准化事实上的行业标准。但是由于PSNR并未直接考虑到人眼视觉特性,因而在有些情况上会出现评价结果与人的主观感受不完全一致的情况。

SSIM指标从亮度、对比度和结构三个方面来估计失真图像的视觉质量,旨在比较原始视频和失真视频的结构信息,研究感知结构的损伤,而不是感知误差。但SSIM指标在评价噪声图像、模糊图像时也有一定局限性。MS-SSIM是在SSIM基础上的改进,衡量了多尺度的结构相似性。

VMAF作为近些年出现的评价指标,利用大量的主观数据作为训练集,通过机器学习的手段将不同评估维度的算法进行“融合”,旨在得到一个能准确反映主观意志的画质评价标准。VMAF经过了若干年的迭代和优化之后,最新的版本可以更好的克服一些之前发现的问题,在更大的程度上能够反映人眼主观感受,因此近几年在商用系统中逐渐开始得到更加广泛的应用。但人眼视觉系统是一个复杂系统,VMAF指标依赖于符合主观特性的融合算法,还要有大量有效的、符合实际评测环境的数据集,是一个需要长期投入,不断迭代的优化过程。

在实际操作中,客观评价的内容是物理参量,评价的手段是物理量测量度,所以客观评价能够做到严格准确,具有较高的科学性和客观性。此外,编码器的不同模块和算法优化对各项质量评价指标的敏感程度和表现差异也不尽相同。因此,根据实际业务场景,在编码器开发的不同阶段,采用多种客观评价方法相结合的形式,可以全面评估编码器优化效果,充分兼顾压缩视频的综合质量。

阿里自研VVC编码器,能在本届MSU大赛中获得包括PSNR、SSIM、MS-SSIM、VMAF等9项评测指标中的6项第一、2项第二、1项第三,成为唯一一个所有指标都进入前三的编码器,充分体现了S266编码器在各项指标下的均衡表现和综合实力。


展望及未来商用之路


通过MSU的权威认证,展现了S266强大的压缩效率,但要推动VVC标准的商用,路还很长。这是因为VVC作为HEVC的下一代编码标准,引入了诸多新的编码工具,这些工具一方面带来了压缩效率的提升,同时也对算力提出了更高要求。经测试,在一台内置Intel i7-8700k芯片的个人电脑上,用VVC参考模型VTM11.0压缩一段1080p视频,只能达到0.005帧每秒,而常见视频一般为30帧每秒,需要提速6000倍。

与此同时,压缩的视频要让消费者能看到,还需要一个解压的过程。经过近十年的普及,常见手机芯片已经能解码HEVC标准的视频,但VVC标准压缩的视频还不能支持。通过手机的CPU做软解压是一个方案,但解码速度同样缓慢。在一台华为P40手机上,用VVC参考模型VTM11.0解压一段1080p视频,只能达到 9 fps。

为了攻克这些技术难题,阿里巴巴淘系技术沿用在S265上的大量专利技术,对VVC标准工具集进行大量研究,合理选择编码工具的组合来拿到VVC高压缩效率的红利,并使用机器学习方法,快速进行块划分和编码模式决策,对RDO过程精简并引入跨帧并行和CTU并行,大幅提高多核CPU的执行速度,还使用汇编指令集加速向量计算、优化内存访问效率。经过大量优化,S266的编码器慢速档比VTM11.0提速大于200倍,在快速档上能达到实时编码。另一方面,为了尽可能提升编码器的压缩效率,S266引入了基于CU-tree的预分析流程,并将预分析与编码过程紧密结合,使用基于块的运动补偿时域滤波技术减少预测误差,并采用自适应GOP决策,场景切换检测,屏幕内容检测技术来提高场景适应性;在码率控制上,S266使用帧,行,块三级码控,结合场景检测和噪声检测,精准有效的分配每个bit到最恰当的地方。在解码速度上,淘系技术经过大量优化,于2021年4月向业界公布了手机端的VVC实时解码器,普通手机仅使用2核就可以解码720p视频,最新发布的手机甚至可支持4k 30fps实时解码。


阿里巴巴音视频实验室负责人、淘系产品技术&平台生态业务负责人汤兴(平畴)表示:“淘系技术长期以来对音视频领域的持续投入和不断创新,造就了今天S265、
S266在MSU世界视频编码器大赛的好成绩,以及在淘宝直播、逛逛、点淘中超高清视频的表现。未来的8K、VR/MR、元宇宙等,也将随着视频编解码技术的创新而蓬勃发展。期望淘系编解码团队,从业务场景出发,以进益求精的态度,进一步追求效率高,速度快,延时低的编码技术,加速S266编码器的技术创新,加快VVC标准在内容化社区的商业落地。”

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
14天前
|
人工智能 安全 算法
上交大、上海人工智能实验室开源首个多轮安全对齐数据集 SafeMTData
最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提升模型安全的新路径。
|
机器学习/深度学习 人工智能 自然语言处理
华人学生团队获国际神经网络验证大赛佳绩:总分第一,五大单项第一
由来自卡内基梅隆大学、美国东北大学、哥伦比亚大学、加州大学洛杉矶分校的成员共同开发的工具α,β-CROWN 获得了第二届国际神经网络验证大赛总分第一,以及 5 个单项第一!其中该团队的学生作者均为华人。
346 0
华人学生团队获国际神经网络验证大赛佳绩:总分第一,五大单项第一
|
3天前
|
人工智能 自然语言处理 搜索推荐
浪潮信息 Yuan-embedding-1.0 模型登顶MTEB榜单第一名
浪潮信息Yuan-Embedding-1.0模型在C-MTEB评测基准中荣获Retrieval任务第一名,推动中文语义向量技术发展
|
2月前
|
自然语言处理 数据管理 大数据
发布!首个月球专业大模型来了
在2024数博会上,中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”(简称“月球专业大模型”)。
74 9
|
3月前
|
机器学习/深度学习 编译器 TensorFlow
【ASPLOS2024】RECom:通过编译器技术加速推荐模型推理,论文中选并获得荣誉奖项!
2024年5月,关于推荐模型自动编译优化的论文《RECom: A Compiler Approach to Accelerate Recommendation Model Inference with Massive Embedding Columns》在系统领域顶会ASPLOS 2024上中选并进行了展示,并被授予了Distinguished Artifact Award 荣誉,以表彰RECom的易用性与结果的可复现性。
|
6月前
|
人工智能 搜索推荐 数据可视化
国产黑马一年肝出万亿参数MoE!霸榜多模态
【4月更文挑战第2天】阶跃星辰推出万亿参数的MoE多模态大模型,引领AI新突破。采用混合专家架构,适应不同任务,提升效率与性能。MoE已应用于跃问助手和冒泡鸭AI平台,提供个性化服务与丰富互动体验。然而,巨大模型的训练管理、过拟合、知识表示及伦理问题仍是AGI发展道路上的挑战。
72 4
国产黑马一年肝出万亿参数MoE!霸榜多模态
|
算法 数据可视化 自动驾驶
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
181 0
|
机器学习/深度学习 人工智能 编解码
专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型
专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型
165 0
|
机器学习/深度学习 人工智能 自然语言处理
人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了
人人PyTorch,上A100能夺冠:分析完去年200场数据竞赛,我悟了
124 0