会议更流畅,表情更生动!视频生成编码 VS 国际最新 VVC 标准

简介: 阿里云视频云的标准与实现团队与香港城市大学联合开发了基于 AI 生成的人脸视频压缩体系,相比于 VVC 标准,两者质量相当时可以取得 40%-65% 的码率节省,旨在用最前沿的技术,普惠视频通话、视频会议、在线教育等重要应用领域。

作者|王钊 、叶琰、王诗淇

审校| 泰一


基于 AI 生成的人脸视频压缩


继线上购物、线上支付后,在线教育、在线办公、在线互娱也流行起来,丰富着我们的日常工作生活,其中一大功臣 —— 视频,是主要的推动力。整个社会的大趋势在走向内容视频化,交互线上化。视频云业务成为云业务中最炙手可热的版块,云端一体创造了更低成本、更低门槛、更强体验、全民共享的技术普惠能力。钉钉也成为一种新的工作学习方式,通过视频会议帮助亿万人解决异地工作的问题,帮助亿万中小学生解决在家上课的问题。


不论是视频会议还是其它视频场景,视频压缩都是最基本也是最核心的能力。国际 ISO/IEC 与 ITU-T 标准组制定的一代代视频压缩标准,如 H.264/AVC (2003),H.265/HEVC (2013) 等,代表了视频压缩能力的每一次重大发展。在 2020 年,最新的国际视频压缩标准 H.266/VVC 正式完成制定,相比于 H.265/HEVC,可以提高一倍压缩率,相比于 H.264/AVC,可以提高四倍压缩率。


AI 技术的兴起也在向广泛的应用领域发起挑战。其中,号称 “万物皆可生成” 的 GAN(对抗生成网络) 则被一些互联网科技巨头公司尝试用于会议视频压缩上。2020 年,Facebook 与 Nvidia 均发布了基于生成的会议视频压缩方法,报告显示可以取得明显优于 H.264/AVC 的压缩效率。


今天,阿里云视频云的标准与实现团队通过和香港城市大学的紧密合作,也推出了基于 AI 生成的会议视频压缩系统,相比于最新的 VVC 标准,在实验室测试场景中,相同的人眼观看质量下可以节省 40%-65% 的码率。VVC 已经代表着业界最先进的视频压缩能力,而我们系统相比于 VVC 所显示的技术优势则意味着我们有望可以在不久的将来大幅度拉开钉钉视频会议和竞品系统之间的技术差距,用一半的带宽开相同质量的钉钉视频会议!


传统客观质量评价指标如 PSNR、SSIM 等依赖于像素级的失真计算,并不适用于生成任务的失真评价。DISTS 指标( PAMI2020[1] )和 LPISP 指标CVPR2018[2] ) 是两个近年来质量评估领域的顶级文章,它们通过深度特征来度量解码图像与原始图像的相似度,可以更好地针对基于 GAN 的视频压缩场景进行质量评价,因此它们与人眼主观质量评测的相关度远高于 PSNR 和 SSIM 这些传统指标。


当我们视频云的基于 AI 生成的会议视频压缩系统与 VVC 参考软件使用相同的码率时,视频云生成压缩系统的解码视频相比于 VVC 可以获得 40%-65% 的质量提升。也就是说,在相同的带宽下,用户可以享受到更加清晰、生动的画质。


在 DISTS 客观指标相当时,视频云的生成压缩系统与 VVC 对比如顶部视频所示。通过观察对比视频效果可以看到,视频云的基于 AI 生成的压缩系统与 VVC 相比有大幅的带宽成本降低(只用 1/3 左右的带宽),同时在视频清晰度和主观质量上可以取得明显优势。


由于 VVC 是基于传统视频压缩框架,因此在低码率下容易出现视频模糊不清以及块效应等主观质量问题,而视频云的生成压缩系统则可以在更低码率下依然很好地保持面部细节和五官清晰度。在码率 / 带宽相当时,视频云的生成压缩系统与 VVC 编码对比视频如下,相比于 VVC 画面清晰度和主观质量的优势更是明显,面部表情栩栩如生。


压缩系统关键技术


我们提出的基于 AI 生成的视频云会议视频压缩系统的编码端包含两部分:压缩源图像的 VVC 编码器和用于提取其他图像帧的脸部运动信息的脸部探测器。首先,通过对源图像在 VVC 编码器中在一定的量化步长下进行压缩,并传输相应的比特流到解码端。其次,在脸部探测器的帮助下我们可以进一步提取后续其他图像帧的关键点和雅可比矩阵,用于表示这些图像帧的脸部运动信息。这些脸部关键点和雅可比矩阵进行帧间残差预测和算术编码,实现压缩并传输到解码端。 image.png


解码端首先解码出源图像,然后解码出待生成帧对应的关键点与雅可比矩阵。解码端的生成模型会以源图像、关键点和雅可比矩阵作为输入,对关键点对应的高维空间进行矩阵变换,并作用于源图像提出的高维特征图上,从而输出最终的生成图像。下图给出了一个可视化示例。 


image.png


与 VVC 编码实验对比

image.png

我们对 30 个人脸视频 (上图) 进行了 VVC 编码与基于 AI 生成的视频压缩对比。VVC 编码器在低延迟模式 (Low-delay B) 下使用量化参数 (QP) 32, 37, 42, 47。视频云的基于 AI 的生成压缩方法同样测试了 4 个不同的码率点。测试集上的平均编码质量与码率如下表所示。

image.png

表 1 视频云的生成压缩系统与 VVC 的压缩性能对比,DISTS 与 LPIPS 数值越低表示质量越高


根据实验结果,可以看到在相当的解码视频质量下,视频云的生成压缩方法相比于 VVC 可以带来 40%-65% 的平均码率节省,同时这个压缩性能的优势在低码率场景下更加明显。把质量评分与码率做成相应的失真 - 码率曲线,对比如下: 


image.pngimage.png

图 4 视频云的生成压缩方案与 VVC 的压缩效率对比图

在码率相当时,视频云的生成压缩系统与 VVC 解码视频的主观对比图示例如下 image.png

可见在低码率下 VVC 容易出现画面模糊的情况,而视频云的生成压缩系统的清晰度更高。


在解码质量相当时,视频云的生成压缩系统与 VVC 解码视频的码率对比如下:image.png

可以看到,在压缩质量相当时,视频云的生成压缩系统相比于国际最新 VVC 标准可将压缩率提高 40%-65%。这不仅极大降低了相关视频应用的带宽成本,还可以让用户享受到更生动、更流畅的视频体验!


参考文献:
[1] Ding, Keyan, et al. "Image Quality Assessment: Unifying Structure and Texture Similarity." IEEE transactions on pattern analysis and machine intelligence.


[2] Zhang, Richard, et al. "The unreasonable effectiveness of deep features as a perceptual metric." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.


「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。


       image.png                                                          


相关文章
|
Linux 编译器 开发者
Linux设备树解析:桥接硬件与操作系统的关键架构
在探索Linux的庞大和复杂世界时🌌,我们经常会遇到许多关键概念和工具🛠️,它们使得Linux成为了一个强大和灵活的操作系统💪。其中,"设备树"(Device Tree)是一个不可或缺的部分🌲,尤其是在嵌入式系统🖥️和多平台硬件支持方面🔌。让我们深入了解Linux设备树是什么,它的起源,以及为什么Linux需要它🌳。
Linux设备树解析:桥接硬件与操作系统的关键架构
|
7月前
|
存储 弹性计算 缓存
阿里云服务器优选:经济型e与通用算力型u1的全方位对比与选择参考
在阿里云目前的活动中,经济型e实例与通用算力型u1实例凭借高性价比和价格实惠的特点,成为了众多用户优选选择的热门是实例规格。对于初次接触阿里云服务器的新手用户来说,如何在这两款实例中做出选择,可能是新手用户比较关心的问题。本文将为您详细解析经济型e与通用算力型u1实例的各项性能指标,以供您了解与选择参考。
|
编解码 人工智能 监控
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
VISION XL是一款基于潜在扩散模型的高效视频修复和超分辨率工具,能够修复视频缺失部分、去除模糊,并支持四倍超分辨率。该工具优化了处理效率,适合快速处理视频的应用场景。
3021 6
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
|
人工智能 程序员 测试技术
AI编程:Coze + Cursor实现一个思维导图的浏览器插件
本文是小卷关于AI编程工具学习的第3篇文章,通过开发一个思维导图生成工具,详细介绍了AI编程的完整流程。从需求分析、插件选择(如Coze的TreeMind),到创建测试工作流、发布API,再到整合API和开发浏览器插件,最终实现了用户选中文字后生成思维导图的功能。文章展示了如何利用现有工具高效开发,并总结了AI编程的优势与未来趋势。
1455 14
|
机器学习/深度学习 算法 算法框架/工具
深度学习中epoch、batch、batch size和iterations详解
深度学习中epoch、batch、batch size和iterations详解
2297 0
|
JavaScript 前端开发 API
详解JS的URL()和URLSearchParams() API接口
详解JS的URL()和URLSearchParams() API接口
455 2
|
机器学习/深度学习 人工智能 编解码
原来Stable Diffusion是这样工作的
初中生都能听懂的Stable Diffusion的工作原理,看完还不会你来找我
原来Stable Diffusion是这样工作的
|
人工智能 缓存 NoSQL
在Github中77k星的AutoGPT安装及配置教程,能实现独立思考自动化
十分重磅!GPT3.5都还没玩明白,傍着GPT4的AutoGPT就又要乱杀了,特斯拉前 AI 总监、刚刚回归 OpenAI 的 Andrej Karpathy也提到“AutoGPT”将成为提示工程的下一个前沿,网上很多人只提突破性,不提局限性,twitter的原话是prompt engineering领域,因此其他领域还是坐观新测
2570 0
在Github中77k星的AutoGPT安装及配置教程,能实现独立思考自动化
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
【计算机视觉】图像分割中FCN、DeepLab、SegNet、U-Net、Mask R-CNN等算法的讲解(图文解释 超详细)
1912 0
|
IDE 编译器 Linux
VScode 编译器配置IDE环境(C/C++/Go)
VScode 编译器配置IDE环境(C/C++/Go)
1926 0
VScode 编译器配置IDE环境(C/C++/Go)

热门文章

最新文章