超越最新视频压缩标准H.266,字节跳动编码新技术让视频缩小13%

简介: 联合视频专家组 JVET 官网显示,字节跳动设立在美国的研发团队于今年初发起了一项视频压缩技术提案,并命名为 DAM(Deep-filtering with Adaptive Model-selection)。相比 H.266/VVC 最新标准,DAM 能够为视频编码性能带来显著提升,亮度信号 Y 可实现 10.28% 的性能增益。两个色度信号 U 和 V 的性能增益也分别达到 28.22% 和 27.97%。这是业界公开的单个智能编码工具的最佳性能增益。

微信图片_20211205101328.jpg


视频编解码是视频应用的底层核心技术,作用是对图像进行压缩和数字编码,以尽可能小的带宽传送尽可能高质量的视频数据。H.264 是现在被广泛使用的视频编解码标准,在同等视频质量下,H.265/HEVC 标准可以让视频体积减小一半。H.265 尚未完全普及,新一代标准 H.266/VVC 比 H.265 让视频又减小一半。

这并不是视频编码技术的尽头。

今年初,字节跳动先进视频团队(AVG)向联合视频专家组 JVET 发起了一项 JVET-U0068 技术提案,可以为视频压缩的三个颜色分量(Y, U, V)分别实现约 10%、28%、28% 的性能增益,这是业界公开的单个智能编码工具的最佳性能增益。在优化压缩质量的同时,视频体积相比 H.266 最新标准至少还可以缩小 13%。就其实际效果而言,如果新技术得以应用,与现在主流的 H.264 标准相比,我们看同样质量的视频,大约只需要 22% 的带宽和存储空间。

这项技术名为 DAM(Deep-filtering with Adaptive Model-selection),它是通过深度学习技术构建减少视频压缩失真的滤波器,主干是基于残差单元堆叠的深度卷积神经网络,辅以自适应模型选择以最大程度适应特性复杂的自然视频。该技术由字节跳动 AVG 的美国加州研发团队实现,成员来自高通、英特尔、微软等巨头以及海内外多家顶级院校。

我们先从下图示例中对比 H.264 与 H.266+DAM 的视频压缩效果: 

微信图片_20211205101332.jpg


可以看到,相同压缩比条件下,H.266+DAM 编码压缩质量远远优于 H.264。

除了视频压缩质量提升之外,应用 DAM 技术可以比H.266再缩小 13% 的数据体积,以下图片来自国际标准组织的测试视频。其中,图(左)为原图,每像素 12 字节;图(中)使用 VTM11.0 压缩(qp=42),每像素 0.00216字节,峰值信噪比 27.78dB;图(右)使用 VTM11.0+DAM(qp=42),每像素 0.00184 字节,峰值信噪比 28.02dB。

对比图(中)和图(右)可以看出,应用 DAM 技术后,图(右)压缩比更高,峰值信噪比(客观质量)更好,主观质量也相对更好。

微信图片_20211205101334.jpg

图1. 左:原图, 12bpp,中:VTM-11.0压缩,QP42,0.00216bpp,27.78dB,右:VTM-11.0+DAM,QP42, 0.00184bpp,28.02dB


技术细节


DAM 的构建方法


提案 JVET-U0068 所介绍的 DAM 是字节跳动 AVG 此前一项提案 JVET-T0088 的扩展版本。

在具体实现上,为了减轻深度网络的训练难度,DAM 算法利用残差单元作为基本模块,并多次堆叠来构建最终网络。所谓残差单元是指通过引入跳层连接,允许网络把注意力放在变化的残差上。为了处理不同类型的内容,新技术针对不同类型的 slice 和质量级别训练不同网络。此外,还引入了一些新特性来提高编码性能。

 

微信图片_20211205101338.jpg

图 1:(a)是卷积神经网络滤波器的架构,M 代表特征图的数量,N 代表特征图的空间分辨率;(b)是(a)中残差块的结构。


DAM 滤波方法的主干如上图 1 所示,为了增加感受野,降低复杂度,此方法包含一个步幅为 2 的卷积层,该层将特征图的空间分辨率在水平方向和垂直方向都降低到输入大小的一半,这一层输出的特征图会经过若干顺序堆叠的残差单元。最后一个卷积层以最后一个残差单元的特征图作为输入,输出 4 个子特征图。最后,shuffle 层会生成空间分辨率与输入相同的滤波图像。

与此架构相关的其他细节如下:

  • 对于所有卷积层,使用 3x3 的卷积核。对于内部卷积层,特征图数量设置为 128。对于激活函数,使用 PReLU;
  • 针对不同 slice 类型训练不同的模型;
  • 当为 intra slice 训练卷积神经网络滤波器时,预测和分块信息也被输入网络。


新特性:自适应模型选择


在 JVET-T0088 的卷积神经网络结构基础上,JVET-U0068 引入了以下几种新特性:

  • 首先,每个 slice 或 CTU 单元可以决定是否使用基于卷积神经网络的滤波器;
  • 其次,当某个 slice 或者 CTU 单元确定使用基于卷积神经网络的滤波器时,可以进一步确定使用三个候选模型中的哪个模型。为此目的,使用 {17,22,27,32,37,42} 中的 QP 数值训练不同模型。将编码当前 slice 或 CTU 的 QP 记作 q,那么候选模型由针对 {q,q-5,q-10} 训练的三个模型构成。选择过程基于率失真代价函数,然后将相关模式表征信息写入码流;
  • 第三,基于卷积神经网络的滤波器在所有层都被启用;
  • 最后,现有滤波器中的去块滤波和 SAO 被关掉,而 ALF(和 CCALF)则被置于基于卷积神经网络滤波器后面。


在线推断及训练


推断过程中使用 PyTorch 在 VTM 中执行 DAM 深度学习的在线推断,下表 1 是根据 JVET 建议给出的网络信息:

微信图片_20211205101343.jpg

表 1。

训练过程中以 PyTorch 为训练平台,采用 DIV2K 和 BVI-DVC 数据集,分别训练针对 intra slice 和 inter slice 的卷积神经网络滤波器,并且训练不同的模型以适应不同的 QP 点,训练阶段的网络信息根据 JVET 建议列于下表 2 中。

注意,当训练 inter slice 滤波器时,预测信息也被用作输入,而在 JVET-T0088 中,它仅用于 intra slice。

微信图片_20211205101345.jpg

表 2。

下图 2 给出了训练集和验证集损失函数的一个示例。

微信图片_20211205101348.jpg

图 2。


实验结果:三个颜色分量(亮度 Y 和色度 Cb、Cr)性能增益显著


考虑到 VTM-9.0 和 VTM-10.0 之间的微小差异,并根据 JVET 定义的常规测试条件,在 VTM-9.0 上测试了字节跳动 AVG 的 DAM 技术提案,测试结果如下表 3 和表 4 所示。

结果显示,在 RA 构型下,Y、Cb 和 Cr 的 BD-rate 节省分别为 10.28%、28.22% 和 27.97%;在 AI 配置下,对 Y、Cb 和 Cr 分别可带来 8.33%、23.11% 和 23.55% 的 BD-rate 节省。

微信图片_20211205101351.jpg

表 3:AVG 提案在 VTM9.0(RA)上的性能表现。

微信图片_20211205101355.jpg

表 4:AVG 提案在 VTM9.0(AI)上的性能表现。


总结


实测证明,字节跳动 AVG 的这项视频编码技术创新,可以让视频的数据体积相比 H.266 最新国际标准再缩小 13%。对视频服务商来说,存储和带宽成本将显著降低;对用户来说,在网速较慢的情况下也可以流畅观看高清视频。

但正如前文所述,早在 2013年正式通过的 H.265,如今还没有完全普及。一方面,高昂的专利授权费用导致生产硬件设备和生产内容的厂商无法承担,用户也只能买并不支持 H.265 标准的设备;另一方面,H.265 的专利收费很复杂,想要使用 H.265 得分别多次缴专利费。因此,目前最常见的还是 18 年前的 H.264 标准。

尽管 H.266 新一代标准的推广还有很长的路要走,字节跳动 AVG 的技术探索并不会停止,其研究成果也会通过自主研发的 BVC 编码器投入应用,为抖音、西瓜视频、今日头条等 App 的视频类内容处理,以及云计算、云游戏等基础架构领域创造更高清画质、更流畅播放的视频体验。

相关文章
|
2月前
|
编解码 人工智能 自然语言处理
结合微帧编码引擎,从视频编解码角度对Sora浅析
2024年初,OpenAI发布的视频生成模型Sora成为焦点。Sora能生成长达1分钟的高质量视频,标志着生成式AI的重大突破。微帧分析了Sora的视频编码技术,发现其主要使用H.264编码,微帧的编码引擎WZ264和WZ265能显著降低视频码率,提升效率。
|
3月前
|
编解码 监控 网络协议
如何用魔法般的步骤实现RTSP推送H.264与H.265(HEVC),打造震撼视听盛宴,让每一帧都充满魔力!
【9月更文挑战第3天】实现RTSP流媒体服务推送H.264和H.265编码视频是现代视频监控及直播平台的关键技术。本文详细介绍环境搭建、编码配置及服务器与客户端实现方法。首先,通过FFmpeg捕获视频并编码成RTSP流,接着使用VLC等工具接收播放。此外,还提供了C++示例代码,演示如何利用libv4l2和FFmpeg自定义服务器端实现。希望本文能帮助读者成功搭建RTSP视频流系统。
345 1
|
4月前
|
编解码 监控 网络协议
【绝密技巧】揭秘!如何用魔法般的步骤实现RTSP推送H.264与H.265(HEVC),打造震撼视听盛宴,让每一帧都充满魔力!
【8月更文挑战第15天】本文详述了如何使用RTSP流媒体服务推送H.264及H.265编码视频,适用于视频监控和直播平台。首先需确保环境支持这两种编码格式,可通过FFmpeg实现。在Ubuntu上安装FFmpeg后,可配置从摄像头捕获视频并推流至RTSP服务器。针对H.265编码,只需更改视频编码器为`libx265`。客户端可使用VLC播放器接收流。此外,还提供了C++示例代码用于自定义服务器实现,包括初始化上下文、打开编码器和循环编码视频帧。此教程旨在助力实现RTSP推送目标。
66 0
|
人工智能 算法 数据可视化
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
192 0
|
机器学习/深度学习 存储 编解码
|
机器学习/深度学习 数据可视化
更高清!谷歌推出生成文本到图像的新框架 TReCS,效果超过AttGAN
谷歌研究人员推出新框架 TRECS,生成的图像更逼真,更符合文字的描述。
158 0
更高清!谷歌推出生成文本到图像的新框架 TReCS,效果超过AttGAN
|
机器学习/深度学习 人工智能 编解码
|
机器学习/深度学习 Web App开发 编解码
理论 + 标准 + 工程 —— 阿里云视频云编码优化的思考与发现
阿里云智能视频云 资深技术专家王豪此次作为 LiveVideoStackCon 2021 的讲师,与我们分享其对编码优化的思考与发现。
理论 + 标准 + 工程 —— 阿里云视频云编码优化的思考与发现
|
编解码 人工智能 达摩院
叶琰:AI压缩技术在追上传统编码技术
认识叶琰是经朋友引荐,在了解她的背景后很快决定邀请她来LiveVideoStackCon2019深圳,并担任了大会的Co-chair。叶琰给我留下的印象是坦诚、直接,一旦她承诺的事情会按时做到——无论是为大会内容组织给出建议,推荐讲师候选人,还是本篇采访,叶琰总是在deadline前完成,也许当年兼顾孩子和工作的艰难经历,让她更加游刃有余。如果一切顺利,叶琰将作为大会Co-chair在LiveVideoStackCon 2019深圳致辞,并和听众交流。
786 0
叶琰:AI压缩技术在追上传统编码技术
|
机器学习/深度学习 人工智能 算法
自学习芯片、实时3D表情捕捉渲染,百倍DNN模型无损压缩 | 英特尔中国研究院媒体开放日
英特尔中国研究院媒体开放日,英特尔中国研究院院长宋继强率领团队,共同分享了英特尔中国研究院的整体定位、研究方向和创新机制,以及英特尔在人工智能、机器人等领域的最新研究成果。
2104 0