带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(3)

简介: 带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(3)

带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(2) https://developer.aliyun.com/article/1243538?groupCode=taobaotech



后文我们分享具体的方案——


项目摘要


视频恢复是一个具有广泛应用场景的问题,其目标是对含有噪声、模糊和压缩伪影等问题的低画质视频进行增强。视频超分和视频去压缩伪影是实际应用中最重要的两种视频恢复任务。循环神经网络(Recurrent Neural Network, RNN)和全自注意力网络(Transformer)具有很好的序列建模特性,近年来在视频恢复领域受到了广泛的关注。然而RNN和Transformer的训练开销巨大,训练过程中也容易出现梯度消失和梯度爆炸问题,导致模型难以收敛。针对这些问题,我们提出一个包含多帧RNN和单帧Transformer的两阶段网络,同时使用迁移学习和预训练来缩短训练时间,利用渐进式训练方法进一步提升模型性能。基于上述先进性技术,此方案在NTIRE2022视频超分与压缩伪影增强挑战赛中获得了两项冠军和一项亚军的成绩。


方案背景


近年来,互联网视频数据呈爆炸式增长。与此同时,视频的分辨率也越来越高,以满足人们对视频体验质量(Quality of Experience, QoE)日益增长的需求。但是,由于带宽的限制,网络传输视频通常会被降采样和压缩,这不可

避免地会导致视频质量的下降。因此,超分辨率、压缩伪影增强等视频恢复任务在计算机视觉领域受到了广泛的关注。


视频恢复任务需要从视频序列中多个高度相关但并未对齐的低质量帧中提取信息,具有较高的挑战性。现有的视频恢复方法大多将其视为时空序列预测问题,主要可分为两类:滑动窗口方法[9,15,32,35,42]和循环方法[4,5,19]。例如, BasicVSR++[5]提出了一种二阶网格传播网络来更好地挖掘时空信息。它展示了循环方法的有效性,并赢得了NTIRE 2021高压缩伪影视频质量增强挑战赛的冠军。然而,循环方法在时间顺序上对视频进行逐帧串行处理,计算效率高。最近一些工作[2,23]尝试利用Transformer来并行计算,但循环方法和Transformer的计算复杂度都是序列长度和图像大小的平方,整体计算复杂度为 。由于这些网络巨大的显存开销,即使是在英伟达A100 GPU上,每次训练也无法加载16帧以上的输入序列,导致在REDs数据集[27]上性能不如BasicVSR++方法。除了GPU内存消耗较大外,像Transformer这样复杂的模型也比较难以训练和调优。此外,“大”模型也更容易出现过拟合,导致不同视频增强效果的质量波动。


针对上述问题,我们提出了一种基于循环网络和Transformer的两阶段视频恢复框架。具体来说,第一阶段用于粗恢复视频帧,并减少帧间质量波动。第二阶段对第一阶段的恢复结果进行逐帧精调,可以有效恢复受损严重的区域。第一阶段网络基于BasicVSR++进行改进,第二阶段采用SwinIR[24]作为骨干网络。这两个模型分别进行训练,以节省内存资源,进一步提高精度。此外,在这两个阶段的训练过程中采用了迁移学习和渐进训练策略,不仅加快了收敛速度,还提高了最终的视频恢复性能。


综上所述,我们的贡献如下:


1. 提出了一个两阶段的视频恢复框架,以同时消除压缩伪影和缓解帧间质量波动。

2. 引入了一种渐进式模型训练方案,以稳定模型训练并提高最终性能。

3. 引入了迁移学习和预训练方案,以缩短模型训练时间。

4. 我们提出的方法在增强性能和模型复杂度之间实现了很好的权衡,并赢得了NTIRE2022视频超分与压缩伪影增强挑战赛。



带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(4) https://developer.aliyun.com/article/1243536?groupCode=taobaotech

相关文章
|
机器学习/深度学习
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(8)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(8)
106 0
|
编解码 算法 计算机视觉
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(1)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(1)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(10)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(10)
|
编解码
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(5)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(5)
|
机器学习/深度学习 编解码 算法
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(9)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(9)
110 0
|
调度
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(7)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(7)
|
编解码 算法
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(2)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(2)
|
机器学习/深度学习 编解码 数据处理
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(6)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(6)
105 0
|
机器学习/深度学习 编解码 自然语言处理
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(4)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(4)
106 0
|
机器学习/深度学习 算法 C语言
带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(6)
带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(6)
118 0