带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(5) https://developer.aliyun.com/article/1243535?groupCode=taobaotech
如前所述,重建模块包含55个残差模块,如此大规模的网络是比较难以训练的,因此,我们采用渐进式训练[14,28]策略训练第一阶段网络。具体地,分6次对模型进行训练,每次训练分别使用其前5、15、25、35、45和55个残差
模块进行图像重建。用R1、R2、...R6表示第1~5、6~15、... 46-55组残差模块,E和P表示特征提取和特征传播模块,S和R表示第一阶段网络最后的PixelShuffle层和全局残差连接。给定输入帧Iin可通过如下渐进式训练过程得
到最终的增强帧:
对于第一次训练,使用BasicVSR++开源模型初始化E、P、S和R的权重,对于后续的第 次训练,加载第k-1次训练收敛的模型E、P、S、R以及 模块的权重进行初始化。需要注意的是,图3所示特征传播模块包含时序信息,为了简洁起见,在上述公式中省略了该信息。
第二阶段网络与迁移学习
尽管BasicVSR++单模型拥有业界领先的视频恢复能力,但其对严重压缩伪影区域的恢复效果还有提升空间。为此,我们设计了第二阶段网络来进一步提升第一阶段网络增强后的视频帧,类似于参考文献[32]中的两阶段恢复策略。与[32]不同的是,实验证明,级连两个BasicVSR++模型带来的提升极其微小,为此,我们在第二阶段使用单帧增强模型,来进一步提高视频增强质量。
SwinIR[24]是当前业界最佳图像增强方案之一,我们使用该网络作为第二阶段模型,用于进一步增强第一阶段恢复后的视频帧。SwinIR网络结构基于Transformer,需要大规模数据进行训练,为此,我们采用迁移学习方法调优第二阶段网络。具体地,我们使用[24]开源的RGB去噪网络对第二阶段网络进行权重初始化,再使用视频增强数据集对其进一步调优。
实验
数据集
我们使用两个数据集来训练提出的两阶段网络,其一是NTIRE 2022挑战赛官方发布的LDV数据集[39]。它包含240个qHD序列,包含10类场景,分别为动物、城市、特写、时尚、人、室内、公园、风景、运动和车辆。此外,我们构建了一套包含870段视频的大规模数据集,包含LDV数据集中的10个场景,每个场景87段视频,均为YouTube网站下载的4K分辨率视频序列。我们参考NTIRE 2021报告[38]中描述的数据处理程序,将4K序列转换为qHD序列。并进一步去除压缩序列中的重复帧和原始序列中的对应帧。
为了验证模型性能,从上述十个场景中,每个场景选择一个序列来构建线下验证集。这10个序列分别为LDV数据集中的030、056、102、106、109、119、124、125、158和189。此方法最终使用的训练集为1100个视频,验证集为上述10个视频。
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(7) https://developer.aliyun.com/article/1243533?groupCode=taobaotech