带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(6) https://developer.aliyun.com/article/1243534?groupCode=taobaotech
实施细节
对于第一阶段,首先加载开源BasicVSR++模型,并使用Charbonnier损失函数进行300K迭代次数微调。训练采用Adam优化器,初始学习率为2X10-5,学习率调度策略为带warmup的余弦退火,退火周期为300K次迭代,在前10%次迭代中,学习率线性增加。此外,利用渐进式训练,将图像重建部分的残差模块从5个增加到55个,逐步使模型达到收敛。最后使用均方误差(Mean Squared Error, MSE)损失函数对模型进行100K次迭代微调。
对于第二阶段,首先加载开源图像去噪任务SwinIR模型,并使用Charbonnier损失函数进行微调。然后在自建数据集和LDV训练数据集上,使用均方损失函数对模型进行进一步微调,初始学习率为1X10-5。值得注意的是,第二阶
段为单帧模型,训练数据并非全部视频帧,我们对每个视频进行8取1抽样作为训练集。
所有实验均在英伟达4卡V100上进行训练。
客观表现
表5 第一阶段模型在Track 1赛道PSNR表现
其中,LDV表示230个官方训练集,EX表示870个YouTube采集训练集,cleaned_EX表示清洗后的YouTube采集训练集,MSE指均方误差损失函数,RMD指删除重复帧预测策略。
表6 两阶段网络在Track 1赛道线下10个验证集视频对PSNR表现
774其中,TTA表示测试时集成方法,TTA_I和TTA_II分别指在第一阶段和第二阶段进行测试时集成。峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)可用于量化视频增强性能。本节展示提出方法在Track 1赛道两个数据集上的性能:一是我们自选的10个视频序列线下验证集,二是官方提供的15个视频序列线上验证集。
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(8) https://developer.aliyun.com/article/1243532?groupCode=taobaotech