带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(4) https://developer.aliyun.com/article/1243536?groupCode=taobaotech
方法
两阶段网络框架
我们提出的两阶段视频恢复框架如图2所示。其中,第一阶段(Stage I)网络基于BasicVSR++,在其基础上将二阶补偿替换为峰值质量帧(Peak Quality Frames, PQF)[15,42],此外,将BasicVSR++[5]的重建模块从5个残差模块加深到55个残差模块。第二阶段(Stage II)利用SwinIR[24]去除严重的压缩伪影,并进一步提高视频帧质量,SwinIR是当前图像恢复领域最先进的网络之一。最后,将第一阶段和第二阶段的网络进行级联,并生成最终的视频增强结果。具体来说,首先将连续N张带有压缩伪影的原始视频帧 输入第一阶段模型,再将第一阶段的输出 逐帧输入第二阶段,第二阶段的输出 作为最终的增强结果,并拼接成增强后的视频。
图2 两阶段网络框架
第一阶段网络与渐进式训练
如图3所示,第一阶段网络主要包含三个模块:特征提取、传播和图像重建。给定一个输入视频,首先利用两个步长为2的卷积和五个残差模块提取输入视频帧空间特征,同时使用双三次滤波器对输入帧进行4倍下采样,并输入SpyNet[29]计算前、后向光流。接下来,对于第t帧,将其相邻帧t-1、t+1以及前后两个最近的PQF帧进行特征聚合。对于进行特征聚合的每一帧,利用其光流辅助特征对齐与传播。最后,利用55个残差模块对特征进行重建。具体地,在结构上使用PixelShuffle[30]算子来恢复视频分辨率,利用全局残差[17]来降低模型的学习难度。
图3 第一阶段网络结构
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(6) https://developer.aliyun.com/article/1243534?groupCode=taobaotech