带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(3) https://developer.aliyun.com/article/1243537?groupCode=taobaotech
相关工作
视频恢复
压缩视频质量增强作为视频恢复的主要研究方向之一,在过去的几年里得到了的广泛研究[11,15,35,41,42]。其中,现有的方法大多是基于单帧的质量增强[11,35,41]。观察到压缩后的视频帧之间存在明显的质量波动,MFQE[42]及
其扩展版本MFQE 2.0[15]提出利用邻近的高质量帧对待增强帧进行补偿。这两个方法采用时序融合方案,利用显示光流预测来进行运动补偿。STDF[9]利用可变形卷积,同样考虑了时序信息补偿,并避免了显式光流估计不准可能导致的对齐问题。
视频超分
除了压缩视频质量增强,视频超分辨率(VSR)也是视频恢复的一个主要研究方向。VSR通过提高视频帧的分辨率来恢复视频质量,与单张图像超分辨率(single image super resolution, SISR)不同,VSR可以利用相邻帧信息来重建高分辨率序列。现有的VSR方法可分为两类:基于滑动窗口的方法[22,32,36,43]和循环方法[4,5,18,19]。其中,EDVR[32]采用可变形卷积[8,46]来对齐相邻帧。与EDVR类似,D3DNet[43]利用可变形的3D卷积挖掘视频时空信息。BasicVSR[4]对VSR方法中的传播、对齐、聚合、上采样等基本组件进行了梳理,并提出一个简洁有效的基线方法。在BasicVSR基础上,BasicVSR++[5]通过双向传播策略和光流引导的可变形卷积对齐进一步提高了性能。
我们采用BasicVSR++作为第一阶段的骨干模型。
视觉Transformer
近年来,起源于自然语言处理 (Natural Language Processing, NLP)的Transformer网络在许多视觉任务中表现优异,包括图像分类、目标检测、语义分割、人体姿态估计和视频分类[1,3,12,16,26,26,34,34,44]。具体地,
SwinTransformer[26]提出了一种具有滑动窗口机制的层级Transformer结构,既有CNN的归纳偏置,又有Transformer具有长程注意力的优点。
也有工作尝试将Transformer应用到底层视觉任务中[6,7,20,24,33,37,45]。例如,SwinIR[24]提出了基于Swin Transformer的图像恢复模型,它不仅能够很好地处理局部相关性,还能有效地捕获长程依赖关系。Uformer[33]提出了一种通用的基于UNet的Transformer结构,在真实场景图像降噪任务中表现出了杰出的性能。
Transformer也被用于视频恢复任务[2,13,23]。VSRT[2]利用Transformer的并行计算能力来并行化相邻帧特征对齐。VRT[23]提出了时序交互自注意模块,用于更好地挖掘时空信息。但是由于这些方法模型训练消耗巨大的显存资源,目前还无法实现较长的输入视频帧训练。
我们采用SwinIR作为第二阶段的骨干模型。
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(5) https://developer.aliyun.com/article/1243535?groupCode=taobaotech