带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(4)

简介: 带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(4)

带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(3) https://developer.aliyun.com/article/1243537?groupCode=taobaotech




关工作


视频恢复


压缩视频质量增强作为视频恢复的主要研究方向之一,在过去的几年里得到了的广泛研究[11,15,35,41,42]。其中,现有的方法大多是基于单帧的质量增强[11,35,41]。观察到压缩后的视频帧之间存在明显的质量波动,MFQE[42]及

其扩展版本MFQE 2.0[15]提出利用邻近的高质量帧对待增强帧进行补偿。这两个方法采用时序融合方案,利用显示光流预测来进行运动补偿。STDF[9]利用可变形卷积,同样考虑了时序信息补偿,并避免了显式光流估计不准可能导致的对齐问题。


视频超分


除了压缩视频质量增强,视频超分辨率(VSR)也是视频恢复的一个主要研究方向。VSR通过提高视频帧的分辨率来恢复视频质量,与单张图像超分辨率(single image super resolution, SISR)不同,VSR可以利用相邻帧信息来重建高分辨率序列。现有的VSR方法可分为两类:基于滑动窗口的方法[22,32,36,43]和循环方法[4,5,18,19]。其中,EDVR[32]采用可变形卷积[8,46]来对齐相邻帧。与EDVR类似,D3DNet[43]利用可变形的3D卷积挖掘视频时空信息。BasicVSR[4]对VSR方法中的传播、对齐、聚合、上采样等基本组件进行了梳理,并提出一个简洁有效的基线方法。在BasicVSR基础上,BasicVSR++[5]通过双向传播策略和光流引导的可变形卷积对齐进一步提高了性能。


我们采用BasicVSR++作为第一阶段的骨干模型。


视觉Transformer


近年来,起源于自然语言处理 (Natural Language Processing, NLP)的Transformer网络在许多视觉任务中表现优异,包括图像分类、目标检测、语义分割、人体姿态估计和视频分类[1,3,12,16,26,26,34,34,44]。具体地,

SwinTransformer[26]提出了一种具有滑动窗口机制的层级Transformer结构,既有CNN的归纳偏置,又有Transformer具有长程注意力的优点。


也有工作尝试将Transformer应用到底层视觉任务中[6,7,20,24,33,37,45]。例如,SwinIR[24]提出了基于Swin Transformer的图像恢复模型,它不仅能够很好地处理局部相关性,还能有效地捕获长程依赖关系。Uformer[33]提出了一种通用的基于UNet的Transformer结构,在真实场景图像降噪任务中表现出了杰出的性能。


Transformer也被用于视频恢复任务[2,13,23]。VSRT[2]利用Transformer的并行计算能力来并行化相邻帧特征对齐。VRT[23]提出了时序交互自注意模块,用于更好地挖掘时空信息。但是由于这些方法模型训练消耗巨大的显存资源,目前还无法实现较长的输入视频帧训练。


我们采用SwinIR作为第二阶段的骨干模型。


带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(5) https://developer.aliyun.com/article/1243535?groupCode=taobaotech



相关文章
|
16天前
|
人工智能 监控 测试技术
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录
智源研究院联合高校团队推出Video-XL,一款专为超长视频设计的理解模型。通过视觉上下文潜在摘要技术,Video-XL将大量视觉数据高效压缩,显著提升理解准确性并降低计算成本。在多项测试中,Video-XL超越现有方法,展现出卓越性能。其开源为视频理解领域带来新活力,适用于视频监控、电影分析等多种场景。尽管面临一些挑战,Video-XL仍是视频理解领域的重要里程碑。
25 6
|
机器学习/深度学习 人工智能 自然语言处理
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
104 0
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
|
机器学习/深度学习 编解码 人工智能
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?(2)
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
241 0
|
机器学习/深度学习 编解码 监控
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?(1)
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
102 0
|
机器学习/深度学习 编解码 并行计算
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(3)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(3)
|
机器学习/深度学习
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(8)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(8)
109 0
|
编解码 算法 计算机视觉
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(1)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(1)
106 0
|
机器学习/深度学习 编解码 算法
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(9)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(9)
118 0
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(10)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(10)
|
编解码 算法
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(2)
带你读《2022技术人的百宝黑皮书》——大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)(2)
105 0