【OpenVI—视觉生产系列之视频插帧实战篇】几行代码,尽享流畅丝滑的视频观感

简介: 随着网络电视、手机等新媒体领域的快速发展,用户对于观看视频质量的要求也越来越高。当前市面上所广为传播的视频帧率大多仍然处于20~30fps,已经无法满足用户对于高清、流畅的体验追求。而视频插帧算法,能够有效实现多倍率的帧率提升,有效消除低帧率视频的卡顿感,让视频变得丝滑流畅。配合其它的视频增强算法,更是能够让低质量视频焕然一新,让观众享受到极致的播放和观看体验。

一、背景

  视频插帧算法,顾名思义,需要计算原始视频中相邻(多)帧间的运动关系,在相邻帧间插入符合逻辑的中间帧,使中间帧能与原始帧无缝衔接,达到提升视频流畅度的效果。当前,插帧算法在学术界不断取得突破,多篇文章通过transformer的引入能够有效提升PSNR等验证指标。但当前大多数SOTA模型在一些通用视频的困难场景下(包括但不限于:大运动场景、重复纹理场景、电影中的台标、字幕)生成的中间帧存在明显的瑕疵现象。而上述所提到的场景,也成为了当前视频插帧在业界所面临的最大挑战。此外,当前的大多数插帧算法仅支持生成t=0.5时刻的中间帧,即2倍插帧,无法一次性实现高倍率插帧以及任意指定帧率转换。针对以上问题,视觉增强团队在Modelscope上线了自研的插帧算法,该算法能够有效提升上述困难场景下的插帧质量,同时该算法支持任意时刻的中间帧生成,输出帧率可由用户任意指定。

  点击链接,立即体验:https://vision.aliyun.com/experience/detail?tagName=videoenhan&children=InterpolateVideoFrame

二、方法

  我们的算法采用深度学习方案,完整链路可分为四部分:原始帧间光流预测、光流修复(refine)、中间帧光流估计、中间帧生成。

1、原始帧间光流预测

  当前,绝大多数插帧算法都是基于光流来实现运动估计的。光流能够表征相邻两帧间对应像素点的运动距离大小,反映同一物体的位置对应关系。通常来说,光流预测的精准程度越高,生成的中间帧也更准确。在我们的算法中,复用了RAFT这一光流模型,用于生成F0->1和F1->0。和其它的光流模型相比,RAFT所提出的convex upsample使其在估计快速运动小物体有着更高的准确率。

             100.png

                  (输入img0、img1)

              101.png

                      Ft->1

              102.png

                      Ft->0

2、光流修复

  针对RAFT模型所生成的光流,我们引入了基于cross-attention transformer结构来对原始光流进行修复。该结构能够扩大感受野,结合Unet能够有效捕捉大运动场景下的光流。经过修复,我们可以得到对原始帧间的光流F0->1和F1->0实现精准估计。

              103.png

  cross-attention transformer[3]

3、中间帧光流估计

  这一步的主要目的是通过F0->1和F1->0去估计Ft->1和Ft->0,这里我们引入了基于四帧输入的光流估计算法。和两帧输入算法相比,该算法能够更好地捕获快速运动物体的加速度,此外,多帧信息的引入,又能够有效提升重复纹理场景光流估计错误的问题。

             104.png

   中间帧光流估计[4]

4、中间帧生成

  这一步借由I1和Ft->1、I0和Ft->0,通过backward warping各自生成中间帧。考虑到潜在的遮挡问题,通过mask对两张图像进行加权融合,即可得到最终的中间帧图像。该部分算法和当前大多数插帧算法无异。


三、效果

1、算法优势和功能支持

  基于深度学习方法,针对大运动、重复纹理等困难场景进行了算法改进。针对电影、电视剧、体育赛事视频中常出现的台标、字幕等场景,进行了训练数据构造和增强,大幅提升了算法的实用性。

  支持用户指定任意帧率输出,算法可自动计算插帧时刻,并支持任意时刻的插帧。

  针对部分镜头切换或其它不适合插帧的场景,可进行自动检测和筛选。

2、视频、图像综合增强

  插帧算法作为视频增强的一部分,能够有效解决视频卡顿的问题。任何低质量的原始视频,都能够在增强修复后变得焕然一新,让你享受到极致高清、饱满、丝滑的视频观看体验。


四、展望

  除了视频编辑和修复功能,未来我们还将持续探索插帧技术更为广阔的应用场景。当前随着大模型的兴起和层出不穷的AIGC玩法,插帧在图生视频、图片场景串联转换等领域,仍然存在巨大的潜力等待我们去发掘。


五、参考

[1] Teed, Zachary, and Jia Deng. "Raft: Recurrent all-pairs field transforms for optical flow." European conference on computer vision. Springer, Cham, 2020

[2] Huang, Zhewei, et al. "Real-time intermediate flow estimation for video frame interpolation." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XIV. Cham: Springer Nature Switzerland, 2022.

[3] Lu, Liying, et al. "Video Frame Interpolation with Transformer." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[4] Xu, Xiangyu, et al. “Quadratic video interpolation.” Advances in Neural Information Processing Systems 32 (2019).



相关文章
|
9天前
|
移动开发 监控 Android开发
构建高效Android应用:从内存优化到电池寿命代码之美:从功能实现到艺术创作
【5月更文挑战第28天】 在移动开发领域,特别是针对Android系统,性能优化始终是关键议题之一。本文深入探讨了如何通过细致的内存管理和电池使用策略,提升Android应用的运行效率和用户体验。文章不仅涵盖了现代Android设备上常见的内存泄漏问题,还提出了有效的解决方案,包括代码级优化和使用工具进行诊断。同时,文中也详细阐述了如何通过减少不必要的后台服务、合理管理设备唤醒锁以及优化网络调用等手段延长应用的电池续航时间。这些方法和技术旨在帮助开发者构建更加健壮、高效的Android应用程序。
|
23天前
|
前端开发 定位技术 SEO
基于WordPress开发的高颜值的自适应主题,支持白天与黑夜模式
环境要求 WordPress >=6.0PHP >=7.4 主题特性 支持白天与暗黑模式 全局无刷新加载 支持博客、CMS、企业三种布局 内置 WP 优化策略 内置前台用户中心 支持 QQ / Github / Gitee / 微博登录 支持缩略图伪静态 全局顶部滚动公告 图形及极验验证码支持 自定义 SMTP 支持 一键全站变灰 网页压缩成一行 后台防恶意登录 内置出色的 SEO 功能 评论 ajax 加载 文章点赞、打赏、海报生成、分享 Twemoji 集成 丰富的广告位 丰富的小工具 自动百度链接提交 众多页面模板(读者墙 / 归档 / 书籍推荐 / 站点导航 / 标签 / 站点地图
34 5
|
23天前
|
机器学习/深度学习 人工智能 算法
免费背景音人声分离解决方案MVSEP-MDX23,足以和Spleeter分庭抗礼
在音视频领域,把已经发布的混音歌曲或者音频文件逆向分离一直是世界性的课题。音波混合的物理特性导致在没有原始工程文件的情况下,将其还原和分离是一件很有难度的事情。 言及背景音人声分离技术,就不能不提Spleeter,它是一种用于音频源分离(音乐分离)的开源深度学习算法,由Deezer研究团队开发。使用的是一个性能取向的音源分离算法,并且为用户提供了已经预训练好的模型,能够开箱即用,这也是Spleeter泛用性高的原因之一,关于Spleeter,请移步:[人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10)](https://v3u.cn/a_id_305),这里
免费背景音人声分离解决方案MVSEP-MDX23,足以和Spleeter分庭抗礼
|
11月前
|
iOS开发 MacOS Windows
拥有100+高效工具的我,差点被这个问题难住了 | 给视频加字幕
拥有100+高效工具的我,差点被这个问题难住了 | 给视频加字幕
拥有100+高效工具的我,差点被这个问题难住了 | 给视频加字幕
|
传感器 机器学习/深度学习 人工智能
动画制作效率提升80%!这个AI软件一键实现高精度视频动捕
动画制作效率提升80%!这个AI软件一键实现高精度视频动捕
156 0
动画制作效率提升80%!这个AI软件一键实现高精度视频动捕
|
Java 计算机视觉
手把手一步一步教你使用Java开发一个大型街机动作闯关类游戏04图像资源的透明处理
手把手一步一步教你使用Java开发一个大型街机动作闯关类游戏04图像资源的透明处理
102 0
|
人工智能 边缘计算 监控
|
传感器 物联网 开发者
5_2_1_光照信息屏_ 实验技术点及应用场景介绍|学习笔记
快速学习5_2_1_光照信息屏_实验技术点及应用场景介绍。
134 0
5_2_1_光照信息屏_ 实验技术点及应用场景介绍|学习笔记
|
C# 计算机视觉
案例分享:Qt+C#轨道交通行业高性能高流畅度模拟火车移动图像控件
案例分享:Qt+C#轨道交通行业高性能高流畅度模拟火车移动图像控件
案例分享:Qt+C#轨道交通行业高性能高流畅度模拟火车移动图像控件
|
视频直播 UED 内存技术
开发网络视频直播系统过程中的那些关键点
“Syno Japan与媒体Carts合作在日本国内发起了“电竞相关认知/消费调查”,调查表示整个2018年是日本的电子竞技元年,也是日本国内逐渐认知电竞的一年。”由此可见,电竞在日本仅仅处于起步阶段,对于中国和韩国等地来说早已成为了大众的“生活必需品”,尤其是在网络视频直播系统带动下的游戏电竞直播,更是受到了人们的广泛关注。
1515 0

热门文章

最新文章