ECCV 2024:盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

简介: 【8月更文挑战第15天】随着多媒体的兴起,视频成为信息传播的关键媒介,但视频中的闪烁问题影响观看体验。美图与中国科学院大学联合研发的BlazeBVD算法,采用直方图辅助方法简化学习过程,提高了视频去闪烁的质量与速度。该算法通过2D网络恢复纹理,3D网络修正时间一致性,实现了高效能与高保真度。实验结果显示,BlazeBVD在多种视频类型上表现优秀,推理速度提升显著。尽管如此,算法在处理局部闪烁和复杂场景时仍存在局限性,未来有进一步优化的空间。[论文链接](https://arxiv.org/pdf/2403.06243v1)

随着社交媒体和多媒体行业的蓬勃发展,视频已成为日常生活中传递信息的重要媒介。然而,视频闪烁问题常常影响观看体验,这主要是由于拍摄环境和相机硬件的限制所致。为了提高视频质量,研究者们一直在探索如何有效去除视频中的闪烁现象,以恢复视频内容的完整性和时间一致性。

近期,由美图公司和中国科学院大学联合研究团队提出了一种名为BlazeBVD的新型盲视频去闪烁(Blind Video Deflickering,简称BVD)算法。该算法的研究成果发表在预印本服务器arXiv上,论文编号为2403.06243v1。BlazeBVD算法以其高效性和高保真度,在视频处理领域引起了广泛关注。

BlazeBVD算法的核心在于利用直方图辅助方法简化视频数据的学习复杂性,提高去闪烁任务的质量和速度。该算法首先通过将像素值压缩成照明直方图来精确捕捉闪烁和局部曝光变化,然后通过平滑处理生成单一帧集、过滤后的照明图和曝光图。这些预处理步骤为后续的去闪烁过程提供了重要的先验信息。

与传统的基于像素值的深度学习方法相比,BlazeBVD算法采用了一种更为紧凑且擅长捕捉光照波动的表示方法。这种方法不仅能够减少计算资源的消耗,还能有效避免在严重光照闪烁下的学习不稳定性。BlazeBVD算法通过2D网络恢复受光照变化或局部曝光问题影响的忠实且一致的纹理,同时结合轻量级3D网络修正轻微的时间不一致性,避免了资源消耗问题。

在实验部分,研究团队在合成视频、真实世界视频和生成视频上进行了广泛的测试。结果表明,BlazeBVD算法在定性和定量上都取得了优于现有技术的成果,推理速度比现有技术快10倍。这一成果不仅代表了视频去闪烁技术的一大进步,也显示出BlazeBVD算法在实际应用中的潜力。

然而,任何技术都有其局限性。BlazeBVD算法虽然在处理速度和保真度上表现出色,但在处理局部闪烁时,由于光流运动估计的不准确性,融合网络可能无法准确传递相邻帧的局部纹理信息,导致轻微的边缘伪影和色彩失真。这些问题提示了算法在未来仍有改进空间。

此外,BlazeBVD算法在设计上采用了全局去闪烁模块(Global Flicker Removal Module,简称GFRM)和局部去闪烁模块(Local Flicker Removal Module,简称LFRM),这两个模块协同工作,有效地校正了全局照明和局部曝光纹理。通过这种设计,BlazeBVD算法能够在大幅减少处理时间的同时,保持视频内容的连贯性和自然性。

尽管BlazeBVD算法在实验中表现出色,但在实际应用中可能还会遇到一些挑战。例如,算法对于不同类型的视频内容可能需要进一步的调整和优化,以适应各种复杂的视频环境。此外,算法在处理高动态范围视频或快速运动场景时的表现,也是未来研究需要关注的问题。

论文链接:https://arxiv.org/pdf/2403.06243v1

目录
相关文章
|
存储 缓存 算法
【自己动手画CPU】存储系统设计
博文“【自己动手画CPU】存储系统设计”探讨了在自制 CPU 中存储系统的设计。存储系统是计算机中至关重要的组成部分,负责存储和检索数据。文章介绍了在 DIY CPU 中实现存储系统的关键考虑因素,包括存储器的类型、存储器与 CPU 的连接方式以及数据存取的速度和效率。通过深入探讨存储系统的设计原理和实现方式,读者可以更好地理解计算机内部结构,并且为自己动手设计和构建 CPU 提供了有益的指导和启发。
365 0
【自己动手画CPU】存储系统设计
|
Ubuntu 机器人 API
ubuntu 16.04+ros kinetic + gazebo+ aws-robotics 室内环境导航仿真
ubuntu 16.04+ros kinetic + gazebo+ aws-robotics 室内环境导航仿真
815 0
|
7月前
|
人工智能 自然语言处理 搜索推荐
13.5K Star!支持5国语言+全栈语音生成,这个开源AI语音项目绝了!
CosyVoice是由FunAudioLLM团队开发的多语言大语音生成模型,支持中文、英语、日语、韩语和粤语等5种语言。该项目提供从推理、训练到部署的全栈能力,具备零样本语音克隆、跨语言合成、指令控制等前沿功能。其技术架构包括底层模型、多语言支持、框架支持及部方案等,性能优越,RTF<0.2,GPU内存<4GB,QPS>20。相比同类项目,CosyVoice在语言支持、特色功能和部署难度上表现出色,支持本地部署保障数据隐私,并大幅降低商业方案成本。适用于自媒体创作、在线教育、游戏开发、智能硬件和影视制作等多种场景。
596 0
|
5月前
|
Java 关系型数据库 MySQL
2025 年互联网公司校招 Java 面试题总结及答案实操示例解析
本项目基于Spring Boot 3与Java 17技术栈,围绕校园招聘常见面试题,提供核心知识点的实操示例。涵盖多线程、RESTful API设计、数据库操作(Spring Data JPA)、事务管理及异常处理等。通过完整代码实现与运行步骤,帮助理解用户管理、线程池配置等实际应用场景。资源包含项目结构、关键代码示例(如User实体类、UserService服务层、ThreadService多线程实现)及数据库迁移脚本,适合深入学习与实践。环境要求:JDK 17+、Maven 3.8+、MySQL 8.0+。
214 3
|
存储 监控 关系型数据库
MySQL计算某条数据与上一条数据的生成时间差
MySQL计算某条数据与上一条数据的生成时间差
294 2
|
编解码 人工智能 算法
社区供稿 | AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里!
本文介绍了一种全新的基于SD生成先验的图像超分辨率和修复算法,在多个任务上都有着SOTA的表现。
|
算法 定位技术 vr&ar
一文了解PnP算法,python opencv中的cv2.solvePnP()的使用,以及使用cv2.sovlePnP()方法标定相机和2D激光雷达
一文了解PnP算法,python opencv中的cv2.solvePnP()的使用,以及使用cv2.sovlePnP()方法标定相机和2D激光雷达
3732 0
一文了解PnP算法,python opencv中的cv2.solvePnP()的使用,以及使用cv2.sovlePnP()方法标定相机和2D激光雷达
|
存储 人工智能 物联网
FLUX第三弹:直面天命,FLUX.1-LoRA/IP-adapter「黑神话:悟空」生图实战
应近日来诸多社区开发者的学习诉求,特为大家推出一期 FLUX.1-LoRA/IP-adapter+ComfyUI +“顶流”IP「黑神话:悟空」的模型推理实战教程,玩转一把AI悟空生图 👀
|
数据处理 数据库
在Hologres的HoloWeb控制台中,您可以查看并分析历史查询语句
【2月更文挑战第20天】在Hologres的HoloWeb控制台中,您可以查看并分析历史查询语句
213 1
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】 ParameterNet:DynamicConv(Dynamic Convolution):2024最新动态卷积
**摘要** ParameterNet是新提出的框架,旨在让低FLOPs模型也能受益于大规模视觉预训练,通过动态卷积在增加参数量的同时控制计算量。动态卷积利用条件生成的卷积核增强模型适应性。在ImageNet上,ParameterNet-600M在准确性上超过Swin Transformer,且FLOPs更低。该方法也被拓展至语言领域,提升LLaMA模型性能。代码可在<https://parameternet.github.io/>获取。
下一篇
oss云网关配置