ECCV 2024:盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

简介: 【8月更文挑战第15天】随着多媒体的兴起,视频成为信息传播的关键媒介,但视频中的闪烁问题影响观看体验。美图与中国科学院大学联合研发的BlazeBVD算法,采用直方图辅助方法简化学习过程,提高了视频去闪烁的质量与速度。该算法通过2D网络恢复纹理,3D网络修正时间一致性,实现了高效能与高保真度。实验结果显示,BlazeBVD在多种视频类型上表现优秀,推理速度提升显著。尽管如此,算法在处理局部闪烁和复杂场景时仍存在局限性,未来有进一步优化的空间。[论文链接](https://arxiv.org/pdf/2403.06243v1)

随着社交媒体和多媒体行业的蓬勃发展,视频已成为日常生活中传递信息的重要媒介。然而,视频闪烁问题常常影响观看体验,这主要是由于拍摄环境和相机硬件的限制所致。为了提高视频质量,研究者们一直在探索如何有效去除视频中的闪烁现象,以恢复视频内容的完整性和时间一致性。

近期,由美图公司和中国科学院大学联合研究团队提出了一种名为BlazeBVD的新型盲视频去闪烁(Blind Video Deflickering,简称BVD)算法。该算法的研究成果发表在预印本服务器arXiv上,论文编号为2403.06243v1。BlazeBVD算法以其高效性和高保真度,在视频处理领域引起了广泛关注。

BlazeBVD算法的核心在于利用直方图辅助方法简化视频数据的学习复杂性,提高去闪烁任务的质量和速度。该算法首先通过将像素值压缩成照明直方图来精确捕捉闪烁和局部曝光变化,然后通过平滑处理生成单一帧集、过滤后的照明图和曝光图。这些预处理步骤为后续的去闪烁过程提供了重要的先验信息。

与传统的基于像素值的深度学习方法相比,BlazeBVD算法采用了一种更为紧凑且擅长捕捉光照波动的表示方法。这种方法不仅能够减少计算资源的消耗,还能有效避免在严重光照闪烁下的学习不稳定性。BlazeBVD算法通过2D网络恢复受光照变化或局部曝光问题影响的忠实且一致的纹理,同时结合轻量级3D网络修正轻微的时间不一致性,避免了资源消耗问题。

在实验部分,研究团队在合成视频、真实世界视频和生成视频上进行了广泛的测试。结果表明,BlazeBVD算法在定性和定量上都取得了优于现有技术的成果,推理速度比现有技术快10倍。这一成果不仅代表了视频去闪烁技术的一大进步,也显示出BlazeBVD算法在实际应用中的潜力。

然而,任何技术都有其局限性。BlazeBVD算法虽然在处理速度和保真度上表现出色,但在处理局部闪烁时,由于光流运动估计的不准确性,融合网络可能无法准确传递相邻帧的局部纹理信息,导致轻微的边缘伪影和色彩失真。这些问题提示了算法在未来仍有改进空间。

此外,BlazeBVD算法在设计上采用了全局去闪烁模块(Global Flicker Removal Module,简称GFRM)和局部去闪烁模块(Local Flicker Removal Module,简称LFRM),这两个模块协同工作,有效地校正了全局照明和局部曝光纹理。通过这种设计,BlazeBVD算法能够在大幅减少处理时间的同时,保持视频内容的连贯性和自然性。

尽管BlazeBVD算法在实验中表现出色,但在实际应用中可能还会遇到一些挑战。例如,算法对于不同类型的视频内容可能需要进一步的调整和优化,以适应各种复杂的视频环境。此外,算法在处理高动态范围视频或快速运动场景时的表现,也是未来研究需要关注的问题。

论文链接:https://arxiv.org/pdf/2403.06243v1

目录
相关文章
|
6月前
|
自然语言处理 搜索推荐 vr&ar
SIGGRAPH2024:上科大、影眸联合提出DressCode:从文本生成3D服装板片
【6月更文挑战第22天】SIGGRAPH2024见证了上海科技大学与影眸科技合作推出DressCode,这是一个利用文本生成3D服装板片的创新框架。借助SewingGPT(基于GPT模型),DressCode能根据描述创建缝纫图案,结合改良的Stable Diffusion模型产生逼真纹理。通过自然语言交互,设计师可轻松转换概念为3D设计,支持编辑和微调,适用于虚拟试穿等应用场景。尽管面临真实度与个性化挑战,DressCode仍展现了强大的设计潜力。[论文链接:](https://arxiv.org/abs/2401.16465)
136 7
|
7月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
169 1
|
存储 JSON 人工智能
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
176 0
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
|
机器学习/深度学习 编解码 人工智能
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
217 0
|
机器学习/深度学习 自然语言处理 数据可视化
港科大&MSRA新研究:关于图像到图像转换,Finetuning is all you need
港科大&MSRA新研究:关于图像到图像转换,Finetuning is all you need
106 0
|
机器学习/深度学习 编解码 算法
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布
222 0
|
机器学习/深度学习 编解码 算法
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布(2)
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布
301 0
|
机器学习/深度学习 编解码 自然语言处理
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布(3)
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布
322 0
|
机器学习/深度学习 编解码 人工智能
图像翻译哪家强?香港科技大学博士揭秘:预训练is All You Need!
图像翻译哪家强?香港科技大学博士揭秘:预训练is All You Need!
151 0
|
机器学习/深度学习 算法 计算机视觉
让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
162 0