ECCV 2024:盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

简介: 【8月更文挑战第15天】随着多媒体的兴起,视频成为信息传播的关键媒介,但视频中的闪烁问题影响观看体验。美图与中国科学院大学联合研发的BlazeBVD算法,采用直方图辅助方法简化学习过程,提高了视频去闪烁的质量与速度。该算法通过2D网络恢复纹理,3D网络修正时间一致性,实现了高效能与高保真度。实验结果显示,BlazeBVD在多种视频类型上表现优秀,推理速度提升显著。尽管如此,算法在处理局部闪烁和复杂场景时仍存在局限性,未来有进一步优化的空间。[论文链接](https://arxiv.org/pdf/2403.06243v1)

随着社交媒体和多媒体行业的蓬勃发展,视频已成为日常生活中传递信息的重要媒介。然而,视频闪烁问题常常影响观看体验,这主要是由于拍摄环境和相机硬件的限制所致。为了提高视频质量,研究者们一直在探索如何有效去除视频中的闪烁现象,以恢复视频内容的完整性和时间一致性。

近期,由美图公司和中国科学院大学联合研究团队提出了一种名为BlazeBVD的新型盲视频去闪烁(Blind Video Deflickering,简称BVD)算法。该算法的研究成果发表在预印本服务器arXiv上,论文编号为2403.06243v1。BlazeBVD算法以其高效性和高保真度,在视频处理领域引起了广泛关注。

BlazeBVD算法的核心在于利用直方图辅助方法简化视频数据的学习复杂性,提高去闪烁任务的质量和速度。该算法首先通过将像素值压缩成照明直方图来精确捕捉闪烁和局部曝光变化,然后通过平滑处理生成单一帧集、过滤后的照明图和曝光图。这些预处理步骤为后续的去闪烁过程提供了重要的先验信息。

与传统的基于像素值的深度学习方法相比,BlazeBVD算法采用了一种更为紧凑且擅长捕捉光照波动的表示方法。这种方法不仅能够减少计算资源的消耗,还能有效避免在严重光照闪烁下的学习不稳定性。BlazeBVD算法通过2D网络恢复受光照变化或局部曝光问题影响的忠实且一致的纹理,同时结合轻量级3D网络修正轻微的时间不一致性,避免了资源消耗问题。

在实验部分,研究团队在合成视频、真实世界视频和生成视频上进行了广泛的测试。结果表明,BlazeBVD算法在定性和定量上都取得了优于现有技术的成果,推理速度比现有技术快10倍。这一成果不仅代表了视频去闪烁技术的一大进步,也显示出BlazeBVD算法在实际应用中的潜力。

然而,任何技术都有其局限性。BlazeBVD算法虽然在处理速度和保真度上表现出色,但在处理局部闪烁时,由于光流运动估计的不准确性,融合网络可能无法准确传递相邻帧的局部纹理信息,导致轻微的边缘伪影和色彩失真。这些问题提示了算法在未来仍有改进空间。

此外,BlazeBVD算法在设计上采用了全局去闪烁模块(Global Flicker Removal Module,简称GFRM)和局部去闪烁模块(Local Flicker Removal Module,简称LFRM),这两个模块协同工作,有效地校正了全局照明和局部曝光纹理。通过这种设计,BlazeBVD算法能够在大幅减少处理时间的同时,保持视频内容的连贯性和自然性。

尽管BlazeBVD算法在实验中表现出色,但在实际应用中可能还会遇到一些挑战。例如,算法对于不同类型的视频内容可能需要进一步的调整和优化,以适应各种复杂的视频环境。此外,算法在处理高动态范围视频或快速运动场景时的表现,也是未来研究需要关注的问题。

论文链接:https://arxiv.org/pdf/2403.06243v1

目录
相关文章
|
1月前
|
机器学习/深度学习 安全
Nature重磅研究:AlphaFold绘制病毒族谱,揭开身世之谜
【10月更文挑战第14天】AlphaFold,由DeepMind开发的深度学习模型,不仅在蛋白质结构预测上取得突破,还成功绘制了病毒的族谱。通过预测病毒基因组的蛋白质结构,AlphaFold揭示了病毒进化的重要规律,提供了更准确的病毒分类系统,为病毒的起源、传播和防控研究提供了新工具。
31 3
|
3月前
|
机器学习/深度学习 人工智能
清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔
【8月更文挑战第30天】清华大学研究人员在《自然》杂志上发表了一项开创性成果,提出了一种全前向智能光计算训练架构,解决了传统光学AI方法依赖电子计算机模拟和优化的问题,实现了光学系统的自学习和自设计。该架构通过将光学系统映射到参数化神经网络中,消除了反向传播需求,展示了在多个领域的广泛应用前景,如深度光学神经网络和高分辨率散射成像等。这一成果为光学AI的发展开辟了新道路,但实际应用中仍需克服一些挑战。论文详情见:https://www.nature.com/articles/s41586-024-07687-4
46 2
|
5月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
191 7
|
6月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
160 1
|
存储 JSON 人工智能
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
168 0
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
|
机器学习/深度学习 编解码 人工智能
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
206 0
|
机器学习/深度学习 自然语言处理 数据可视化
港科大&MSRA新研究:关于图像到图像转换,Finetuning is all you need
港科大&MSRA新研究:关于图像到图像转换,Finetuning is all you need
101 0
|
机器学习/深度学习 网络架构
多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述
多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述
103 0
|
机器学习/深度学习 数据可视化 数据挖掘
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
254 0
|
机器学习/深度学习 人工智能 算法
史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步
史上首次,强化学习算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步
193 0