STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架,能够将低分辨率视频提升为高分辨率,同时保持细节清晰度和时间一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:STAR 能够将低分辨率视频提升为高分辨率,恢复细节并保持时间一致性。
  2. 技术:整合文本到视频扩散模型,引入局部信息增强模块和动态频率损失。
  3. 应用:适用于影视制作、安防监控、运动员动作分析等多个领域。

正文(附运行示例)

STAR 是什么

STAR

STAR 是由南京大学、字节跳动和西南大学联合推出的创新视频超分辨率(VSR)框架,能够从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR 整合了强大的文本到视频(T2V)扩散模型,增强了视频的空间细节和时间建模能力。

STAR 引入了局部信息增强模块(LIEM),在全局注意力块之前丰富局部细节,减轻复杂退化引入的伪影问题。此外,STAR 还推出了动态频率(DF)损失,引导模型在不同扩散步骤中关注不同频率成分,提高恢复保真度。

STAR 的主要功能

  • 现实世界视频超分辨率:将现实世界中的低分辨率视频提升为高分辨率,同时恢复视频中的细节,如清晰的面部特征和准确的文字结构等。
  • 增强空间细节:基于文本到视频(T2V)扩散模型的强大生成能力,生成具有丰富空间细节的视频,让视频内容更加逼真和清晰。
  • 保持时间一致性:在提升视频分辨率的过程中,有效保持视频帧之间的时间一致性,避免出现运动模糊或不连贯的现象,让视频播放更加流畅自然。
  • 减轻退化伪影:针对现实世界视频中存在的复杂退化问题,如噪声、模糊和压缩等,STAR 能有效减轻退化引入的伪影,提高视频的视觉质量。

STAR 的技术原理

  • T2V 模型整合:将大规模预训练的文本到视频扩散模型融入视频超分辨率任务中。T2V 模型具备强大的生成能力和丰富的时空先验知识,从文本描述生成高质量视频,为视频超分辨率提供有力的模型基础。
  • 局部信息增强模块(LIEM):在全局注意力机制之前引入 LIEM,弥补 T2V 模型在处理局部细节方面的不足。LIEM 基于局部注意力机制关注视频中的局部区域,增强局部信息的表达,更好地捕获和恢复视频中的细节,减轻复杂退化带来的伪影问题。
  • 动态频率(DF)损失:STAR 推出 DF 损失优化模型的训练过程。损失函数根据扩散步骤动态调整对低频和高频成分的约束,使模型在早期阶段优先恢复视频的结构和大体轮廓(低频信息),在后期阶段再细化细节(高频信息)。

如何运行 STAR

1. 克隆仓库并创建环境

git clone https://github.com/NJU-PCALab/STAR.git
cd STAR

conda create -n star python=3.10
conda activate star
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y

2. 下载预训练模型

从 HuggingFace 下载预训练的 STAR 模型,并将其放入 pretrained_weight/ 目录中。

3. 准备测试数据

将测试视频放入 input/video/ 目录中。对于提示文本,可以选择不提供、自动生成或手动编写,并将其放入 input/text/ 目录中。

4. 修改路径

video_super_resolution/scripts/inference_sr.sh 中修改路径,包括 video_folder_pathtxt_file_pathmodel_pathsave_dir

5. 运行推理命令

bash video_super_resolution/scripts/inference_sr.sh

如果遇到内存不足的问题,可以在 inference_sr.sh 中设置较小的 frame_length

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
3天前
|
传感器 人工智能
X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架
X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架,基于扩散模型实现单张图像动画化,支持面部表情和身体动作控制,生成高质量动态细节。
23 6
X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架
|
19天前
|
人工智能 物联网 Python
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
VMix 是一款创新的即插即用美学适配器,通过解耦文本提示和交叉注意力混合控制,显著提升图像生成的美学质量,支持多源输入和高质量视频处理。
51 11
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
|
1月前
|
机器学习/深度学习 编解码 人工智能
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。
198 9
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
|
1月前
|
人工智能 数据挖掘 大数据
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。
111 16
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
|
2月前
|
编解码 人工智能 开发者
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据。其核心创新在于能够对图像和视频进行任意分辨率编码,并通过动态压缩器模块提高处理效率。Oryx 在处理长视觉上下文(如视频)时表现出色,同时在图像、视频和3D多模态理解方面也展现了强大能力。该模型的开源性质为多模态研究社区提供了宝贵资源,但同时也面临一些挑战,如选择合适的分辨率和压缩率以及计算资源的需求。
44 3
|
3月前
|
机器学习/深度学习 人工智能 文字识别
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。
57 1
|
4月前
|
机器学习/深度学习 编解码 算法
超分辨率相关的开源项目
该文档介绍了多种超分辨率模型及其GitHub项目地址,包括Real-ESRGAN(优化真实图片质量)、RCAN(基于残差结构与通道注意力机制)、SwinIR(基于Swin Transformer的图像恢复)、FSRCNN(轻量级快速超分辨率)、EDSR(增强型深度残差网络)、SRGAN(利用GAN的超分辨率模型)及LapSRN(多级Laplacian金字塔超分辨率)。
|
编解码 人工智能 算法
社区供稿 | AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里!
本文介绍了一种全新的基于SD生成先验的图像超分辨率和修复算法,在多个任务上都有着SOTA的表现。
|
编解码 人工智能 移动开发
AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里
阿里巴巴最新自研的像素感知扩散超分模型已经开源,它把扩散模型强大的生成能力和像素级控制能力相结合,能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格,并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成,能够带来可观的效果提升。
933 4
|
人工智能 算法 数据可视化
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
211 0

热门文章

最新文章