STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频

简介: STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架,能够将低分辨率视频提升为高分辨率,同时保持细节清晰度和时间一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:STAR 能够将低分辨率视频提升为高分辨率,恢复细节并保持时间一致性。
  2. 技术:整合文本到视频扩散模型,引入局部信息增强模块和动态频率损失。
  3. 应用:适用于影视制作、安防监控、运动员动作分析等多个领域。

正文(附运行示例)

STAR 是什么

STAR

STAR 是由南京大学、字节跳动和西南大学联合推出的创新视频超分辨率(VSR)框架,能够从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR 整合了强大的文本到视频(T2V)扩散模型,增强了视频的空间细节和时间建模能力。

STAR 引入了局部信息增强模块(LIEM),在全局注意力块之前丰富局部细节,减轻复杂退化引入的伪影问题。此外,STAR 还推出了动态频率(DF)损失,引导模型在不同扩散步骤中关注不同频率成分,提高恢复保真度。

STAR 的主要功能

  • 现实世界视频超分辨率:将现实世界中的低分辨率视频提升为高分辨率,同时恢复视频中的细节,如清晰的面部特征和准确的文字结构等。
  • 增强空间细节:基于文本到视频(T2V)扩散模型的强大生成能力,生成具有丰富空间细节的视频,让视频内容更加逼真和清晰。
  • 保持时间一致性:在提升视频分辨率的过程中,有效保持视频帧之间的时间一致性,避免出现运动模糊或不连贯的现象,让视频播放更加流畅自然。
  • 减轻退化伪影:针对现实世界视频中存在的复杂退化问题,如噪声、模糊和压缩等,STAR 能有效减轻退化引入的伪影,提高视频的视觉质量。

STAR 的技术原理

  • T2V 模型整合:将大规模预训练的文本到视频扩散模型融入视频超分辨率任务中。T2V 模型具备强大的生成能力和丰富的时空先验知识,从文本描述生成高质量视频,为视频超分辨率提供有力的模型基础。
  • 局部信息增强模块(LIEM):在全局注意力机制之前引入 LIEM,弥补 T2V 模型在处理局部细节方面的不足。LIEM 基于局部注意力机制关注视频中的局部区域,增强局部信息的表达,更好地捕获和恢复视频中的细节,减轻复杂退化带来的伪影问题。
  • 动态频率(DF)损失:STAR 推出 DF 损失优化模型的训练过程。损失函数根据扩散步骤动态调整对低频和高频成分的约束,使模型在早期阶段优先恢复视频的结构和大体轮廓(低频信息),在后期阶段再细化细节(高频信息)。

如何运行 STAR

1. 克隆仓库并创建环境

git clone https://github.com/NJU-PCALab/STAR.git
cd STAR

conda create -n star python=3.10
conda activate star
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y

2. 下载预训练模型

从 HuggingFace 下载预训练的 STAR 模型,并将其放入 pretrained_weight/ 目录中。

3. 准备测试数据

将测试视频放入 input/video/ 目录中。对于提示文本,可以选择不提供、自动生成或手动编写,并将其放入 input/text/ 目录中。

4. 修改路径

video_super_resolution/scripts/inference_sr.sh 中修改路径,包括 video_folder_pathtxt_file_pathmodel_pathsave_dir

5. 运行推理命令

bash video_super_resolution/scripts/inference_sr.sh

如果遇到内存不足的问题,可以在 inference_sr.sh 中设置较小的 frame_length

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 Web App开发 编解码
最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质
近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。
最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质
|
机器学习/深度学习 传感器 编解码
Real-ESRGAN超分辨网络
Real-ESRGAN超分辨网络
1091 1
|
存储 算法 数据库
一起聊聊图像质量和美学评估的数据集
图像质量和美学评估是计算机视觉领域中热点的研究问题,并且极具应用前景,可与众多实际应用深度结合。评价一张图片,主要从两个方向,一个是图像的质量,如像素、清晰度、有无噪声等,一个是图像的感觉,也就是美学,如构图、颜色、内容主体等。通过这两个方面就可以评价一张图片的好坏,通过计算机视觉算法,可以为图片自动评分,得分高的图片被认为较好,可以用于推荐和搜索等应用场景。本文主要聊聊一些关于图像质量和美学评估
13942 1
|
机器学习/深度学习 编解码 人工智能
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。
2694 9
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
|
机器学习/深度学习 编解码 人工智能
SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节
SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型,能够高效修复低质量视频,支持任意长度和分辨率,生成真实感细节。
820 16
SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节
|
12月前
|
机器学习/深度学习 编解码 流计算
STAR: 利用时空注意力机制和动态频率损失的视频超分辨率增强框架
STAR提出了一种创新的视频超分辨率解决方案,基于文本到视频(T2V)扩散模型架构,解决现有模型过度平滑和时间一致性不足的问题。通过引入局部信息增强模块(LIEM)和动态频率(DF)损失函数,STAR有效提升了空间细节重建能力和保真度。实验表明,STAR在合成数据集和真实场景数据集上均优于现有最先进的方法,展现出优秀的细节重建、时间和空间一致性。
300 9
STAR: 利用时空注意力机制和动态频率损失的视频超分辨率增强框架
|
人工智能 编解码
通义万相2.1:VBench榜单荣登第一!阿里通义万相最新视频生成模型,支持生成1080P长视频
万相2.1是阿里通义万相最新推出的视频生成模型,支持1080P无限长视频生成,具备复杂动作展现、物理规律还原、艺术风格转换等功能。
2329 27
通义万相2.1:VBench榜单荣登第一!阿里通义万相最新视频生成模型,支持生成1080P长视频
|
12月前
|
数据采集 编解码 缓存
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!
6047 8
|
存储 机器学习/深度学习 编解码
免费的视频增强模型Video2X
免费的视频增强模型Video2X
1908 2
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
3477 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景

热门文章

最新文章