SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型,能够高效修复低质量视频,支持任意长度和分辨率,生成真实感细节。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:SeedVR 能够修复低质量视频,支持任意长度和分辨率,生成真实感细节。
  2. 技术:采用移位窗口注意力机制和因果视频变分自编码器,显著降低计算成本。
  3. 性能:处理速度是现有方法的2倍以上,适用于多种视频修复场景。

正文(附运行示例)

SeedVR 是什么

SeedVR

SeedVR 是由南洋理工大学和字节跳动联合推出的扩散变换器模型,专注于高质量的视频修复。该模型通过引入移位窗口注意力机制,能够有效处理任意长度和分辨率的视频,克服了传统方法在不同分辨率下的性能限制。

SeedVR 结合了因果视频变分自编码器(CVVAE),通过时间和空间压缩降低计算成本,同时保持高重建质量。基于大规模图像和视频的联合训练及多阶段渐进式训练策略,SeedVR 在多个视频修复基准测试中表现出色,尤其在感知质量方面,能够生成具有真实感细节的修复视频,且速度优于现有方法。

SeedVR 的主要功能

  • 视频修复:能够对低质量、受损的视频进行修复,恢复其细节和质量,适用于各种视频退化场景,如模糊、噪声等。
  • 处理任意长度和分辨率的视频:不受视频长度和分辨率的限制,能有效修复长时间、高分辨率的视频,满足不同场景的需求。
  • 生成真实感细节:在修复过程中,生成具有真实感的细节,使修复后的视频在视觉上更加逼真和自然。
  • 高效性能:SeedVR 的处理速度较快,是现有基于扩散的视频修复方法的2倍以上,具有较好的实用性和效率。

SeedVR 的技术原理

  • 移位窗口注意力机制:在扩散变换器中引入移位窗口注意力机制 Swin-MMDiT。采用大尺寸(64×64)的窗口注意力,及在空间和时间维度边界附近支持可变大小的窗口,能有效捕捉长距离依赖关系,克服传统窗口注意力在处理不同分辨率视频时的限制。
  • 因果视频变分自编码器(CVVAE):基于时间和空间压缩因子分别压缩4倍和8倍,显著降低视频修复的计算成本,同时保持高重建质量。
  • 大规模联合训练:在大规模图像和视频数据集上进行联合训练,模型能学习到丰富的特征表示,提升其在不同场景下的泛化能力和修复效果。
  • 多阶段渐进式训练策略:逐步增加训练数据的长度和分辨率,加速模型在大规模数据集上的收敛,提高训练效率和模型性能。

如何运行 SeedVR

1. 安装依赖

首先,确保你已经安装了 Python 3.8 或更高版本,并安装了必要的依赖库。

pip install torch torchvision
pip install opencv-python

2. 下载模型

从 GitHub 仓库下载 SeedVR 模型。

git clone https://github.com/SeedVR-CVPR25/SeedVR.git
cd SeedVR

3. 运行示例

使用以下命令运行 SeedVR 的视频修复示例。

python run_seedvr.py --input_video input.mp4 --output_video output.mp4

4. 查看结果

修复后的视频将保存为 output.mp4,你可以使用任何视频播放器查看修复效果。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 知识图谱
SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务
SVFR 是一个通用视频人脸修复框架,支持人脸修复、着色和修复任务,基于 Stable Video Diffusion 技术,提供高质量的视频修复效果。
533 23
SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务
|
8月前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
335 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
8月前
|
人工智能 达摩院 并行计算
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。
459 17
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
|
8月前
|
人工智能 自然语言处理 调度
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。
357 22
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
|
8月前
|
人工智能 机器人
开源了一个项目,小🔥了一把
收集了github上1000个高质量的AI项目,包含了大模型,智能体,提示词工程,微调,模型,RAG,机器人,智能助理等,没想到一天就有这么多star了。
408 5
|
8月前
|
机器学习/深度学习 人工智能 编解码
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
241 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
|
8月前
|
机器学习/深度学习 编解码 人工智能
STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频
STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架,能够将低分辨率视频提升为高分辨率,同时保持细节清晰度和时间一致性。
1516 13
STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频
|
6月前
|
人工智能 物联网
VideoPainter:开源视频修复神器!双分支架构一键修复,对象身份永久在线
VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架,基于双分支架构和预训练扩散模型,支持任意长度视频的修复与编辑,具备背景保留、前景生成、文本指导编辑等功能,为视频处理领域带来新的突破。
276 12
|
8月前
|
人工智能 物联网 Python
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
VMix 是一款创新的即插即用美学适配器,通过解耦文本提示和交叉注意力混合控制,显著提升图像生成的美学质量,支持多源输入和高质量视频处理。
315 11
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
|
8月前
|
人工智能 并行计算 搜索推荐
SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!
SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。
1081 30
SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!

热门文章

最新文章