SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务

简介: SVFR 是一个通用视频人脸修复框架,支持人脸修复、着色和修复任务,基于 Stable Video Diffusion 技术,提供高质量的视频修复效果。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能整合:SVFR 整合了视频人脸修复、着色和修复任务,提供统一的处理框架。
  2. 技术优势:基于 Stable Video Diffusion 的生成和运动先验,确保修复效果的时间连贯性。
  3. 应用场景:适用于影视后期制作、网络视频内容创作和数字档案修复等领域。

正文(附运行示例)

SVFR 是什么

SVFR

SVFR(Stable Video Face Restoration)是腾讯优图实验室与厦门大学联合推出的通用视频人脸修复框架。它整合了视频人脸修复(BFR)、着色和修复任务,基于 Stable Video Diffusion(SVD)的生成和运动先验,通过统一的人脸修复框架处理特定任务的信息。

SVFR 引入了可学习的任务嵌入以增强任务识别,同时采用统一潜在正则化(ULR)来鼓励不同子任务之间的共享特征表示学习。为了进一步提高修复质量和时间稳定性,SVFR 还引入了面部先验学习和自参考细化策略。

SVFR 的主要功能

  • 视频人脸修复(BFR):提升视频中人脸的细节和清晰度,使模糊或损坏的人脸画面变得更加清晰和自然。
  • 人脸着色:为黑白或色彩失真的视频人脸添加生动的色彩,增强视觉效果。
  • 人脸修复(Inpainting):修复视频中人脸的缺失部分,如遮挡或损坏的区域,恢复完整的人脸细节。

SVFR 的技术原理

  • 任务整合:SVFR 整合了视频人脸修复、着色和修复任务,通过一个统一的框架处理这些任务,实现协同增益。
  • 生成和运动先验:基于 Stable Video Diffusion 的生成和运动先验,增强修复效果,确保时间连贯性。
  • 任务嵌入:引入可学习的任务嵌入,增强模型对特定任务的识别能力。
  • 统一潜在正则化(ULR):采用 ULR 方法,鼓励不同子任务之间的特征共享,提升修复质量。
  • 面部先验学习:通过面部地标等结构先验,模型可以更自然地嵌入面部结构信息,避免面部结构异常和纹理失真。
  • 自引用细化:在推理阶段,通过参考之前生成的帧来优化当前帧的修复结果,增强时间稳定性。

如何运行 SVFR

1. 环境配置

首先,创建一个 conda 环境并安装依赖:

conda create -n svfr python=3.9 -y
conda activate svfr
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2
pip install -r requirements.txt

2. 下载模型

下载 Stable Video Diffusion 和 SVFR 的预训练模型:

conda install git-lfs
git lfs install
git clone https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt models/stable-video-diffusion-img2vid-xt

手动下载 SVFR 的模型文件并放置在指定目录。

3. 运行推理

使用以下命令进行单任务或多任务推理:

python3 infer.py \
 --config config/infer.yaml \
 --task_ids 0 \
 --input_path ./assert/lq/lq1.mp4 \
 --output_dir ./results/

其中,task_ids 参数指定任务类型:

  • 0:视频人脸修复(BFR)
  • 1:人脸着色
  • 2:人脸修复(Inpainting)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
11月前
|
机器学习/深度学习 编解码 人工智能
SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节
SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型,能够高效修复低质量视频,支持任意长度和分辨率,生成真实感细节。
676 16
SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节
|
机器学习/深度学习 物联网 异构计算
ExVideo+CogVideoX,更长、更优!再次升级的开源视频生成能力
DiffSynth-Studio 再次为 CogVideoX 带来新的增强模块——ExVideo-CogVideoX-LoRA-129f-v1
|
11月前
|
人工智能 数据处理
LatentSync:根据音频生成高分辨率、动态逼真的唇形同步视频
LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架,基于音频条件的潜在扩散模型,能够生成高分辨率、动态逼真的唇同步视频,适用于影视、教育、广告等多个领域。
997 19
LatentSync:根据音频生成高分辨率、动态逼真的唇形同步视频
|
11月前
|
机器学习/深度学习 人工智能 缓存
每个人都可以成为虚拟主播,一键创建属于你的虚拟形象,RAIN 为你实时生成逼真动画角色
RAIN 是一款创新的实时动画生成工具,支持在消费级硬件上实现无限视频流的实时动画化,适用于直播、虚拟角色生成等场景。
620 25
每个人都可以成为虚拟主播,一键创建属于你的虚拟形象,RAIN 为你实时生成逼真动画角色
|
11月前
|
人工智能 并行计算 搜索推荐
SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!
SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。
1795 30
SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!
|
11月前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
830 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
|
9月前
|
人工智能 物联网
VideoPainter:开源视频修复神器!双分支架构一键修复,对象身份永久在线
VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架,基于双分支架构和预训练扩散模型,支持任意长度视频的修复与编辑,具备背景保留、前景生成、文本指导编辑等功能,为视频处理领域带来新的突破。
469 12
|
11月前
|
人工智能 搜索推荐 定位技术
AddressCLIP:一张照片就能准确定位!中科院联合阿里云推出街道级图像地理定位模型
AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型,通过图像-文本对齐和地理匹配技术,实现街道级精度的定位,适用于城市管理、社交媒体、旅游导航等场景。
1680 30
AddressCLIP:一张照片就能准确定位!中科院联合阿里云推出街道级图像地理定位模型
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
994 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架

热门文章

最新文章