DiffuEraser：阿里通义实验室推出的视频修复模型，支持高清修复、时间一致性优化

2025-01-28 227 发布于广东

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频通用资源包5000点

视觉智能开放平台，图像通用资源包5000点

简介： DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具，能够生成丰富的细节并保持时间一致性，适用于电影修复、监控增强等场景。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：DiffuEraser 能够修复视频中的遮罩区域，生成丰富的细节并保持时间一致性。
技术：基于稳定扩散模型，结合 BrushNet 和 UNet 架构，优化时间一致性。
应用：适用于电影修复、监控视频增强、体育赛事直播等多种场景。

正文（附运行示例）

DiffuEraser 是什么

DiffuEraser

DiffuEraser 是阿里通义实验室推出的一款基于稳定扩散模型的视频修复工具。它能够通过结合先验信息，减少噪声伪影并抑制幻觉，生成更连贯的视频修复结果。DiffuEraser 的网络架构受 AnimateDiff 启发，集成了运动模块，主要由主去噪 UNet 和辅助的 BrushNet 组成。

DiffuEraser 通过扩展先验模型和自身的时间感受野，增强了视频修复的时间一致性。去噪后，生成的图像会与输入的遮罩图像进行融合，确保修复内容与未遮罩区域的一致性。

DiffuEraser 的主要功能

未知像素生成：基于稳定扩散模型，生成从未出现过的像素，解决传统模型处理大遮罩时的模糊问题。
已知像素传播：通过运动模块和先验模型，确保已知像素在不同帧之间一致传播。
时间一致性维护：扩展时间感受野，增强长序列推理中的时间一致性。
先验信息注入：通过先验信息减少噪声伪影，生成更准确的修复结果。
网络架构优化：集成 BrushNet 和 UNet，引入时间注意力机制，增强时间一致性。

DiffuEraser 的技术原理

网络架构：DiffuEraser 的网络架构受 AnimateDiff 启发，主要由主去噪 UNet 和辅助的 BrushNet 组成。BrushNet 提取的特征通过零卷积块逐层整合到 UNet 中。
视频修复问题分解：将视频修复问题分解为已知像素传播、未知像素生成和时间一致性维护三个子问题。
时间一致性优化：通过扩展先验模型和自身的时间感受野，增强长序列推理中的时间一致性。

如何运行 DiffuEraser

1. 安装环境

首先，克隆 DiffuEraser 的 GitHub 仓库并创建 Conda 环境：

git clone https://github.com/lixiaowen-xw/DiffuEraser.git
conda create -n diffueraser python=3.9.19
conda activate diffueraser
pip install -r requirements.txt

        
          
        
        
        
          
          AI 代码解读

2. 下载预训练模型

从 Hugging Face 或 ModelScope 下载预训练模型，并将其放置在 ./weights 目录下。

3. 运行推理

进入 DiffuEraser 目录并运行推理脚本：

cd DiffuEraser
python run_diffueraser.py

        
          
        
        
        
          
          AI 代码解读

推理结果将保存在 results 文件夹中。你可以替换 input_video 和 input_mask 来测试自己的视频。

资源

项目官网：https://lixiaowen-xw.github.io/DiffuEraser-page/
GitHub 仓库：https://github.com/lixiaowen-xw/DiffuEraser
arXiv 技术论文：https://arxiv.org/pdf/2501.10018