DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:DiffuEraser 能够修复视频中的遮罩区域,生成丰富的细节并保持时间一致性。
  2. 技术:基于稳定扩散模型,结合 BrushNet 和 UNet 架构,优化时间一致性。
  3. 应用:适用于电影修复、监控视频增强、体育赛事直播等多种场景。

正文(附运行示例)

DiffuEraser 是什么

DiffuEraser

DiffuEraser 是阿里通义实验室推出的一款基于稳定扩散模型的视频修复工具。它能够通过结合先验信息,减少噪声伪影并抑制幻觉,生成更连贯的视频修复结果。DiffuEraser 的网络架构受 AnimateDiff 启发,集成了运动模块,主要由主去噪 UNet 和辅助的 BrushNet 组成。

DiffuEraser 通过扩展先验模型和自身的时间感受野,增强了视频修复的时间一致性。去噪后,生成的图像会与输入的遮罩图像进行融合,确保修复内容与未遮罩区域的一致性。

DiffuEraser 的主要功能

  • 未知像素生成:基于稳定扩散模型,生成从未出现过的像素,解决传统模型处理大遮罩时的模糊问题。
  • 已知像素传播:通过运动模块和先验模型,确保已知像素在不同帧之间一致传播。
  • 时间一致性维护:扩展时间感受野,增强长序列推理中的时间一致性。
  • 先验信息注入:通过先验信息减少噪声伪影,生成更准确的修复结果。
  • 网络架构优化:集成 BrushNet 和 UNet,引入时间注意力机制,增强时间一致性。

DiffuEraser 的技术原理

  • 网络架构:DiffuEraser 的网络架构受 AnimateDiff 启发,主要由主去噪 UNet 和辅助的 BrushNet 组成。BrushNet 提取的特征通过零卷积块逐层整合到 UNet 中。
  • 视频修复问题分解:将视频修复问题分解为已知像素传播、未知像素生成和时间一致性维护三个子问题。
  • 时间一致性优化:通过扩展先验模型和自身的时间感受野,增强长序列推理中的时间一致性。

如何运行 DiffuEraser

1. 安装环境

首先,克隆 DiffuEraser 的 GitHub 仓库并创建 Conda 环境:

git clone https://github.com/lixiaowen-xw/DiffuEraser.git
conda create -n diffueraser python=3.9.19
conda activate diffueraser
pip install -r requirements.txt

2. 下载预训练模型

从 Hugging Face 或 ModelScope 下载预训练模型,并将其放置在 ./weights 目录下。

3. 运行推理

进入 DiffuEraser 目录并运行推理脚本:

cd DiffuEraser
python run_diffueraser.py

推理结果将保存在 results 文件夹中。你可以替换 input_videoinput_mask 来测试自己的视频。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
26天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
323 109
|
10天前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
19天前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
218 2
|
2月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
367 2
|
9天前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
121 1
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
27天前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
104 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
8天前
|
算法 安全 定位技术
基于改进拥挤距离的多模态多目标优化差分进化(MMODE-ICD)求解无人机三维路径规划研究(Matlab代码实现)
基于改进拥挤距离的多模态多目标优化差分进化(MMODE-ICD)求解无人机三维路径规划研究(Matlab代码实现)
|
20天前
通义千问Image模型使用指南
该表格展示了多个设计场景,包括模型选择、复制粘贴提示词、一键生图等步骤。每个步骤配有详细描述及示意图,呈现了不同主题如商业海报、IP主视觉、品牌包装、街拍风格等的设计构思与实现方式。
|
21天前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
154 2
|
2月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
355 23

热门文章

最新文章