DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
简介: DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:DiffuEraser 能够修复视频中的遮罩区域,生成丰富的细节并保持时间一致性。
  2. 技术:基于稳定扩散模型,结合 BrushNet 和 UNet 架构,优化时间一致性。
  3. 应用:适用于电影修复、监控视频增强、体育赛事直播等多种场景。

正文(附运行示例)

DiffuEraser 是什么

DiffuEraser

DiffuEraser 是阿里通义实验室推出的一款基于稳定扩散模型的视频修复工具。它能够通过结合先验信息,减少噪声伪影并抑制幻觉,生成更连贯的视频修复结果。DiffuEraser 的网络架构受 AnimateDiff 启发,集成了运动模块,主要由主去噪 UNet 和辅助的 BrushNet 组成。

DiffuEraser 通过扩展先验模型和自身的时间感受野,增强了视频修复的时间一致性。去噪后,生成的图像会与输入的遮罩图像进行融合,确保修复内容与未遮罩区域的一致性。

DiffuEraser 的主要功能

  • 未知像素生成:基于稳定扩散模型,生成从未出现过的像素,解决传统模型处理大遮罩时的模糊问题。
  • 已知像素传播:通过运动模块和先验模型,确保已知像素在不同帧之间一致传播。
  • 时间一致性维护:扩展时间感受野,增强长序列推理中的时间一致性。
  • 先验信息注入:通过先验信息减少噪声伪影,生成更准确的修复结果。
  • 网络架构优化:集成 BrushNet 和 UNet,引入时间注意力机制,增强时间一致性。

DiffuEraser 的技术原理

  • 网络架构:DiffuEraser 的网络架构受 AnimateDiff 启发,主要由主去噪 UNet 和辅助的 BrushNet 组成。BrushNet 提取的特征通过零卷积块逐层整合到 UNet 中。
  • 视频修复问题分解:将视频修复问题分解为已知像素传播、未知像素生成和时间一致性维护三个子问题。
  • 时间一致性优化:通过扩展先验模型和自身的时间感受野,增强长序列推理中的时间一致性。

如何运行 DiffuEraser

1. 安装环境

首先,克隆 DiffuEraser 的 GitHub 仓库并创建 Conda 环境:

git clone https://github.com/lixiaowen-xw/DiffuEraser.git
conda create -n diffueraser python=3.9.19
conda activate diffueraser
pip install -r requirements.txt

2. 下载预训练模型

从 Hugging Face 或 ModelScope 下载预训练模型,并将其放置在 ./weights 目录下。

3. 运行推理

进入 DiffuEraser 目录并运行推理脚本:

cd DiffuEraser
python run_diffueraser.py

推理结果将保存在 results 文件夹中。你可以替换 input_videoinput_mask 来测试自己的视频。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
16天前
|
开发者 异构计算
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇
1737 23
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
|
1天前
|
人工智能 开发工具 C++
利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例
本文介绍了如何利用阿里云通义灵码AI程序员的Qwen2.5-Max模型,在VS Code中一键生成扫雷小游戏。通过安装通义灵码插件并配置模型,输入指令即可自动生成包含游戏逻辑与UI设计的Python代码。生成的游戏支持难度选择,运行稳定无Bug。实践表明,AI工具显著提升开发效率,但人机协作仍是未来趋势。建议开发者积极拥抱新技术,同时不断提升自身技能以适应行业发展需求。
33 3
|
14天前
|
机器学习/深度学习 人工智能 机器人
阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1
QwQ-32B 是阿里巴巴开源的新型推理模型,基于强化学习训练,具备强大的数学推理和编程能力,性能媲美更大参数量的模型。
410 8
阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
7天前
|
机器学习/深度学习 存储 人工智能
千问QWQ-32B/满血DeepSeek R1部署指南,两种方式轻松玩转热门推理模型
本文介绍了如何利用阿里云CAP平台一键部署QWQ-32B和DeepSeek R1两大热门推理模型。通过应用模板或模型服务两种方式,开发者可快速完成部署并验证模型效果。QWQ-32B在数学、编程等任务上表现出色,而DeepSeek R1凭借强化学习训练,具备高效推理能力。两者均支持API调用及第三方平台集成,助力智能应用开发。
千问QWQ-32B/满血DeepSeek R1部署指南,两种方式轻松玩转热门推理模型
|
17天前
|
人工智能 自然语言处理 测试技术
通义灵码上新推理模型,快来体验数学编程双冠王 Qwen2.5-Max
近日,通义灵码上新模型选择功能,除新增 DeepSeek 满血版 V3 和 R1 外,Qwen2.5-Max 也正式上线,它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。
|
14天前
|
机器学习/深度学习 自然语言处理 测试技术
模型上新!来通义灵码体验 QwQ-32B 推理模型!
今天,阿里云发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1。在保持强劲性能的同时,千问QwQ-32B还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署。
|
19天前
|
人工智能 编解码 API
刚刚,通义万相模型能力重磅升级!
刚刚,通义万相模型能力重磅升级!
|
1天前
|
人工智能 IDE 测试技术
通义灵码2.0 - AI 程序员: AI 编程新时代的卓越助力
通义灵码是一款强大的AI编程助手,尤其在单元测试自动生成方面表现出色。它通过简化操作流程,快速生成覆盖广泛、质量较高的测试用例,支持直接编译与运行,显著提升开发效率。相比人工编写,通义灵码能大幅缩短时间成本,并更全面地覆盖边界和异常情况,但特定业务逻辑仍需人工补充。作为开发者的好帮手,它助力高效完成高质量单元测试,推动软件开发迈向新台阶。
108 83
|
10天前
|
设计模式 人工智能 前端开发
通义灵码2.0 AI 程序员体验官招募活动---通义灵码评测
在大模型不断更新迭代的当下,众多大厂纷纷推出自家的 AI 编码助手。其中,阿里云的通义灵码堪称市场上最为成熟的产品之一,紧随其后的则是腾讯的 AI 助手。在近期实际项目开发过程中,我使用了通义灵码助手,其最新版本展现出了令人惊叹的强大性能。在一些模块编码任务上,通义灵码表现尤为出色,生成的代码在命名规范性、易扩展性以及易读性方面,甚至超越了大多数普通程序员。通义灵码在生成代码时,不仅会考量设计模式,遵循重构原则,还具备强大的 bug 检测与修复能力,在单元测试方面同样表现优异。接下来,本文将通过一个小游戏的实例,对通义灵码的各项功能展开测试。
39 1
通义灵码2.0 AI 程序员体验官招募活动---通义灵码评测

热门文章

最新文章