VideoGrain:零样本多粒度视频编辑神器,用AI完成换装改场景,精准控制每一帧!

简介: VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,基于调节时空交叉注意力和自注意力机制,实现类别级、实例级和部件级的精细视频修改,保持时间一致性,显著优于现有方法。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎥 “视频编辑革命!悉尼科技大学联手浙大推出VideoGrain:零样本多粒度编辑,精准控制每一帧!”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 视频后期制作繁琐,修改一个角色需要逐帧调整
  • 👉 特效添加不自然,帧间过渡生硬,影响观感
  • 👉 想要快速替换场景或角色,却受限于现有工具的功能

今天揭秘的 VideoGrain ,用AI彻底颠覆视频编辑方式!这个由悉尼科技大学和浙江大学联合推出的框架,基于调节时空交叉注意力和自注意力机制,能实现类别级、实例级和部件级的精细视频修改,保持时间一致性,无需额外参数调整。——你的视频编辑方式准备好迎接革命了吗?

🚀 快速阅读

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架。

  1. 核心功能:实现类别级、实例级和部件级的精细视频修改,保持时间一致性。
  2. 技术原理:基于调节时空交叉注意力和自注意力机制,增强文本提示对目标区域的控制能力。

VideoGrain 是什么

VideoGrain

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能够实现类别级、实例级和部件级的精细视频修改。该框架基于调节时空交叉注意力和自注意力机制,增强文本提示对目标区域的控制能力,保持区域间的特征分离,解决现有扩散模型中语义错位和特征耦合的问题。

VideoGrain 不依赖于额外的参数调整,能在真实世界场景中实现高质量的视频编辑,保持时间一致性。在多粒度编辑任务中表现出色,显著优于现有的 T2I 和 T2V 方法,为视频内容创作提供更灵活和精准的工具。

VideoGrain 的主要功能

VideoGrain-editing

  • 多粒度视频编辑:将视频中的多个对象分别编辑为不同类别(如将一个人编辑为“蜘蛛侠”,另一个人编辑为“北极熊”),或对对象的局部进行修改(如改变衣服颜色或添加配饰)。
  • 文本驱动的区域控制:基于自然语言提示精确控制视频中的特定区域,实现精准的编辑效果。
  • 时间一致性:在编辑过程中,保持视频的时间连贯性,避免因编辑导致的帧间闪烁或不自然的过渡。
  • 无需参数调整:作为零样本方法,VideoGrain 不需对模型进行额外的训练或参数调整。
  • 高效计算性能:在实验中表现出较低的内存占用和较快的编辑速度,适合实时视频编辑应用。

VideoGrain 的技术原理

VideoGrain-pipeline

  • 交叉注意力调节:基于调节交叉注意力层,增强文本提示对目标区域的聚焦能力,同时抑制对无关区域的注意力。将文本提示与视频帧的空间区域进行绑定,基于调整查询-键对的注意力权重,使文本特征集中在对应的区域,实现文本到区域的精准控制。
  • 自注意力调节:在自注意力层中,增强区域内特征的自注意力,减少区域间的干扰。模型能避免因类别特征耦合导致的编辑错误(例如将不同实例视为同一类别)。确保每个查询只关注其目标区域,保持了特征的分离和编辑的独立性。

如何运行 VideoGrain

设置环境

这里的方法在单个 L40 上使用 cuda12.1、fp16 加速器和 xformers 进行测试。

# 第一步:创建并激活 Conda 环境
conda create -n videograin python==3.10 
conda activate videograin

# 第二步:安装 PyTorch、CUDA 和 Xformers
conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install --pre -U xformers==0.0.27

# 第三步:使用 pip 安装其他依赖项
pip install -r requirements.txt

xformers 推荐用于节省内存和运行时间。

🔛 准备所有数据

gdown https://drive.google.com/file/d/1dzdvLnXWeMFR3CE2Ew0Bs06vyFSvnGXA/view?usp=drive_link
tar -zxvf videograin_data.tar.gz

🔥 VideoGrain 编辑

你可以通过运行以下命令重现这里的多粒度编辑结果:

bash test.sh 
# 或者 accelerate launch test.py --config config/instance_level/running_two_man/running_3cls_polar_spider_vis_weight.yaml

结果保存在 ./result 目录下。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
12月前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
在电商中,制作精美的商品展示图成本高且流程复杂。AI 换装技术允许商家快速更换模特的服装或配件,无需重新拍摄,大大缩短准备时间。这项技术减少了对专业摄影师和后期团队的依赖,使中小商家也能轻松产出高质量的商品图片,灵活响应市场变化,有效降低成本,提升竞争力。本方案利用函数计算 FC 构建 Web 服务,采用百炼视觉模型 qwen-vl-max-latest、aitryon、aitryon-refiner、shoemodel-v1 来分别实现 AI 人物主体信息提取、模特试衣、试衣精修、模特换鞋。
|
12月前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
|
人工智能 物联网
AI 绘画Stable Diffusion 研究(十一)sd图生图功能详解-美女换装
AI 绘画Stable Diffusion 研究(十一)sd图生图功能详解-美女换装
1921 1
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1110 50
|
5月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1198 58
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
604 30
|
4月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
591 1
|
4月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
4月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
372 3
|
4月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
501 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?

热门文章

最新文章