DiTCtrl:腾讯推出多提示视频生成方法,通过多个提示生成连贯的视频内容,确保内容与提示一致

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: DiTCtrl 是一种基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,能够在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/kOqB70Fx6bPwuEY9WhwkuQ


🚀 快速阅读

  1. 功能:DiTCtrl 能够处理多个文本提示,生成连贯的视频内容。
  2. 技术:基于多模态扩散变换器(MM-DiT)架构,采用 KV 共享和潜在混合策略。
  3. 应用:在电影制作、游戏开发、广告行业等多个领域有广泛应用。

正文(附运行示例)

DiTCtrl 是什么

公众号: 蚝油菜花 - DiTCtrl

DiTCtrl 是由香港中文大学和腾讯等机构联合推出的一种多提示视频生成方法,基于多模态扩散变换器(MM-DiT)架构。它能够在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。

DiTCtrl 通过分析 MM-DiT 的注意力机制,采用 KV 共享和潜在混合策略,实现不同提示间的平滑过渡,提升视频生成的连贯性和自然度。在新基准 MPVBench 上,DiTCtrl 在保持计算效率的同时,取得了最先进的性能,标志着多提示视频生成技术的重要进展。

DiTCtrl 的主要功能

  • 多提示视频生成:DiTCtrl 能处理多个文本提示,生成连贯的视频内容,对于反映现实世界中动态、多动作场景尤为重要。
  • 无需额外训练:与传统视频生成模型不同,DiTCtrl 无需额外的训练数据或计算资源即可生成视频,实现零样本(zero-shot)的多提示视频生成。
  • 平滑过渡:DiTCtrl 能在不同提示的视频片段之间实现平滑过渡,保持视频内容的连贯性和视觉一致性。
  • 精确语义控制:分析和基于 MM-DiT 的注意力机制,精确控制视频内容,确保生成的视频与文本提示紧密对应。

DiTCtrl 的技术原理

  • MM-DiT 架构:基于多模态扩散变换器(MM-DiT)架构,将文本和视频映射到统一序列进行注意力计算,有效处理多模态数据。
  • 注意力机制分析:首次分析 MM-DiT 的 3D 全注意力机制,发现其与 UNet 类扩散模型中的交叉/自注意力模块相似,为精确的语义控制提供基础。
  • KV 共享机制:采用键值(KV)共享机制,支持在不同提示的视频片段之间共享注意力信息,保持关键对象的语义一致性。
  • 潜在混合策略:为实现视频片段间的平滑过渡,DiTCtrl 用潜在混合策略,基于在相邻视频片段的重叠区域应用位置依赖的权重函数,实现不同语义片段间的平滑过渡。
  • 掩码引导的注意力融合:提取特定对象的注意力掩码,并用掩码引导注意力融合,生成新提示的注意力特征,实现不同提示间的一致性。
  • MPVBench 基准:为评估多提示视频生成的性能,引入 MPVBench 基准,包含多种过渡类型和专门的评估指标。

如何运行 DiTCtrl

1. 环境设置

首先,确保你的环境配置正确。以下是设置环境的步骤:

cd DiTCtrl

conda create -n ditctrl python=3.10
conda activate ditctrl

pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121

pip install -r requirements.txt

conda install https://anaconda.org/xformers/xformers/0.0.28.post1/download/linux-64/xformers-0.0.28.post1-py310_cu12.1.0_pyt2.4.1.tar.bz2

2. 下载模型权重

接下来,下载 CogVideoX-2B 模型权重:

cd sat
mkdir CogVideoX-2b-sat
cd CogVideoX-2b-sat
wget https://cloud.tsinghua.edu.cn/f/fdba7608a49c463ba754/?dl=1
mv 'index.html?dl=1' vae.zip
unzip vae.zip
wget https://cloud.tsinghua.edu.cn/f/556a3e1329e74f1bac45/?dl=1
mv 'index.html?dl=1' transformer.zip
unzip transformer.zip

3. 运行示例

你可以通过以下命令运行 DiTCtrl 的不同功能:

# 多提示视频生成
bash run_multi_prompt.sh

# 单提示视频生成
bash run_single_prompt.sh

# 视频编辑
bash run_edit_video.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
前端开发 JavaScript Java
新闻发布项目——访问温馨提示
新闻发布项目——访问温馨提示
|
3月前
ChatGPT提问技巧——标准提示
ChatGPT提问技巧——标准提示
31 0
|
6月前
|
机器学习/深度学习 自然语言处理 搜索推荐
ChatGPT如何处理信息?
【7月更文挑战第24天】ChatGPT如何处理信息?
78 3
|
7月前
|
编解码 算法 API
视觉智能开放平台操作报错合集之报错400,文件内容不合法,一般是什么导致的
在使用视觉智能开放平台时,可能会遇到各种错误和问题。虽然具体的错误代码和消息会因平台而异,但以下是一些常见错误类型及其可能的原因和解决策略的概述,包括但不限于:1. 认证错误、2. 请求参数错误、3. 资源超限、4. 图像质量问题、5. 服务不可用、6. 模型不支持的场景、7. 网络连接问题,这有助于快速定位和解决问题。
|
6月前
|
人工智能
AI,代码库-代码助手---代码输入提示框,询问加上特性,让他返回
AI,代码库-代码助手---代码输入提示框,询问加上特性,让他返回
|
6月前
|
存储 JavaScript 前端开发
文本,三步走构思,富文本点击提交能够存储到数据库当中(下),最快的方法,还是会看资料,因此会整合资料最好,直接看资料最快,因为是JWT的资料,我们要设置好登录的内容,看登录的地方怎样写的
文本,三步走构思,富文本点击提交能够存储到数据库当中(下),最快的方法,还是会看资料,因此会整合资料最好,直接看资料最快,因为是JWT的资料,我们要设置好登录的内容,看登录的地方怎样写的
|
7月前
|
自然语言处理 机器人
chatGPT提示邮箱不支持的解决办法汇总!
一些用户在创建过程中遇到了提示“Oops! The email you provided is not supported”。中文的意思是“糟糕,邮箱不支持”。该如何解决呢?
2655 0
|
8月前
|
数据采集 人工智能 自然语言处理
ChatGPT系统课程 - 提示词的重点使用场景之内容总结和内容提取
ChatGPT系统课程 - 提示词的重点使用场景之内容总结和内容提取
|
8月前
|
Java API 数据库
视觉智能平台常见问题之ReturnForm返回的都是黑白的跟官方示例不符如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
|
8月前
|
人工智能
AI批量写文章伪原创:基于ChatGPT长文本模型,实现批量改写文章、批量回答问题(长期更新)
AI批量写文章伪原创:基于ChatGPT长文本模型,实现批量改写文章、批量回答问题(长期更新)
252 1

热门文章

最新文章