Magic 1-For-1:北大联合英伟达推出的高质量视频生成量化模型,支持在消费级GPU上快速生成

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: 北京大学、Hedra Inc. 和 Nvidia 联合推出的 Magic 1-For-1 模型,优化内存消耗和推理延迟,快速生成高质量视频片段。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 Magic 1-For-1 这个由北京大学、Hedra Inc. 和 Nvidia 联合推出的高效视频生成模型。

🚀 快速阅读

Magic 1-For-1 是一个高效视频生成模型,能够在短时间内生成高质量的视频片段。

  1. 核心功能:在短时间内生成高质量视频,支持文本到图像和图像到视频的生成任务。
  2. 技术原理:通过任务分解、扩散模型蒸馏和多模态输入提升生成效率和质量。

Magic 1-For-1 是什么

Magic 1-For-1

Magic 1-For-1 是由北京大学、Hedra Inc. 和 Nvidia 联合推出的一个高效视频生成模型。该模型旨在优化内存消耗和推理延迟,能够快速生成高质量的视频片段。模型将复杂的文本到视频生成任务分解为两个更简单的子任务:文本到图像生成(T2I)和图像到视频生成(I2V),从而简化了生成过程并提高了生成效率。

通过这种方式,Magic 1-For-1 使用扩散步骤蒸馏技术显著加速了模型的收敛速度,并基于多模态输入(结合文本和视觉信息)进一步提升了生成视频的质量和语义一致性。此外,模型还采用了量化技术,将模型大小从32GB压缩到16GB,使其能够在消费级GPU上高效运行。

Magic 1-For-1 的主要功能

  • 高效生成:在短时间内生成高质量的视频片段。例如,生成5秒的视频仅需3秒,生成1分钟的视频可在1分钟内完成。
  • 高质量视频生成:基于优化扩散步骤和多模态输入,生成的视频在视觉质量、运动连贯性和语义一致性方面表现出色。
  • 低资源消耗:基于模型量化技术,将模型的内存占用从32GB降低到16GB,使其能在消费级GPU上高效运行。
  • 灵活性强:支持多种输入方式,包括文本到图像生成和图像到视频生成,根据用户需求生成多样化的视频内容。

Magic 1-For-1 的技术原理

  • 任务分解:将复杂的文本到视频生成任务分解为两个更简单的子任务:文本到图像生成(T2I)和图像到视频生成(I2V)。简化生成过程,让模型更容易训练和优化。
  • 扩散模型与扩散步骤蒸馏:基于扩散模型进行视频生成,用扩散步骤蒸馏(如DMD2算法)减少生成所需的步骤数。
  • 多模态输入:结合文本和视觉输入(如参考图像)作为条件信号,增强模型的语义理解和生成能力。让生成的视频能更好地捕捉文本描述和参考图像的语义信息。
  • 模型优化与量化:基于模型量化技术(如int8量化)减少模型的内存占用,用优化训练策略(如CFG蒸馏)提高模型的推理效率。
  • 滑动窗口技术:在生成长视频时,用滑动窗口技术逐步生成视频片段,在保持高效的同时提升整体视频的质量和连贯性。

如何运行 Magic 1-For-1

1. 环境设置

首先,确保安装了 git-lfs安装指南)。

推荐使用 conda 来管理项目的依赖项。首先创建一个名为 video-generation 的 conda 环境,并指定 Python 版本:

conda create -n video_infer python=3.9
conda activate video_infer

安装项目依赖项:

pip install -r requirements.txt

2. 下载模型权重

  1. 创建一个用于存储预训练权重的目录:
mkdir pretrained_weights
  1. 下载 Magic 1-For-1 模型权重,将 <model_weights_url> 替换为实际的下载链接:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
  1. 使用 Hugging Face CLI 下载其他组件:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
huggingface-cli download openai/clip-vit-large-patch14 --local_dir pretrained_weights/text_encoder_2 --local_dir_use_symlinks False

确保已安装 huggingface-clipip install huggingface_hub)。

3. 推理

文本 + 图像到视频(单GPU)

运行以下命令进行文本和图像到视频的生成:

python test_ti2v.py --config configs/test/text_to_video/4_step_ti2v.yaml --quantization False

或者使用提供的脚本:

bash scripts/run_flashatt3.sh
量化
  1. 安装 optimum-quanto
pip install optimum-quanto
  1. 启用量化:

在运行脚本时设置 --quantization True 以启用量化:

python test_ti2v.py --config configs/test/text_to_video/4_step_ti2v.yaml --quantization True
多GPU推理

在多GPU环境下运行推理时,指定GPU数量和ID,并调整配置文件中的 ring_degreeulysses_degree 值以匹配使用的GPU数量。

bash scripts/run_flashatt3.sh test_ti2v.py configs/test/ti2v.yaml 1 0

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
7月前
|
人工智能 并行计算 Linux
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
1602 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
|
7月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
3654 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
9月前
|
人工智能 Linux iOS开发
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
2073 100
|
8月前
|
存储 测试技术 对象存储
容器计算服务ACS单张GPU即可快速搭建QwQ-32B推理模型
阿里云最新发布的QwQ-32B模型拥有320亿参数,通过强化学习大幅度提升了模型推理能力,其性能与DeepSeek-R1 671B媲美,本文介绍如何使用ACS算力部署生产可用的QwQ-32B模型推理服务。
|
8月前
|
人工智能 自然语言处理 API
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。
575 11
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
|
8月前
|
存储 人工智能 固态存储
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
1588 8
|
10月前
|
人工智能 文字识别 异构计算
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
NVIDIA-Ingest 是英伟达开源的智能文档提取工具,支持 PDF、Word、PPT 等多种格式,提供并行处理和 GPU 加速,适用于企业内容管理和生成式应用。
415 18
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
|
8月前
|
存储 文件存储 对象存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
AI 场景下,函数计算 GPU 实例模型存储最佳实践
190 0
|
10月前
|
存储 文件存储 对象存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
|
机器学习/深度学习 并行计算 算法框架/工具
为什么深度学习模型在GPU上运行更快?
为什么深度学习模型在GPU上运行更快?

热门文章

最新文章