腾讯开源HunyuanVideo-I2V图生视频模型+LoRA训练脚本,社区部署、推理实战教程来啦!

简介: 继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。

01.引言

继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。该模型基于HunyuanVideo文生视频基础模型,利用基础模型先进的视频生成能力,将应用扩展到图像到视频的生成任务。混元研究团队还同步开源了LoRA训练代码,用于定制化特效生成,可创建更有趣的视频效果。

开源内容:

  • HunyuanVideo-I2V的推理代码
  • HunyuanVideo-I2V的模型权重
  • LoRA训练脚本

代码仓库:

https://github.com/Tencent/HunyuanVideo-I2V

模型地址:

https://modelscope.cn/models/AI-ModelScope/HunyuanVideo-i2v/

02.整体架构

为利用HunyuanVideo强大的视频生成能力,研究团队采用图像潜在连接技术来有效地重建参考图像信息,并将其纳入视频生成过程。

由于使用预训练的Decoder-Only架构多模态大语言模型(MLLM)作为文本编码器,可用于显著增强模型对输入图像语义内容的理解能力,并实现图像与文本描述信息的深度融合。具体而言,输入图像经MLLM处理后生成语义图像tokens,这些tokens与视频隐空间tokens拼接,实现跨模态的全注意力计算。

整个系统架构旨在最大化图像与文本模态的协同效应,确保从静态图像生成连贯的视频内容。该集成不仅提升了生成视频的保真度,还增强了模型对复杂多模态输入的解析能力。整体架构如下图所示:

03.本地推理实践

运行要求

下表展示了运行HunyuanVideo-I2V模型(batch size=1)生成视频的硬件要求:

模型

分辨率

GPU显存峰值

HunyuanVideo-I2V

720p

60GB

  • 需配备支持CUDA的NVIDIA GPU
  • 测试环境为单卡80G GPU
  • 最低要求: 720p分辨率需至少60GB显存
  • 推荐配置: 建议使用80GB显存GPU以获得更佳生成质量
  • 测试操作系统:Linux

克隆代码

git clone https://github.com/tencent/HunyuanVideo-I2V
cd HunyuanVideo-I2V

配置环境

pip install -r requirements.txt
pip install ninja
pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.6.3

模型下载

混元图生视频包括三个模型,基础模型hunyuan-video-i2v-720p和两个文本编码器(text_encoder_i2v,text_encoder_2)。模型下载后默认放在HunyuanVideo-I2V/ckpts文件夹下,文件结构:

HunyuanVideo-I2V
  ├──ckpts
  │  ├──README.md
  │  ├──hunyuan-video-i2v-720p
  │  │  ├──transformers
  │  │  │  ├──mp_rank_00_model_states.pt
  ├  │  ├──vae
  ├  │  ├──lora
  │  │  │  ├──embrace_kohaya_weights.safetensors
  │  │  │  ├──hair_growth_kohaya_weights.safetensors
  │  ├──text_encoder_i2v
  │  ├──text_encoder_2
  ├──...

魔搭平台上可以下载到这三个模型,下载命令如下:

cd HunyuanVideo-I2V
# 下载基础模型
modelscope download --model AI-ModelScope/HunyuanVideo-I2V --local_dir ./ckpts
# 下载文本编码器MLLM
modelscope download --model AI-ModelScope/llava-llama-3-8b-v1_1-transformers --local_dir ./ckpts/text_encoder_i2v
# 下载文本编码器CLIP
modelscope download --model AI-ModelScope/clip-vit-large-patch14 --local_dir ./ckpts/text_encoder_2

推理代码

cd HunyuanVideo-I2V
python3 sample_image2video.py \
    --model HYVideo-T/2 \
    --prompt "A man with short gray hair plays a red electric guitar." \
    --i2v-mode \
    --i2v-image-path ./assets/demo/i2v/imgs/0.png \
    --i2v-resolution 720p \
    --video-length 129 \
    --infer-steps 50 \
    --flow-reverse \
    --flow-shift 17.0 \
    --seed 0 \
    --use-cpu-offload \
    --save-path ./results

耗时:50步,生成1280*704分辨率5秒的视频,A100,大概需要50分钟

显存占用:约60G

测试case:

提示词:A man with short gray hair plays a red electric guitar.

输入的图片:

https://live.csdn.net/v/468004?spm=1001.2014.3001.5501

💡写图生视频模型提示词(prompt)的建议:

  • 使用简短的提示:为了有效地引导模型的生成,请保持提示简短且直截了当。
  • 包含关键元素:一个结构良好的提示应包括:
  • 主体:指定视频的主要焦点。
  • 动作:描述正在发生的运动或活动。
  • 背景(可选):设置视频的场景。
  • 镜头(可选):指示视角或视点。
  • 避免过于详细的提示:冗长或高度详细的提示可能会导致视频输出中出现不必要的转场。

04.ComfyUI推理实践

ComfyUI官方在第一时间支持了混元的图生视频模型,小编也带大家动手玩玩混元的图生视频工作流。

不久前通义万相Wan2.1发布时,魔搭社区出过一篇实战教程,如果你是小白同学,请先预习一下这一篇,其他同学请直接开始。高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!

更新ComfyUI、下载模型、打开ComfyUI服务后,拖入工作流就可以直接运行。

更新ComfyUI

cd ComfyUI
git pull
git status # 确认本地代码是否与master分支一致

下载模型

魔搭平台上模型下载地址:https://modelscope.cn/models/Comfy-Org/HunyuanVideo_repackaged/files

模型下载命令

cd ComfyUI/models
modelscope download --model Comfy-Org/HunyuanVideo_repackaged --local_dir .

模型下载好后分别把模型挪到ComfyUI的对应目录,文件结构如下:

├── clip_vision/
│   └── llava_llama3_vision.safetensors
├── text_encoders/
│   ├── clip_l.safetensors
│   ├── llava_llama3_fp16.safetensors
│   └── llava_llama3_fp8_scaled.safetensors
├── vae/
│   └── hunyuan_video_vae_bf16.safetensors
└── diffusion_models/
    └── hunyuan_video_image_to_video_720p_bf16.safetensors
mv split_files/clip_vision/llava_llama3_vision.safetensors  clip_vision/
mv split_files/text_encoders/* text_encoders/
mv split_files/vae/hunyuan_video_vae_bf16.safetensors vae/
mv split_files/diffusion_models/hunyuan_video_* diffusion_models/

启动ComfyUI

cd ComfyUI
python main.py

运行示例工作流

将示例robot工作流的json文件拖入ComfyUI,点击执行即可运行工作流

robot图生视频工作流文件:

https://modelscope.cn/notebook/share/ipynb/b8a3efeb/robot.ipynb

输入图片:

显存与耗时

测试了两种尺寸分辨率的显存占用与耗时数据,如下表:

分辨率

显存峰值

生成时间

512*512

42G

~1min

1024*1024

48G

~5min

如遇到显存不足可以把clip2切换为fp8版本。另外ComfyUI官方满血版视频生成速度比官方推理代码快太多了,强烈推荐直接使用ComfyUI进行推理!

相关链接:https://github.com/Tencent/HunyuanVideo-I2V/tree/main?tab=readme-ov-file

点击链接即可跳转模型链接~

tencent/HunyuanVideo-I2V 腾讯混元图生视频

目录
相关文章
|
10月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
1230 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
2月前
|
人工智能 开发者
Qwen-Image又登顶啦!
Qwen-Image-2512登顶Hugging Face趋势榜榜首,并在AI Arena稳居最强开源图像模型!新发布的Qwen-image-edit-202511也在Chatbot Arena获开源第一、全球第九。双榜佳绩,技术再突破!
395 0
|
人工智能 算法 物联网
ComfyUI:搭积木一样构建专属于自己的AIGC工作流(保姆级教程)
通过本篇文章,你可以了解并实践通过【ComfyUI】构建自己的【文生图】和【文生动图】工作流。
15258 5
ComfyUI:搭积木一样构建专属于自己的AIGC工作流(保姆级教程)
|
人工智能 PyTorch API
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。
1465 5
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
|
9月前
|
人工智能 API
阿里巴巴发布开源视频编辑全功能模型Wan2.1-VACE,视频创作迎来"全能选手"!
阿里巴巴发布的开源模型Wan2.1-VACE,作为“万相2.1”系列成员,是业内首个视频生成与编辑统一解决方案。该多合一AI模型支持文本、图像和视频的多模态输入,提供视频生成、局部编辑、画面延展等功能,大幅提升创作效率。借助创新技术如“视频条件单元”和“上下文适配”,Wan2.1-VACE可广泛应用于短视频制作、广告营销等领域。模型已上线Hugging Face等平台,免费下载使用,助力AI普惠。
1757 0
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
4822 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
|
编解码 人工智能 安全
快来试试这个开箱即用的万相2.1服务!!!
阿里云万相2.1系列提供高效灵活的视频生成解决方案,支持文生视频、图生视频等多模态任务。通过阿里云计算巢与ComfyUI推出的快速视频生成服务,用户可轻松制作微电影或短视频。针对长视频生成,提供了三种方法:使用高性能显卡、首尾帧拼接和补帧模型。此外,还内置工作流实现文生图和图生图功能,简单易用。部署说明及使用流程详细列出,方便开发者快速上手。访问计算巢了解更多有趣服务。
|
开发者 异构计算
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇
8819 23
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
|
人工智能 自然语言处理 数据可视化
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面
autoMate是一款基于AI和RPA的本地自动化工具,通过自然语言实现复杂任务的自动化操作,支持本地部署,确保数据安全和隐私,适合需要高效处理重复性工作的用户。
833 1
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面

热门文章

最新文章