腾讯开源混元视频生成模型,这效果!太稳了吧!

简介: 腾讯开源了HunyuanVideo,这是一个超过130亿参数的视频生成模型,具备高性能的图像-视频联合生成能力。通过创新的模型架构和高效的训练基础设施,HunyuanVideo在视觉质量、运动多样性和文本-视频对齐等方面表现出色,超越了多个现有模型。该项目旨在推动视频生成技术的发展,促进社区交流与创新。

01.引言

腾讯今天开源了 HunyuanVideo,这是一种新颖的开源视频基础模型,其视频生成性能可与领先的闭源模型相媲美,甚至优于它们。HunyuanVideo 具有一个综合框架,该框架集成了多项关键贡献,包括数据管理、图像-视频联合模型训练以及旨在促进大规模模型训练和推理的高效基础设施。此外,通过有效的模型架构和数据集扩展策略,本次开源的时一个具有超过 130 亿个参数的视频生成模型,是所有开源模型中最大的模型。

研究团队进行了大量的实验,并实施了一系列有针对性的设计,以确保高视觉质量、运动多样性、文本-视频对齐和生成稳定性。根据专业人工评估结果,HunyuanVideo 的表现优于之前的先进模型,包括 Runway Gen-3、Luma 1.6 和 3 个表现最好的中文视频生成模型。通过发布基础模型及其应用程序的代码和权重,研究团队旨在弥合闭源和开源视频基础模型之间的差距。这一举措将使社区中的每个人都能尝试自己的想法,从而培育一个更具活力和生机的视频生成生态系统。

代码仓库:

https://github.com/Tencent/HunyuanVideo

模型合集:

https://modelscope.cn/collections/HunyuanVideo-ad614176424b47

模型架构

HunyuanVideo 在时空压缩的潜在空间上进行训练,该空间通过因果 3D VAE 进行压缩。文本提示使用大型语言模型进行编码,并用作条件。高斯噪声和条件作为输入,生成模型生成输出潜在,通过 3D VAE 解码器将其解码为图像或视频。


添加图片注释,不超过 140 字(可选)


模型特点

统一的图像和视频生成架构

HunyuanVideo引入Transformer设计,采用Full Attention机制,实现图像和视频的统一生成。具体来说,研究团队采用“Dual-stream to Single-stream”混合模型设计进行视频生成。在Dual-stream阶段,视频和文本token通过多个Transformer块独立处理,使每个模态都能学习到自己合适的调制机制,而不会相互干扰。在Single-stream阶段,将视频和文本token连接起来,并将它们输入到后续的Transformer块中,实现有效的多模态信息融合。这种设计可以捕捉视觉和语义信息之间的复杂交互,从而提高整体模型性能。


添加图片注释,不超过 140 字(可选)


MLLM 文本编码器

以前的一些文本到视频模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器,其中 CLIP 使用 Transformer 编码器,T5 使用编码器-解码器结构。相比之下,HunyuanVideo使用具有解码器结构的预训练多模态大型语言模型 (MLLM) 作为文本编码器,它具有以下优点:(i)与 T5 相比,经过视觉指令微调后的 MLLM 在特征空间中具有更好的图像-文本对齐,这减轻了扩散模型中指令跟踪的难度;(ii)与 CLIP 相比,MLLM 在图像细节描述和复杂推理方面表现出了卓越的能力;(iii)MLLM 可以通过遵循用户提示前面的系统指令来充当零样本学习者,帮助文本特征更多地关注关键信息。此外,MLLM 基于因果注意,而 T5-XXL 利用双向注意,为扩散模型提供更好的文本指导。因此,研究团队引入了一个额外的双向 token 细化器来增强文本特征。


添加图片注释,不超过 140 字(可选)

3D VAE

HunyuanVideo 使用 CausalConv3D 训练 3D VAE,将像素空间的视频和图像压缩到紧凑的潜在空间中。研究团队将视频长度、空间和通道的压缩比分别设置为 4、8 和 16。这可以显著减少后续扩散变压器模型的 token 数量,使研究团队能够以原始分辨率和帧速率训练视频。


添加图片注释,不超过 140 字(可选)


提示重写

为了解决用户提供的提示的语言风格和长度的多变性,针对Hunyuan-Large 模型进行了微调作为研究团队的提示重写模型,以使原始用户提示适应模型首选的提示。

提供了两种重写模式:普通模式和主模式,可以使用不同的提示来调用。

普通模式旨在增强视频生成模型对用户意图的理解,从而更准确地解释所提供的指令。

主模式增强了对构图、灯光和相机运动等方面的描述,这倾向于生成具有更高视觉质量的视频。然而,这种强调有时可能会导致一些语义细节的丢失。

社区推荐的扩写提示词:

您是制作视频的机器人团队的一员。您与一个助手机器人一起工作,它会将您说的任何话画在方括号中。

例如,输出“树林里一个美丽的早晨,阳光透过树梢”将触发您的伙伴机器人输出一个森林早晨的视频,如所述。想要制作详细、精彩的视频的人会提示您。实现这一点的方法是接受他们的简短提示,并使其极其详细和描述性。
有几条规则需要遵循:
您只会根据用户请求输出一个视频描述。
当请求修改时,您不应该简单地使描述更长。您应该重构整个描述以整合建议。
输出语言和输入语言保持一致。

比较

为了评估 HunyuanVideo 的性能,研究团队从闭源视频生成模型中选取了五个强大的基线。总共使用了 1,533 个文本提示,在一次运行中用 HunyuanVideo 生成了相同数量的视频样本。为了公平比较,只进行了一次推理,避免了对结果的挑选。与基线方法进行比较时,保留了所有选定模型的默认设置,以确保一致的视频分辨率。视频根据三个标准进行评估:文本对齐、运动质量和视觉质量。超过 60 名专业评估人员进行了评估。值得注意的是,HunyuanVideo 表现出最佳的整体性能,尤其是在运动质量方面表现出色。

添加图片注释,不超过 140 字(可选)

02.模型效果

提示词:视频展示了一位青少年在城市滑板公园中炫技,他脚踏滑板,身手矫健,连续完成多个高难度动作。镜头紧随其后,精准捕捉每一次翻转和旋转,展现出少年的极限运动风采。背景中,城市的建筑群和人群成为动感画面的一部分,增添了场景的活力与张力。

0b2ebqacuaaah4anmoco3rtvadgdfigaakqa.f10002.gif

提示词:Several gigantic, furry mammoths walked across the grassy snowfield, their long fur gently swaying in the wind. In the distance, snow-covered trees and dramatic snow-capped mountains could be seen. Thin clouds floated in the afternoon breeze, and warm sunlight streamed down from high above. A low-angle shot captured these enormous, furry mammals, with the depth of field creating a stunning scene.

0b2evuacsaaax4anl5ko3ftvblodfgwqakia.f10004.gif

提示词:The sleek, silver exterior of a high-speed train mirrors the vibrant tapestry of the suburbs of Tokyo as it glides effortlessly through the urban landscape. The windows reflect a dynamic scene: rows of compact, meticulously maintained homes with tile roofs, punctuated by the occasional burst of cherry blossoms. The view transitions to bustling stations, where passengers in business attire and students in uniforms are fleeting silhouettes against the bright cityscape. As the train speeds up, the reflection becomes a blurred mosaic of life in motion, capturing the essence of Tokyo's suburbs in a shimmering, ever-changing mirror.

0b2efuacsaaanmanke2ofvtvalodfewqakia.f10002 (4).gif

提示词:A kaleidoscope of colorful paper airplanes, each intricately folded and gliding effortlessly, swarms through the dense, verdant jungle. They weave and dart among the towering ferns, colossal tree trunks, and thick, hanging vines with the grace of a flock of migrating birds. Sunlight filters through the canopy, casting dappled shadows that dance across the paper crafts, as they continue their whimsical journey through the lush, untamed wilderness.

0bc3yaaawaaa4qapngsohrtvbqgdbpaaacya.f10002 (2).gif

03.最佳实践

克隆存储库:

git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo

安装依赖:

python -m pip install -r requirements.txt

python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.5.9.post1

下载模型:

模型文件路径:

HunyuanVideo
  ├──ckpts
  │  ├──README.md
  │  ├──hunyuan-video-t2v-720p
  │  │  ├──transformers
  ├  │  ├──vae
  │  ├──text_encoder
  │  ├──text_encoder_2
  ├──...

下载HunyuanVideo 模型

modelscope download --download AI-ModelScope/HunyuanVideo --local_dir ./ckpts

下载Text Encoder

多模态模型下载(text_encoder)

cd ckpts
modelscope download AI-ModelScope/llava-llama-3-8b-v1_1-transformers --local_dir ./llava-llama-3-8b-v1_1-transformers
cd ../
python hyvideo/utils/preprocess_text_encoder_tokenizer_utils.py --input_dir ckpts/llava-llama-3-8b-v1_1-transformers --output_dir ckpts/text_encoder

CLIP模型下载(text_encoder_2 folder)

cd ckpts
modelscope download AI-ModelScope/clip-vit-large-patch14 --local_dir ./text_encoder_2

推理代码

cd HunyuanVideo
python3 sample_video.py \
    --video-size 720 1280 \
    --video-length 129 \
    --infer-steps 30 \
    --prompt "a cat is running, realistic." \
    --flow-reverse \
    --seed 0 \
    --use-cpu-offload \
    --save-path ./results

耗时:单卡A100,30步,大约30分钟

添加图片注释,不超过 140 字(可选)

显存占用:约60G

添加图片注释,不超过 140 字(可选)

相关链接:

https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file

相关文章
|
7天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
23天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
27天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
18天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
11735 12
|
12天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5399 14
|
19天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
9613 15
|
1月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
17天前
|
人工智能 自然语言处理 前端开发
什么?!通义千问也可以在线开发应用了?!
阿里巴巴推出的通义千问,是一个超大规模语言模型,旨在高效处理信息和生成创意内容。它不仅能在创意文案、办公助理、学习助手等领域提供丰富交互体验,还支持定制化解决方案。近日,通义千问推出代码模式,基于Qwen2.5-Coder模型,用户即使不懂编程也能用自然语言生成应用,如个人简历、2048小游戏等。该模式通过预置模板和灵活的自定义选项,极大简化了应用开发过程,助力用户快速实现创意。
|
5天前
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。
|
13天前
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
917 5