LTX Video：Lightricks推出的开源AI视频生成模型

2024-11-27 1251

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： LTX Video是由Lightricks推出的开源AI视频生成模型，能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构，确保帧间平滑运动和结构一致性，支持长视频制作，适用于多种场景，如游戏图形升级和电子商务广告变体制作。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

生成速度：LTX Video能在4秒内生成5秒的高质量视频，速度超过观看速度。
技术架构：基于2亿参数的DiT架构，确保帧间平滑运动和结构一致性。
应用场景：适用于视频制作、广告制作、游戏开发、在线视频平台和电影电视制作。

正文（附运行示例）

LTX Video 是什么

公众号: 蚝油菜花 - LTX-Video

LTX Video是由Lightricks推出的开源AI视频生成模型，能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构，确保帧间平滑运动和结构一致性，解决了早期视频生成模型的关键限制。

LTX Video支持长视频制作，提供灵活性和控制力，适用于多种场景，包括游戏图形升级和电子商务广告变体制作。

LTX Video 的主要功能

实时视频生成：LTX Video能快速生成视频内容，速度可实现实时视频生成，对于需要即时反馈的应用场景非常有用。
高质量视频输出：模型能生成高分辨率和高帧率的视频，确保视频内容的清晰度和流畅度。
运动一致性：LTX Video特别强调视频帧之间的运动一致性，减少了物体变形和运动不连贯的问题，视频看起来更加自然。
开源和可扩展性：作为一个开源模型，LTX Video支持开发者和研究者自由地访问和修改代码，适应不同的应用需求，可以扩展到更长的视频内容生成。
优化的硬件兼容性：LTX Video针对广泛使用的GPU进行了优化，能在多种硬件上高效运行，特别是NVIDIA RTX系列显卡。
易于集成：LTX Video提供了与ComfyUI的原生支持，用户可以直接在ComfyUI Manager中使用LTX Video的功能。
广泛的应用场景：从游戏图形升级到电子商务广告变体制作，LTX Video的应用场景广泛，能满足不同行业的需求。

LTX Video 的技术原理

文本编码器（Text Encoder）：LTX Video使用文本编码器将输入的文本描述转换为高维的语义向量表示，这些向量用于指导视频生成过程。
DiT（Diffusion Transformer）模型：LTX Video基于DiT架构生成每一帧或多帧视频的潜在表示。DiT结合了扩散模型和Transformer架构的优势，通过模拟从噪声到数据的扩散过程，能生成高质量、逼真的视频内容。
3D VAE（Variational Autoencoder）：LTX Video通过3D VAE解码整个视频的潜在表示，生成时空一致的视频帧序列。3D VAE通过3D卷积网络处理视频数据，增强模型对视频时空信息的处理能力。
时序注意力（Temporal Attention）：LTX Video通过多头自注意力机制增强视频帧之间的连贯性，确保视频的流畅性和时序一致性。
扩散过程：LTX Video的训练使用引入了噪声的特征向量作为输入，模型的目标是学习如何逆转噪声增加的过程，即从噪声数据恢复出原始数据。
视频生成：在模型训练完成后，可以通过输入噪声数据（或随机生成的噪声）到模型中，经过模型的处理后生成新的图像或视频。

如何运行 LTX Video

安装

git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video

# 创建环境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

下载模型

from huggingface_hub import snapshot_download

model_path = 'PATH'   # 本地保存模型的目录
snapshot_download("Lightricks/LTX-Video", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')

推理

文本到视频生成

python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED

图像到视频生成

python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED

资源

项目官网：https://www.lightricks.com/ltxv
GitHub 仓库：https://github.com/Lightricks/LTX-Video
HuggingFace 模型库：https://huggingface.co/Lightricks/LTX-Video
Fal.ai 在线演示：https://fal.ai/models/fal-ai/ltx-video

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

LTX Video：Lightricks推出的开源AI视频生成模型

🚀 快速阅读

正文（附运行示例）

LTX Video 是什么

LTX Video 的主要功能

LTX Video 的技术原理

如何运行 LTX Video

安装

下载模型

推理

文本到视频生成

图像到视频生成

资源

计算机视觉

热门文章

最新文章

相关课程

相关电子书

相关实验场景