LTX Video:Lightricks推出的开源AI视频生成模型

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

生成速度:LTX Video能在4秒内生成5秒的高质量视频,速度超过观看速度。
技术架构:基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性。
应用场景:适用于视频制作、广告制作、游戏开发、在线视频平台和电影电视制作。

正文(附运行示例)

LTX Video 是什么

公众号: 蚝油菜花 - LTX-Video

LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,解决了早期视频生成模型的关键限制。

LTX Video支持长视频制作,提供灵活性和控制力,适用于多种场景,包括游戏图形升级和电子商务广告变体制作。

LTX Video 的主要功能

  • 实时视频生成:LTX Video能快速生成视频内容,速度可实现实时视频生成,对于需要即时反馈的应用场景非常有用。
  • 高质量视频输出:模型能生成高分辨率和高帧率的视频,确保视频内容的清晰度和流畅度。
  • 运动一致性:LTX Video特别强调视频帧之间的运动一致性,减少了物体变形和运动不连贯的问题,视频看起来更加自然。
  • 开源和可扩展性:作为一个开源模型,LTX Video支持开发者和研究者自由地访问和修改代码,适应不同的应用需求,可以扩展到更长的视频内容生成。
  • 优化的硬件兼容性:LTX Video针对广泛使用的GPU进行了优化,能在多种硬件上高效运行,特别是NVIDIA RTX系列显卡。
  • 易于集成:LTX Video提供了与ComfyUI的原生支持,用户可以直接在ComfyUI Manager中使用LTX Video的功能。
  • 广泛的应用场景:从游戏图形升级到电子商务广告变体制作,LTX Video的应用场景广泛,能满足不同行业的需求。

LTX Video 的技术原理

  • 文本编码器(Text Encoder):LTX Video使用文本编码器将输入的文本描述转换为高维的语义向量表示,这些向量用于指导视频生成过程。
  • DiT(Diffusion Transformer)模型:LTX Video基于DiT架构生成每一帧或多帧视频的潜在表示。DiT结合了扩散模型和Transformer架构的优势,通过模拟从噪声到数据的扩散过程,能生成高质量、逼真的视频内容。
  • 3D VAE(Variational Autoencoder):LTX Video通过3D VAE解码整个视频的潜在表示,生成时空一致的视频帧序列。3D VAE通过3D卷积网络处理视频数据,增强模型对视频时空信息的处理能力。
  • 时序注意力(Temporal Attention):LTX Video通过多头自注意力机制增强视频帧之间的连贯性,确保视频的流畅性和时序一致性。
  • 扩散过程:LTX Video的训练使用引入了噪声的特征向量作为输入,模型的目标是学习如何逆转噪声增加的过程,即从噪声数据恢复出原始数据。
  • 视频生成:在模型训练完成后,可以通过输入噪声数据(或随机生成的噪声)到模型中,经过模型的处理后生成新的图像或视频。

如何运行 LTX Video

安装

git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video

# 创建环境
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

下载模型

from huggingface_hub import snapshot_download

model_path = 'PATH'   # 本地保存模型的目录
snapshot_download("Lightricks/LTX-Video", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')

推理

文本到视频生成

python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED

图像到视频生成

python inference.py --ckpt_dir 'PATH' --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2天前
|
人工智能 NoSQL Redis
Collaborative Gym:斯坦福人机协作框架开源!异步交互+三方感知,让你的AI学会主动补位
介绍Collaborative Gym,一个专注于人机协作的框架,支持异步交互和多种任务环境。
45 14
Collaborative Gym:斯坦福人机协作框架开源!异步交互+三方感知,让你的AI学会主动补位
|
2天前
|
人工智能 自然语言处理 数据可视化
YAYI-Ultra:中国企业终于等来『全能大脑』!开源企业级AI『混合专家』横扫金融舆情中医领域,最长生成20万字报告
YAYI-Ultra 是由中科闻歌研发的企业级大语言模型,具备强大的多领域专业能力和多模态内容生成能力,支持数学、代码、金融等多个领域的专家组合,缓解垂直领域迁移中的“跷跷板”现象。
46 10
YAYI-Ultra:中国企业终于等来『全能大脑』!开源企业级AI『混合专家』横扫金融舆情中医领域,最长生成20万字报告
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
48 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
2天前
|
人工智能 数据可视化 UED
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。
43 10
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
|
2天前
|
存储 人工智能 自然语言处理
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
FoloUp 是一个开源的 AI 语音面试平台,能够根据职位描述自动生成定制化的面试问题,并与候选人进行自然对话式的语音面试,帮助企业高效招聘。
30 9
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
|
2天前
|
人工智能 编解码 算法
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
ENEL是由上海AI Lab推出的无编码器3D大型多模态模型,能够在多个3D任务中实现高效语义编码和几何结构理解,如3D对象分类、字幕生成和视觉问答。
36 9
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
|
2天前
|
机器学习/深度学习 人工智能 机器人
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
55 6
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
|
1天前
|
人工智能 自然语言处理 API
Cline:29.7K Star!一文详解VSCode最强开源AI编程搭子:一键生成代码+自动跑终端+操控浏览器...
Cline 是一款集成于 VSCode 的 AI 编程助手,支持多语言模型,实时检查语法错误,帮助开发者提高编程效率。通过智能化手段,Cline 可以生成代码、执行终端命令、调试 Web 应用,并扩展更多功能。
63 5
|
16天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
95 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人

热门文章

最新文章