Lumina-Video:上海 AI Lab 开源视频生成框架,动态程度可控,支持多分辨率

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架,支持高质量视频生成、动态程度控制和多分辨率生成。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 Lumina-Video 这个由上海 AI Lab 和香港中文大学联合推出的高效视频生成框架。

🚀 快速阅读

Lumina-Video 是一款基于 Next-DiT 架构的视频生成框架,针对视频生成中的时空复杂性进行优化。

  1. 核心功能:支持高质量视频生成、动态程度控制和多分辨率生成。
  2. 技术原理:采用多尺度 Next-DiT 架构和运动分数作为条件输入,结合渐进式训练和多源训练策略。

Lumina-Video 是什么

Lumina-Video

Lumina-Video 是由上海 AI Lab 和香港中文大学联合推出的一款视频生成框架。该框架基于 Next-DiT 架构,专门针对视频生成中的时空复杂性进行了优化。通过引入多尺度的 patchify 层,Lumina-Video 提升了生成效率和灵活性,并能够根据用户的需求灵活调整生成视频的动态程度。

Lumina-Video 还扩展了 Lumina-V2A 模型,为生成的视频添加同步声音,使视频更具现实感。这一创新使得 Lumina-Video 在内容创作、虚拟现实、教育和游戏开发等多个领域具有广泛的应用前景。

Lumina-Video 的主要功能

  • 高质量视频生成:生成具有高分辨率、丰富细节和出色时空连贯性的视频内容。
  • 动态程度控制:基于运动分数作为条件输入,用户可以灵活调整生成视频的动态程度,从静态到高度动态。
  • 多尺度生成:支持不同分辨率和帧率的视频生成,适应多种应用场景。
  • 视频到音频同步:基于 Lumina-V2A 模型,为生成的视频添加与视觉内容同步的声音,增强视频的现实感。
  • 高效训练与推理:采用渐进式训练和多源训练策略,提高训练效率和模型性能,在推理阶段提供灵活的多阶段生成策略,平衡计算成本与生成质量。

Lumina-Video 的技术原理

  • 多尺度 Next-DiT 架构:引入多个不同大小的 patchify 和 unpatchify 层,支持模型在不同计算预算下学习视频结构。通过动态调整 patch 大小,模型在推理阶段可以根据资源需求灵活调整计算成本,保持生成质量。
  • 运动控制机制:基于计算光流的运动分数,将其作为条件输入到扩散模型中,直接控制生成视频的动态程度。调整正负样本的运动条件差异,实现对视频动态程度的精细控制。
  • 渐进式训练:基于多阶段训练策略,逐步提高视频的分辨率和帧率,提高训练效率。结合图像-视频联合训练,利用高质量的图像数据提升模型对视觉概念的理解和帧级质量。
  • 多源训练:使用自然和合成数据源进行训练,充分利用多样化数据,提升模型的泛化能力和生成质量。
  • 视频到音频同步(Lumina-V2A):基于 Next-DiT 和流匹配技术,将视频和文本特征与音频潜表示融合,生成与视觉内容同步的声音。使用预训练的音频 VAE 和 HiFi-GAN vocoder 进行音频编码和解码,确保生成音频的质量和同步性。

如何运行 Lumina-Video

1. 安装依赖

请参考 INSTALL.md 获取详细的安装说明。

2. 下载模型检查点

在运行推理之前,需要先下载模型检查点。你可以使用以下命令将检查点下载到 ./ckpts 目录:

huggingface-cli download --resume-download Alpha-VLLM/Lumina-Video-f24R960 --local-dir ./ckpts/f24R960

3. 运行推理

你可以使用以下命令快速生成一段 4 秒的视频,分辨率为 1248x704,帧率为 24fps:

python -u generate.py \
    --ckpt ./ckpts/f24R960 \
    --resolution 1248x704 \
    --fps 24 \
    --frames 96 \
    --prompt "your prompt here" \
    --neg_prompt "" \
    --sample_config f24F96R960  # set to "f24F96R960-MultiScale" for efficient multi-scale inference

4. 常见问题解答

Q1: 为什么使用 1248x704 分辨率?

A1: 该分辨率原本预期为 1280x720,但由于为了确保与最大 patch 大小(最小尺度)兼容,宽度和高度必须都能被 32 整除,因此调整为 1248x704。

Q2: 该模型是否支持灵活的宽高比?

A2: 是的,你可以使用以下代码查看所有可用的分辨率:

from imgproc import generate_crop_size_list

target_size = 960
patch_size = 32
max_num_patches = (target_size // patch_size) ** 2
crop_size_list = generate_crop_size_list(max_num_patches, patch_size)

print(crop_size_list)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
1月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
495 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
1月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
3041 42
|
1月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
241 5
我们开源了一款 AI 驱动的用户社区
|
1月前
|
人工智能 搜索推荐 UED
一个牛逼的国产AI自动化工具,开源了 !
AiPy是国产开源AI工具,结合大语言模型与Python,支持本地部署。用户只需用自然语言描述需求,即可自动生成并执行代码,轻松实现数据分析、清洗、可视化等任务,零基础也能玩转编程,被誉为程序员的智能助手。
|
11月前
|
机器学习/深度学习 人工智能 算法
AI框架的赢者法则:生态繁荣的昇思MindSpore,成为大模型时代的新选择
2024年被视为大模型应用的元年。昇思MindSpore AI框架凭借其强大的开源社区和技术创新,在全球范围内迅速崛起。截至2024年11月,该框架的下载量已超过1100万次,覆盖130多个国家和地区的2400多个城市,拥有3.7万名贡献者。昇思MindSpore不仅在人才培养和社区治理方面表现出色,还在大模型的开发、训练和应用中发挥了关键作用,支持了50多个主流大模型,覆盖15个行业。随着其市场份额预计达到30%,昇思MindSpore正逐步成为行业共识,推动大模型在各领域的广泛应用。
348 12
|
机器学习/深度学习 人工智能 算法
国产AI框架支棱起来了!这所211高校凭昇思MindSpore连发10篇顶刊/顶会论文
国产AI框架支棱起来了!这所211高校凭昇思MindSpore连发10篇顶刊/顶会论文
405 0
|
人工智能 算法 开发者
华为开源全场景AI计算框架MindSpore,性能可达 Pytorch+2080Ti 的1.93倍
华为开源全场景AI计算框架MindSpore,性能可达 Pytorch+2080Ti 的1.93倍
811 0
|
机器学习/深度学习 人工智能 自然语言处理
进击的 AI 框架,MindSpore 开源一周年
开源一年以来,累计发布 8 个新版本,汇聚超过 3000 名社区开发者的代码贡献,社区访问量超千万;现拥有超过 100 个大的基础模型,涵盖计算机视觉、NLP 等主流的 AI 和深度学习框架;累计 PR 数 超过 2 万个,下载量高达 22 万次,下载用户遍布全球;超过 100 所高校参与了社区活动,超过 40 家科研机构利用它去发表原创论文。这就是全场景 AI 计算框架 MindSpore 开源一年来取得的成绩!
493 0
进击的 AI 框架,MindSpore 开源一周年

热门文章

最新文章

下一篇
oss云网关配置