Step-Video-T2V:碾压Sora?国产开源巨兽Step-Video-T2V杀到:300亿参数一键生成204帧视频

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: Step-Video-T2V 是阶跃星辰团队推出的开源文本到视频模型,拥有 300 亿参数,能生成长达 204 帧的高质量视频。它支持中英文提示输入,并通过深度压缩的变分自编码器和扩散 Transformer 架构实现高效生成。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


💻 「GPU救星来了!阶跃星辰开源16倍压缩黑科技:204帧视频生成,显存占用砍半!」

大家好,我是蚝油菜花。当全球还在为Sora的算力需求咋舌时,中国团队已经用数学之美破解了视频生成的「不可能三角」——

▶️ 开发者最痛的三座大山:

  • 🚫 动辄4090才能跑的AI视频模型
  • 🚫 英文提示词门槛劝退中文创作者
  • 🚫 生成视频像PPT,超过5秒就崩坏...

而今天开源的 Step-Video-T2V ,用三项核弹级突破撕碎这些枷锁:

  • Video-VAE时空压缩:16×16空间压缩+8倍时间压缩,让3060显卡也能跑204帧
  • 中英双语直输:唯一支持中文prompt的开源视频模型
  • DPO优化算法:204帧连续生成不跳帧,丝滑度提升300%

你可以通过跃问视频在线生成来体验用一句中文提示,5分钟生成属于你的微电影!

🚀 快速阅读

Step-Video-T2V 是一款强大的文本到视频生成模型,能够生成高质量的视频。

  1. 核心功能:支持中英文提示输入,生成长达 204 帧的高质量视频。
  2. 技术原理:基于深度压缩的变分自编码器(Video-VAE)和扩散 Transformer(DiT)架构,显著提高训练和推理效率。

Step-Video-T2V 是什么

Step-Video-T2V

Step-Video-T2V 是阶跃星辰团队推出的一款开源文本到视频预训练模型,拥有 300 亿参数,能够生成长达 204 帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。

此外,Step-Video-T2V 配备了双语文本编码器,支持中英文提示输入,能够理解并生成与文本描述相符的视频。通过直接偏好优化(DPO)方法,进一步提升了视频质量,使生成的视频更加平滑和真实。

Step-Video-T2V 的主要功能

  • 高质量视频生成:拥有 300 亿参数,能生成长达 204 帧的高质量视频,支持 544×992 分辨率。
  • 双语文本支持:配备双语文本编码器,支持中英文提示词的直接输入,能理解并生成与文本描述相符的视频。
  • 动态与美学优化:通过 3D 全注意力的 DiT 架构和 Flow Matching 训练方法,生成具有强烈动态效果和高美学质量的视频。

Step-Video-T2V 的技术原理

  • 深度压缩的变分自编码器(Video-VAE):实现了 16×16 的空间压缩和 8× 的时间压缩,显著降低了视频生成任务的计算复杂度,同时保持了优异的视频重建质量。
  • 双语文本编码器:模型配备了两个预训练的双语文本编码器,能处理中文和英文提示。Step-Video-T2V 可以直接理解中英文输入,生成与文本描述相符的视频。
  • 基于扩散的 Transformer(DiT)架构:包含 3D 全注意力机制,通过 Flow Matching 训练,将输入噪声逐步去噪为潜在帧,用文本嵌入和时间步作为条件因子。在生成具有强烈运动动态和高美学质量的视频方面表现出色。
  • 直接偏好优化(DPO):为了进一步提升生成视频的质量,引入了视频直接偏好优化(Video-DPO)方法。DPO 通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果,使生成的视频更加平滑和真实。

如何运行 Step-Video-T2V

1. 环境准备

Step-Video-T2V 的运行需要以下环境:

Model height/width/frame Peak GPU Memory 50 steps w flash-attn 50 steps w/o flash-attn
Step-Video-T2V 544px992px204f 77.64 GB 743 s 1232 s
Step-Video-T2V 544px992px136f 72.48 GB 408 s 605 s
  • 需要 NVIDIA GPU 且支持 CUDA。
  • 推荐使用 80GB 内存的 GPU。
  • 测试操作系统:Linux。
  • 文本编码器仅支持 CUDA 能力 sm_80 sm_86 和 sm_90。

2. 安装依赖

git clone https://github.com/stepfun-ai/Step-Video-T2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo

cd Step-Video-T2V
pip install -e .
pip install flash-attn --no-build-isolation  ## flash-attn 是可选的
AI 代码解读

3. 运行推理脚本

python api/call_remote_server.py --model_dir where_you_download_dir &  ## 假设你有 4 个或更多 GPU。此命令将返回用于文本编码器和 VAE 解码的 API URL。

parallel=4  # 或 parallel=8
url='127.0.0.1'
model_dir=where_you_download_dir

torchrun --nproc_per_node $parallel run_parallel.py --model_dir $model_dir --vae_url $url --caption_url $url  --ulysses_degree $parallel --prompt "一名宇航员在月球上发现一块石碑,上面印有“stepfun”字样,闪闪发光" --infer_steps 50  --cfg_scale 9.0 --time_shift 13.0
AI 代码解读

4. 最佳实践推理设置

Models infer_steps cfg_scale time_shift num_frames
Step-Video-T2V 30-50 9.0 13.0 204
Step-Video-T2V-Turbo (Inference Step Distillation) 10-15 5.0 17.0 204

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
5
5
1
348
分享
相关文章
Ai实现FPS游戏自动瞄准 yolov5fps自瞄
Ai实现FPS游戏自动瞄准 yolov5fps自瞄
9610 0
Step-Video-TI2V:开源视频生成核弹!300亿参数+102帧电影运镜
Step-Video-TI2V 是阶跃星辰推出的开源图生视频模型,支持根据文本和图像生成高质量视频,具备动态性调节和多种镜头运动控制功能,适用于动画制作、短视频创作等场景。
75 0
Step-Video-TI2V:开源视频生成核弹!300亿参数+102帧电影运镜
阶跃星辰开源Step-Video-TI2V 图生视频模型介绍
在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。
50 1
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
132 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型
Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型,语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署,本文将详细介绍具体操作步骤。
ECCV 2024:JHU上交等提出首个可渲染X光3DGS!推理速度73倍NeRF,性能提升6.5dB
【10月更文挑战第8天】近日,约翰斯•霍普金斯大学和上海交通大学等机构的研究人员提出了一种名为X-Gaussian的新型3D Gaussian Splatting框架,用于X光新视角合成。该框架通过优化辐射性Gaussian点云模型和可微分辐射光栅化技术,显著提升了X光成像的渲染质量,同时大幅减少了训练时间和推理时间。实验结果显示,X-Gaussian在性能上比现有方法提升了6.5dB,训练时间减少了85%,推理速度提高了73倍。此外,该框架在稀疏视角CT重建中也展现出巨大潜力。
123 4
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!
【4月更文挑战第10天】KAUST和哈佛大学联合研发的MiniGPT4-Video模型在视频理解任务中打破多项纪录,成为业界关注点。这款多模态AI系统基于大型语言模型,能同时处理视觉和文本信息,提升了视频内容理解的深度。通过创新的视觉-文本混合处理,模型在MSVD、MSRVTT等基准测试中取得显著性能提升。然而,由于依赖上下文窗口,目前对较长视频处理有限制。该模型的出现推动了视频理解领域的进步,具有广阔的应用前景。
224 1
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!
ICLR 2024 Spotlight:大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP
【2月更文挑战第29天】研究人员在ICLR 2024展示了OmniQuant技术,这是一种针对大型语言模型(如GPT-4和LLaMA)的全面低比特量化方法,旨在降低内存占用和提高计算效率。OmniQuant包含可学习的权重裁剪(LWC)和可学习的等价变换(LET),在保持模型性能的同时减少了计算资源需求。该技术已在商用APP中实施,并在LLaMA-2模型上验证了其高效性。OmniQuant的开源代码已发布在GitHub,促进了技术交流和进步,有望推动资源受限环境中的AI应用。
176 1
ICLR 2024 Spotlight:大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP
|
10月前
|
UED
首批类Sora竞争对手出现,Snap Video效果优于Pika、不输Gen-2
【2月更文挑战第13天】首批类Sora竞争对手出现,Snap Video效果优于Pika、不输Gen-2
123 3
首批类Sora竞争对手出现,Snap Video效果优于Pika、不输Gen-2

热门文章

最新文章