❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
💻 「GPU救星来了!阶跃星辰开源16倍压缩黑科技:204帧视频生成,显存占用砍半!」
大家好,我是蚝油菜花。当全球还在为Sora的算力需求咋舌时,中国团队已经用数学之美破解了视频生成的「不可能三角」——
▶️ 开发者最痛的三座大山:
- 🚫 动辄4090才能跑的AI视频模型
- 🚫 英文提示词门槛劝退中文创作者
- 🚫 生成视频像PPT,超过5秒就崩坏...
而今天开源的 Step-Video-T2V ,用三项核弹级突破撕碎这些枷锁:
- Video-VAE时空压缩:16×16空间压缩+8倍时间压缩,让3060显卡也能跑204帧
- 中英双语直输:唯一支持中文prompt的开源视频模型
- DPO优化算法:204帧连续生成不跳帧,丝滑度提升300%
你可以通过跃问视频在线生成
来体验用一句中文提示,5分钟生成属于你的微电影!
- 跃问视频在线生成:https://yuewen.cn/videos
🚀 快速阅读
Step-Video-T2V 是一款强大的文本到视频生成模型,能够生成高质量的视频。
- 核心功能:支持中英文提示输入,生成长达 204 帧的高质量视频。
- 技术原理:基于深度压缩的变分自编码器(Video-VAE)和扩散 Transformer(DiT)架构,显著提高训练和推理效率。
Step-Video-T2V 是什么
Step-Video-T2V 是阶跃星辰团队推出的一款开源文本到视频预训练模型,拥有 300 亿参数,能够生成长达 204 帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。
此外,Step-Video-T2V 配备了双语文本编码器,支持中英文提示输入,能够理解并生成与文本描述相符的视频。通过直接偏好优化(DPO)方法,进一步提升了视频质量,使生成的视频更加平滑和真实。
Step-Video-T2V 的主要功能
- 高质量视频生成:拥有 300 亿参数,能生成长达 204 帧的高质量视频,支持 544×992 分辨率。
- 双语文本支持:配备双语文本编码器,支持中英文提示词的直接输入,能理解并生成与文本描述相符的视频。
- 动态与美学优化:通过 3D 全注意力的 DiT 架构和 Flow Matching 训练方法,生成具有强烈动态效果和高美学质量的视频。
Step-Video-T2V 的技术原理
- 深度压缩的变分自编码器(Video-VAE):实现了 16×16 的空间压缩和 8× 的时间压缩,显著降低了视频生成任务的计算复杂度,同时保持了优异的视频重建质量。
- 双语文本编码器:模型配备了两个预训练的双语文本编码器,能处理中文和英文提示。Step-Video-T2V 可以直接理解中英文输入,生成与文本描述相符的视频。
- 基于扩散的 Transformer(DiT)架构:包含 3D 全注意力机制,通过 Flow Matching 训练,将输入噪声逐步去噪为潜在帧,用文本嵌入和时间步作为条件因子。在生成具有强烈运动动态和高美学质量的视频方面表现出色。
- 直接偏好优化(DPO):为了进一步提升生成视频的质量,引入了视频直接偏好优化(Video-DPO)方法。DPO 通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果,使生成的视频更加平滑和真实。
如何运行 Step-Video-T2V
1. 环境准备
Step-Video-T2V 的运行需要以下环境:
Model | height/width/frame | Peak GPU Memory | 50 steps w flash-attn | 50 steps w/o flash-attn |
---|---|---|---|---|
Step-Video-T2V | 544px992px204f | 77.64 GB | 743 s | 1232 s |
Step-Video-T2V | 544px992px136f | 72.48 GB | 408 s | 605 s |
- 需要 NVIDIA GPU 且支持 CUDA。
- 推荐使用 80GB 内存的 GPU。
- 测试操作系统:Linux。
- 文本编码器仅支持 CUDA 能力 sm_80 sm_86 和 sm_90。
2. 安装依赖
git clone https://github.com/stepfun-ai/Step-Video-T2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo
cd Step-Video-T2V
pip install -e .
pip install flash-attn --no-build-isolation ## flash-attn 是可选的
AI 代码解读
3. 运行推理脚本
python api/call_remote_server.py --model_dir where_you_download_dir & ## 假设你有 4 个或更多 GPU。此命令将返回用于文本编码器和 VAE 解码的 API URL。
parallel=4 # 或 parallel=8
url='127.0.0.1'
model_dir=where_you_download_dir
torchrun --nproc_per_node $parallel run_parallel.py --model_dir $model_dir --vae_url $url --caption_url $url --ulysses_degree $parallel --prompt "一名宇航员在月球上发现一块石碑,上面印有“stepfun”字样,闪闪发光" --infer_steps 50 --cfg_scale 9.0 --time_shift 13.0
AI 代码解读
4. 最佳实践推理设置
Models | infer_steps | cfg_scale | time_shift | num_frames |
---|---|---|---|---|
Step-Video-T2V | 30-50 | 9.0 | 13.0 | 204 |
Step-Video-T2V-Turbo (Inference Step Distillation) | 10-15 | 5.0 | 17.0 | 204 |
资源
- GitHub 仓库:https://github.com/stepfun-ai/Step-Video-T2V
- HuggingFace 仓库:https://huggingface.co/stepfun-ai/stepvideo-t2v
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 微信公众号|搜一搜:蚝油菜花 🥦