Step-Video-T2V：碾压Sora？国产开源巨兽Step-Video-T2V杀到：300亿参数一键生成204帧视频-阿里云开发者社区

Step-Video-T2V：碾压Sora？国产开源巨兽Step-Video-T2V杀到：300亿参数一键生成204帧视频

2025-02-17 644 发布于广东

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，图像通用资源包5000点

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频通用资源包5000点

简介： Step-Video-T2V 是阶跃星辰团队推出的开源文本到视频模型，拥有 300 亿参数，能生成长达 204 帧的高质量视频。它支持中英文提示输入，并通过深度压缩的变分自编码器和扩散 Transformer 架构实现高效生成。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

💻 「GPU救星来了！阶跃星辰开源16倍压缩黑科技：204帧视频生成，显存占用砍半！」

大家好，我是蚝油菜花。当全球还在为Sora的算力需求咋舌时，中国团队已经用数学之美破解了视频生成的「不可能三角」——

▶️ 开发者最痛的三座大山：

🚫 动辄4090才能跑的AI视频模型
🚫 英文提示词门槛劝退中文创作者
🚫 生成视频像PPT，超过5秒就崩坏...

而今天开源的 Step-Video-T2V ，用三项核弹级突破撕碎这些枷锁：

Video-VAE时空压缩：16×16空间压缩+8倍时间压缩，让3060显卡也能跑204帧
中英双语直输：唯一支持中文prompt的开源视频模型
DPO优化算法：204帧连续生成不跳帧，丝滑度提升300%

你可以通过跃问视频在线生成来体验用一句中文提示，5分钟生成属于你的微电影！

跃问视频在线生成：https://yuewen.cn/videos

🚀 快速阅读

Step-Video-T2V 是一款强大的文本到视频生成模型，能够生成高质量的视频。

核心功能：支持中英文提示输入，生成长达 204 帧的高质量视频。
技术原理：基于深度压缩的变分自编码器（Video-VAE）和扩散 Transformer（DiT）架构，显著提高训练和推理效率。

Step-Video-T2V 是什么

Step-Video-T2V

Step-Video-T2V 是阶跃星辰团队推出的一款开源文本到视频预训练模型，拥有 300 亿参数，能够生成长达 204 帧的高质量视频。该模型基于深度压缩的变分自编码器（Video-VAE），实现了 16×16 的空间压缩和 8× 的时间压缩，显著提高了训练和推理效率。

此外，Step-Video-T2V 配备了双语文本编码器，支持中英文提示输入，能够理解并生成与文本描述相符的视频。通过直接偏好优化（DPO）方法，进一步提升了视频质量，使生成的视频更加平滑和真实。

Step-Video-T2V 的主要功能

高质量视频生成：拥有 300 亿参数，能生成长达 204 帧的高质量视频，支持 544×992 分辨率。
双语文本支持：配备双语文本编码器，支持中英文提示词的直接输入，能理解并生成与文本描述相符的视频。
动态与美学优化：通过 3D 全注意力的 DiT 架构和 Flow Matching 训练方法，生成具有强烈动态效果和高美学质量的视频。

Step-Video-T2V 的技术原理

深度压缩的变分自编码器（Video-VAE）：实现了 16×16 的空间压缩和 8× 的时间压缩，显著降低了视频生成任务的计算复杂度，同时保持了优异的视频重建质量。
双语文本编码器：模型配备了两个预训练的双语文本编码器，能处理中文和英文提示。Step-Video-T2V 可以直接理解中英文输入，生成与文本描述相符的视频。
基于扩散的 Transformer（DiT）架构：包含 3D 全注意力机制，通过 Flow Matching 训练，将输入噪声逐步去噪为潜在帧，用文本嵌入和时间步作为条件因子。在生成具有强烈运动动态和高美学质量的视频方面表现出色。
直接偏好优化（DPO）：为了进一步提升生成视频的质量，引入了视频直接偏好优化（Video-DPO）方法。DPO 通过人类偏好数据对模型进行微调，减少伪影并增强视觉效果，使生成的视频更加平滑和真实。

如何运行 Step-Video-T2V

1. 环境准备

Step-Video-T2V 的运行需要以下环境：

Model	height/width/frame	Peak GPU Memory	50 steps w flash-attn	50 steps w/o flash-attn
Step-Video-T2V	544px992px204f	77.64 GB	743 s	1232 s
Step-Video-T2V	544px992px136f	72.48 GB	408 s	605 s

需要 NVIDIA GPU 且支持 CUDA。
推荐使用 80GB 内存的 GPU。
测试操作系统：Linux。
文本编码器仅支持 CUDA 能力 sm_80 sm_86 和 sm_90。

2. 安装依赖

git clone https://github.com/stepfun-ai/Step-Video-T2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo

cd Step-Video-T2V
pip install -e .
pip install flash-attn --no-build-isolation  ## flash-attn 是可选的

        
          
        
        
        
          
          AI 代码解读

3. 运行推理脚本

python api/call_remote_server.py --model_dir where_you_download_dir &  ## 假设你有 4 个或更多 GPU。此命令将返回用于文本编码器和 VAE 解码的 API URL。

parallel=4  # 或 parallel=8
url='127.0.0.1'
model_dir=where_you_download_dir

torchrun --nproc_per_node $parallel run_parallel.py --model_dir $model_dir --vae_url $url --caption_url $url  --ulysses_degree $parallel --prompt "一名宇航员在月球上发现一块石碑，上面印有“stepfun”字样，闪闪发光" --infer_steps 50  --cfg_scale 9.0 --time_shift 13.0

        
          
        
        
        
          
          AI 代码解读

4. 最佳实践推理设置

Models	infer_steps	cfg_scale	time_shift	num_frames
Step-Video-T2V	30-50	9.0	13.0	204
Step-Video-T2V-Turbo (Inference Step Distillation)	10-15	5.0	17.0	204

资源

GitHub 仓库：https://github.com/stepfun-ai/Step-Video-T2V
HuggingFace 仓库：https://huggingface.co/stepfun-ai/stepvideo-t2v