Step-Video-TI2V：开源视频生成核弹！300亿参数+102帧电影运镜

2025-03-21 1387

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Step-Video-TI2V 是阶跃星辰推出的开源图生视频模型，支持根据文本和图像生成高质量视频，具备动态性调节和多种镜头运动控制功能，适用于动画制作、短视频创作等场景。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎬 "好莱坞运镜师连夜改行！这个开源模型把静态图变电影级动态分镜"

大家好，我是蚝油菜花。当同行还在为视频运镜烧钱租设备时，这个国产开源模型已经让单张照片上演《盗梦空间》！

你是否被这些创作难题暴击过：

🎥 想给产品图加动态展示，AE关键帧调到视网膜脱落
🌪️ 生成视频不是PPT卡顿就是癫痫画风
🌍 英文提示词写到手抽筋，中文生成总跑偏...

今天炸场的 Step-Video-TI2V ，正在重写视频生成法则！这个阶跃星辰开源的300亿参数怪兽，用三大黑科技碾压创作门槛：

✅ 运镜魔法师：推拉摇移+环绕旋转，16种电影运镜参数化调节
✅ 动态平衡术：运动评分系统精准控制视频张力，从静止到暴走随心切换
✅ 双语直通车：中英文提示直接喂，描述"江湖侠客御剑飞行"也能精准出片

已有团队用它把淘宝主图秒变TVC广告，文末附《电影运镜参数速查表》——你的素材库准备好迎接次元突破了吗？

🚀 快速阅读

Step-Video-TI2V 是一款基于深度压缩变分自编码器和扩散 Transformer 架构的图生视频模型。

核心功能：支持图生视频生成、动态性调节、多种镜头运动控制，适用于动画、短视频、特效制作等场景。
技术原理：采用深度压缩的变分自编码器（Video-VAE）和扩散 Transformer（DiT）架构，结合双语文本编码器和直接偏好优化（DPO）方法，显著提升视频生成质量。

Step-Video-TI2V 是什么

Step-Video-TI2V

Step-Video-TI2V 是阶跃星辰（StepFun）推出的开源图生视频（Image-to-Video）生成模型，拥有 300 亿参数，能根据文本描述和图像输入生成最长 102 帧的视频。模型基于深度压缩的变分自编码器（Video-VAE），实现了 16×16 的空间压缩和 8× 的时间压缩，显著提高了训练和推理效率。用户可以通过设置运动分数（motion score）来平衡视频的动态性和稳定性。支持推、拉、摇、移、旋转、跟随等多种镜头运动方式。

Step-Video-TI2V 不仅支持高质量视频输出，还具备动态性调节和镜头运动控制功能，适用于动画制作、短视频创作、特效制作等多种场景。

Step-Video-TI2V 的主要功能

图生视频生成：用户可以提供一张图片和相关的文本描述，模型会根据这些输入生成一段连贯的视频。
高质量视频输出：支持生成最多 102 帧、5 秒、540P 分辨率的视频，能满足多种创作需求。
动态性调节：用户可以通过设置运动分数（motion score）来控制视频的动态性。例如，运动分数为 2 时，视频更稳定但动态性较差；运动分数为 10 或 20 时，视频的动态性更强。
平衡动态与稳定：通过运动分数的调节，用户可以在动态效果和稳定性之间找到最佳平衡。
镜头运动控制：支持多种运镜方式，包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等。
电影级运镜效果：能生成类似电影级别的复杂运镜效果，满足专业创作需求。
动漫效果优化：在动漫风格视频生成方面表现出色，能生成具有虚化背景、动态动作等特效的视频。适合用于动画创作、短视频制作等应用场景。
灵活的视频尺寸：支持多种尺寸的视频生成，包括横屏、竖屏和方屏，用户可以根据不同的创作需求和平台特性选择合适的视频尺寸。
多语言支持：配备双语文本编码器，支持中英文提示输入，方便不同语言背景的用户使用。
特效生成能力：初步具备特效生成能力，未来将通过技术优化进一步提升特效生成效果。

Step-Video-TI2V 的技术原理

深度压缩的变分自编码器（Video-VAE）：Step-Video-TI2V 使用了深度压缩的变分自编码器（Video-VAE），实现了 16×16 的空间压缩和 8× 的时间压缩。显著降低了视频生成任务的计算复杂度，同时保持了优异的视频重建质量。Video-VAE 采用了双路径架构，能有效分离高低频信息，进一步优化视频生成的效果。
基于扩散的 Transformer（DiT）架构：模型基于扩散的 Transformer（DiT）架构，包含 3D 全注意力机制。通过 Flow Matching 训练方法，将输入噪声逐步去噪为潜在帧，将文本嵌入和时间步作为条件因子。这种架构在生成具有强烈运动动态和高美学质量的视频方面表现出色。
双语文本编码器：Step-Video-TI2V 配备了双语文本编码器，能处理中英文提示。使模型可以直接理解中文或英文输入，生成与文本描述相符的视频。
直接偏好优化（DPO）：为了进一步提升生成视频的质量，Step-Video-TI2V 引入了视频直接偏好优化（Video-DPO）方法。DPO 通过人类偏好数据对模型进行微调，减少伪影并增强视觉效果，使生成的视频更加平滑和真实。
级联训练策略：模型采用了级联训练流程，包括文本到图像（T2I）预训练、文本到视频/图像（T2VI）预训练、文本到视频（T2V）微调和直接偏好优化（DPO）训练。加速了模型的收敛，充分利用了不同质量的视频数据。
系统优化：Step-Video-TI2V 在系统层面进行了优化，包括张量并行、序列并行和 Zero1 优化，实现高效的分布式训练。引入了高性能通信框架 StepRPC 和双层监控系统 StepTelemetry，优化数据传输效率和识别性能瓶颈。

如何运行 Step-Video-TI2V

1. 依赖安装

git clone https://github.com/stepfun-ai/Step-Video-TI2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo

cd Step-Video-TI2V
pip install -e .

2. 推理脚本

python api/call_remote_server.py --model_dir where_you_download_dir &  ## 假设你有 4 个以上的 GPU 可用。此命令将返回 caption API 和 VAE API 的 URL。请在以下命令中使用返回的 URL。

parallel=1 or 4  # 或 parallel=8 单 GPU 也可以预测结果，但耗时较长
url='127.0.0.1'
model_dir=where_you_download_dir

torchrun --nproc_per_node $parallel run_parallel.py --model_dir $model_dir --vae_url $url --caption_url $url  --ulysses_degree  $parallel --prompt "笑起来" --first_image_path ./assets/demo.png --infer_steps 50  --cfg_scale 9.0 --time_shift 13.0 --motion_score 5.0