阶跃星辰开源Step-Video-TI2V 图生视频模型介绍-阿里云开发者社区

阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

2025-03-21 713

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在今年 2 月，阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型，为开源社区贡献了自己的多模态力量。

00引言

在今年 2 月，阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型，为开源社区贡献了自己的多模态力量。

近日，阶跃星辰宣布开源图生视频模型——Step-Video-TI2V，基于 30B 参数Step-Video-T2V训练的图生视频模型，支持生成 102 帧、5 秒、540P 分辨率的视频，具备运动幅度可控和镜头运动可控两大核心特点，同时天生具备一定的特效生成能力。

和目前已有开源图生视频模型相比，Step-Video-TI2V 不仅在参数规模上对该领域的研究提供了更高的上限，其运动幅度可控能力，更是能够平衡图生视频生成结果的动态性和稳定性，为创作者提供更为灵活的选择。

https://live.csdn.net/v/470016

https://live.csdn.net/v/470018

01.两大技术亮点解析：Step-Video-TI2V 是如何炼成的

相比文生视频模型 Step-Video-T2V，此次开源的 Step-Video-TI2V 主要针对图生视频任务做了两大关键优化：

编辑

第一，引入图像条件，提高一致性

为了让模型更好地理解输入的图片，我们没有采用传统的 cross-attention 方法，而是使用了更直接、更高效的方式，将该图像对应的向量表示和 DiT 第一帧对应的向量表示直接进行 channel 维度的拼接，这样生成的视频能和原图更一致。

第二，引入运动幅度控制，赋予用户更高自由度

在训练过程中，Step-Video-TI2V 通过 AdaLN 模块引入视频动态性打分信息，特别训练模型学习了视频的动感程度。用户在生成时可以简单地指定不同的运动级别（motion = 2， 5， 10），精准控制视频的动态幅度，平衡视频的动态性、稳定性和一致性。

编辑

此外，在数据优化方面，对于主体动作和镜头运动，我们进行了专项精准标注，使得 Step-Video-TI2V 在主体动态性和运镜效果上更具优势。

在 VBench-I2V 基准测试中，Step-Video-TI2V 取得了 state-of-the-art 级别的表现，并验证了动态性打分对生成视频稳定性和一致性的控制能力。

编辑

02.核心特点

1、运动幅度可控：动态 & 稳定自由切换

Step-Video-TI2V 支持控制视频的“运动幅度（motion）”，平衡图生视频内容的运动性和稳定性。无论是静态稳定画面，还是高动态动作场景，都能满足创作者需求。

https://live.csdn.net/v/470019

从左至右，运动幅度（motion）依次为：2 / 5 / 10 / 20，数值越大，动态性越强。生成时推荐 2、5、10 等数值。

2、多种运镜控制

除了对镜头内主体运动的控制， Step-Video-TI2V 支持对多种运镜的理解，可以对生成视频中的镜头运动进行精准控制，生成大片级运镜效果。从基本的推拉摇移、升降，到各种复杂的电影级运镜效果都能驾驭。

https://live.csdn.net/v/470020

https://live.csdn.net/v/470021

https://live.csdn.net/v/470022

3、动漫效果尤佳

Step-Video-TI2V 在动漫类任务上的效果尤其优异，非常贴合动画创作、短视频制作等应用场景。

https://live.csdn.net/v/470023

https://live.csdn.net/v/470024

4、支持多尺寸生成

Step-Video-TI2V 支持多种尺寸图生视频，横屏的宽阔视野，竖屏的沉浸体验，还是方屏的经典复古，让创作随心所欲。

用户可以根据不同的创作需求和平台特性，自由选择图片尺寸，无需担心画面变形或比例失调的问题。

https://live.csdn.net/v/470025

模型及技术报告链接如下，可复制到浏览器查看：

03.欢迎体验

现在，Step-Video-TI2V 模型已正式开源！阶跃 AI 网页版和 App 端均已上线，欢迎立即体验！

👉 网页版直达：

输入网址 https://yuewen.cn/，点击左边的【阶跃视频】即可体验；或者直接进入阶跃视频 https://yuewen.cn/videos。

👉 App 体验：

下载阶跃 AI，点击【视频创作】即可。

编辑

此外，Step-Video-TI2V 现在已初步具备一些特效生成能力，未来，我们还将通过 LoRA 等技术，持续解锁模型的特效潜力，敬请期待更多惊喜！

04.模型推理

1、下载模型的权重，可以在 modelscope 上进行下载：https://modelscope.cn/models/stepfun-ai/stepvideo-ti2v/summary

#从modelscop下载stepvideo-ti2v模型
from modelscope import snapshot_download
# local_dir 指定下载路径
model_dir = snapshot_download('stepfun-ai/stepvideo-ti2v',local_dir='models/stepvideo/stepvideo-ti2v')

2、从github中下载推理代码，安装所需环境

git clone https://github.com/stepfun-ai/Step-Video-TI2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo
cd StepFun-StepVideo
pip install -e .

3、在推理的时候对文本编码器、VAE解码和DiT采用了解耦策，先在本地启动一个api服务，在一个单独的GPU上加载文本编码器和VAE解码器，默认会使用机器上编号最后一个GPU。启动之后得到一个url，后续的文本编码和VAE解码会发到这个url 进行处理

# model_dir 是上面模型下载的路径
python api/call_remote_server.py --model_dir models/stepvideo/stepvideo-ti2v &

4、采用多卡并行生成视频，在一个sh脚本定义参数和运行命令，通过运行sh脚本进行视频生成。

parallel=4  # 使用多少张卡进行推理
url='127.0.0.1' # 上面启动编码器和VAE解码器服务的url，默认是‘127.0.0.1’
model_dir=models/stepvideo/stepvideo-ti2v # 模型路径
torchrun --nproc_per_node $parallel run_parallel.py \
    --model_dir $model_dir \
    --vae_url $url \
    --caption_url $url  \
    --ulysses_degree  $parallel \
    --prompt "女孩头发在飘荡" \  # 生成视频的 prompt
    --first_image_path ./assets/girl.jpg \ # 参考图片的路径
    --infer_steps 50 \
    --save_path ./results \  # 保存视频路径
    --cfg_scale 9.0 \
    --motion_score 5.0 \
    --time_shift 12.573