阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。

00引言

在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。

 

近日,阶跃星辰宣布开源图生视频模型——Step-Video-TI2V,基于 30B 参数Step-Video-T2V训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。

 

和目前已有开源图生视频模型相比,Step-Video-TI2V 不仅在参数规模上对该领域的研究提供了更高的上限,其运动幅度可控能力,更是能够平衡图生视频生成结果的动态性和稳定性,为创作者提供更为灵活的选择。

01.两大技术亮点解析:Step-Video-TI2V 是如何炼成的

 

相比文生视频模型 Step-Video-T2V,此次开源的 Step-Video-TI2V 主要针对图生视频任务做了两大关键优化:

image.gif 编辑

 

第一,引入图像条件,提高一致性

为了让模型更好地理解输入的图片,我们没有采用传统的 cross-attention 方法,而是使用了更直接、更高效的方式,将该图像对应的向量表示和 DiT 第一帧对应的向量表示直接进行 channel 维度的拼接,这样生成的视频能和原图更一致。

 

第二,引入运动幅度控制,赋予用户更高自由度

在训练过程中,Step-Video-TI2V 通过 AdaLN 模块引入视频动态性打分信息,特别训练模型学习了视频的动感程度。用户在生成时可以简单地指定不同的运动级别(motion = 2, 5, 10),精准控制视频的动态幅度,平衡视频的动态性、稳定性和一致性。

 

image.gif 编辑

 

此外,在数据优化方面,对于主体动作和镜头运动,我们进行了专项精准标注,使得 Step-Video-TI2V 在主体动态性和运镜效果上更具优势。

 

在 VBench-I2V 基准测试中,Step-Video-TI2V 取得了 state-of-the-art 级别的表现,并验证了动态性打分对生成视频稳定性和一致性的控制能力。

 

image.gif 编辑

 

02.核心特点

1、运动幅度可控:动态 & 稳定自由切换

Step-Video-TI2V 支持控制视频的“运动幅度(motion)”,平衡图生视频内容的运动性和稳定性。无论是静态稳定画面,还是高动态动作场景,都能满足创作者需求。

https://live.csdn.net/v/470019

从左至右,运动幅度(motion)依次为:2 / 5 / 10 / 20,数值越大,动态性越强。生成时推荐 2、5、10 等数值。

2、多种运镜控制

除了对镜头内主体运动的控制, Step-Video-TI2V 支持对多种运镜的理解,可以对生成视频中的镜头运动进行精准控制,生成大片级运镜效果。从基本的推拉摇移、升降,到各种复杂的电影级运镜效果都能驾驭。

3、动漫效果尤佳

Step-Video-TI2V 在动漫类任务上的效果尤其优异,非常贴合动画创作、短视频制作等应用场景。

4、支持多尺寸生成

Step-Video-TI2V 支持多种尺寸图生视频,横屏的宽阔视野,竖屏的沉浸体验,还是方屏的经典复古,让创作随心所欲。

用户可以根据不同的创作需求和平台特性,自由选择图片尺寸,无需担心画面变形或比例失调的问题。

模型及技术报告链接如下,可复制到浏览器查看:

03.欢迎体验

现在,Step-Video-TI2V 模型已正式开源!阶跃 AI 网页版和 App 端均已上线,欢迎立即体验!

👉 网页版直达:

输入网址 https://yuewen.cn/,点击左边的【阶跃视频】即可体验;或者直接进入阶跃视频 https://yuewen.cn/videos

👉 App 体验:

下载阶跃 AI,点击【视频创作】即可。

image.gif 编辑

此外,Step-Video-TI2V 现在已初步具备一些特效生成能力,未来,我们还将通过 LoRA 等技术, 持续解锁模型的特效潜力,敬请期待更多惊喜!

04.模型推理

1、下载模型的权重,可以在 modelscope 上进行下载:https://modelscope.cn/models/stepfun-ai/stepvideo-ti2v/summary

#从modelscop下载stepvideo-ti2v模型
from modelscope import snapshot_download
# local_dir 指定下载路径
model_dir = snapshot_download('stepfun-ai/stepvideo-ti2v',local_dir='models/stepvideo/stepvideo-ti2v')

image.gif

2、从github中下载推理代码,安装所需环境

git clone https://github.com/stepfun-ai/Step-Video-TI2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo
cd StepFun-StepVideo
pip install -e .

image.gif

3、在推理的时候对文本编码器、VAE解码和DiT采用了解耦策,先在本地启动一个api服务,在一个单独的GPU上加载文本编码器和VAE解码器,默认会使用机器上编号最后一个GPU。启动之后得到一个url,后续的文本编码和VAE解码会发到这个url 进行处理

# model_dir 是上面模型下载的路径
python api/call_remote_server.py --model_dir models/stepvideo/stepvideo-ti2v &

image.gif

 

4、采用多卡并行生成视频,在一个sh脚本定义参数和运行命令,通过运行sh脚本进行视频生成。

parallel=4  # 使用多少张卡进行推理
url='127.0.0.1' # 上面启动编码器和VAE解码器服务的url,默认是‘127.0.0.1’
model_dir=models/stepvideo/stepvideo-ti2v # 模型路径
torchrun --nproc_per_node $parallel run_parallel.py \
    --model_dir $model_dir \
    --vae_url $url \
    --caption_url $url  \
    --ulysses_degree  $parallel \
    --prompt "女孩头发在飘荡" \  # 生成视频的 prompt
    --first_image_path ./assets/girl.jpg \ # 参考图片的路径
    --infer_steps 50 \
    --save_path ./results \  # 保存视频路径
    --cfg_scale 9.0 \
    --motion_score 5.0 \
    --time_shift 12.573

image.gif

点击链接,即可跳转链接~

https://modelscope.cn/models/stepfun-ai/stepvideo-ti2v


目录
相关文章
|
6月前
|
机器学习/深度学习 人工智能 编解码
Step-Video-TI2V:开源视频生成核弹!300亿参数+102帧电影运镜
Step-Video-TI2V 是阶跃星辰推出的开源图生视频模型,支持根据文本和图像生成高质量视频,具备动态性调节和多种镜头运动控制功能,适用于动画制作、短视频创作等场景。
320 0
Step-Video-TI2V:开源视频生成核弹!300亿参数+102帧电影运镜
|
6月前
|
人工智能 监控 数据可视化
Manus再遭复刻!开源多智能体协作工具,实时查看每个AI员工的"脑回路"
LangManus 是一个基于分层多智能体系统的 AI 自动化框架,支持多种语言模型和工具集成,能够高效完成复杂任务,适用于人力资源、房产决策、旅行规划等多个场景。
740 0
|
5月前
|
人工智能 编解码 自然语言处理
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
DreamActor-M1是字节跳动研发的AI图像动画框架,通过混合引导机制实现高保真人物动画生成,支持多语言语音驱动和形状自适应功能。
579 40
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
|
6月前
|
人工智能 网络协议 Java
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。
1533 77
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
|
6月前
|
人工智能 监控 JavaScript
Crack Coder:在线面试“AI外挂”!编程问题秒出答案,完全绕过屏幕监控,连录屏都抓不到痕迹!
Crack Coder 是一款开源的隐形 AI 辅助工具,专为技术面试设计,支持多种编程语言,提供实时编程问题解决方案,帮助面试者高效解决问题。
237 14
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定
Reve Image 是 Reve 推出的全新 AI 图像生成模型,专注于提升美学表现、精确的提示遵循能力以及出色的排版设计,能生成高质量的视觉作品。
386 29
Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定
|
6月前
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
3341 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
|
6月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
282 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
|
6月前
|
机器学习/深度学习 人工智能 API
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
288 2
|
6月前
|
前端开发 测试技术 API
DeepSeek-V3小版本升级,非推理模型王者归来
今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。
247 5

热门文章

最新文章