一站式视频生成-MotionAgent操作指南

2023-09-01 5289

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这是一段特效短片，虽然只有四秒，但它在推特上斩获了十多万浏览。

引入

这是一段特效短片，虽然只有四秒，但它在推特上斩获了十多万浏览。

提问，这条视频是用什么做的？

1.Unity

2.Houdini

3.illusion

好，现在公布答案。

这是由ModelScope上的开源模型I2VGen-XL制作的。

魔搭亲自问了作者，这个视频从无到有，只花了两分钟。

哎，肯定有人说，数字生命卡兹克做流浪地球的宣传片，就生成了几百个镜头，还有前期的脚本筹划，ai做视频太复杂啦。

别急！我们不光开源了I2VGen-XL，还专门打造了一个集合工具！

github开源地址：https://github.com/modelscope/motionagent

能一键生成剧本、剧照、视频、音乐的应用页面。

框架介绍

这个集合工具集成了大语言模型，文本生成图片模型，视频生成模型，音乐生成模型。你只需要贡献一个脑洞和创造力，下面的就都交给AI吧。

其中大语言模型是通义千问-7B-chat，你是不是，有想象力，但是很难表达？从来没有创作过剧本？中文很好，但是很多开源的文生图，文生视频模型目前还是基于英文的prompt？没关系，通义千问-7B-Chat，通过大模型的协作创作力，中英双语的多语言能力，你只需要简单描述希望写的剧本内容，它就可以帮你创作剧本，做好分镜，写好提示词，妥妥的编剧小能手。

其中文本生成图片，用的是stability最新的SDXL模型，它集高质量的文本到图像模型，一流的真实感和自由的风格定义，以及高稳定性为一体，是我们集合工具中最佳剧照产出者。

核心模型就是I2VGen-XL啦，他包含了一个图片生成视频模型和一个高清视频生成模型，可以配合prompt把一幅图片变成一个四秒的短片，且毫无违和感，很震撼。

最后我们还用了音乐生成模型，给定文字描述就可以生成想要各种音乐。

集成了通义千问，SDXL，I2VGen-XL等开源模型，先看一个自己生成的案例：

视频链接：https://live.csdn.net/v/324732