一站式视频生成-MotionAgent操作指南

简介: 这是一段特效短片,虽然只有四秒,但它在推特上斩获了十多万浏览。

引入

这是一段特效短片,虽然只有四秒,但它在推特上斩获了十多万浏览。

提问,这条视频是用什么做的?


1.Unity

2.Houdini

3.illusion


好,现在公布答案。


这是由ModelScope上的开源模型I2VGen-XL制作的。

魔搭亲自问了作者,这个视频从无到有,只花了两分钟。


哎,肯定有人说,数字生命卡兹克做流浪地球的宣传片,就生成了几百个镜头,还有前期的脚本筹划,ai做视频太复杂啦。


别急!我们不光开源了I2VGen-XL,还专门打造了一个集合工具!

github开源地址:https://github.com/modelscope/motionagent

能一键生成剧本、剧照、视频、音乐的应用页面。



框架介绍


这个集合工具集成了大语言模型,文本生成图片模型,视频生成模型,音乐生成模型。你只需要贡献一个脑洞和创造力,下面的就都交给AI吧。


其中大语言模型是通义千问-7B-chat,你是不是,有想象力,但是很难表达?从来没有创作过剧本?中文很好,但是很多开源的文生图,文生视频模型目前还是基于英文的prompt?没关系,通义千问-7B-Chat,通过大模型的协作创作力,中英双语的多语言能力,你只需要简单描述希望写的剧本内容,它就可以帮你创作剧本,做好分镜,写好提示词,妥妥的编剧小能手。


其中文本生成图片,用的是stability最新的SDXL模型,它集高质量的文本到图像模型,一流的真实感和自由的风格定义,以及高稳定性为一体,是我们集合工具中最佳剧照产出者。


核心模型就是I2VGen-XL啦,他包含了一个图片生成视频模型和一个高清视频生成模型,可以配合prompt把一幅图片变成一个四秒的短片,且毫无违和感,很震撼。

最后我们还用了音乐生成模型,给定文字描述就可以生成想要各种音乐。


集成了通义千问,SDXL,I2VGen-XL等开源模型,先看一个自己生成的案例:


视频链接:https://live.csdn.net/v/324732



操作流程


剧本生成

我们使用的通义千问-7B的模型,利用大模型的创作能力剧本生成,打造世界观和讲故事是创作者最核心的能力,创作者输入主题,背景,剧情推动的幕数,以及剧情要求,结合通义千问-7B大语言模型生成高质量的内容。


剧照生成

剧照生成,输入剧本,大模型可以结合剧本内容,生成剧照描述,并转化为文生图模型的提示词prompt。同时可以选择合适的风格和参数,就可以生成剧照。


视频生成

视频生成,上传剧照,点击生成,得到满意的视频框架,再补充对视频内容的文本描述,然后生成高分辨率的视频。


音乐生成

音乐生成,音乐会极大影响观众如何感知视觉内容,并激发另一种浸入内容的感官体验。剪辑时需要搭配上视频和音乐的节拍,能够帮助用户整理预告片中表达的思路和故事线。


ENDING


以上,就是使用MotionAgent来生成视频的方法。只要告诉AI你的灵感火花,它就能像这样一站式生成视频,将你的想法轻松变成现实。在未来,视频的生成效果还将继续优化,创作能发挥的空间将越来越广阔。


人人都能成为艺术家即将到来,快来阿里云生成你的第一部AIGC影片吧!


欢迎大家来使用:https://github.com/modelscope/motionagent


相关文章
|
机器学习/深度学习 人工智能 算法
阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能
【1月更文挑战第2天】在科技日新月异的时代,艺术创作的疆界正以前所未有的速度拓展,,从AI作曲和音乐生成技术带来的跨风格音乐作品,到基于人工智能的诗歌与文学创作,艺术不再仅仅是人类个体情感与才华的体现,而成为人机交互、数据智能与创新思维相互融合的新领域。 近日,阿里云再次引领创新潮流,推出一款令人叹为观止的AI黑科技——通义舞王
阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
关系型数据库 MySQL Linux
Linux在线安装MySQL8
Linux在线安装MySQL8
568 0
|
机器学习/深度学习
基于PaddleGAN精准唇形合成模型实现美女表白视频
基于PaddleGAN精准唇形合成模型实现美女表白视频
2150 0
基于PaddleGAN精准唇形合成模型实现美女表白视频
|
12月前
|
编解码 自然语言处理 开发者
通义音乐生成技术InspireMusic开源!
通义音乐生成技术InspireMusic开源!
858 2
|
并行计算 API C++
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2项目近期炸裂更新,放出了v2.0.2版本的代码,修正了存在于2.0先前版本的重大bug,并且重炼了底模,本次更新是即1.1.1版本后最重大的更新,支持了三语言训练及混合合成,并且做到向下兼容,可以推理老版本的模型,本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
|
6月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
1167 2
|
10月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
2019 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
6月前
|
数据可视化
和平精英脚本,王者荣耀脚本,autojs最新开源代码
采用模块化设计,包含通用功能、和平精英和王者荣耀三大 实现贝塞尔曲线滑动模拟真人操作,降低封号风险
|
前端开发
自定义 Hook 编写指南
【10月更文挑战第15天】本文介绍了 React 中的 Hooks 和自定义 Hook 的基本概念、编写方法及常见问题。通过具体代码示例,详细讲解了如何在函数组件中使用状态和其他 React 特性,并分享了避免常见错误的技巧。自定义 Hook 可以帮助你将组件中的逻辑提取出来,使其更加可重用和可维护。
832 68