52个AIGC视频生成算法模型介绍(中):https://developer.aliyun.com/article/1480688
▐ 长视频生成
- NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation
机构:微软亚研院
时间:2023.3.22
https://msra-nuwa.azurewebsites.net/
- Latent Video Diffusion Models for High-Fidelity Long Video Generation
机构:腾讯AI Lab
时间:2023.3.20
- Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising
机构:上海AI Lab
时间:2023.3.29
https://github.com/G-U-N/Gen-L-Video
- Sora(OpenAI)
时间:2024.2
https://openai.com/sora(未开源)
- Latte: Latent Diffusion Transformer for Video Generation
机构:上海AI Lab
时间:2024.1.5
https://maxin-cn.github.io/latte_project
算法效果分析
本章节选择了一些代表性的方法进行效果分析
- Animate Diff
效果:https://animatediff.github.io/,支持文生视频,图生视频,以及和controlnet结合做视频编辑
- Animate Diff+ControlNet
输入视频:moonwalk.mp4输出样例
canny和openpose
注意:要输入主语保证主体一致性(比如michael jackson或者a boy)
- AnimateAnything
能够指定图片的运动区域,根据文本进行图片的动态化
效果:
- Stable Video Diffusion
能够基于静止图片生成25帧的序列(576x1024)
效果:
ControlVideo
输入+输出样例:500.mp4,300.mp4,整体效果不错
问题:因为推理过程需要额外的训练,消耗时间久,第一个视频需要50min(32帧),第二个视频需要14min(8帧)
- Rerender A Video
整体效果还可以,运行速度和视频帧数有关,10s视频大约在20min左右。
- DCTNet
效果:整体画面稳定,支持7种风格,显存要求低(6-7G),上面视频40s左右就可以处理完
- DreamPose
- Animate Anyone
- MagicDance
输入图片:
输出:
- Sora
效果:https://openai.com/sora能够生成长视频,质量很好,但是尚未开源
总结和展望
- 文生视频和图生视频算法:其中Animate Diff,VideoCrafter等已经开源,支持文/图生成视频,并且经过测试效果还不错,同时图生视频还支持通过结合不同的base模型实现视频的风格化。不过生成的视频帧数基本都在2s以内,可以作为动图的形式进行展示。其中Stable Video Diffusion是stability ai开源的一个图生视频的算法,效果相对更加逼真,视频质量更高,但是视频长度依旧很短。
- 视频编辑算法:比如基于controlnet的可控生成视频可以初步达到预期的效果,支持实现特定目标或者属性(颜色等)的更换,也支持人物的换装(比如颜色描述)等等,其中生成的视频长度和GPU显存相关。
- 视频风格化:基于diffusion 模型的视频风格化效果最好的是rerender a video,可以支持prompt描述来进行视频的风格化,整体来讲这个方法对人脸和自然环境有比较好的效果,运行成本也相对较低(相较于视频编辑算法)
- 特定的人物动态化算法:目前demo效果最好的animate anyone和dream moving都还没有开源。不过这两个算法都对外开放了使用接口,比如通义千问app以及modelscope平台。重点介绍一下通义实验室的Dream moving,https://www.modelscope.cn/studios/vigen/video_generation/summary是其开放的使用平台,里面支持同款的动作生成,图生视频,视频的风格化以及视频贺卡等功能,整体来讲效果很好。而目前开源的方法中,测试的效果最好的是MagicDance,但是人脸有一定的模糊,距离animate anyone和dream moving展示的效果还有差距。
- 长视频算法:随着Sora的出现,Diffusion Transformer的架构后续会备受关注,目前大部分算法都局限于2s左右的短视频生成,而且质量上不如Sora。后续会有更多的算法将Sora的思路融入现有的方法中,不断提升视频质量和视频长度。不过目前sora的模型和实现细节并没有在技术报告中公开,因此在未来还会有一段的摸索路要走。
- 整体总结:
是否可用 |
优势 |
劣势 |
适用场景 |
代表性方法 |
|
文/图生视频 |
是 |
视频质量高 |
视频长度短 |
短视频动态封面 |
Animate Diff(可扩展性强) VideoCrafter(质量较好) Stable Video Diffusion(质量更好) |
视频编辑算法 |
待定 |
算法种类多,可实现的功能多(修改任意目标的属性) |
推理速度较慢,显存要求高,视频长度短 |
人物换装(最简单的改变衣服颜色),目标编辑,用户体验 |
ControlVideo(效果好但运行时间久) |
视频风格化 |
是 |
显存要求相对视频编辑更低,推理速度更快。 |
画面存在一定的不稳定问题。但是基于GAN的DCTNet相对更稳定 |
用户体验 |
Rerender-A-Video(更灵活) DCTNet(效果更稳定) |
人物动态化 |
待定 |
用户可玩性高 |
效果最好的代码暂时没有开源,开源的代码生成的人脸会有一定的模糊 |
用户体验 |
Animate Anyone(待开源) DreamMoving(待开源) MagicDance(已开源) |
长视频生成 |
否 |
视频长度远超2s |
整体质量偏差 (Sora还没开源) |
影视制作 |
Sora |