52个AIGC视频生成算法模型介绍（下）-阿里云开发者社区

52个AIGC视频生成算法模型介绍（下）

2024-04-12 416 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 52个AIGC视频生成算法模型介绍（下）

52个AIGC视频生成算法模型介绍（中）：https://developer.aliyun.com/article/1480688

▐ 长视频生成

NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation

机构：微软亚研院

时间：2023.3.22

https://msra-nuwa.azurewebsites.net/

Latent Video Diffusion Models for High-Fidelity Long Video Generation

机构：腾讯AI Lab

时间：2023.3.20

Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

机构：上海AI Lab

时间：2023.3.29

https://github.com/G-U-N/Gen-L-Video

Sora（OpenAI）

时间：2024.2

https://openai.com/sora（未开源）

Latte: Latent Diffusion Transformer for Video Generation

机构：上海AI Lab

时间：2024.1.5

https://maxin-cn.github.io/latte_project

算法效果分析

本章节选择了一些代表性的方法进行效果分析

Animate Diff

效果：https://animatediff.github.io/，支持文生视频，图生视频，以及和controlnet结合做视频编辑

Animate Diff+ControlNet

输入视频：moonwalk.mp4输出样例

canny和openpose

注意：要输入主语保证主体一致性（比如michael jackson或者a boy）

AnimateAnything

能够指定图片的运动区域，根据文本进行图片的动态化

效果：

Stable Video Diffusion

能够基于静止图片生成25帧的序列(576x1024)

效果：

ControlVideo

输入+输出样例：500.mp4，300.mp4，整体效果不错

问题：因为推理过程需要额外的训练，消耗时间久，第一个视频需要50min（32帧），第二个视频需要14min（8帧）

Rerender A Video

整体效果还可以，运行速度和视频帧数有关，10s视频大约在20min左右。

DCTNet

效果：整体画面稳定，支持7种风格，显存要求低（6-7G），上面视频40s左右就可以处理完

DreamPose

Animate Anyone

MagicDance

输入图片：

输出：

Sora

效果：https://openai.com/sora能够生成长视频，质量很好，但是尚未开源

总结和展望

文生视频和图生视频算法：其中Animate Diff，VideoCrafter等已经开源，支持文/图生成视频，并且经过测试效果还不错，同时图生视频还支持通过结合不同的base模型实现视频的风格化。不过生成的视频帧数基本都在2s以内，可以作为动图的形式进行展示。其中Stable Video Diffusion是stability ai开源的一个图生视频的算法，效果相对更加逼真，视频质量更高，但是视频长度依旧很短。
视频编辑算法：比如基于controlnet的可控生成视频可以初步达到预期的效果，支持实现特定目标或者属性（颜色等）的更换，也支持人物的换装（比如颜色描述）等等，其中生成的视频长度和GPU显存相关。
视频风格化：基于diffusion 模型的视频风格化效果最好的是rerender a video，可以支持prompt描述来进行视频的风格化，整体来讲这个方法对人脸和自然环境有比较好的效果，运行成本也相对较低（相较于视频编辑算法）
特定的人物动态化算法：目前demo效果最好的animate anyone和dream moving都还没有开源。不过这两个算法都对外开放了使用接口，比如通义千问app以及modelscope平台。重点介绍一下通义实验室的Dream moving，https://www.modelscope.cn/studios/vigen/video_generation/summary是其开放的使用平台，里面支持同款的动作生成，图生视频，视频的风格化以及视频贺卡等功能，整体来讲效果很好。而目前开源的方法中，测试的效果最好的是MagicDance，但是人脸有一定的模糊，距离animate anyone和dream moving展示的效果还有差距。
长视频算法：随着Sora的出现，Diffusion Transformer的架构后续会备受关注，目前大部分算法都局限于2s左右的短视频生成，而且质量上不如Sora。后续会有更多的算法将Sora的思路融入现有的方法中，不断提升视频质量和视频长度。不过目前sora的模型和实现细节并没有在技术报告中公开，因此在未来还会有一段的摸索路要走。
整体总结：

	是否可用	优势	劣势	适用场景	代表性方法
文/图生视频	是	视频质量高	视频长度短	短视频动态封面	Animate Diff（可扩展性强） VideoCrafter（质量较好） Stable Video Diffusion（质量更好）
视频编辑算法	待定	算法种类多，可实现的功能多（修改任意目标的属性）	推理速度较慢，显存要求高，视频长度短	人物换装（最简单的改变衣服颜色），目标编辑，用户体验	ControlVideo（效果好但运行时间久）
视频风格化	是	显存要求相对视频编辑更低，推理速度更快。	画面存在一定的不稳定问题。但是基于GAN的DCTNet相对更稳定	用户体验	Rerender-A-Video（更灵活） DCTNet（效果更稳定）
人物动态化	待定	用户可玩性高	效果最好的代码暂时没有开源，开源的代码生成的人脸会有一定的模糊	用户体验	Animate Anyone（待开源） DreamMoving（待开源） MagicDance（已开源）
长视频生成	否	视频长度远超2s	整体质量偏差（Sora还没开源）	影视制作	Sora

52个AIGC视频生成算法模型介绍（下）

▐ 长视频生成

ControlVideo

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

52个AIGC视频生成算法模型介绍（下）

▐ 长视频生成

ControlVideo

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景