52个AIGC视频生成算法模型介绍(下)

简介: 52个AIGC视频生成算法模型介绍(下)

52个AIGC视频生成算法模型介绍(中):https://developer.aliyun.com/article/1480688

 长视频生成


  • NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation


机构:微软亚研院

时间:2023.3.22

https://msra-nuwa.azurewebsites.net/

  • Latent Video Diffusion Models for High-Fidelity Long Video Generation


机构:腾讯AI Lab

时间:2023.3.20


  • Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising


机构:上海AI Lab

时间:2023.3.29

https://github.com/G-U-N/Gen-L-Video


  • Sora(OpenAI)


时间:2024.2

https://openai.com/sora(未开源)



  • Latte: Latent Diffusion Transformer for Video Generation


机构:上海AI Lab

时间:2024.1.5

https://maxin-cn.github.io/latte_project

算法效果分析

本章节选择了一些代表性的方法进行效果分析


  • Animate Diff


效果:https://animatediff.github.io/,支持文生视频,图生视频,以及和controlnet结合做视频编辑


  • Animate Diff+ControlNet


输入视频:moonwalk.mp4输出样例

canny和openpose

注意:要输入主语保证主体一致性(比如michael jackson或者a boy)


  • AnimateAnything


能够指定图片的运动区域,根据文本进行图片的动态化

效果:


  • Stable Video Diffusion


能够基于静止图片生成25帧的序列(576x1024)

效果:

ControlVideo

输入+输出样例:500.mp4,300.mp4,整体效果不错

问题:因为推理过程需要额外的训练,消耗时间久,第一个视频需要50min(32帧),第二个视频需要14min(8帧)




  • Rerender A Video


整体效果还可以,运行速度和视频帧数有关,10s视频大约在20min左右。


  • DCTNet


效果:整体画面稳定,支持7种风格,显存要求低(6-7G),上面视频40s左右就可以处理完


  • DreamPose




  • Animate Anyone


  • MagicDance


输入图片:


输出:

  • Sora


效果:https://openai.com/sora能够生成长视频,质量很好,但是尚未开源

image.png

总结和展望

  1. 文生视频和图生视频算法:其中Animate Diff,VideoCrafter等已经开源,支持文/图生成视频,并且经过测试效果还不错,同时图生视频还支持通过结合不同的base模型实现视频的风格化。不过生成的视频帧数基本都在2s以内,可以作为动图的形式进行展示。其中Stable Video Diffusion是stability ai开源的一个图生视频的算法,效果相对更加逼真,视频质量更高,但是视频长度依旧很短。
  2. 视频编辑算法:比如基于controlnet的可控生成视频可以初步达到预期的效果,支持实现特定目标或者属性(颜色等)的更换,也支持人物的换装(比如颜色描述)等等,其中生成的视频长度和GPU显存相关。
  3. 视频风格化:基于diffusion 模型的视频风格化效果最好的是rerender a video,可以支持prompt描述来进行视频的风格化,整体来讲这个方法对人脸和自然环境有比较好的效果,运行成本也相对较低(相较于视频编辑算法)
  4. 特定的人物动态化算法:目前demo效果最好的animate anyone和dream moving都还没有开源。不过这两个算法都对外开放了使用接口,比如通义千问app以及modelscope平台。重点介绍一下通义实验室的Dream moving,https://www.modelscope.cn/studios/vigen/video_generation/summary是其开放的使用平台,里面支持同款的动作生成,图生视频,视频的风格化以及视频贺卡等功能,整体来讲效果很好。而目前开源的方法中,测试的效果最好的是MagicDance,但是人脸有一定的模糊,距离animate anyone和dream moving展示的效果还有差距。
  5. 长视频算法:随着Sora的出现,Diffusion Transformer的架构后续会备受关注,目前大部分算法都局限于2s左右的短视频生成,而且质量上不如Sora。后续会有更多的算法将Sora的思路融入现有的方法中,不断提升视频质量和视频长度。不过目前sora的模型和实现细节并没有在技术报告中公开,因此在未来还会有一段的摸索路要走。
  6. 整体总结:

是否可用

优势

劣势

适用场景

代表性方法

文/图生视频

视频质量高

视频长度短

短视频动态封面

Animate Diff(可扩展性强)

VideoCrafter(质量较好)

Stable Video Diffusion(质量更好)

视频编辑算法

待定

算法种类多,可实现的功能多(修改任意目标的属性)

推理速度较慢,显存要求高,视频长度短

人物换装(最简单的改变衣服颜色),目标编辑,用户体验

ControlVideo(效果好但运行时间久)

视频风格化

显存要求相对视频编辑更低,推理速度更快。

画面存在一定的不稳定问题。但是基于GAN的DCTNet相对更稳定

用户体验

Rerender-A-Video(更灵活)

DCTNet(效果更稳定)

人物动态化

待定

用户可玩性高

效果最好的代码暂时没有开源,开源的代码生成的人脸会有一定的模糊

用户体验

Animate Anyone(待开源)

DreamMoving(待开源)

MagicDance(已开源)

长视频生成

视频长度远超2s

整体质量偏差

(Sora还没开源)

影视制作

Sora



目录
相关文章
|
7天前
|
算法 数据可视化 数据挖掘
算法金 | 一个强大的算法模型:t-SNE !!
**t-SNE算法简介** t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非线性降维技术,用于高维数据的可视化和结构保留。它通过保持高维数据点间的局部相似性来创建低维表示,尤其适用于揭示复杂数据集的模式。算法的关键在于使用高斯分布计算高维相似性,而用t分布计算低维相似性,并通过最小化Kullback-Leibler散度来优化低维空间的位置。t-SNE在图像、文本和生物信息学等领域有广泛应用,但计算复杂度高,不适合大规模数据。
22 6
算法金 | 一个强大的算法模型:t-SNE !!
|
10天前
|
机器学习/深度学习 数据采集 监控
算法金 | 选择最佳机器学习模型的 10 步指南
许多刚入门的学习者也面临着相似的挑战,特别是在项目启动初期的方向确定和结构规划上。本文意在提供一份全面指南,助你以正确的方法开展项目。 遵循本文提供的每一步至关重要(虽有少数例外)。就像不做饭或点餐就无法享用美食一样,不亲自动手构建模型,就无法实现模型部署。
38 7
算法金 | 选择最佳机器学习模型的 10 步指南
|
6天前
|
人工智能 自然语言处理 机器人
【AIGC】大型语言模型在人工智能规划领域模型生成中的探索
【AIGC】大型语言模型在人工智能规划领域模型生成中的探索
34 6
|
12天前
|
人工智能 JavaScript Java
《AIGC+软件开发新范式》--10.阿里云参编业内首个代码大模型标准,通义灵码获 2023 AI4SE “银弹” 案例
阿里云参编业内首个代码大模型标准,通义灵码获 2023 AI4SE “银弹” 案例
|
12天前
|
SQL 人工智能 Devops
《AIGC+软件开发新范式》--01.当「软件研发」遇上 AI 大模型(1)
《AIGC+软件开发新范式》--01.当「软件研发」遇上 AI 大模型(1)
|
12天前
|
人工智能 自然语言处理 IDE
《AIGC+软件开发新范式》--01.当「软件研发」遇上 AI 大模型(2)
《AIGC+软件开发新范式》--01.当「软件研发」遇上 AI 大模型
|
12天前
|
人工智能 运维 搜索推荐
《AIGC+软件开发新范式》--01.当「软件研发」遇上 AI 大模型(3)
《AIGC+软件开发新范式》--01.当「软件研发」遇上 AI 大模型
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型的核心成功因素通常可以归结为三大要素:大数据、大算力和强算法。
AI大模型的核心成功因素通常可以归结为三大要素:大数据、大算力和强算法。
18 0
|
6天前
|
存储 算法 Java
面试高频算法题汇总「图文解析 + 教学视频 + 范例代码」之 二分 + 哈希表 + 堆 + 优先队列 合集
面试高频算法题汇总「图文解析 + 教学视频 + 范例代码」之 二分 + 哈希表 + 堆 + 优先队列 合集
|
6天前
|
机器学习/深度学习 人工智能 算法
【机器学习】模型、算法与数据—机器学习三要素
【机器学习】模型、算法与数据—机器学习三要素
110 0