52个AIGC视频生成算法模型介绍(下)

简介: 52个AIGC视频生成算法模型介绍(下)

52个AIGC视频生成算法模型介绍(中):https://developer.aliyun.com/article/1480688

 长视频生成


  • NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation


机构:微软亚研院

时间:2023.3.22

https://msra-nuwa.azurewebsites.net/

  • Latent Video Diffusion Models for High-Fidelity Long Video Generation


机构:腾讯AI Lab

时间:2023.3.20


  • Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising


机构:上海AI Lab

时间:2023.3.29

https://github.com/G-U-N/Gen-L-Video


  • Sora(OpenAI)


时间:2024.2

https://openai.com/sora(未开源)



  • Latte: Latent Diffusion Transformer for Video Generation


机构:上海AI Lab

时间:2024.1.5

https://maxin-cn.github.io/latte_project

算法效果分析

本章节选择了一些代表性的方法进行效果分析


  • Animate Diff


效果:https://animatediff.github.io/,支持文生视频,图生视频,以及和controlnet结合做视频编辑


  • Animate Diff+ControlNet


输入视频:moonwalk.mp4输出样例

canny和openpose

注意:要输入主语保证主体一致性(比如michael jackson或者a boy)


  • AnimateAnything


能够指定图片的运动区域,根据文本进行图片的动态化

效果:


  • Stable Video Diffusion


能够基于静止图片生成25帧的序列(576x1024)

效果:

ControlVideo

输入+输出样例:500.mp4,300.mp4,整体效果不错

问题:因为推理过程需要额外的训练,消耗时间久,第一个视频需要50min(32帧),第二个视频需要14min(8帧)




  • Rerender A Video


整体效果还可以,运行速度和视频帧数有关,10s视频大约在20min左右。


  • DCTNet


效果:整体画面稳定,支持7种风格,显存要求低(6-7G),上面视频40s左右就可以处理完


  • DreamPose




  • Animate Anyone


  • MagicDance


输入图片:


输出:

  • Sora


效果:https://openai.com/sora能够生成长视频,质量很好,但是尚未开源

image.png

总结和展望

  1. 文生视频和图生视频算法:其中Animate Diff,VideoCrafter等已经开源,支持文/图生成视频,并且经过测试效果还不错,同时图生视频还支持通过结合不同的base模型实现视频的风格化。不过生成的视频帧数基本都在2s以内,可以作为动图的形式进行展示。其中Stable Video Diffusion是stability ai开源的一个图生视频的算法,效果相对更加逼真,视频质量更高,但是视频长度依旧很短。
  2. 视频编辑算法:比如基于controlnet的可控生成视频可以初步达到预期的效果,支持实现特定目标或者属性(颜色等)的更换,也支持人物的换装(比如颜色描述)等等,其中生成的视频长度和GPU显存相关。
  3. 视频风格化:基于diffusion 模型的视频风格化效果最好的是rerender a video,可以支持prompt描述来进行视频的风格化,整体来讲这个方法对人脸和自然环境有比较好的效果,运行成本也相对较低(相较于视频编辑算法)
  4. 特定的人物动态化算法:目前demo效果最好的animate anyone和dream moving都还没有开源。不过这两个算法都对外开放了使用接口,比如通义千问app以及modelscope平台。重点介绍一下通义实验室的Dream moving,https://www.modelscope.cn/studios/vigen/video_generation/summary是其开放的使用平台,里面支持同款的动作生成,图生视频,视频的风格化以及视频贺卡等功能,整体来讲效果很好。而目前开源的方法中,测试的效果最好的是MagicDance,但是人脸有一定的模糊,距离animate anyone和dream moving展示的效果还有差距。
  5. 长视频算法:随着Sora的出现,Diffusion Transformer的架构后续会备受关注,目前大部分算法都局限于2s左右的短视频生成,而且质量上不如Sora。后续会有更多的算法将Sora的思路融入现有的方法中,不断提升视频质量和视频长度。不过目前sora的模型和实现细节并没有在技术报告中公开,因此在未来还会有一段的摸索路要走。
  6. 整体总结:

是否可用

优势

劣势

适用场景

代表性方法

文/图生视频

视频质量高

视频长度短

短视频动态封面

Animate Diff(可扩展性强)

VideoCrafter(质量较好)

Stable Video Diffusion(质量更好)

视频编辑算法

待定

算法种类多,可实现的功能多(修改任意目标的属性)

推理速度较慢,显存要求高,视频长度短

人物换装(最简单的改变衣服颜色),目标编辑,用户体验

ControlVideo(效果好但运行时间久)

视频风格化

显存要求相对视频编辑更低,推理速度更快。

画面存在一定的不稳定问题。但是基于GAN的DCTNet相对更稳定

用户体验

Rerender-A-Video(更灵活)

DCTNet(效果更稳定)

人物动态化

待定

用户可玩性高

效果最好的代码暂时没有开源,开源的代码生成的人脸会有一定的模糊

用户体验

Animate Anyone(待开源)

DreamMoving(待开源)

MagicDance(已开源)

长视频生成

视频长度远超2s

整体质量偏差

(Sora还没开源)

影视制作

Sora



目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
中草药识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
中草药识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
17 0
|
5天前
|
存储 算法 Oracle
深入理解 JVM(重点:双亲委派模型 + 垃圾回收算法)
深入理解 JVM(重点:双亲委派模型 + 垃圾回收算法)
|
11天前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络模型的鱼眼镜头中人员检测算法matlab仿真
该内容是一个关于基于YOLOv2的鱼眼镜头人员检测算法的介绍。展示了算法运行的三张效果图,使用的是matlab2022a软件。YOLOv2模型结合鱼眼镜头畸变校正技术,对鱼眼图像中的人员进行准确检测。算法流程包括图像预处理、网络前向传播、边界框预测与分类及后处理。核心程序段加载预训练的YOLOv2检测器,遍历并处理图像,检测到的目标用矩形标注显示。
|
13天前
|
机器学习/深度学习 人工智能 算法
食物识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
食物识别系统采用TensorFlow的ResNet50模型,训练了包含11类食物的数据集,生成高精度H5模型。系统整合Django框架,提供网页平台,用户可上传图片进行食物识别。效果图片展示成功识别各类食物。[查看演示视频、代码及安装指南](https://www.yuque.com/ziwu/yygu3z/yhd6a7vai4o9iuys?singleDoc#)。项目利用深度学习的卷积神经网络(CNN),其局部感受野和权重共享机制适于图像识别,广泛应用于医疗图像分析等领域。示例代码展示了一个使用TensorFlow训练的简单CNN模型,用于MNIST手写数字识别。
38 3
|
18天前
|
人工智能 安全 物联网
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
67 1
|
18天前
|
机器学习/深度学习 人工智能 算法
高性价比发文典范——101种机器学习算法组合革新骨肉瘤预后模型
随着高通量测序技术的飞速发展和多组学分析的广泛应用,科研人员在探索生物学奥秘时经常遇到一个令人又爱又恼的问题:如何从浩如烟海的数据中挖掘出潜在的疾病关联靶点?又如何构建一个全面而有效的诊断或预后模型?只有通过优雅的数据挖掘、精致的结果展示、深入的讨论分析,并且辅以充分的湿实验验证,我们才能锻造出一篇兼具深度与广度的“干湿结合”佳作。
34 0
高性价比发文典范——101种机器学习算法组合革新骨肉瘤预后模型
|
18天前
|
算法 调度
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
|
18天前
|
算法 调度
【免费】基于模型预测算法的含储能微网双层能量管理模型(MATLAB)
【免费】基于模型预测算法的含储能微网双层能量管理模型(MATLAB)
|
18天前
|
机器学习/深度学习 自然语言处理 算法
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
|
18天前
|
算法 搜索推荐
R语言混合SVD模型IBCF协同过滤推荐算法研究——以母婴购物平台为例
R语言混合SVD模型IBCF协同过滤推荐算法研究——以母婴购物平台为例

热门文章

最新文章