52个AIGC视频生成算法模型介绍(下)

简介: 52个AIGC视频生成算法模型介绍(下)

52个AIGC视频生成算法模型介绍(中):https://developer.aliyun.com/article/1480688

 长视频生成


  • NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation


机构:微软亚研院

时间:2023.3.22

https://msra-nuwa.azurewebsites.net/

  • Latent Video Diffusion Models for High-Fidelity Long Video Generation


机构:腾讯AI Lab

时间:2023.3.20


  • Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising


机构:上海AI Lab

时间:2023.3.29

https://github.com/G-U-N/Gen-L-Video


  • Sora(OpenAI)


时间:2024.2

https://openai.com/sora(未开源)



  • Latte: Latent Diffusion Transformer for Video Generation


机构:上海AI Lab

时间:2024.1.5

https://maxin-cn.github.io/latte_project

算法效果分析

本章节选择了一些代表性的方法进行效果分析


  • Animate Diff


效果:https://animatediff.github.io/,支持文生视频,图生视频,以及和controlnet结合做视频编辑


  • Animate Diff+ControlNet


输入视频:moonwalk.mp4输出样例

canny和openpose

注意:要输入主语保证主体一致性(比如michael jackson或者a boy)


  • AnimateAnything


能够指定图片的运动区域,根据文本进行图片的动态化

效果:


  • Stable Video Diffusion


能够基于静止图片生成25帧的序列(576x1024)

效果:

ControlVideo

输入+输出样例:500.mp4,300.mp4,整体效果不错

问题:因为推理过程需要额外的训练,消耗时间久,第一个视频需要50min(32帧),第二个视频需要14min(8帧)




  • Rerender A Video


整体效果还可以,运行速度和视频帧数有关,10s视频大约在20min左右。


  • DCTNet


效果:整体画面稳定,支持7种风格,显存要求低(6-7G),上面视频40s左右就可以处理完


  • DreamPose




  • Animate Anyone


  • MagicDance


输入图片:


输出:

  • Sora


效果:https://openai.com/sora能够生成长视频,质量很好,但是尚未开源

image.png

总结和展望

  1. 文生视频和图生视频算法:其中Animate Diff,VideoCrafter等已经开源,支持文/图生成视频,并且经过测试效果还不错,同时图生视频还支持通过结合不同的base模型实现视频的风格化。不过生成的视频帧数基本都在2s以内,可以作为动图的形式进行展示。其中Stable Video Diffusion是stability ai开源的一个图生视频的算法,效果相对更加逼真,视频质量更高,但是视频长度依旧很短。
  2. 视频编辑算法:比如基于controlnet的可控生成视频可以初步达到预期的效果,支持实现特定目标或者属性(颜色等)的更换,也支持人物的换装(比如颜色描述)等等,其中生成的视频长度和GPU显存相关。
  3. 视频风格化:基于diffusion 模型的视频风格化效果最好的是rerender a video,可以支持prompt描述来进行视频的风格化,整体来讲这个方法对人脸和自然环境有比较好的效果,运行成本也相对较低(相较于视频编辑算法)
  4. 特定的人物动态化算法:目前demo效果最好的animate anyone和dream moving都还没有开源。不过这两个算法都对外开放了使用接口,比如通义千问app以及modelscope平台。重点介绍一下通义实验室的Dream moving,https://www.modelscope.cn/studios/vigen/video_generation/summary是其开放的使用平台,里面支持同款的动作生成,图生视频,视频的风格化以及视频贺卡等功能,整体来讲效果很好。而目前开源的方法中,测试的效果最好的是MagicDance,但是人脸有一定的模糊,距离animate anyone和dream moving展示的效果还有差距。
  5. 长视频算法:随着Sora的出现,Diffusion Transformer的架构后续会备受关注,目前大部分算法都局限于2s左右的短视频生成,而且质量上不如Sora。后续会有更多的算法将Sora的思路融入现有的方法中,不断提升视频质量和视频长度。不过目前sora的模型和实现细节并没有在技术报告中公开,因此在未来还会有一段的摸索路要走。
  6. 整体总结:

是否可用

优势

劣势

适用场景

代表性方法

文/图生视频

视频质量高

视频长度短

短视频动态封面

Animate Diff(可扩展性强)

VideoCrafter(质量较好)

Stable Video Diffusion(质量更好)

视频编辑算法

待定

算法种类多,可实现的功能多(修改任意目标的属性)

推理速度较慢,显存要求高,视频长度短

人物换装(最简单的改变衣服颜色),目标编辑,用户体验

ControlVideo(效果好但运行时间久)

视频风格化

显存要求相对视频编辑更低,推理速度更快。

画面存在一定的不稳定问题。但是基于GAN的DCTNet相对更稳定

用户体验

Rerender-A-Video(更灵活)

DCTNet(效果更稳定)

人物动态化

待定

用户可玩性高

效果最好的代码暂时没有开源,开源的代码生成的人脸会有一定的模糊

用户体验

Animate Anyone(待开源)

DreamMoving(待开源)

MagicDance(已开源)

长视频生成

视频长度远超2s

整体质量偏差

(Sora还没开源)

影视制作

Sora



目录
打赏
0
3
3
1
197
分享
相关文章
短视频到底如何推荐的?深度剖析视频算法推送原理详细且专业的解读-优雅草卓伊凡-【01】短视频算法推荐之数据收集
短视频到底如何推荐的?深度剖析视频算法推送原理详细且专业的解读-优雅草卓伊凡-【01】短视频算法推荐之数据收集
30 12
短视频到底如何推荐的?深度剖析视频算法推送原理详细且专业的解读-优雅草卓伊凡-【01】短视频算法推荐之数据收集
基于CS模型和CV模型的多目标协同滤波跟踪算法matlab仿真
本项目基于CS模型和CV模型的多目标协同滤波跟踪算法,旨在提高复杂场景下多个移动目标的跟踪精度和鲁棒性。通过融合目标间的关系和数据关联性,优化跟踪结果。程序在MATLAB2022A上运行,展示了真实轨迹与滤波轨迹的对比、位置及速度误差均值和均方误差等关键指标。核心代码包括对目标轨迹、速度及误差的详细绘图分析,验证了算法的有效性。该算法结合CS模型的初步聚类和CV模型的投票机制,增强了目标状态估计的准确性,尤其适用于遮挡、重叠和快速运动等复杂场景。
扩散模型=进化算法!生物学大佬用数学揭示本质
在机器学习与生物学交叉领域,Tufts和Harvard大学研究人员揭示了扩散模型与进化算法的深刻联系。研究表明,扩散模型本质上是一种进化算法,通过逐步去噪生成数据点,类似于进化中的变异和选择机制。这一发现不仅在理论上具有重要意义,还提出了扩散进化方法,能够高效识别多解、处理高维复杂参数空间,并显著减少计算步骤,为图像生成、视频合成及神经网络优化等应用带来广泛潜力。论文地址:https://arxiv.org/pdf/2410.02543。
47 21
单纯接入第三方模型就无需算法备案了么?
随着人工智能的发展,企业接入第三方模型提升业务能力的现象日益普遍,但算法备案问题引发诸多讨论。根据相关法规,无论使用自研或第三方模型,只要涉及向中国境内公众提供算法推荐服务,企业均需履行备案义务。这不仅因为服务性质未变,风险依然存在,也符合监管要求。备案内容涵盖模型基本信息、算法优化目标等,且需动态管理。未备案可能面临法律和运营风险。建议企业提前规划、合规管理和积极沟通,确保合法合规运营。
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
466 13
机器学习算法的优化与改进:提升模型性能的策略与方法
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
151 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
基于模糊PI控制算法的龙格库塔CSTR模型控制系统simulink建模与仿真
本项目基于MATLAB2022a,采用模糊PI控制算法结合龙格-库塔方法,对CSTR模型进行Simulink建模与仿真。通过模糊控制处理误差及变化率,实现精确控制。核心在于将模糊逻辑与经典数值方法融合,提升系统性能。
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
210 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等