52个AIGC视频生成算法模型介绍(上)

简介: 52个AIGC视频生成算法模型介绍(上)



基于Diffusion模型的AIGC生成算法日益火热,其中文生图,图生图等图像生成技术普遍成熟,很多算法从业者开始从事视频生成算法的研究和开发,原因是视频生成领域相对空白。



AIGC视频算法发展现状

从2023年开始,AIGC+视频的新算法层出不穷,其中最直接的是把图像方面的成果引入视频领域,并结合时序信息去生成具有连续性的视频。随着Sora的出现,视频生成的效果又再次上升了一个台阶,因此有必要将去年一年到现在的视频领域进展梳理一下,为以后的视频方向的研究提供一点思路。

AIGC视频算法分类


AIGC视频算法,经过梳理发现,可以大体分为:文生视频,图生视频,视频编辑,视频风格化,人物动态化,长视频生成等方向。具体的输入和输出形式如下:

  1. 文生视频:输入文本,输出视频
  2. 图生视频:输入图片(+控制条件),输出视频
  3. 视频编辑:输入视频(+控制条件),输出视频
  4. 视频风格化:输入视频,输出视频
  5. 人物动态化:输入图片+姿态条件,输出视频
  6. 长视频生成:输入文本,输出长视频



具体算法梳理


 文生视频


  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers


机构:清华时间:2022.5.29https://github.com/THUDM/CogVideo.简单介绍:基于两阶段的transformer(生成+帧间插值)来做文生视频

  • IMAGEN VIDEO


机构:Google时间:2022.10.5简单介绍:基于google的Imagen来做的时序扩展,而Imagen和Imagen video都没有开源

  • Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators


机构:Picsart AI Resarch

时间:2023.3.23

https://github.com/Picsart-AI-Research/Text2Video-Zero

简单介绍:基于图像diffusion model引入corss-frame attention来做时序建模,其次通过显著性检测来实现背景平滑。

  • MagicVideo: Efficient Video GenerationWith Latent Diffusion Models


机构:字节

时间:2023.5.11

简单介绍:直接将图像SD架构扩展成视频,增加了时序信息


  • AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning


机构:上海 AI Lab

时间:2023.7.11

https://animatediff.github.io/

简单介绍:基于图像diffusion model,训练一个运动建模模块,来学习运动信息


  • VideoCrafter1: Open Diffusion Models for High-Quality Video Generation


机构:腾讯 AI Lab

时间:2023.10.30

https://ailab-cvc.github.io/videocrafter

简单介绍:基于diffusion模型,网络架构采用空间和时序attention操作来实现视频生成


 图生视频


  • AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning


机构:上海 AI Lab

时间:2023.7.11

https://animatediff.github.io/


  • VideoCrafter1: Open Diffusion Models for High-Quality Video Generation


机构:腾讯 AI Lab

时间:2023.10.30

https://ailab-cvc.github.io/videocrafter


  • stable video diffusion


机构:Stability AI

时间:2023.11.21

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

简单介绍:基于SD2.1增加时序层,来进行视频生成


  • AnimateZero: Video Diffusion Models are Zero-Shot Image Animators


机构:腾讯 AI Lab

时间:2023.12.6

https://github.com/vvictoryuki/AnimateZero(未开源)

简单介绍:基于Animate Diff增加了位置相关的attention


  • AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance


机构:阿里

时间:2023.12.4

https://animationai.github.io/AnimateAnything/

简单介绍:可以针对特定位置进行动态化,通过学习运动信息实现时序信息生成


  • LivePhoto: Real Image Animation with Text-guided Motion Control


机构:阿里

时间:2023.12.5

https://xavierchen34.github.io/LivePhoto-Page/(未开源)

简单介绍:将参考图,运动信息拼接作为输入,来进行图像的动态化


 视频风格化


  • Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation


机构:南洋理工

时间:2023.12.17

https://www.mmlab-ntu.com/project/rerender/

简单介绍:基于SD+controlnet,结合cros-frame attention来风格化视频序列


  • DCTNet


机构:阿里达摩院

时间:2022.7.6

https://github.com/menyifang/DCT-Net/

简单介绍:基于GAN的框架做的视频风格化,目前支持7种不同的风格


 视频编辑


主要是将深度图或者其他条件图(canny/hed),通过网络注入Diffusion model中,控制整体场景生成,并通过prompt设计来控制主体目标的外观。其中controlnet被迁移进入视频编辑领域,出现了一系列controlnetvideo的工作。


  • Structure and Content-Guided Video Synthesis with Diffusion Models


机构:Runway

时间:2023.2.6

https://research.runwayml.com/gen1


  • Animate diff+ControlNet(基于WebUI API)


  • Video-P2P: Video Editing with Cross-attention Control


机构:港中文,adobe

时间:2023.3.8

https://video-p2p.github.io/


52个AIGC视频生成算法模型介绍(中):https://developer.aliyun.com/article/1480688

目录
相关文章
|
16天前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
60 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
1月前
|
存储 自然语言处理 算法
【算法精讲系列】MGTE系列模型,RAG实施中的重要模型
检索增强生成(RAG)结合检索与生成技术,利用外部知识库提升大模型的回答准确性与丰富性。RAG的关键组件包括文本表示模型和排序模型,前者计算文本向量表示,后者进行精细排序。阿里巴巴通义实验室推出的GTE-Multilingual系列模型,具备高性能、长文档支持、多语言处理及弹性向量表示等特性,显著提升了RAG系统的检索与排序效果。该系列模型已在多个数据集上展示出优越性能,并支持多语言和长文本处理,适用于各种复杂应用场景。
|
1月前
|
自然语言处理 监控 算法
【算法精讲系列】通义模型Prompt调优的实用技巧与经验分享
本文详细阐述了Prompt的设计要素,包括引导语、上下文信息等,还介绍了多种Prompt编写策略,如复杂规则拆分、关键信息冗余、使用分隔符等,旨在提高模型输出的质量和准确性。通过不断尝试、调整和优化,可逐步实现更优的Prompt设计。
|
1月前
|
算法
基于SIR模型的疫情发展趋势预测算法matlab仿真
该程序基于SIR模型预测疫情发展趋势,通过MATLAB 2022a版实现病例增长拟合分析,比较疫情防控力度。使用SIR微分方程模型拟合疫情发展过程,优化参数并求解微分方程组以预测易感者(S)、感染者(I)和移除者(R)的数量变化。![]该模型将总人群分为S、I、R三部分,通过解析或数值求解微分方程组预测疫情趋势。
|
1月前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
165 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】探讨最新的深度学习算法、模型创新以及在图像识别、自然语言处理等领域的应用进展
深度学习作为人工智能领域的重要分支,近年来在算法、模型以及应用领域都取得了显著的进展。以下将探讨最新的深度学习算法与模型创新,以及它们在图像识别、自然语言处理(NLP)等领域的应用进展。
94 6
|
2月前
|
机器学习/深度学习 自然语言处理 负载均衡
揭秘混合专家(MoE)模型的神秘面纱:算法、系统和应用三大视角全面解析,带你领略深度学习领域的前沿技术!
【8月更文挑战第19天】在深度学习领域,混合专家(Mixture of Experts, MoE)模型通过整合多个小型专家网络的输出以实现高性能。从算法视角,MoE利用门控网络分配输入至专家网络,并通过组合机制集成输出。系统视角下,MoE需考虑并行化、通信开销及负载均衡等优化策略。在应用层面,MoE已成功应用于Google的BERT模型、Facebook的推荐系统及Microsoft的语音识别系统等多个场景。这是一种强有力的工具,能够解决复杂问题并提升效率。
57 2
|
2月前
|
算法 语音技术
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
|
2月前
|
机器学习/深度学习 人工智能 算法
【人工智能】线性回归模型:数据结构、算法详解与人工智能应用,附代码实现
线性回归是一种预测性建模技术,它研究的是因变量(目标)和自变量(特征)之间的关系。这种关系可以表示为一个线性方程,其中因变量是自变量的线性组合。
50 2
|
2月前
|
机器学习/深度学习 算法 搜索推荐
支付宝商业化广告算法问题之在DNN模型中,特征的重要性如何评估
支付宝商业化广告算法问题之在DNN模型中,特征的重要性如何评估
下一篇
无影云桌面