52个AIGC视频生成算法模型介绍(上)

简介: 52个AIGC视频生成算法模型介绍(上)



基于Diffusion模型的AIGC生成算法日益火热,其中文生图,图生图等图像生成技术普遍成熟,很多算法从业者开始从事视频生成算法的研究和开发,原因是视频生成领域相对空白。



AIGC视频算法发展现状

从2023年开始,AIGC+视频的新算法层出不穷,其中最直接的是把图像方面的成果引入视频领域,并结合时序信息去生成具有连续性的视频。随着Sora的出现,视频生成的效果又再次上升了一个台阶,因此有必要将去年一年到现在的视频领域进展梳理一下,为以后的视频方向的研究提供一点思路。

AIGC视频算法分类


AIGC视频算法,经过梳理发现,可以大体分为:文生视频,图生视频,视频编辑,视频风格化,人物动态化,长视频生成等方向。具体的输入和输出形式如下:

  1. 文生视频:输入文本,输出视频
  2. 图生视频:输入图片(+控制条件),输出视频
  3. 视频编辑:输入视频(+控制条件),输出视频
  4. 视频风格化:输入视频,输出视频
  5. 人物动态化:输入图片+姿态条件,输出视频
  6. 长视频生成:输入文本,输出长视频



具体算法梳理


 文生视频


  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers


机构:清华时间:2022.5.29https://github.com/THUDM/CogVideo.简单介绍:基于两阶段的transformer(生成+帧间插值)来做文生视频

  • IMAGEN VIDEO


机构:Google时间:2022.10.5简单介绍:基于google的Imagen来做的时序扩展,而Imagen和Imagen video都没有开源

  • Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators


机构:Picsart AI Resarch

时间:2023.3.23

https://github.com/Picsart-AI-Research/Text2Video-Zero

简单介绍:基于图像diffusion model引入corss-frame attention来做时序建模,其次通过显著性检测来实现背景平滑。

  • MagicVideo: Efficient Video GenerationWith Latent Diffusion Models


机构:字节

时间:2023.5.11

简单介绍:直接将图像SD架构扩展成视频,增加了时序信息


  • AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning


机构:上海 AI Lab

时间:2023.7.11

https://animatediff.github.io/

简单介绍:基于图像diffusion model,训练一个运动建模模块,来学习运动信息


  • VideoCrafter1: Open Diffusion Models for High-Quality Video Generation


机构:腾讯 AI Lab

时间:2023.10.30

https://ailab-cvc.github.io/videocrafter

简单介绍:基于diffusion模型,网络架构采用空间和时序attention操作来实现视频生成


 图生视频


  • AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning


机构:上海 AI Lab

时间:2023.7.11

https://animatediff.github.io/


  • VideoCrafter1: Open Diffusion Models for High-Quality Video Generation


机构:腾讯 AI Lab

时间:2023.10.30

https://ailab-cvc.github.io/videocrafter


  • stable video diffusion


机构:Stability AI

时间:2023.11.21

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

简单介绍:基于SD2.1增加时序层,来进行视频生成


  • AnimateZero: Video Diffusion Models are Zero-Shot Image Animators


机构:腾讯 AI Lab

时间:2023.12.6

https://github.com/vvictoryuki/AnimateZero(未开源)

简单介绍:基于Animate Diff增加了位置相关的attention


  • AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance


机构:阿里

时间:2023.12.4

https://animationai.github.io/AnimateAnything/

简单介绍:可以针对特定位置进行动态化,通过学习运动信息实现时序信息生成


  • LivePhoto: Real Image Animation with Text-guided Motion Control


机构:阿里

时间:2023.12.5

https://xavierchen34.github.io/LivePhoto-Page/(未开源)

简单介绍:将参考图,运动信息拼接作为输入,来进行图像的动态化


 视频风格化


  • Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation


机构:南洋理工

时间:2023.12.17

https://www.mmlab-ntu.com/project/rerender/

简单介绍:基于SD+controlnet,结合cros-frame attention来风格化视频序列


  • DCTNet


机构:阿里达摩院

时间:2022.7.6

https://github.com/menyifang/DCT-Net/

简单介绍:基于GAN的框架做的视频风格化,目前支持7种不同的风格


 视频编辑


主要是将深度图或者其他条件图(canny/hed),通过网络注入Diffusion model中,控制整体场景生成,并通过prompt设计来控制主体目标的外观。其中controlnet被迁移进入视频编辑领域,出现了一系列controlnetvideo的工作。


  • Structure and Content-Guided Video Synthesis with Diffusion Models


机构:Runway

时间:2023.2.6

https://research.runwayml.com/gen1


  • Animate diff+ControlNet(基于WebUI API)


  • Video-P2P: Video Editing with Cross-attention Control


机构:港中文,adobe

时间:2023.3.8

https://video-p2p.github.io/


52个AIGC视频生成算法模型介绍(中):https://developer.aliyun.com/article/1480688

目录
相关文章
|
7月前
|
存储 机器学习/深度学习 人工智能
阿里云环境下 Runway 深度部署:从技术原理到 AIGC 视频生成落地
Runway作为AI视频生成标杆,融合扩散模型与多模态技术,依托潜空间优化与时空注意力机制,实现高效高质视频生成。结合阿里云算力与API生态,支持版权合规、运镜控制与多模态联动,广泛应用于影视、广告与游戏领域,推动内容创作智能化升级。
1148 0
|
7月前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
292 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
7月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
485 2
|
7月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
180 8
|
7月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
7月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
7月前
|
机器学习/深度学习 运维 算法
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
708 0
|
8月前
|
传感器 算法 定位技术
KF,EKF,IEKF 算法的基本原理并构建推导出四轮前驱自主移动机器人的运动学模型和观测模型(Matlab代码实现)
KF,EKF,IEKF 算法的基本原理并构建推导出四轮前驱自主移动机器人的运动学模型和观测模型(Matlab代码实现)
261 2
|
7月前
|
机器学习/深度学习 数据采集 传感器
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
471 0
|
7月前
|
机器学习/深度学习 存储 算法
基于模型预测算法的混合储能微电网双层能量管理系统研究(Matlab代码实现)
基于模型预测算法的混合储能微电网双层能量管理系统研究(Matlab代码实现)
201 0