52个AIGC视频生成算法模型介绍（上）-阿里云开发者社区

52个AIGC视频生成算法模型介绍（上）

2024-04-12 720

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 52个AIGC视频生成算法模型介绍（上）

基于Diffusion模型的AIGC生成算法日益火热，其中文生图，图生图等图像生成技术普遍成熟，很多算法从业者开始从事视频生成算法的研究和开发，原因是视频生成领域相对空白。

AIGC视频算法发展现状

从2023年开始，AIGC+视频的新算法层出不穷，其中最直接的是把图像方面的成果引入视频领域，并结合时序信息去生成具有连续性的视频。随着Sora的出现，视频生成的效果又再次上升了一个台阶，因此有必要将去年一年到现在的视频领域进展梳理一下，为以后的视频方向的研究提供一点思路。

AIGC视频算法分类

AIGC视频算法，经过梳理发现，可以大体分为：文生视频，图生视频，视频编辑，视频风格化，人物动态化，长视频生成等方向。具体的输入和输出形式如下：

文生视频：输入文本，输出视频
图生视频：输入图片（+控制条件），输出视频
视频编辑：输入视频（+控制条件），输出视频
视频风格化：输入视频，输出视频
人物动态化：输入图片+姿态条件，输出视频
长视频生成：输入文本，输出长视频

具体算法梳理

▐ 文生视频

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

机构：清华时间：2022.5.29https://github.com/THUDM/CogVideo.简单介绍：基于两阶段的transformer（生成+帧间插值）来做文生视频

IMAGEN VIDEO

机构：Google时间：2022.10.5简单介绍：基于google的Imagen来做的时序扩展，而Imagen和Imagen video都没有开源

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

机构：Picsart AI Resarch

时间：2023.3.23

https://github.com/Picsart-AI-Research/Text2Video-Zero

简单介绍：基于图像diffusion model引入corss-frame attention来做时序建模，其次通过显著性检测来实现背景平滑。

MagicVideo: Efficient Video GenerationWith Latent Diffusion Models

机构：字节

时间：2023.5.11

简单介绍：直接将图像SD架构扩展成视频，增加了时序信息

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

机构：上海 AI Lab

时间：2023.7.11

https://animatediff.github.io/

简单介绍：基于图像diffusion model，训练一个运动建模模块，来学习运动信息

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

机构：腾讯 AI Lab

时间：2023.10.30

https://ailab-cvc.github.io/videocrafter

简单介绍：基于diffusion模型，网络架构采用空间和时序attention操作来实现视频生成

▐ 图生视频

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

机构：上海 AI Lab

时间：2023.7.11

https://animatediff.github.io/

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

机构：腾讯 AI Lab

时间：2023.10.30

https://ailab-cvc.github.io/videocrafter

stable video diffusion

机构：Stability AI

时间：2023.11.21

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

简单介绍：基于SD2.1增加时序层，来进行视频生成

AnimateZero: Video Diffusion Models are Zero-Shot Image Animators

机构：腾讯 AI Lab

时间：2023.12.6

https://github.com/vvictoryuki/AnimateZero（未开源）

简单介绍：基于Animate Diff增加了位置相关的attention

AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance

机构：阿里

时间：2023.12.4

https://animationai.github.io/AnimateAnything/

简单介绍：可以针对特定位置进行动态化，通过学习运动信息实现时序信息生成

LivePhoto: Real Image Animation with Text-guided Motion Control

机构：阿里

时间：2023.12.5

https://xavierchen34.github.io/LivePhoto-Page/（未开源）

简单介绍：将参考图，运动信息拼接作为输入，来进行图像的动态化

▐ 视频风格化

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

机构：南洋理工

时间：2023.12.17

https://www.mmlab-ntu.com/project/rerender/

简单介绍：基于SD+controlnet，结合cros-frame attention来风格化视频序列

DCTNet

机构：阿里达摩院

时间：2022.7.6

https://github.com/menyifang/DCT-Net/

简单介绍：基于GAN的框架做的视频风格化，目前支持7种不同的风格

▐ 视频编辑

主要是将深度图或者其他条件图（canny/hed），通过网络注入Diffusion model中，控制整体场景生成，并通过prompt设计来控制主体目标的外观。其中controlnet被迁移进入视频编辑领域，出现了一系列controlnetvideo的工作。

Structure and Content-Guided Video Synthesis with Diffusion Models

机构：Runway

时间：2023.2.6

https://research.runwayml.com/gen1

Animate diff+ControlNet（基于WebUI API）

Video-P2P: Video Editing with Cross-attention Control

机构：港中文，adobe

时间：2023.3.8

https://video-p2p.github.io/

52个AIGC视频生成算法模型介绍（中）：https://developer.aliyun.com/article/1480688