基于Diffusion模型的AIGC生成算法日益火热,其中文生图,图生图等图像生成技术普遍成熟,很多算法从业者开始从事视频生成算法的研究和开发,原因是视频生成领域相对空白。
AIGC视频算法发展现状
从2023年开始,AIGC+视频的新算法层出不穷,其中最直接的是把图像方面的成果引入视频领域,并结合时序信息去生成具有连续性的视频。随着Sora的出现,视频生成的效果又再次上升了一个台阶,因此有必要将去年一年到现在的视频领域进展梳理一下,为以后的视频方向的研究提供一点思路。
AIGC视频算法分类
AIGC视频算法,经过梳理发现,可以大体分为:文生视频,图生视频,视频编辑,视频风格化,人物动态化,长视频生成等方向。具体的输入和输出形式如下:
- 文生视频:输入文本,输出视频
- 图生视频:输入图片(+控制条件),输出视频
- 视频编辑:输入视频(+控制条件),输出视频
- 视频风格化:输入视频,输出视频
- 人物动态化:输入图片+姿态条件,输出视频
- 长视频生成:输入文本,输出长视频
具体算法梳理
▐ 文生视频
- CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
机构:清华时间:2022.5.29https://github.com/THUDM/CogVideo.简单介绍:基于两阶段的transformer(生成+帧间插值)来做文生视频
- IMAGEN VIDEO
机构:Google时间:2022.10.5简单介绍:基于google的Imagen来做的时序扩展,而Imagen和Imagen video都没有开源
- Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
机构:Picsart AI Resarch
时间:2023.3.23
https://github.com/Picsart-AI-Research/Text2Video-Zero
简单介绍:基于图像diffusion model引入corss-frame attention来做时序建模,其次通过显著性检测来实现背景平滑。
- MagicVideo: Efficient Video GenerationWith Latent Diffusion Models
机构:字节
时间:2023.5.11
简单介绍:直接将图像SD架构扩展成视频,增加了时序信息
- AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
机构:上海 AI Lab
时间:2023.7.11
https://animatediff.github.io/
简单介绍:基于图像diffusion model,训练一个运动建模模块,来学习运动信息
- VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
机构:腾讯 AI Lab
时间:2023.10.30
https://ailab-cvc.github.io/videocrafter
简单介绍:基于diffusion模型,网络架构采用空间和时序attention操作来实现视频生成
▐ 图生视频
- AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
机构:上海 AI Lab
时间:2023.7.11
https://animatediff.github.io/
- VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
机构:腾讯 AI Lab
时间:2023.10.30
https://ailab-cvc.github.io/videocrafter
- stable video diffusion
机构:Stability AI
时间:2023.11.21
https://stability.ai/news/stable-video-diffusion-open-ai-video-model
简单介绍:基于SD2.1增加时序层,来进行视频生成
- AnimateZero: Video Diffusion Models are Zero-Shot Image Animators
机构:腾讯 AI Lab
时间:2023.12.6
https://github.com/vvictoryuki/AnimateZero(未开源)
简单介绍:基于Animate Diff增加了位置相关的attention
- AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance
机构:阿里
时间:2023.12.4
https://animationai.github.io/AnimateAnything/
简单介绍:可以针对特定位置进行动态化,通过学习运动信息实现时序信息生成
- LivePhoto: Real Image Animation with Text-guided Motion Control
机构:阿里
时间:2023.12.5
https://xavierchen34.github.io/LivePhoto-Page/(未开源)
简单介绍:将参考图,运动信息拼接作为输入,来进行图像的动态化
▐ 视频风格化
- Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation
机构:南洋理工
时间:2023.12.17
https://www.mmlab-ntu.com/project/rerender/
简单介绍:基于SD+controlnet,结合cros-frame attention来风格化视频序列
- DCTNet
机构:阿里达摩院
时间:2022.7.6
https://github.com/menyifang/DCT-Net/
简单介绍:基于GAN的框架做的视频风格化,目前支持7种不同的风格
▐ 视频编辑
主要是将深度图或者其他条件图(canny/hed),通过网络注入Diffusion model中,控制整体场景生成,并通过prompt设计来控制主体目标的外观。其中controlnet被迁移进入视频编辑领域,出现了一系列controlnetvideo的工作。
- Structure and Content-Guided Video Synthesis with Diffusion Models
机构:Runway
时间:2023.2.6
https://research.runwayml.com/gen1
- Animate diff+ControlNet(基于WebUI API)
- Video-P2P: Video Editing with Cross-attention Control
机构:港中文,adobe
时间:2023.3.8
52个AIGC视频生成算法模型介绍(中):https://developer.aliyun.com/article/1480688