52个AIGC视频生成算法模型介绍(上)

简介: 52个AIGC视频生成算法模型介绍(上)



基于Diffusion模型的AIGC生成算法日益火热,其中文生图,图生图等图像生成技术普遍成熟,很多算法从业者开始从事视频生成算法的研究和开发,原因是视频生成领域相对空白。



AIGC视频算法发展现状

从2023年开始,AIGC+视频的新算法层出不穷,其中最直接的是把图像方面的成果引入视频领域,并结合时序信息去生成具有连续性的视频。随着Sora的出现,视频生成的效果又再次上升了一个台阶,因此有必要将去年一年到现在的视频领域进展梳理一下,为以后的视频方向的研究提供一点思路。

AIGC视频算法分类


AIGC视频算法,经过梳理发现,可以大体分为:文生视频,图生视频,视频编辑,视频风格化,人物动态化,长视频生成等方向。具体的输入和输出形式如下:

  1. 文生视频:输入文本,输出视频
  2. 图生视频:输入图片(+控制条件),输出视频
  3. 视频编辑:输入视频(+控制条件),输出视频
  4. 视频风格化:输入视频,输出视频
  5. 人物动态化:输入图片+姿态条件,输出视频
  6. 长视频生成:输入文本,输出长视频



具体算法梳理


 文生视频


  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers


机构:清华时间:2022.5.29https://github.com/THUDM/CogVideo.简单介绍:基于两阶段的transformer(生成+帧间插值)来做文生视频

  • IMAGEN VIDEO


机构:Google时间:2022.10.5简单介绍:基于google的Imagen来做的时序扩展,而Imagen和Imagen video都没有开源

  • Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators


机构:Picsart AI Resarch

时间:2023.3.23

https://github.com/Picsart-AI-Research/Text2Video-Zero

简单介绍:基于图像diffusion model引入corss-frame attention来做时序建模,其次通过显著性检测来实现背景平滑。

  • MagicVideo: Efficient Video GenerationWith Latent Diffusion Models


机构:字节

时间:2023.5.11

简单介绍:直接将图像SD架构扩展成视频,增加了时序信息


  • AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning


机构:上海 AI Lab

时间:2023.7.11

https://animatediff.github.io/

简单介绍:基于图像diffusion model,训练一个运动建模模块,来学习运动信息


  • VideoCrafter1: Open Diffusion Models for High-Quality Video Generation


机构:腾讯 AI Lab

时间:2023.10.30

https://ailab-cvc.github.io/videocrafter

简单介绍:基于diffusion模型,网络架构采用空间和时序attention操作来实现视频生成


 图生视频


  • AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning


机构:上海 AI Lab

时间:2023.7.11

https://animatediff.github.io/


  • VideoCrafter1: Open Diffusion Models for High-Quality Video Generation


机构:腾讯 AI Lab

时间:2023.10.30

https://ailab-cvc.github.io/videocrafter


  • stable video diffusion


机构:Stability AI

时间:2023.11.21

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

简单介绍:基于SD2.1增加时序层,来进行视频生成


  • AnimateZero: Video Diffusion Models are Zero-Shot Image Animators


机构:腾讯 AI Lab

时间:2023.12.6

https://github.com/vvictoryuki/AnimateZero(未开源)

简单介绍:基于Animate Diff增加了位置相关的attention


  • AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance


机构:阿里

时间:2023.12.4

https://animationai.github.io/AnimateAnything/

简单介绍:可以针对特定位置进行动态化,通过学习运动信息实现时序信息生成


  • LivePhoto: Real Image Animation with Text-guided Motion Control


机构:阿里

时间:2023.12.5

https://xavierchen34.github.io/LivePhoto-Page/(未开源)

简单介绍:将参考图,运动信息拼接作为输入,来进行图像的动态化


 视频风格化


  • Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation


机构:南洋理工

时间:2023.12.17

https://www.mmlab-ntu.com/project/rerender/

简单介绍:基于SD+controlnet,结合cros-frame attention来风格化视频序列


  • DCTNet


机构:阿里达摩院

时间:2022.7.6

https://github.com/menyifang/DCT-Net/

简单介绍:基于GAN的框架做的视频风格化,目前支持7种不同的风格


 视频编辑


主要是将深度图或者其他条件图(canny/hed),通过网络注入Diffusion model中,控制整体场景生成,并通过prompt设计来控制主体目标的外观。其中controlnet被迁移进入视频编辑领域,出现了一系列controlnetvideo的工作。


  • Structure and Content-Guided Video Synthesis with Diffusion Models


机构:Runway

时间:2023.2.6

https://research.runwayml.com/gen1


  • Animate diff+ControlNet(基于WebUI API)


  • Video-P2P: Video Editing with Cross-attention Control


机构:港中文,adobe

时间:2023.3.8

https://video-p2p.github.io/


52个AIGC视频生成算法模型介绍(中):https://developer.aliyun.com/article/1480688

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
中草药识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
中草药识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
17 0
|
5天前
|
存储 算法 Oracle
深入理解 JVM(重点:双亲委派模型 + 垃圾回收算法)
深入理解 JVM(重点:双亲委派模型 + 垃圾回收算法)
|
11天前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络模型的鱼眼镜头中人员检测算法matlab仿真
该内容是一个关于基于YOLOv2的鱼眼镜头人员检测算法的介绍。展示了算法运行的三张效果图,使用的是matlab2022a软件。YOLOv2模型结合鱼眼镜头畸变校正技术,对鱼眼图像中的人员进行准确检测。算法流程包括图像预处理、网络前向传播、边界框预测与分类及后处理。核心程序段加载预训练的YOLOv2检测器,遍历并处理图像,检测到的目标用矩形标注显示。
|
13天前
|
机器学习/深度学习 人工智能 算法
食物识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
食物识别系统采用TensorFlow的ResNet50模型,训练了包含11类食物的数据集,生成高精度H5模型。系统整合Django框架,提供网页平台,用户可上传图片进行食物识别。效果图片展示成功识别各类食物。[查看演示视频、代码及安装指南](https://www.yuque.com/ziwu/yygu3z/yhd6a7vai4o9iuys?singleDoc#)。项目利用深度学习的卷积神经网络(CNN),其局部感受野和权重共享机制适于图像识别,广泛应用于医疗图像分析等领域。示例代码展示了一个使用TensorFlow训练的简单CNN模型,用于MNIST手写数字识别。
38 3
|
18天前
|
人工智能 安全 物联网
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
67 1
|
18天前
|
算法 计算机视觉
基于高斯混合模型的视频背景提取和人员跟踪算法matlab仿真
该内容是关于使用MATLAB2013B实现基于高斯混合模型(GMM)的视频背景提取和人员跟踪算法。算法通过GMM建立背景模型,新帧与模型比较,提取前景并进行人员跟踪。文章附有程序代码示例,展示从读取视频到结果显示的流程。最后,结果保存在Result.mat文件中。
|
18天前
|
机器学习/深度学习 人工智能 算法
高性价比发文典范——101种机器学习算法组合革新骨肉瘤预后模型
随着高通量测序技术的飞速发展和多组学分析的广泛应用,科研人员在探索生物学奥秘时经常遇到一个令人又爱又恼的问题:如何从浩如烟海的数据中挖掘出潜在的疾病关联靶点?又如何构建一个全面而有效的诊断或预后模型?只有通过优雅的数据挖掘、精致的结果展示、深入的讨论分析,并且辅以充分的湿实验验证,我们才能锻造出一篇兼具深度与广度的“干湿结合”佳作。
34 0
高性价比发文典范——101种机器学习算法组合革新骨肉瘤预后模型
|
18天前
|
算法 调度
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
|
18天前
|
算法
视频讲解|基于多目标粒子群算法的配电网储能选址定容
视频讲解|基于多目标粒子群算法的配电网储能选址定容
|
18天前
|
算法 调度
【免费】基于模型预测算法的含储能微网双层能量管理模型(MATLAB)
【免费】基于模型预测算法的含储能微网双层能量管理模型(MATLAB)

热门文章

最新文章