EasyAnimate-v3版本支持I2V及超长视频生成

简介: 阿里云人工智能平台(PAI)自研开源的视频生成项目EasyAnimate正式发布v3版本

阿里云人工智能平台 PAI 自研开源的视频生成项目EasyAnimate正式发布v3版本:

  • 支持图片(可配合文字)生成视频
  • 支持上传两张图片作为起止画面生成视频
  • 最大支持 720p(960*960分辨率)144帧视频生成
  • 最低支持 12G 显存使用(3060 12G可用)
  • 视频续写生成无限时长视频

效果展示

https://video-data-hz.oss-cn-hangzhou.aliyuncs.com/EasyAnimate-v3-PRvideo.mp4

image.png

上图展示图生视频和文生视频的输入参考图、Prompt(提示词)及生成结果。

image.png

项目提供基于Gradio搭建的WebUI界面,上手非常方便。

模型结构

image.png

  • EasyAnimate-v3采用Diffusion Transformer(DiT)结构,T5作为Text Encoder,整体框架如上图a所示。
  • 图b是我们设计的混合运动模块(Hybrid Motion Module):
  • 偶数层:时间序列上集成注意力机制,模型学习时序信息。
  • 奇数层:全局序列(空间+时间)上进行全局注意力学习(Global Attention),提高模型全局感受野。
  • 参考图c的U-ViT,为了提高训练稳定性,我们引入跳连接结构(Skip Connection),引入的浅层特征进一步优化深层特征,并且在每个Skip Connection额外增加一个零初始化(Zero Initialize)的全连接层(Linear Layer),使其可以作为一个可插入模块应用到已经训练好的DiT结构中。

image.png

EasyAnimate-v3中的Slice VAE(Variational Auto Encoder)结构如上,不仅有1/4的时序压缩率,还支持对不同输入使用不同的处理策略:

  • 输入视频帧时:在高宽与时间轴上进行压缩,例如当输入为512*512分辨率*8帧的视频帧时,将其压缩为64*64*2的Latent向量。
  • 输入图片时:则仅仅在高宽上进行压缩,列入当输入为512*512分辨率的图片时,将其压缩为64*64*1的Latent向量。

image.png

EasyAnimate-v3版本新增的图生视频Pipeline如上图所示,我们提供视觉-文本双流的信息注入:

  • 需要重建的部分和重建的参考图分别通过Slice VAE进行编码(上图黑色的部分代表需要重建的部分,白色的部分代表首图),然后和随机初始化的Latent进行Concat合并。假设我们期待生成一个384*672分辨率*144帧的视频,此时的初始Latent就是4x36x48x84,需要重建的部分和重建的参考图编码后也是4x36x48x84,三个向量Concat合并到一起后便是12x36x48x84,传入DiT模型中进行噪声预测。
  • 文本提示词这里,我们使用CLIP Image Encoder对输入图片编码后,使用一个CLIP Projection进行映射,然后将结果与T5编码后的文本进行Concat合并,二者在DiT中进行Cross Attention。

联系我们

EasyAnimate官方钉钉群:77450006752

项目主页https://easyanimate.github.io

开源地址:https://github.com/aigc-apps/EasyAnimate

技术报告:https://arxiv.org/abs/2405.18991

PAI平台上快速体验:https://pai.console.aliyun.com/?#/dsw-gallery/preview/deepLearning/cv/easyanimate

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
8月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
2652 120
|
6月前
|
存储 搜索推荐 索引
04_昇腾推荐系统:单双层架构解析
单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。
04_昇腾推荐系统:单双层架构解析
|
2月前
|
安全 JavaScript 前端开发
OpenClaw又又又危!Axios npm被投毒,植入全平台木马
Axios npm包遭供应链投毒,1.14.1与0.30.4版本含恶意依赖plain-crypto-js@4.2.1,安装时自动下载运行远控木马(Windows/Linux/macOS全平台),回连域名sfrclak.com。影响广泛,已下架。建议立即排查并封禁相关域名及版本。
|
数据采集 机器学习/深度学习 编解码
视频生成框架EasyAnimate正式开源!
EasyAnimate是人工智能平台PAI自主研发的DiT-based视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。可以使用EasyAnimate进行任意风格视频模型的训练和推理,还可以在预训练模型的基础上,通过少量图片的LoRA微调来改变生成视频的风格。
|
7月前
|
缓存 Java Maven
六、Docker 核心技术:Dockerfile 指令详解
想亲手给你的应用程序打造一个专属的“集装箱”吗?Dockerfile就是你的说明书!它其实就是一个简单的文本文件,你可以在里面像搭积木一样,用FROM、COPY、RUN这些指令,一步步告诉Docker如何打包你的应用。最后,通过多阶段构建的小技巧,还能给镜像“减肥”,让它变得轻巧又高效。快来学习用Dockerfile变身打包达人吧!
819 4
|
11月前
|
数据安全/隐私保护 Python
淘宝购买记录生成器,淘宝订单生成器在线制作,淘宝购买截图生成【python】
这段代码展示了如何使用Python生成模拟的淘宝订单数据,包括订单ID、购买时间、买家信息
|
人工智能 物联网 文件存储
基于EasyAnimate模型的视频生成最佳实践
EasyAnimate是阿里云PAI平台自主研发的DiT的视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。本文为您介绍如何在PAI平台集成EasyAnimate并一键完成模型推理、微调及部署的实践流程。
|
SQL 关系型数据库 MySQL
milvus-use教程 python
本项目参考vanna项目,获取数据库元数据和问题SQL对,存入Milvus向量数据库,并进行相似性检索。采用m3e-large嵌入模型,通过DatabaseManager类实现数据库连接持久化,MilvusVectorStore类封装了Milvus操作方法,如创建集合、添加数据和查询。项目提供init_collections、delete_collections等文件用于初始化、删除和管理集合。所用Milvus版本较新,API与vanna项目不兼容。 [项目地址](https://gitee.com/alpbeta/milvus-use)
|
IDE Java 开发工具
如何进行《我的世界》基于Spigot的插件开发
《我的世界》(Minecraft)是一款沙盒游戏,允许玩家在一个由方块组成的三维世界中进行探索、建造和冒险。通过使用Spigot服务器,你可以为《我的世界》开发自定义插件,扩展游戏功能,增加新的玩法和互动元素。本文将介绍如何进行《我的世界》基于Spigot的插件开发,帮助你从零开始创建自己的插件。
1292 0