EasyAnimate-v3版本支持I2V及超长视频生成

2024-07-16 8219

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 阿里云人工智能平台（PAI）自研开源的视频生成项目EasyAnimate正式发布v3版本

阿里云人工智能平台 PAI 自研开源的视频生成项目EasyAnimate正式发布v3版本：

效果展示

上图展示图生视频和文生视频的输入参考图、Prompt（提示词）及生成结果。

项目提供基于Gradio搭建的WebUI界面，上手非常方便。

模型结构

参考图c的U-ViT，为了提高训练稳定性，我们引入跳连接结构（Skip Connection），引入的浅层特征进一步优化深层特征，并且在每个Skip Connection额外增加一个零初始化（Zero Initialize）的全连接层（Linear Layer），使其可以作为一个可插入模块应用到已经训练好的DiT结构中。

EasyAnimate-v3中的Slice VAE（Variational Auto Encoder）结构如上，不仅有1/4的时序压缩率，还支持对不同输入使用不同的处理策略：

EasyAnimate-v3版本新增的图生视频Pipeline如上图所示，我们提供视觉-文本双流的信息注入：

需要重建的部分和重建的参考图分别通过Slice VAE进行编码（上图黑色的部分代表需要重建的部分，白色的部分代表首图），然后和随机初始化的Latent进行Concat合并。假设我们期待生成一个384*672分辨率*144帧的视频，此时的初始Latent就是4x36x48x84，需要重建的部分和重建的参考图编码后也是4x36x48x84，三个向量Concat合并到一起后便是12x36x48x84，传入DiT模型中进行噪声预测。
文本提示词这里，我们使用CLIP Image Encoder对输入图片编码后，使用一个CLIP Projection进行映射，然后将结果与T5编码后的文本进行Concat合并，二者在DiT中进行Cross Attention。