基于EasyAnimate模型的视频生成最佳实践

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: EasyAnimate是阿里云PAI平台自主研发的DiT的视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。本文为您介绍如何在PAI平台集成EasyAnimate并一键完成模型推理、微调及部署的实践流程。

EasyAnimate是阿里云PAI平台自主研发的DiT的视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。本文为您介绍如何在PAI平台集成EasyAnimate并一键完成模型推理、微调及部署的实践流程。


一、背景信息

本文为您介绍以下两种视频生成的方式:

  • 方式一:使用DSW
    DSW是为算法开发者量身打造的一站式AI开发平台,集成了JupyterLab、WebIDE、Terminal多种云端开发环境,其中,Gallery提供了丰富的案例和解决方案,帮助您快速熟悉研发流程。您可以打开DSW Gallery中的案例教程,实现一键式运行Notebook,完成基于EasyAnimate的视频生成模型的推理和训练任务,也可以进行模型推理和微调等二次开发操作。
  • 方式二:使用快速开始
    快速开始集成了众多AI开源社区中优质的预训练模型,并且基于开源模型支持零代码实现从训练到部署再到推理的全部过程,您可以通过快速开始一键部署EasyAnimate模型并生成视频,享受更快、更高效、更便捷的AI应用体验。


二、费用说明


三、前提条件



四、方式一:使用DSW

步骤一:创建DSW实例

  1. 进入DSW页面。
  1. 登录PAI控制台。
  2. 概览页面选择目标地域。
  3. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击目标工作空间名称,进入对应工作空间内。
  4. 在工作空间页面的左侧导航栏选择模型开发与训练>交互式建模(DSW),进入DSW页面。
  1. 单击创建实例
  2. 配置实例向导页面,配置以下关键参数,其他参数保持默认即可。

参数

说明

实例名称

本教程使用的示例值为:AIGC_test_01

资源规格

选择GPU规格下的ecs.gn7i-c8g1.2xlarge,或其他A10、GU100规格。

镜像

选择官方镜像easyanimate:1.1.4-pytorch2.2.0-gpu-py310-cu118-ubuntu22.04

挂载配置(可选)

单击添加,单击创建数据集,创建OSS或NAS数据集。

  1. 单击确定

步骤二:安装EasyAnimate模型

  1. 打开DSW实例。
  1. 登录PAI控制台[https://pai.data.aliyun.com/console]
  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击目标工作空间,进入对应工作空间。
  3. 在页面左上方,选择使用服务的地域。
  4. 在左侧导航栏,选择模型开发与训练>交互式建模(DSW)
  5. 单击目标DSW实例操作列下的打开,进入DSW实例的开发环境。
  1. Notebook页签的Launcher页面,单击快速开始区域Tool下的DSW Gallery,打开DSW Gallery页面。
  2. 在DSW Gallery页面中,搜索EasyPhoto: 基于EasyAnimate的AI视频生成示例,单击在DSW中打开,即可自动将本教程所需的资源和教程文件下载至DSW实例中,并在下载完成后自动打开教程文件。

image.png

  1. 下载EasyAnimate相关代码和模型并进行安装。在教程文件easyanimate.ipynb中,单击▶运行环境安装节点命令,包括定义函数下载代码下载模型。当成功运行一个步骤命令后,再顺次运行下个步骤的命令。

步骤三:推理模型

方式一:使用代码进行推理

单击▶运行模型推理>使用代码进行推理节点的命令进行模型推理。您可在/mnt/workspace/demos/easyanimate/EasyAnimate/samples/easyanimate-videos目录中查看生成结果。您可以修改不同的参数来达到不同的效果,参数说明:

参数名

说明

类型

prompt

用户输入的正向提示词。

string

negative_prompt

用户输入的负向提示词。

string

num_inference_steps

用户输入的步数。

int

guidance_scale

引导系数。

int

sampler_name

采样器类型。在生成风景类animation时,采样器 (sampler_name) 推荐使用DPM++和Euler A。在生成人像类animation时,采样器推荐使用Euler A和Euler。

string

width

生成视频宽度。

int

height

生成视频高度。

int

video_length

生成视频帧数。

int

fps

保存的视频帧率。

int

save_dir

保存视频文件夹 (相对路径)。

string

seed

随机种子。

int

lora_weight

LoRA模型参数的权重。

float

lora_path

额外的LoRA模型路径。用于生成人物视频可以修改为预置的模型路径:models/Personalized_Model/easyanimate_portrait_lora.safetensors

string

transformer_path

transformer模型路径。用于生成人物视频可以修改为预置的模型路径:models/Personalized_Model/easyanimate_portrait.safetensors

string

motion_module_path

motion_module模型路径。

string

方式二:使用WebUI进行推理

  1. 单击▶运行模型推理>UI启动节点的命令,进行模型推理。
  2. 单击生成的链接,进入WebUI界面。

image.png

  1. 在WebUI界面选择预训练的模型路径、微调后的基模型和LoRA模型,设置LoRA权重,其它参数按需配置即可。

image.png

  1. 单击Generate(生成),等待一段时间后,即可在右侧查看或下载生成的视频。

image.png

步骤四:微调LoRA

EasyAnimate提供了丰富的模型训练方式,包括DiT模型的训练(LoRA微调和基模型的全量微调)和VAE的训练。关于Gallery中内置的LoRA微调部分,更多信息,请参见EasyAnimate[https://github.com/aigc-apps/EasyAnimate]

准备数据

单击▶执行模型训练>数据准备节点的命令,即可下载示例数据,用于模型训练。您也可以按照如下格式要求自行准备数据文件。文件数据格式如下。

project/
├── datasets/
│   ├── internal_datasets/
│       ├── videos/
│       │   ├── 00000001.mp4
│       │   ├── 00000002.mp4
│       │   └── .....
│       └── json_of_internal_datasets.json

其中,JSON文件数据格式和参数说明如下。

[
    {
      "file_path": "videos/00000001.mp4",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "video"
    },
    {
      "file_path": "videos/00000002.mp4",
      "text": "A notepad with a drawing of a woman on it.",
      "type": "video"
    }
    .....
]


参数

说明

file_path

视频/图片数据的存放位置(相对路径)。

text

数据的文本描述。

type

视频为video,图片为image


训练模型

1.将对应的训练脚本中的DATASET_NAMEDATASET_META_NAME设置为训练数据所在目录及训练文件地址。

export DATASET_NAME=“” # 训练数据所在目录
export DATASET_META_NAME=“datasets/Minimalism/metadata_add_width_height.json” # 训练文件地址

2.单击▶执行启动训练>LoRA训练节点的命令。3.训练完成后,将生成的模型移动至models/Personalized_model文件夹,即可在UI界面中选择,或单击▶执行LoRA模型推理节点的命令,指定lora_path进行视频生成。


五、方式二:使用快速开始

步骤一:部署模型

  1. 进入快速开始页面。
  1. 登录PAI控制台[https://pai.data.aliyun.com/console]
  2. 在左侧导航栏单击工作空间列表,在工作空间列表页面单击目标工作空间名称,进入对应工作空间内。
  3. 在左侧导航栏单击快速开始,进入快速开始页面。
  1. 在快速开始页面,搜索EasyAnimate 高清长视频生成,然后单击部署,配置相关参数。EasyAnimate目前仅支持使用bf16进行推理,请选择A10及其以上的显卡。

image.png

  1. 单击部署,在弹出的计费提醒对话框中,单击确定,页面将自动跳转到服务详情页面。状态变为运行中时,即表示模型部署成功。

步骤二:使用模型

模型部署完成后,您可以使用WebUI及API两种方式调用服务来生成视频。

WebUI方式

  1. 服务详情页面,单击查看WEB应用

image.png

  1. 在WebUI界面选择预训练的模型路径,其它参数按需配置即可。

image.png

  1. 单击Generate(生成),等待一段时间后,即可在右侧查看或下载生成的视频。

image.png

API方式

1.在服务详情页面的资源详情区域,单击查看调用信息,获取调用服务所需的信息。

image.png

2.通过接口更新Transformer模型,可在DSW实例或本地Python环境中执行。如果已经在WebUI中选择模型,则无需发送请求重复调用。如遇请求超时,请在EAS日志中确认模型已加载完毕。加载完成,日志中将提示Update diffusion transformer done。Python请求示例如下。

import json
import requests


def post_diffusion_transformer(diffusion_transformer_path, url='http://127.0.0.1:7860', token=None):
    datas = json.dumps({
        "diffusion_transformer_path": diffusion_transformer_path
    })
    head = {
        'Authorization': token
    }
    r = requests.post(f'{url}/easyanimate/update_diffusion_transformer', data=datas, headers=head, timeout=15000)
    data = r.content.decode('utf-8')
    return data

def post_update_edition(edition, url='http://0.0.0.0:7860',token=None):
    head = {
        'Authorization': token
    }

    datas = json.dumps({
        "edition": edition
    })
    r = requests.post(f'{url}/easyanimate/update_edition', data=datas, headers=head)
    data = r.content.decode('utf-8')
    return data
  
if __name__ == '__main__':
    url = '<eas-service-url>'
    token = '<eas-service-token>'

    # -------------------------- #
    #  Step 1: update edition
    # -------------------------- #
    edition = "v2"
    outputs = post_update_edition(edition,url = url,token=token)
    print('Output update edition: ', outputs)

    # -------------------------- #
    #  Step 2: update edition
    # -------------------------- #
    # 默认路径不可修改
    diffusion_transformer_path = "/mnt/models/Diffusion_Transformer/EasyAnimateV2-XL-2-512x512"
    outputs = post_diffusion_transformer(diffusion_transformer_path, url = url, token=token)
    print('Output update edition: ', outputs)

其中:

  • <eas-service-url>:替换为步骤1中查询到的服务访问地址。
  • <eas-service-token>:替换为步骤1中查询到的服务Token。


3.调用服务,生成视频或图片。

  • 服务输入参数说明

参数名

说明

类型

默认值

prompt_textbox

用户输入的正向提示词。

string

必填。无默认值

negative_prompt_textbox

用户输入的负向提示词。

string

"The video is not of a high quality, it has a low resolution, and the audio quality is not clear. Strange motion trajectory, a poor composition and deformed video, low resolution, duplicate and ugly, strange body structure, long and strange neck, bad teeth, bad eyes, bad limbs, bad hands, rotating camera, blurry camera, shaking camera. Deformation, low-resolution, blurry, ugly, distortion."

sample_step_slider

用户输入的步数。

int

30

cfg_scale_slider

引导系数。

int

6

sampler_dropdown

采样器类型。

string

Eluer

在 [Eluer, EluerA, DPM++, PNDM, DDIM] 中选择

width_slider

生成视频宽度。

int

672

height_slider

生成视频高度。

int

384

length_slider

生成视频帧数。

int

144

is_image

是否是图片。

bool

FALSE

lora_alpha_slider

LoRA模型参数的权重。

float

0.55

seed_textbox

随机种子。

int

43

lora_model_path

额外的LoRA 模型路径。

string

none

若有,则会在请求时带上lora。在当次请求后移除。

base_model_path

需要更新的transformer模型路径。

string

none

motion_module_path

需要更新的motion_module模型路径。

string

none

  • Python请求示例

服务返回base64_encoding,为base64结果。

您可以在/mnt/workspace/demos/easyanimate/目录中查看生成结果。

import base64
import json
import sys
import time
from datetime import datetime
from io import BytesIO

import cv2
import requests
import base64


def post_infer(is_image, length_slider, url='http://127.0.0.1:7860',token=None):
    head = {
        'Authorization': token
    }

    datas = json.dumps({
        "base_model_path": "none",
        "motion_module_path": "none",
        "lora_model_path": "none", 
        "lora_alpha_slider": 0.55, 
        "prompt_textbox": "This video shows Mount saint helens, washington - the stunning scenery of a rocky mountains during golden hours - wide shot. A soaring drone footage captures the majestic beauty of a coastal cliff, its red and yellow stratified rock faces rich in color and against the vibrant turquoise of the sea.", 
        "negative_prompt_textbox": "Strange motion trajectory, a poor composition and deformed video, worst quality, normal quality, low quality, low resolution, duplicate and ugly, strange body structure, long and strange neck, bad teeth, bad eyes, bad limbs, bad hands, rotating camera, blurry camera, shaking camera", 
        "sampler_dropdown": "Euler", 
        "sample_step_slider": 30, 
        "width_slider": 672, 
        "height_slider": 384, 
        "is_image": is_image,
        "length_slider": length_slider,
        "cfg_scale_slider": 6,
        "seed_textbox": 43,
    })
    r = requests.post(f'{url}/easyanimate/infer_forward', data=datas, headers=head,timeout=1500)
    data = r.content.decode('utf-8')
    return data

if __name__ == '__main__':
    # initiate time
    now_date    = datetime.now()
    time_start  = time.time()  
    
    url = '<eas-service-url>'
    token = '<eas-service-token>'

    # -------------------------- #
    #  Step 3: infer
    # -------------------------- #
    is_image = False
    length_slider = 27
    outputs = post_infer(is_image, length_slider, url = url, token=token)
    
    # Get decoded data
    outputs = json.loads(outputs)
    base64_encoding = outputs["base64_encoding"]
    decoded_data = base64.b64decode(base64_encoding)

    if is_image or length_slider == 1:
        file_path = "1.png"
    else:
        file_path = "1.mp4"
    with open(file_path, "wb") as file:
        file.write(decoded_data)
        
    # End of record time
    time_end = time.time()  
    time_sum = (time_end - time_start) % 60 
    print('# --------------------------------------------------------- #')
    print(f'#   Total expenditure: {time_sum}s')
    print('# --------------------------------------------------------- #')


其中:

  • <eas-service-url>:替换为步骤1中查询到的服务访问地址。
  • <eas-service-token>:替换为步骤1中查询到的服务Token。
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
编解码 自然语言处理 算法
开源版图生视频I2VGen-XL:单张图片生成高质量视频
VGen是由阿里巴巴通义实验室开发的开源视频生成模型和代码系列,具备非常先进和完善的视频生成系列能力
|
Java 计算机视觉
实现邮箱验证(邮箱验证码登录)
我们要实现web或者Java的发送邮箱验证码到邮箱上进行验证。当然我们需要做一下前提的准备,也就是先要导我们的jar包,然后再进行下一步的操作。
|
数据采集 机器学习/深度学习 编解码
视频生成框架EasyAnimate正式开源!
EasyAnimate是人工智能平台PAI自主研发的DiT-based视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。可以使用EasyAnimate进行任意风格视频模型的训练和推理,还可以在预训练模型的基础上,通过少量图片的LoRA微调来改变生成视频的风格。
|
机器学习/深度学习 人工智能 算法
小白教程-阿里云快速搭建Stable-Diffusion WebUI环境+免费试用
Stable-Diffusion 是目前热门的AIGC图像生成方案,通过开源与社区共享模型的方式,成为AI艺术与创意产业的重要工具。本文介绍通过阿里云快速搭建SD WebUI的服务,并有免费试用权益,适合新手入门。通过详细步骤指导,帮助读者轻松上手,享受创作乐趣。
2068 0
|
机器学习/深度学习 人工智能 测试技术
阿里云百炼已上线超强推理开源模型QwQ-32B,尺寸更小,性能比肩DeepSeek满血版
通义千问团队推出了320亿参数的QwQ-32B模型,通过大规模强化学习和多阶段训练,在数学、编程及通用能力上达到或超越了DeepSeek-R1等先进模型。QwQ-32B模型已在阿里云百炼上线,支持API调用,用户可通过官方文档了解详细使用方法。未来,团队将继续探索智能体与RL集成,推动人工通用智能的发展。
8789 0
|
8月前
|
机器学习/深度学习 编解码 算法
《深度剖析:生成对抗网络如何实现图像风格的细腻逼真迁移》
生成对抗网络(GAN)在图像风格迁移中展现出巨大潜力。GAN由生成器和判别器组成,通过对抗训练生成逼真图像。相比传统方法,GAN能自动学习深层特征,生成多样化、细腻的风格,并实现高效处理。关键技术如多尺度训练、注意力机制及损失函数优化进一步提升了效果。GAN已广泛应用于艺术创作、游戏开发和影视制作等领域,未来有望带来更多创新应用。
251 2
|
10月前
|
数据采集 前端开发 物联网
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
本文介绍了一个基于多模态大模型的医疗图像诊断项目。项目旨在通过训练一个医疗领域的多模态大模型,提高医生处理医学图像的效率,辅助诊断和治疗。作者以家中老人的脑部CT为例,展示了如何利用MedTrinity-25M数据集训练模型,经过数据准备、环境搭建、模型训练及微调、最终验证等步骤,成功使模型能够识别CT图像并给出具体的诊断意见,与专业医生的诊断结果高度吻合。
18421 7
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
|
机器学习/深度学习 编解码 人工智能
EasyAnimate-v3版本支持I2V及超长视频生成
阿里云人工智能平台(PAI)自研开源的视频生成项目EasyAnimate正式发布v3版本
|
11月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2:通义千问大模型的知识蒸馏实践
DistilQwen2 是基于 Qwen2大模型,通过知识蒸馏进行指令遵循效果增强的、参数较小的语言模型。本文将介绍DistilQwen2 的技术原理、效果评测,以及DistilQwen2 在阿里云人工智能平台 PAI 上的使用方法,和在各开源社区的下载使用教程。
|
机器学习/深度学习 存储 人工智能
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考
阿里云的GPU云服务器产品线在深度学习、科学计算、图形渲染等多个领域展现出强大的计算能力和广泛的应用价值。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
阿里云GPU云服务器实例规格gn6v、gn7i、gn6i实例性能及区别和选择参考

热门文章

最新文章