0提示词1张图片生成视频!含魔搭社区图生视频最佳实践

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 近期,一条由AI全流程制作的《流浪地球3》预告短片大火,不禁让人惊叹一把生成式AI真的有在悄悄惊艳所有人,也给AI驱动视频创作市场提供了更大的想象空间。

近期,一条由AI全流程制作的《流浪地球3》预告短片大火,不禁让人惊叹一把生成式AI真的有在悄悄惊艳所有人,也给AI驱动视频创作市场提供了更大的想象空间。

上周,魔搭社区低调开源了时间、空间可控的视频生成模型 VideoComposer,近日,又一鼓作气继续开源了I2VGen-XL项目,包含了图生视频模型 Image2Video和Video2Video,仅提供1张图片,0提示词即可生成惊艳视频。

以下是生成的一些示例:

https://modelscope.cn/models/damo/Image-to-Video/summary

b48f3b7a5dd95db0 00_00_00-00_00_30.gif

3c11aec2d3b24893 00_00_00-00_00_30.gif94e11ba178f5ea59 00_00_00-00_00_30.gif

1e1ff7164f3bbdad 00_00_00-00_00_30.gif

接下来,为大家进一步介绍I2VGen-XL的技术原理,及通过魔搭快速玩转起来的实操指引:

I2VGen-XL

本项目I2VGen-XL包含2个模型:图片生成视频模型MS-Image2Video和视频生成视频模型MS-Vid2Vid。

MS-Image2Video旨在解决根据输入图像生成高清视频的任务。MS-Image2Video由达摩院研发的高清视频生成基础模型,其核心部分包含两个阶段,分别解决语义一致性和清晰度的问题,参数量共计约37亿,模型经过大规模视频和图像数据混合预训练,并在少量精品数据上微调得到,该数据分布广泛、类别多样化,模型对不同的数据均有良好的泛化性。与现有的视频生成模型相比,MS-Image2Video在清晰度、质感、语义、时序连续性等方面均具有明显的优势。

image.png

MS-Image2Video建立在Stable Diffusion之上,如上图所示,通过专门设计的时空UNet在隐空间中进行时空建模并通过解码器重建出最终视频。

为能够生成720P视频,我们将MS-Image2Video分为两个阶段,第一阶段保证语义一致性但低分辨率,第二阶段通过DDIM逆运算并在新的VLDM上进行去噪以提高视频分辨率以及同时提升时间和空间上的一致性。通过在模型、训练和数据上的联合优化。

本项目主要具有以下几个特点:

1、高清&宽屏,可以直接生成720P(1280*720)分辨率的视频,且相比于现有的开源项目,不仅分辨率得到有效提高,其生产的宽屏视频可以适合更多的场景

2、无水印,模型通过我们内部大规模无水印视频/图像训练,并在高质量数据微调得到,生成的无水印视频可适用更多视频平台,减少许多限制

3、连续性,通过特定训练和推理策略,在视频的细节生成的稳定性上(时间和空间维度)有明显提高

4、质感好,通过收集特定的风格的视频数据训练,使得生成的模型在质感得到明显提升,可以生成科技感、电影色、卡通风格和素描等类型视频

MS-Vid2Vid由达摩院研发和训练,主要用于提升文生视频、图生视频的分辨率和时空连续性,其训练数据包含了精选的海量的高清视频、图像数据(最短边>720),可以将低分辨率的(16:9)的视频提升到更高分辨率(1280 * 720),可以用于任意低分辨率的的超分。

MS-Vid2VidL是基于Stable Diffusion设计而得,其设计细节延续我们自研VideoComposer,具体可以参考其技术报告。如下示例中,左边是低分(448 * 256),细节会存在抖动,时序一致性较差 右边是高分(1280 * 720),总体会平滑很多,在很多case具有较强的修正能力

如下示例:

d3a3f80163f204d5 00_00_00-00_00_30.gif

0bc37iaaaaaaaqalymhf45sfb6wdad5aaaaa.f10002 00_00_00-00_00_30.gif

环境配置与安装

1 本文在1*A100的环境配置下运行 (可以单卡运行, 图生视频模型显存要求20G,视频生成视频显存要求28G)

2、torch2.0.1+cu117,python>=3.8

服务器连接与环境准备

# 安装miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 一直[ENTER], 最后一个选项yes即可
sh Miniconda3-latest-Linux-x86_64.sh
# conda虚拟环境搭建
conda create --name ms-sft python=3.8
conda activate ms-sft
# 安装最新的ModelScope
pip install "modelscope" --upgrade -f https://pypi.org/project/modelscope/
# 确定你的系统安装了ffmpeg命令,如果没有,可以通过以下命令来安装
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6  -y
# 安装依赖库
pip install xformers==0.0.20
pip install torch==2.0.1
pip install torchsde
pip install open_clip_torch>=2.0.2
pip install opencv-python-headless
pip install opencv-python 
pip install einops>=0.4
pip install rotary-embedding-torch
pip install fairscale 
pip install scipy
pip install imageio
pip install pytorch-lightning

模型的下载和推理

MS-Image2Video模型现已在ModelScope社区开源

模型链接:

https://modelscope.cn/models/damo/Image-to-Video/summary

https://modelscope.cn/models/damo/Video-to-Video/summary

通过以下代码,实现模型的下载和推理。

第一步:图生视频 (所需显存单卡20G)

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
pipe = pipeline(task="image-to-video", model='damo/Image-to-Video', model_revision='v1.1.0')
# IMG_PATH: your image path (url or local file)
IMG_PATH = './example.png'
output_video_path = pipe(IMG_PATH, output_video='./output.mp4')[OutputKeys.OUTPUT_VIDEO]
print(output_video_path)

第二步:提升视频分辨率 (所需显存单卡28G)

pipe =pipeline(task="video-to-video", model='damo/Video-to-Video', model_revision='v1.1.0')
# VID_PATH: your video path
# TEXT : your text description
VID_PATH = './output.mp4'
TEXT = 'A lovely little fox is among the flowers.'
p_input = {
            'video_path': VID_PATH,
            'text': TEXT
        }
output_video_path = pipe(p_input, output_video='./output.mp4')[OutputKeys.OUTPUT_VIDEO]
print(output_video_path)

另外,I2VGen-XL的魔搭创空间搭建中。

链接:https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary,大家先期待一把吧!

相关文章
|
2月前
|
机器学习/深度学习 API 开发工具
视觉智能平台常见问题之实现卡通效果图如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
128 3
|
4天前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之分别用两张同一个人像的png图片,一个可以调用成功,一个提示参数有问题,是什么原因
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
18天前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】47. Pytorch图片样式迁移实战:将一张图片样式迁移至另一张图片,创作自己喜欢风格的图片【含完整源码】
【从零开始学习深度学习】47. Pytorch图片样式迁移实战:将一张图片样式迁移至另一张图片,创作自己喜欢风格的图片【含完整源码】
|
5天前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之图片审核请求了15张图片,只返回了10张图片,是什么原因
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
3天前
|
文字识别 算法 小程序
视觉智能开放平台产品使用合集之图片批量审核一次最多能审核多少张照片
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
2月前
|
数据采集 JSON 自然语言处理
selenuim&echarts——可视化分析csdn新星赛道选手展示头像、展示ip城市和断言参赛信息的有效性(进阶篇)(一)
selenuim&echarts——可视化分析csdn新星赛道选手展示头像、展示ip城市和断言参赛信息的有效性(进阶篇)
28 0
selenuim&echarts——可视化分析csdn新星赛道选手展示头像、展示ip城市和断言参赛信息的有效性(进阶篇)(一)
|
2月前
|
人工智能
MidJourney以图生图的详细教程(含6种案例介绍)(上)
MidJourney以图生图的详细教程(含6种案例介绍)
|
2月前
|
人工智能
MidJourney以图生图的详细教程(含6种案例介绍)(下)
MidJourney以图生图的详细教程(含6种案例介绍)
|
2月前
|
数据可视化 定位技术
selenuim&echarts——可视化分析csdn新星赛道选手展示头像、展示ip城市和断言参赛信息的有效性(进阶篇)(二)
selenuim&echarts——可视化分析csdn新星赛道选手展示头像、展示ip城市和断言参赛信息的有效性(进阶篇)
26 0
|
2月前
|
机器学习/深度学习 算法 开发工具
视觉智能平台常见问题之视频封面输出的图片会出现过曝如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。