开源版图生视频I2VGen-XL:单张图片生成高质量视频

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: VGen是由阿里巴巴通义实验室开发的开源视频生成模型和代码系列,具备非常先进和完善的视频生成系列能力

引言

目前视频生成算法都面临了如下的一些问题:

1、连续性:强调视频在时序上的连续性,运动的准确性。

2、真实性:强调视频质感、低信噪比等,避免‘一眼假’的程度。

3、可控性:视频生成的条件可控性,尤其是运动可控性。

4、高效性:生成视频的复杂度高,耗时较长

5、鲁棒性:提升视频生成的成功率,避免Cherry pick


VGen是由阿里巴巴通义实验室开发的开源视频生成模型和代码系列,具备非常先进和完善的视频生成系列能力,包含了如下内容:

  • VideoComposer:具有高度灵活可控性的视频合成
  • I2VGen-XL: 通过视频扩散模型进行高质量图像到视频的生成。
  • HiGen:分层时空解耦技术用于文本生成视频(T2V)
  • TF-T2V:使用无文本视频训练的规模化文本到视频模型的生成方法
  • InstructionVideo:通过人类反馈,优化视频扩散模型
  • DreamVideo:用定制主题和动作可控视频生成模型
  • VideoLCM:基于潜在性一致模型(LCM)优化视频模型生成速度


VGen可以根据输入的文本、图像、指定的运动、指定的主体,甚至人类提供的反馈信号生成高质量的视频。它还提供了各类常用的视频生成模型工具,例如可视化、采样、训练、推理、使用图像和视频的联合训练,加速等各类工具和技术。


本文介绍VGen中的的图生视频算法I2VGen-XL可以精细到什么程度?1280×720 分辨率没有压力,而且生成的动作效果非常连贯。


I2VGen-XL图生视频算法,得益于扩散模型的快速发展,面向视频生成模型难以同时确保语义准确性和视频生成的质量。


级联I2VGen-XL的方法,能够成功的生成具有连贯的空间和运动动力学和连续细节的高清视频。I2VGen-XL首先利用单个静态图像作为主要条件来减少对良好对齐的文本-视频对的依赖。主要由如下两个阶段组成。

在基础阶段中,采用两个分层编码器来同时补货输入图像的高级语义和低级细节,从而确保更逼真的动态,同时保留图像的内容和结构。在细化的阶段中,利用单独的扩散模型来增强分辨率,并通过细化细节来显著改善视频的时间连续性。


下面是I2VGen-XL高清图像视频生成的官方示例,我们可以看到在较大的运动幅度上取得了较为真实,连贯,真实的高质量视频:


1 00_00_00-00_00_30.gif



image_01_00_fireworks_8k 00_00_00-00_00_30.gif


同时,和现在评价比较好的视频生成模型和软件做了对比,I2VGen-XL也效果很能打,主要体现在I2VGen—XL的不俗的动作生成能力:

其他的视频生成模型,更多是镜头的平移,物体的动作比较轻微。

test1 00_00_00-00_00_30.gif

I2VGen-XL,比较好的展现了鱼游泳的姿态

test2 00_00_00-00_00_30.gif

其他的视频生成模型,更多是镜头的平移,看不到瀑布的流动性

test3 00_00_00-00_00_30.gif

I2VGen-XL,比较好的展现了瀑布水流的效果。

test4 00_00_00-00_00_30.gif

I2VGen-XL现已在魔搭社区开源!


github地址:

https://github.com/ali-vilab/i2vgen-xl


模型weights地址:

https://modelscope.cn/models/damo/i2vgen-xl


创空间体验地址:

https://modelscope.cn/studios/damo/I2VGen-XL


论文地址:

https://arxiv.org/pdf/2311.04145.pdf


项目主页:

https://i2vgen-xl.github.io


环境准备

环境配置与安装

  1. python 3.8及以上版本
  2. pytorch 1.12及以上版本,推荐2.0及以上版本
  3. 建议使用CUDA 11.4及以上

本文主要演示的模型推理代码可在PAI-DSW的配置下运行(显存要求45G)


模型推理

模型推理代码:

# need A100 
from modelscope.pipelines import pipeline
from modelscope import snapshot_download
model_dir = snapshot_download('damo/i2vgen-xl', revision='v1.1.3')
inference = pipeline('image-to-video', model=model_dir)
image = model_dir + '/data/test_images/img_0001.jpg'
output = inference(image, caption="""the puppy is on the surface of the ground, the sunlight softly illuminates the puppy's fur, accentuating its cuteness. The puppy is looking directly into the camera with an innocent and curious expression on its face. """)
print(output)


小编也用一张图片:


prompt:

the puppy is on the surface of the ground, the sunlight softly illuminates the puppy's fur, accentuating its cuteness. The puppy is looking directly into the camera with an innocent and curious expression on its face.


生成了如下视频:

image_01_00_the_puppy_is_on_the_surface_of_the_ground_the_sunlight_softly_illuminates_the_puppys_fur_accentuating_its_cuteness_The_puppy_is_looking_directly_into_the_camera_with_an_innocent_and_curiou 00_00_00-00_00_30.gif

很惊喜的看到,动作连贯的同时,清晰度很高,光影的效果也很喜人,大家快来尝试吧!

申请链接:https://modelscope.cn/studios/damo/I2VGen-XL/

相关文章
|
9月前
|
人工智能 搜索推荐
StableIdentity:可插入图像/视频/3D生成,单张图即可变成超人,可直接与ControlNet配合使用
【2月更文挑战第17天】StableIdentity:可插入图像/视频/3D生成,单张图即可变成超人,可直接与ControlNet配合使用
213 2
StableIdentity:可插入图像/视频/3D生成,单张图即可变成超人,可直接与ControlNet配合使用
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
四张图片道清AI大模型的发展史(1943-2023)
现在最火的莫过于GPT了,也就是大规模语言模型(LLM)。“LLM” 是 “Large Language Model”(大语言模型)的简称,通常用来指代具有巨大规模参数和复杂架构的自然语言处理模型,例如像 GPT-3(Generative Pre-trained Transformer 3)这样的模型。这些模型在处理文本和语言任务方面表现出色,但其庞大的参数量和计算需求使得它们被称为大模型。当然也有一些自动生成图片的模型,但是影响力就不如GPT这么大了。
3318 0
|
1天前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
40 9
|
25天前
|
传感器 人工智能
X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架
X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架,基于扩散模型实现单张图像动画化,支持面部表情和身体动作控制,生成高质量动态细节。
84 6
X-Dyna:一张图片就能实现动画化!字节联合斯坦福推出动画生成框架
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
深度解析Recraft V3:突破文本渲染限制,文生图黑马是怎样炼成的?
Recraft V3模型在文本生成图像(Text-to-Image)领域取得重大突破,通过创新的"Bridging Text Spotting"方法,解决了传统方法中误差累积和性能不佳的问题。该模型采用独立训练的检测器和识别器,并引入Bridge和Adapter机制,确保高质量图像生成。Recraft V3在多个数据集上表现优异,如Total-Text准确率达83.3%,ICDAR 2015达89.5%。其应用前景广泛,涵盖广告设计、教育和娱乐等领域,为文生图技术的实际应用提供了新可能。
87 27
|
2月前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
129 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
编解码 人工智能 算法
社区供稿 | AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里!
本文介绍了一种全新的基于SD生成先验的图像超分辨率和修复算法,在多个任务上都有着SOTA的表现。
|
缓存 Kubernetes API
数据缓存系列分享(三):通过 StableDiffusion 扩展插件实现网红爆款文字光影图
在文章《23秒完成从零开始搭建StableDiffusion》中我们详细讲解了通过ECI的数据缓存快速搭建StableDiffusion应用,用户通过模型网站选择好自己需要的模型,然后创建ECI数据缓存,即可快速部署自己的StableDiffusion应用。本文将基于StableDiffusion + 扩展插件 ControlNet 来完成实现网红爆款文字光影图
425 0
数据缓存系列分享(三):通过 StableDiffusion 扩展插件实现网红爆款文字光影图
|
编解码 人工智能 达摩院
0提示词1张图片生成视频!含魔搭社区图生视频最佳实践
近期,一条由AI全流程制作的《流浪地球3》预告短片大火,不禁让人惊叹一把生成式AI真的有在悄悄惊艳所有人,也给AI驱动视频创作市场提供了更大的想象空间。
|
机器学习/深度学习
中科院、阿里出品FF3D,创建自定义风格化3D人像只需三分钟
中科院、阿里出品FF3D,创建自定义风格化3D人像只需三分钟
221 0

热门文章

最新文章