开源版图生视频I2VGen-XL:单张图片生成高质量视频

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: VGen是由阿里巴巴通义实验室开发的开源视频生成模型和代码系列,具备非常先进和完善的视频生成系列能力

引言

目前视频生成算法都面临了如下的一些问题:

1、连续性:强调视频在时序上的连续性,运动的准确性。

2、真实性:强调视频质感、低信噪比等,避免‘一眼假’的程度。

3、可控性:视频生成的条件可控性,尤其是运动可控性。

4、高效性:生成视频的复杂度高,耗时较长

5、鲁棒性:提升视频生成的成功率,避免Cherry pick


VGen是由阿里巴巴通义实验室开发的开源视频生成模型和代码系列,具备非常先进和完善的视频生成系列能力,包含了如下内容:

  • VideoComposer:具有高度灵活可控性的视频合成
  • I2VGen-XL: 通过视频扩散模型进行高质量图像到视频的生成。
  • HiGen:分层时空解耦技术用于文本生成视频(T2V)
  • TF-T2V:使用无文本视频训练的规模化文本到视频模型的生成方法
  • InstructionVideo:通过人类反馈,优化视频扩散模型
  • DreamVideo:用定制主题和动作可控视频生成模型
  • VideoLCM:基于潜在性一致模型(LCM)优化视频模型生成速度


VGen可以根据输入的文本、图像、指定的运动、指定的主体,甚至人类提供的反馈信号生成高质量的视频。它还提供了各类常用的视频生成模型工具,例如可视化、采样、训练、推理、使用图像和视频的联合训练,加速等各类工具和技术。


本文介绍VGen中的的图生视频算法I2VGen-XL可以精细到什么程度?1280×720 分辨率没有压力,而且生成的动作效果非常连贯。


I2VGen-XL图生视频算法,得益于扩散模型的快速发展,面向视频生成模型难以同时确保语义准确性和视频生成的质量。


级联I2VGen-XL的方法,能够成功的生成具有连贯的空间和运动动力学和连续细节的高清视频。I2VGen-XL首先利用单个静态图像作为主要条件来减少对良好对齐的文本-视频对的依赖。主要由如下两个阶段组成。

在基础阶段中,采用两个分层编码器来同时补货输入图像的高级语义和低级细节,从而确保更逼真的动态,同时保留图像的内容和结构。在细化的阶段中,利用单独的扩散模型来增强分辨率,并通过细化细节来显著改善视频的时间连续性。


下面是I2VGen-XL高清图像视频生成的官方示例,我们可以看到在较大的运动幅度上取得了较为真实,连贯,真实的高质量视频:


1 00_00_00-00_00_30.gif



image_01_00_fireworks_8k 00_00_00-00_00_30.gif


同时,和现在评价比较好的视频生成模型和软件做了对比,I2VGen-XL也效果很能打,主要体现在I2VGen—XL的不俗的动作生成能力:

其他的视频生成模型,更多是镜头的平移,物体的动作比较轻微。

test1 00_00_00-00_00_30.gif

I2VGen-XL,比较好的展现了鱼游泳的姿态

test2 00_00_00-00_00_30.gif

其他的视频生成模型,更多是镜头的平移,看不到瀑布的流动性

test3 00_00_00-00_00_30.gif

I2VGen-XL,比较好的展现了瀑布水流的效果。

test4 00_00_00-00_00_30.gif

I2VGen-XL现已在魔搭社区开源!


github地址:

https://github.com/ali-vilab/i2vgen-xl


模型weights地址:

https://modelscope.cn/models/damo/i2vgen-xl


创空间体验地址:

https://modelscope.cn/studios/damo/I2VGen-XL


论文地址:

https://arxiv.org/pdf/2311.04145.pdf


项目主页:

https://i2vgen-xl.github.io


环境准备

环境配置与安装

  1. python 3.8及以上版本
  2. pytorch 1.12及以上版本,推荐2.0及以上版本
  3. 建议使用CUDA 11.4及以上

本文主要演示的模型推理代码可在PAI-DSW的配置下运行(显存要求45G)


模型推理

模型推理代码:

# need A100 
from modelscope.pipelines import pipeline
from modelscope import snapshot_download
model_dir = snapshot_download('damo/i2vgen-xl', revision='v1.1.3')
inference = pipeline('image-to-video', model=model_dir)
image = model_dir + '/data/test_images/img_0001.jpg'
output = inference(image, caption="""the puppy is on the surface of the ground, the sunlight softly illuminates the puppy's fur, accentuating its cuteness. The puppy is looking directly into the camera with an innocent and curious expression on its face. """)
print(output)


小编也用一张图片:


prompt:

the puppy is on the surface of the ground, the sunlight softly illuminates the puppy's fur, accentuating its cuteness. The puppy is looking directly into the camera with an innocent and curious expression on its face.


生成了如下视频:

image_01_00_the_puppy_is_on_the_surface_of_the_ground_the_sunlight_softly_illuminates_the_puppys_fur_accentuating_its_cuteness_The_puppy_is_looking_directly_into_the_camera_with_an_innocent_and_curiou 00_00_00-00_00_30.gif

很惊喜的看到,动作连贯的同时,清晰度很高,光影的效果也很喜人,大家快来尝试吧!

申请链接:https://modelscope.cn/studios/damo/I2VGen-XL/

相关文章
|
机器学习/深度学习 编解码 人工智能
AI短视频制作一本通:文本生成视频、图片生成视频、视频生成视频
AI短视频制作一本通:文本生成视频、图片生成视频、视频生成视频
1378 0
|
存储 缓存 资源调度
Koodo Reader : 一个开源免费的电子书阅读器
【1月更文挑战第3天】 今天在浏览 GitHub 的时候,偶然发现了一个非常有趣的开源项目——Koodo Reader。这个项目是一款开源免费的电子书阅读器,支持多种格式。它具有一些非常独特的功能,深深地吸引了我的注意。在接下来的内容中,我将为大家详细介绍一下这个备受关注的阅读器项目。
1492 3
Koodo Reader : 一个开源免费的电子书阅读器
|
机器学习/深度学习 人工智能 算法
阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能
【1月更文挑战第2天】在科技日新月异的时代,艺术创作的疆界正以前所未有的速度拓展,,从AI作曲和音乐生成技术带来的跨风格音乐作品,到基于人工智能的诗歌与文学创作,艺术不再仅仅是人类个体情感与才华的体现,而成为人机交互、数据智能与创新思维相互融合的新领域。 近日,阿里云再次引领创新潮流,推出一款令人叹为观止的AI黑科技——通义舞王
阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能
|
7月前
|
开发者 异构计算
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇
5939 23
高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!
|
8月前
|
数据采集 编解码 缓存
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!
4520 8
|
10月前
|
编解码 人工智能 自然语言处理
Ruyi:图森未来推出的图生视频大模型,支持多分辨率、多时长视频生成,具备运动幅度和镜头控制等功能
Ruyi是图森未来推出的图生视频大模型,专为消费级显卡设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,能够降低动漫和游戏内容的开发周期和成本,是ACG爱好者和创作者的理想工具。
551 33
Ruyi:图森未来推出的图生视频大模型,支持多分辨率、多时长视频生成,具备运动幅度和镜头控制等功能
|
10月前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
6819 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
数据采集 机器学习/深度学习 编解码
视频生成框架EasyAnimate正式开源!
EasyAnimate是人工智能平台PAI自主研发的DiT-based视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。可以使用EasyAnimate进行任意风格视频模型的训练和推理,还可以在预训练模型的基础上,通过少量图片的LoRA微调来改变生成视频的风格。
|
11月前
|
人工智能 自然语言处理 并行计算
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画
EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目,能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列,通过音频-姿势动态协调策略生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动,还简化了动画生成过程中的复杂条件,适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。
3370 5
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画
|
11月前
|
人工智能 并行计算 监控
深入剖析 Qwen2.5 - 32B 模型在 VLLM 上的单机三卡部署与运行
本文深入探讨了Qwen2.5 - 32B模型在VLLM框架上的部署过程,从模型下载、启动命令、资源占用分析到GPU资源分配及CUDA图应用,详述了大模型运行的挑战与优化策略,强调了硬件资源规划与技术调优的重要性。
6408 2

热门文章

最新文章