AI 生成视频版,英伟达做到最高1280×2048、最长4.7秒

简介: AI 生成视频版,英伟达做到最高1280×2048、最长4.7秒

前言


机器之心报道编辑:杜伟

在生成式 AI 盛行的今天,英伟达在文本生成视频领域更进了一步,实现了更高分辨率、更长时间。



正文


要说现阶段谁是 AI 领域的「当红辣子鸡」?生成式 AI 舍我其谁。包括 ChatGPT 等对话式 AI 聊天应用、Stable Diffusion 等 AI 绘画神器在内,生成式 AI 展示的效果深深地抓住了人们的眼球。


我们以图像生成模型为例,得益于底层建模技术最近的突破,它们收获了前所未有的关注。如今,最强大的模型构建在生成对抗网络、自回归 transformer 和扩散模型(diffusion model, DM)之上。其中扩散模型的优势在于能够提供稳健和可扩展的训练目标,并且参数密集度通常低于基于 transformer 的竞品模型


虽然图像领域取得了长足进步,但视频建模却落后了,这主要归咎于视频数据训练的高昂计算成本以及缺乏大规模公开可用的通用数据集。目前视频合成虽有丰富的研究文献,但包括先前视频 DM 在内的大多数工作仅能生成分辨率较低且往往较短的视频。


因此,如何生成分辨率更高、更长的视频成为一个热门研究课题。近日慕尼黑大学、英伟达等机构的研究者利用潜在扩散模型(latent diffusion model, LDM)实现了高分辨率的长视频合成。相关论文已经发表在 arXiv 上。


1.png



在论文中,研究者将视频模型应用于真实世界问题并生成了高分辨率的长视频。他们关注两个相关的视频生成问题,一是高分辨率真实世界驾驶数据的视频合成,其在自动驾驶环境中作为模拟引擎具有巨大潜力;二是文本指导视频生成,用于创意内容生成。


为此,研究者提出了视频潜在扩散模型(Video LDM),并将 LDM 扩展到了计算密集型任务 —— 高分辨率视频生成。与以往视频生成 DM 工作相比,他们仅在图像上预训练 Video LDM(或者使用可用的预训练图像 LDM),从而允许利用大规模图像数据集。


接着将时间维度引入潜在空间 DM、并在编码图像序列(即视频)上仅训练这些时间层的同时固定预训练空间层,从而将 LDM 图像生成器转换为视频生成器(下图左)。最后以类似方式微调 LDM 的解码器以实现像素空间中的时间一致性(下图右)。


2.png


此外,为了进一步提高空间分辨率,研究者对像素空间和潜在 DM 上采样器进行时间对齐,将它们转换为时间一致的视频超分辨率模型。在 LDM 的基础上,本文方法以计算和内存高效的方式生成了全局连贯的长视频。对于非常高分辨率的合成,视频上采样器只需要在本地运行,保持了较低的训练和计算要求。


最后,研究者进行了消融实验,在分辨率为 512×1024 的真实驾驶场景视频上对其方法进行了测试,实现了 SOTA 视频质量,并合成了几分钟的视频。此外,他们还微调了 Stable Diffusion,将它变成一个高效、强大的文本到视频生成器,分辨率最高可达 1280 × 2048


通过将经过训练的时间层迁移至不同的微调文本到图像 LDM,研究者首次展示了个性化的文本到视频生成,并希望自己的工作为高效的数字内容创建和自动驾驶模拟开辟新的途径。


我们来看几个文本到视频生成示例,比如「弹电吉他的泰迪熊、高分辨率、4K」。


4.png


比如「海浪拍打着一座孤独的灯塔、不详的灯光」。


5.png


再比如「夕阳下独自穿行在迷雾森林中的旅行者」。


6.png


方法解读:潜在视频扩散模型


这部分中,研究者描述了为实现高分辨率视频合成,对预训练图像 LDM 和 DM 上采样器进行视频微调。


将潜在图像转换为视频生成器


研究者高效训练视频生成模型的关键思路在于:重用预训练的固定图像生成模型,并利用了由参数 θ 参数化的 LDM。具体而言,他们实现了两个不同的时间混合层,即时间注意力和基于 3D 卷积的残差块。研究者使用正弦嵌入为模型提供了时间位置编码。具体流程如下图 4 所示。


3.png


用于长视频生成的预测模型


研究者还训练模型作为给定多个(首个)S 上下文帧的预测模型,通过引入时间二元掩膜 m_S 来实现。该掩膜 mask 了模型必须预测的 T − S 帧。此外研究者将该掩膜和 masked 编码视频帧馈入到模型中进行调节。


在推理过程中,为了生成长视频,研究者迭代地应用了采样过程,将最新的预测重新用作新的上下文。第一个初始序列通过从基础图像模型中合成单个上下文帧来生成,并基于此生成了一个新序列。然后以两个上下文帧为条件对动作进行编码。


用于高帧率的时间插值


高分辨率的特点不仅在于高空间分辨率,还在于高时间分辨率,即高帧率。为此研究者将高分辨率视频的合成过程分为了两部分,第一部分包括上文中的将潜在图像转换为视频生成器和用于长视频的预测模型,它们可以生成具有较大语义变化的关键帧,但受限于内存只能在较低帧率运行。第二部分则引入了一个额外模型,其任务是在给定关键帧之间进行插值


研究者在实现过程中使用了掩膜调节机制。不过与预测任务不同,他们需要 mask 进行插值的帧,否则该机制保持不变,即图像模型被细化为视频插值模型。


超分辨率(SR)模型的时间微调


尽管 LDM 机制提供了很好的原始分辨率,但研究者的目标是将它推进到百万像素级别。他们从级联 DM 中获得灵感,并使用 DM 将 Video LDM 输出放大 4 倍。对于驾驶视频合成实验,研究者使用了像素空间 DM,并将分辨率扩大至 512×1024;对于文本到视频模型,他们使用了 LDM 上采样器,将分辨率扩大至 1280 × 2048。


实验结果


研究者专注于驾驶场景视频生成和文本到视频,因此使用了两个相关数据集,一个是真实驾驶场景(RDS)视频的内部数据集;另一个是 WebVid-10M 数据集,它将公开可用的 Stable Diffusion 图像 LDM 转换为了 Video LDM。


高分辨率驾驶视频合成


研究者在 RDS 数据集上训练 Video LDM pipeline,包括一个 4 倍像素空间视频上采样器。下表 1 显示了无上采样器时,128×256 分辨率下 Video LDM 的主要结果。研究者展示了有和无拥挤和白天 / 夜晚条件下其模型的性能。可以看到,Video LDM 通常优于 LVG,并且在一定条件下进一步降低了 FVD。


7.png


下表 2 显示了人类评估结果。就真实性而言,研究者的样本通常优于 LVG,并且来自条件模型的样本也优于无条件样本。


16.png


研究者将其视频微调像素空间上采样器与独立逐帧图像上采样做了比较,并使用了 128 × 256 30 fps 的真值视频进行调节,如下表 3 所示。


15.png


在下图左 1(底部)和图右 7(顶部)中,研究者展示了来自组合 Video LDM 和视频上采样器模型的条件样本。他们生成了高质量的视频。此外,研究者使用其预测方法生成了时间连贯的多分钟高分辨率驾驶长视频。


13.jpg


用 Stable Diffusion 做文本到视频生成


研究者没有先训练自己的 Image LDM 主干,其 Video LDM 方法可以利用并将现有的 Image LDM 转换为视频生成器。在本文中,他们将 Stable Diffusion 转换为了文本到视频生成器


具体地,研究者使用 WebVid-10M 文本字幕视频数据集,训练了一个时间对齐版本的 Stable Diffusion 来做文本条件视频生成。他们在来自 WebVid 的帧上对 Stable Diffusion 的空间层进行简单微调,然后插入时间对齐层并训练它们(分辨率为 320 × 512)。研究者还在这些对齐层中添加了文本条件。


此外,研究者进一步对公开可用的潜在 Stable Diffusion 上采样器进行视频微调,使它支持 4 倍放大并生成分辨率为 1280 × 2048 的视频。研究者生成了由 113 帧组成的视频,并可以渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相关样本如上图 1 和下图 6 所示。

12.png

相关文章
|
27天前
|
存储 人工智能 Serverless
一键解锁 AI 动画视频创作,赢好礼
短视频行业的快速增长使得内容创作的速度和质量成为竞争关键。传统动画故事制作复杂且昂贵,限制了创作者对市场热点的快速反应和创新实现。本方案通过 AI 生成剧本和动画,简化创作流程并降低技术门槛,使创作者能高效生产高质量作品,迅速适应市场需求。
105 10
|
27天前
|
人工智能 安全 机器人
重磅发布的「AI视频通话」如何10分钟就实现?
2024年,OpenAI发布GPT-4o,支持文本、音频和图像的组合输入与输出,使交互更接近自然交流。传统语音助手需经历多阶段处理,容易出现延迟或误解,体验感差。本文介绍如何在阿里云上快速创建可视频通话的AI智能体,实现拟人化交互、精准感知、情绪捕捉等功能,提供高质量、低延时的音视频通话体验。通过简单的部署流程,用户可以轻松创建并体验这一先进的人机交互技术。点击“阅读原文”参与活动赢取惊喜礼物。
|
16天前
|
数据采集 机器学习/深度学习 人工智能
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。
305 92
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
|
2月前
|
机器学习/深度学习 人工智能 算法
【AI问爱答-双十一返场周】第二场企业办公视频
【AI问爱答-双十一返场周】探讨AI大模型时代对企业办公的影响。AI员工旨在辅助而非替代人类,通过深度学习、大规模训练数据和自我监督学习提升效率。视频介绍生成式智能工具如全妙系列,助力企业内容生产。关注AI问爱答,了解更多AI技术与应用。
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
Story-flicks:AI一键生成高清故事视频,5分钟搞定全流程创作
Story-flicks 是一款基于AI大模型的视频生成工具,支持一键生成包含图像、文本、音频和字幕的高清故事短视频,适用于教育、内容创作、广告营销等多个领域。
155 7
Story-flicks:AI一键生成高清故事视频,5分钟搞定全流程创作
|
7天前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
384 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
|
16天前
|
人工智能 Python
Light-A-Video:好莱坞级打光自由!上海AI Lab开源视频打光AI,无需训练秒改画面氛围,3步让阴天变夕阳
Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法,支持高质量、时间一致的光照控制,零样本生成和前景背景分离处理。
40 9
|
18天前
|
人工智能 数据可视化 UED
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。
64 10
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
|
20天前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
119 9
|
9天前
|
人工智能 并行计算 自动驾驶
英伟达亮相CES 2025:AI新前沿背后的动力源泉
英伟达亮相CES 2025:AI新前沿背后的动力源泉

热门文章

最新文章