时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了(2)

简介: 时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了(2)

事实上,可控性已经成为视觉内容创作的更高基准,其在定制化的图像生成方面取得了显着进步,但在视频生成领域仍然具有三大挑战:


  • 复杂的数据结构,生成的视频需同时满足时间维度上的动态变化的多样性和时空维度的内容一致性;
  • 复杂的引导条件,已存在的可控的视频生成需要复杂的条件是无法人为手动构建的。比如 Runway 提出的 Gen-1/2 需要依赖深度序列作条件,其能较好的实现视频间的结构迁移,但不能很好的解决可控性问题;
  • 缺乏运动可控性,运动模式是视频即复杂又抽象的属性,运动可控性是解决视频生成可控性的必要条件。


在此之前,阿里巴巴提出的 Composer 已经证明了组合性对图像生成可控性的提升具有极大的帮助,而 VideoComposer 这项研究同样是基于组合式生成范式,在解决以上三大挑战的同时提高视频生成的灵活性。具体是将视频分解成三种引导条件,即文本条件、空间条件、和视频特有的时序条件,然后基于此训练 Video LDM (Video Latent Diffusion Model)。特别地,其将高效的 Motion Vector 作为重要的显式的时序条件以学习视频的运动模式,并设计了一个简单有效的时空条件编码器 STC-encoder,保证条件驱动视频的时空连续性。在推理阶段,则可以随机组合不同的条件来控制视频内容。


实验结果表明,VideoComposer 能够灵活控制视频的时间和空间的模式,比如通过单张图、手绘图等生成特定的视频,甚至可以通过简单的手绘方向轻松控制目标的运动风格。该研究在 9 个不同的经典任务上直接测试 VideoComposer 的性能,均获得满意的结果,证明了 VideoComposer 通用性。


图 (a-c)VideoComposer 能够生成符合文本、空间和时间条件或其子集的视频;(d)VideoComposer 可以仅仅利用两笔画来生成满足梵高风格的视频,同时满足预期运动模式(红色笔画)和形状模式(白色笔画)


方法介绍


Video LDM


隐空间。Video LDM 首先引入预训练的编码器将输入的视频映射到隐空间表达,其中。然后,在用预先训练的解码器 D 将隐空间映射到像素空间上去。在 VideoComposer 中,参数设置


扩散模型。为了学习实际的视频内容分布,扩散模型学习从正态分布噪声中逐步去噪来恢复真实的视觉内容,该过程实际上是在模拟可逆的长度为 T=1000 的马尔可夫链。为了在隐空间中进行可逆过程,Video LDM 将噪声注入到中,得到噪声注入的隐变量。然后其通过用去噪函数作用在和输入条件 c 上,那么其优化目标如下:



为了充分探索利用空间局部的归纳偏置和序列的时间归纳偏置进行去噪,VideoComposer 将实例化为一个 3D UNet,同时使用时序卷积算子和交叉注意机制。



VideoComposer


组合条件。VideoComposer 将视频分解为三种不同类型的条件,即文本条件、空间条件和关键的时序条件,它们可以共同确定视频中的空间和时间模式。VideoComposer 是一个通用的组合式视频生成框架,因此,可以根据下游应用程序将更多的定制条件纳入 VideoComposer,不限于下述列出的条件:


  • 文本条件:文本 (Text) 描述以粗略的视觉内容和运动方面提供视频的直观指示,这也是常用的 T2V 常用的条件;


  • 空间条件:
  • 单张图 (Single Image),选择给定视频的第一帧作为空间条件来进行图像到视频的生成,以表达该视频的内容和结构;
  • 单张早图 (Single Sketch),使用 PiDiNet 提取第一个视频帧的草图作为第二个空间条件;
  • 风格(Style),为了进一步将单张图像的风格转移到合成的视频中,选择图像嵌入作为风格指导;


  • 时序条件:
  • 运动矢量(Motion Vector),运动矢量作为视频特有的元素表示为二维向量,即水平和垂直方向。它明确地编码了相邻两帧之间的逐像素移动。由于运动矢量的自然属性,将此条件视为时间平滑合成的运动控制信号,其从压缩视频中提取标准 MPEG-4 格式的运动矢量;
  • 深度序列(Depth Sequence),为了引入视频级别的深度信息,利用 PiDiNet 中的预训练模型提取视频帧的深度图;
  • 掩膜序列(Mask Sequence),引入管状掩膜来屏蔽局部时空内容,并强制模型根据可观察到的信息预测被屏蔽的区域;
  • 草图序列(Sketch Sequnce),与单个草图相比,草图序列可以提供更多的控制细节,从而实现精确的定制合成。


时空条件编码器。序列条件包含丰富而复杂的时空依赖关系,对可控的指示带来了较大挑战。为了增强输入条件的时序感知,该研究设计了一个时空条件编码器(STC-encoder)来纳入空时关系。具体而言,首先应用一个轻量级的空间结构,包括两个 2D 卷积和一个 avgPooling,用于提取局部空间信息,然后将得到的条件序列被输入到一个时序 Transformer 层进行时间建模。这样,STC-encoder 可以促进时间提示的显式嵌入,为多样化的输入提供统一的条件植入入口,从而增强帧间一致性。另外,该研究在时间维度上重复单个图像和单个草图的空间条件,以确保它们与时间条件的一致性,从而方便条件植入过程。


通过 STC-encoder 处理条件后,最终的条件序列具有与相同的空间形状,然后通过元素加法融合。最后,沿通道维度将合并后的条件序列与连接起来作为控制信号。对于文本和风格条件,利用交叉注意力机制注入文本和风格指导。


训练和推理


两阶段训练策略。虽然 VideoComposer 可以通过图像 LDM 的预训练进行初始化,其能够在一定程度上缓解训练难度,但模型难以同时具有时序动态感知的能力和多条件生成的能力,这个会增加训练组合视频生成的难度。因此,该研究采用了两阶段优化策略,第一阶段通过 T2V 训练的方法,让模型初步具有时序建模能力;第二阶段在通过组合式训练来优化 VideoComposer,以达到比较好的性能。


推理。在推理过程中,采用 DDIM 来提高推理效率。并采用无分类器指导来确保生成结果符合指定条件。生成过程可以形式化如下:



其中,ω 是指导比例;c1 和 c2 是两组条件。这种指导机制在两条件集合判断,可以通过强度控制来让模型具有更加灵活的控制。


实验结果


在实验探索中,该研究证明作为 VideoComposer 作为统一模型具有通用生成框架,并在 9 项经典任务上验证 VideoComposer 的能力。


,时长02:40


该研究的部分结果如下,在静态图片到视频生成(图 4)、视频 Inpainting(图 5)、静态草图生成生视频(图 6)、手绘运动控制视频(图 8)、运动迁移(图 A12)均能体现可控视频生成的优势。






团队介绍


公开信息显示,阿里巴巴在视觉基础模型上的研究主要围绕视觉表征大模型、视觉生成式大模型及其下游应用的研究,并在相关领域已经发表 CCF-A 类论文 60 余篇以及在多项行业竞赛中获得 10 余项国际冠军,比如可控图像生成方法 Composer、图文预训练方法 RA-CLIP 和 RLEG、未裁剪长视频自监督学习 HiCo/HiCo++、说话人脸生成方法 LipFormer 等均出自该团队。

相关文章
|
1月前
|
人工智能 自然语言处理 BI
从数据积累到大模型的智能飞跃,你准备好了吗?
在数据驱动的时代,人工智能(AI)正重塑世界。蚂蚁集团的师文汇在「DATA+AI」论坛上发表演讲,阐述了《数据驱动的AI原生应用与开放框架》。他指出,AI应用经历了从数据积累到大模型的智能飞跃,数据已成为智能应用成功的关键。师文汇强调,构建智能应用需结合优质大模型与行业数据。演讲还介绍了AI原生应用的研发变革与挑战,包括编程模型转变、研发范式的不确定性及与现有系统的交互等问题。此外,他还分享了AI原生应用框架的思考与探索,提出了泛ETL、实验反馈机制及应对不确定性等解决方案,并展示了DB-GPT在政企、金融等多个领域的应用案例。
|
3月前
|
存储 SQL 分布式计算
揭秘Delta Lake:如何以史诗级时间旅行能力,驾驭数据表的无限版本,让数据科学家直呼过瘾!
【8月更文挑战第27天】Delta Lake是一种开源的大数据存储层,它通过事务日志与快照机制管理表格的多版本,支持数据的时间旅行功能。其核心是维护一个详细的事务日志记录所有表操作,并通过快照保存特定时间点的表状态。用户可通过指定时间戳或版本号查询历史版本数据,系统默认保留30天的历史记录并支持自定义设置。借助Delta Lake,数据团队能高效地处理数据变更和审计需求。
50 0
|
3月前
|
算法 C++
惊爆!KPM算法背后的秘密武器:一行代码揭秘字符串最小周期的终极奥义,让你秒变编程界周期大师!
【8月更文挑战第4天】字符串最小周期问题旨在找出字符串中最短重复子串的长度。KPM(实为KMP,Knuth-Morris-Pratt)算法,虽主要用于字符串匹配,但其生成的前缀函数(next数组)也可用于求解最小周期。核心思想是构建LPS数组,记录模式串中每个位置的最长相等前后缀长度。对于长度为n的字符串S,其最小周期T可通过公式ans = n - LPS[n-1]求得。通过分析周期字符串的特性,可证明该方法的有效性。提供的C++示例代码展示了如何计算给定字符串的最小周期,体现了KPM算法在解决此类问题上的高效性。
81 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
小说中修仙系统的方向统计_IT修仙_人工智能的底层逻辑
小说中修仙系统的方向统计_IT修仙_人工智能的底层逻辑
156 0
|
人工智能 PHP 开发者
时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了(1)
时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了
261 0
|
安全 架构师 测试技术
【真实感受】超越专业局限,职场人拓展更多可能性!
【真实感受】超越专业局限,职场人拓展更多可能性!
111 0
|
传感器 机器学习/深度学习 人工智能
「纯视觉」与「多传感器」路线之争背后,久未解决的3大难题
「纯视觉」与「多传感器」路线之争背后,久未解决的3大难题
357 0
|
机器学习/深度学习 数据采集 人工智能
上科大最新工作!实时面捕天花板,微表情像素级一致,AI让你告别手Key|SIGGRAPH Asia 2022
上科大最新工作!实时面捕天花板,微表情像素级一致,AI让你告别手Key|SIGGRAPH Asia 2022
138 0
|
JavaScript 前端开发 开发工具
重"心"出发,从"质"启程--全新开源的X版2.0正式和大家见面啦~
重"心"出发,从"质"启程--全新开源的X版2.0正式和大家见面啦~
重"心"出发,从"质"启程--全新开源的X版2.0正式和大家见面啦~
|
机器学习/深度学习 监控 算法
这场评分卡模型直播解答了我对于信贷风险的大部分疑问
8月4日下午15:00顶象第三期业务安全大讲堂正式开讲。本期业务安全大讲堂由顶象研发总监管胜老师进行分享,针对信贷风控,管胜老师就评分卡模型做了深入浅出的讲解,深刻剖析了评分卡模型的原理、如何构建评分卡模型以及评分卡模型如何评估、应用、跟踪等问题,不仅让大家对信用贷有了更深的理解,同时对评分卡模型的构建产生了极大关注度。
466 0
这场评分卡模型直播解答了我对于信贷风险的大部分疑问