阿里轨迹可控版Sora,告别抽卡,让视频生成更符合物理规律

简介: 【8月更文挑战第26天】阿里团队新推出的Tora视频生成模型是对先前Sora模型的重要升级。Tora通过引入轨迹控制机制,极大提升了视频中物体运动的真实性和准确性。其核心技术包括轨迹提取器、运动指导融合器及空间时间扩散变换器,共同确保视频既高质量又流畅。实验表明,Tora在清晰度、细节表现力及运动轨迹控制上均有显著进步。尽管如此,模型训练复杂度和轨迹理解能力仍有待优化。[论文](https://arxiv.org/pdf/2407.21705)

在人工智能领域,视频生成技术一直备受关注。最近,阿里团队提出了一种名为Tora的新型视频生成模型,它是对之前备受瞩目的Sora模型的改进和扩展。Tora模型通过引入轨迹控制机制,使得视频生成更加符合物理规律,为视频生成技术的发展开辟了新的可能性。

Sora模型是之前由阿里团队提出的一种文本到视频的生成模型,它通过将文本描述转化为视频内容,实现了高质量的视频生成。然而,Sora模型在视频生成过程中存在一些局限性。首先,它对于视频中物体的运动控制能力有限,无法精确地控制物体的运动轨迹。其次,Sora模型在生成较长的视频时,容易出现运动模糊、物体变形等问题,导致视频质量下降。

为了解决Sora模型的局限性,阿里团队提出了Tora模型。Tora模型的主要创新之处在于引入了轨迹控制机制,使得视频生成更加符合物理规律。具体而言,Tora模型通过以下几个关键技术实现了轨迹控制:

  1. 轨迹提取器(TE):Tora模型首先通过轨迹提取器将用户指定的轨迹信息转化为视频中的运动条件。轨迹提取器通过将轨迹信息转化为空间时间运动补丁,使得模型能够更好地理解和利用轨迹信息。
  2. 运动指导融合器(MGF):Tora模型通过运动指导融合器将提取到的运动条件与视频生成模型进行融合。运动指导融合器通过自适应归一化层将运动条件注入到视频生成模型中,使得模型在生成视频时能够更好地遵循指定的运动轨迹。
  3. 空间时间扩散变换器(ST-DiT):Tora模型采用空间时间扩散变换器作为视频生成模型的基础架构。空间时间扩散变换器通过结合空间注意力和时间注意力机制,能够更好地捕捉视频中的时空关系,从而生成更加连贯和流畅的视频。

为了评估Tora模型的性能,阿里团队进行了一系列的实验。实验结果表明,Tora模型在视频生成质量和运动控制能力方面都取得了显著的提升。

首先,Tora模型能够生成更高质量的视频。与之前的Sora模型相比,Tora模型在视频清晰度、细节丰富度等方面都有所提升。这得益于Tora模型对于运动条件的精确控制,使得视频中的物体运动更加自然和真实。

其次,Tora模型的运动控制能力得到了显著提升。通过引入轨迹控制机制,Tora模型能够更加精确地控制视频中物体的运动轨迹。无论是简单的直线运动还是复杂的曲线运动,Tora模型都能够很好地还原用户指定的运动轨迹。

尽管Tora模型在视频生成质量和运动控制能力方面取得了显著的提升,但它仍然存在一些局限性。首先,Tora模型的训练和推理过程相对复杂,需要大量的计算资源和时间。其次,Tora模型对于用户指定的运动轨迹的理解和还原能力还有一定的提升空间。

未来,研究人员可以进一步探索如何简化Tora模型的训练和推理过程,提高模型的效率和可扩展性。此外,还可以探索如何进一步提高Tora模型对于用户指定运动轨迹的理解和还原能力,使得视频生成更加符合用户的期望。

论文地址:https://arxiv.org/pdf/2407.21705

目录
相关文章
|
JavaScript 物联网 API
vue中使用mqtt
vue中使用mqtt
|
搜索推荐 前端开发 架构师
阿里高级技术专家谈开源DDD框架:COLA4.0,分离架构和组件(上)
阿里高级技术专家谈开源DDD框架:COLA4.0,分离架构和组件(上)
2823 0
阿里高级技术专家谈开源DDD框架:COLA4.0,分离架构和组件(上)
|
机器学习/深度学习 编解码 人工智能
EasyAnimate-v3版本支持I2V及超长视频生成
阿里云人工智能平台(PAI)自研开源的视频生成项目EasyAnimate正式发布v3版本
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
Ingredients:无需额外训练的多ID视频生成框架,通过多张人物照片生成定制视频
Ingredients 是一款基于多ID照片与视频扩散Transformer相结合的定制视频生成框架,能够生成高质量、身份一致且内容灵活的视频。
306 19
Ingredients:无需额外训练的多ID视频生成框架,通过多张人物照片生成定制视频
|
9月前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41825 20
|
10月前
|
供应链 监控 数据可视化
智能库存方案:直击日常管理痛点,释放效益潜能
Leangoo 通过智能化仓储管理和智慧管理理念,解决了库存管理中常见的盘点繁琐、出入库混乱、补货滞后等问题。它提供精准的任务规划、可视化流程管理及智能预警系统,有效提升了库存管理的效率和准确性,促进了跨部门协作与沟通,开启了库存管理的新篇章。
|
10月前
|
Web App开发 定位技术 iOS开发
Playwright 是一个强大的工具,用于在各种浏览器上测试应用,并模拟真实设备如手机和平板。通过配置 `playwright.devices`,可以轻松模拟不同设备的用户代理、屏幕尺寸、视口等特性。此外,Playwright 还支持模拟地理位置、区域设置、时区、权限(如通知)和配色方案,使测试更加全面和真实。例如,可以在配置文件中设置全局的区域设置和时区,然后在特定测试中进行覆盖。同时,还可以动态更改地理位置和媒体类型,以适应不同的测试需求。
Playwright 是一个强大的工具,用于在各种浏览器上测试应用,并模拟真实设备如手机和平板。通过配置 `playwright.devices`,可以轻松模拟不同设备的用户代理、屏幕尺寸、视口等特性。此外,Playwright 还支持模拟地理位置、区域设置、时区、权限(如通知)和配色方案,使测试更加全面和真实。例如,可以在配置文件中设置全局的区域设置和时区,然后在特定测试中进行覆盖。同时,还可以动态更改地理位置和媒体类型,以适应不同的测试需求。
822 1
|
11月前
|
机器学习/深度学习 算法 数据处理
模型预测笔记(二):结合SMOTE来进行数据不均衡处理实操
这篇文章介绍了SMOTE算法,这是一种通过合成新样本来处理数据不均衡问题的技术,旨在提高模型对少数类别的识别能力。
575 1
|
机器学习/深度学习 编解码 计算机视觉
阿里发布轨迹可控的DiT视频生成模型—Tora
【9月更文挑战第4天】阿里团队在视频生成领域取得了重要突破,推出了名为Tora的新模型。Tora基于Diffusion Transformer框架,旨在克服现有模型在物体运动控制上的局限。该模型整合了文本、视觉和轨迹条件,通过轨迹提取器、时空DiT和运动引导融合器三大组件,实现了高质量且运动一致的视频生成。Tora在多个基准数据集上表现出色,尤其在高运动保真度方面领先。然而,其应用仍需大量计算资源,并主要聚焦于可控轨迹视频生成。论文详情见:https://arxiv.org/abs/2407.21705
306 2
|
机器学习/深度学习 自然语言处理
【大模型】如何处理微调LLM来编写创意内容?
【5月更文挑战第7天】【大模型】如何处理微调LLM来编写创意内容?