阿里发布轨迹可控的DiT视频生成模型—Tora

简介: 【9月更文挑战第4天】阿里团队在视频生成领域取得了重要突破,推出了名为Tora的新模型。Tora基于Diffusion Transformer框架,旨在克服现有模型在物体运动控制上的局限。该模型整合了文本、视觉和轨迹条件,通过轨迹提取器、时空DiT和运动引导融合器三大组件,实现了高质量且运动一致的视频生成。Tora在多个基准数据集上表现出色,尤其在高运动保真度方面领先。然而,其应用仍需大量计算资源,并主要聚焦于可控轨迹视频生成。论文详情见:https://arxiv.org/abs/2407.21705

近期,阿里团队在视频生成领域取得了一项重要突破,他们发布了一种名为Tora的新型视频生成模型。Tora是一种基于Diffusion Transformer(DiT)的框架,旨在解决当前视频生成模型在控制视频中物体运动方面的局限性。

视频生成是计算机视觉和机器学习领域的一项重要任务,其目标是根据给定的条件或要求生成高质量的视频内容。近年来,基于深度学习的视频生成模型取得了显著的进展,尤其是基于Transformer的扩散模型(DiT),它们在生成高质量视频方面表现出了出色的能力。

然而,尽管这些模型在生成视频的视觉质量方面取得了成功,但它们在控制视频中物体的运动方面仍然存在一些挑战。具体而言,现有的视频生成模型通常难以生成具有精确和一致的运动模式的视频,这限制了它们在需要对视频内容进行精细控制的应用中的适用性。

为了解决这些挑战,阿里团队提出了Tora,这是一种基于DiT的新型视频生成框架,专注于生成具有可控轨迹的视频。Tora的独特之处在于它能够同时整合文本、视觉和轨迹条件,以生成高质量的视频内容。

Tora由三个关键组件组成:轨迹提取器(TE)、时空DiT和运动引导融合器(MGF)。轨迹提取器负责将任意轨迹编码为层次化的时空运动块,使用3D视频压缩网络实现。运动引导融合器则将这些运动块整合到DiT块中,以生成遵循指定轨迹的一致视频。

通过这种设计,Tora能够与DiT的可扩展性无缝结合,从而实现对视频内容动态的精确控制,包括不同的持续时间、纵横比和分辨率。这使得Tora成为一种非常灵活和强大的视频生成工具,适用于各种不同的应用场景。

为了验证Tora的有效性,阿里团队进行了广泛的实验,并将结果与现有的视频生成模型进行了比较。实验结果表明,Tora在生成具有高运动保真度的视频方面表现出色,能够精确地模拟物理世界的运动。

具体而言,Tora在多个视频生成基准数据集上取得了最先进的性能,包括在控制视频中物体运动方面的显著改进。此外,Tora还展示了生成具有复杂运动模式和多个运动物体的视频的能力,这是现有模型难以实现的。

然而,尽管Tora在视频生成方面取得了显著的进展,但它仍然存在一些局限性。例如,Tora可能需要大量的计算资源和训练数据来达到最佳性能,这可能限制了它在资源受限环境中的应用。此外,Tora目前主要关注于生成具有可控轨迹的视频,对于其他类型的视频生成任务(如无条件视频生成)可能需要进一步的研究和改进。

论文地址:https://arxiv.org/abs/2407.21705

目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
798 8
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
|
自然语言处理 算法 云栖大会
通义万相发布视频生成模型,更懂中国风、中国话
通义万相发布视频生成模型,可一键创作影视级高清视频
1207 13
|
机器学习/深度学习 人工智能
阿里轨迹可控版Sora,告别抽卡,让视频生成更符合物理规律
【8月更文挑战第26天】阿里团队新推出的Tora视频生成模型是对先前Sora模型的重要升级。Tora通过引入轨迹控制机制,极大提升了视频中物体运动的真实性和准确性。其核心技术包括轨迹提取器、运动指导融合器及空间时间扩散变换器,共同确保视频既高质量又流畅。实验表明,Tora在清晰度、细节表现力及运动轨迹控制上均有显著进步。尽管如此,模型训练复杂度和轨迹理解能力仍有待优化。[论文](https://arxiv.org/pdf/2407.21705)
158 2
|
应用服务中间件 nginx Docker
nginx反向代理踩坑(容器方式)
nginx反向代理踩坑(容器方式)
455 0
|
人工智能 开发者
通义千问,榜首!
日前,全球最大的开源大模型社区HuggingFace和国内权威大模型评测平台OpenCompass分别公布了最新的开源大模型排行榜,阿里云通义千问(Qwen-72B)力压Llama2等国内外开源大模型在两个排行榜上同时登顶榜首。
599 1
|
机器学习/深度学习 自然语言处理 决策智能
ICML 2024:大语言模型预训练新前沿:最佳适配打包重塑文档处理标准
【5月更文挑战第27天】ICML 2024 提出大语言模型预训练新方法——最佳适配打包,解决文档截断问题,提高模型性能和可靠性。此方法通过优化组合,保留完整上下文,减少信息丢失,在阅读理解等任务上表现卓越。实验显示,不同尺寸和序列长度的模型使用此方法后,下游任务性能提升,幻觉现象减少。尽管计算资源需求增加,但该方法对预训练技术的改进具有重要意义。[论文链接](https://arxiv.org/pdf/2404.10830)
246 1
|
机器学习/深度学习 搜索推荐 物联网
微软开源创新LoRA组合方法,增强文生图复杂细节控制
微软研究团队推出Multi-LoRA Composition技术,改善文本到图像模型的细节控制。利用低秩适应(LoRA)提升图像生成精度,通过LORA SWITCH和LORA COMPOSITE解决组合复杂图像的挑战。新方法在ComposLoRA平台上测试,性能优于基线,为图像生成和个性化内容创作开辟新途径。尽管有学习曲线和定制需求优化的问题,但该研究仍为领域带来显著进步。
633 3
微软开源创新LoRA组合方法,增强文生图复杂细节控制
|
数据采集 数据库连接 调度
从菜鸟到大师:掌握Python asyncio库,并发编程不再是梦!
【7月更文挑战第10天】Python的asyncio库简化了异步编程,通过事件循环和协程实现非阻塞I/O,提升效率。从`async def`定义异步函数到`await`等待操作,如在`main`函数中并发调用`say_hello`。深入学习涉及自定义协程、异步上下文管理器和信号量。结合如aiohttp,能构建高性能并发应用,实现高效的Web服务。开始你的asyncio之旅,成为并发编程专家!**
225 0
|
弹性计算 Java 微服务
Seata常见问题之客户端集成了seata 注册会报错如何解决
Seata 是一个开源的分布式事务解决方案,旨在提供高效且简单的事务协调机制,以解决微服务架构下跨服务调用(分布式场景)的一致性问题。以下是Seata常见问题的一个合集