阿里发布轨迹可控的DiT视频生成模型—Tora

简介: 【9月更文挑战第4天】阿里团队在视频生成领域取得了重要突破,推出了名为Tora的新模型。Tora基于Diffusion Transformer框架,旨在克服现有模型在物体运动控制上的局限。该模型整合了文本、视觉和轨迹条件,通过轨迹提取器、时空DiT和运动引导融合器三大组件,实现了高质量且运动一致的视频生成。Tora在多个基准数据集上表现出色,尤其在高运动保真度方面领先。然而,其应用仍需大量计算资源,并主要聚焦于可控轨迹视频生成。论文详情见:https://arxiv.org/abs/2407.21705

近期,阿里团队在视频生成领域取得了一项重要突破,他们发布了一种名为Tora的新型视频生成模型。Tora是一种基于Diffusion Transformer(DiT)的框架,旨在解决当前视频生成模型在控制视频中物体运动方面的局限性。

视频生成是计算机视觉和机器学习领域的一项重要任务,其目标是根据给定的条件或要求生成高质量的视频内容。近年来,基于深度学习的视频生成模型取得了显著的进展,尤其是基于Transformer的扩散模型(DiT),它们在生成高质量视频方面表现出了出色的能力。

然而,尽管这些模型在生成视频的视觉质量方面取得了成功,但它们在控制视频中物体的运动方面仍然存在一些挑战。具体而言,现有的视频生成模型通常难以生成具有精确和一致的运动模式的视频,这限制了它们在需要对视频内容进行精细控制的应用中的适用性。

为了解决这些挑战,阿里团队提出了Tora,这是一种基于DiT的新型视频生成框架,专注于生成具有可控轨迹的视频。Tora的独特之处在于它能够同时整合文本、视觉和轨迹条件,以生成高质量的视频内容。

Tora由三个关键组件组成:轨迹提取器(TE)、时空DiT和运动引导融合器(MGF)。轨迹提取器负责将任意轨迹编码为层次化的时空运动块,使用3D视频压缩网络实现。运动引导融合器则将这些运动块整合到DiT块中,以生成遵循指定轨迹的一致视频。

通过这种设计,Tora能够与DiT的可扩展性无缝结合,从而实现对视频内容动态的精确控制,包括不同的持续时间、纵横比和分辨率。这使得Tora成为一种非常灵活和强大的视频生成工具,适用于各种不同的应用场景。

为了验证Tora的有效性,阿里团队进行了广泛的实验,并将结果与现有的视频生成模型进行了比较。实验结果表明,Tora在生成具有高运动保真度的视频方面表现出色,能够精确地模拟物理世界的运动。

具体而言,Tora在多个视频生成基准数据集上取得了最先进的性能,包括在控制视频中物体运动方面的显著改进。此外,Tora还展示了生成具有复杂运动模式和多个运动物体的视频的能力,这是现有模型难以实现的。

然而,尽管Tora在视频生成方面取得了显著的进展,但它仍然存在一些局限性。例如,Tora可能需要大量的计算资源和训练数据来达到最佳性能,这可能限制了它在资源受限环境中的应用。此外,Tora目前主要关注于生成具有可控轨迹的视频,对于其他类型的视频生成任务(如无条件视频生成)可能需要进一步的研究和改进。

论文地址:https://arxiv.org/abs/2407.21705

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA
本⽂简要介绍我们在电商下对CLIP模型的优化,以及上述模型在公开数据集上的评测结果。最后,我们介绍如何在EasyNLP框架中调用上述电商CLIP模型。
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
200 0
|
5月前
|
机器学习/深度学习 自然语言处理
谷歌发布时序预测基础模型TimesFM
【2月更文挑战第27天】谷歌发布时序预测基础模型TimesFM
597 3
谷歌发布时序预测基础模型TimesFM
|
4月前
|
语音技术 计算机视觉
CVPR 2024 Highlight :北航等发布时间特征维护:无需训练,极致压缩加速Diffusion
【6月更文挑战第28天】在CVPR 2024会议上,北航等研究团队提出了**时间特征维护**技术,针对Diffusion模型实现无需训练的高效压缩与加速。通过选择性保留关键时间特征,他们在保持生成质量的同时,实现了模型4bit极致压缩和超过2.38倍硬件加速,简化了复杂模型,提升了运行效率。这一创新方法有望改善Diffusion模型在实际应用中的资源需求,但其鲁棒性和泛化能力尚需更多验证。[论文链接](https://arxiv.org/pdf/2311.16503)
48 5
|
5月前
|
机器学习/深度学习 人工智能 算法
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了
【5月更文挑战第27天】在线迭代RLHF方案使用开源数据复现LLaMA3指令学习效果,提供了一种动态收集和更新模型的新方法,提升大型语言模型的性能。通过代理偏好模型模拟人类反馈,降低训练成本,促进技术民主化。虽然面临数据利用、探索与利用平衡等挑战,且需解决长尾分布数据处理问题,该方案已在多基准测试中展现优秀性能,为LLM训练提供高效途径。论文链接:https://arxiv.org/pdf/2405.07863
52 1
|
5月前
|
机器学习/深度学习 编解码 计算机视觉
|
5月前
|
人工智能
全方位解析PAI:数据准备、模型开发、模型训练一网打尽
全方位解析PAI:数据准备、模型开发、模型训练一网打尽 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研发中。然而,AI的研发并非易事,从数据准备、模型开发、模型训练到模型服务,每一个环节都需要专业的工具和平台来支持。阿里云的PAI(Powered by AI)正是一个涵盖了数据准备、模型开发、模型训练、模型服务全流程的AI工作平台。本文将为您详细介绍PAI的各个子产品的产品线上规格及使用指引。
126 2
|
机器学习/深度学习 编解码 人工智能
无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录
无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录
206 0
|
机器学习/深度学习 人工智能 缓存
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(1)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
148 0
|
人工智能 自然语言处理 算法
即插即用、无需训练:剑桥大学、腾讯AI Lab等提出免训练跨模态文本生成框架
即插即用、无需训练:剑桥大学、腾讯AI Lab等提出免训练跨模态文本生成框架
235 0