阿里轨迹可控版Sora，告别抽卡，让视频生成更符合物理规律-阿里云开发者社区

阿里轨迹可控版Sora，告别抽卡，让视频生成更符合物理规律

2024-08-26 72

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第26天】阿里团队新推出的Tora视频生成模型是对先前Sora模型的重要升级。Tora通过引入轨迹控制机制，极大提升了视频中物体运动的真实性和准确性。其核心技术包括轨迹提取器、运动指导融合器及空间时间扩散变换器，共同确保视频既高质量又流畅。实验表明，Tora在清晰度、细节表现力及运动轨迹控制上均有显著进步。尽管如此，模型训练复杂度和轨迹理解能力仍有待优化。[论文](https://arxiv.org/pdf/2407.21705)

在人工智能领域，视频生成技术一直备受关注。最近，阿里团队提出了一种名为Tora的新型视频生成模型，它是对之前备受瞩目的Sora模型的改进和扩展。Tora模型通过引入轨迹控制机制，使得视频生成更加符合物理规律，为视频生成技术的发展开辟了新的可能性。

Sora模型是之前由阿里团队提出的一种文本到视频的生成模型，它通过将文本描述转化为视频内容，实现了高质量的视频生成。然而，Sora模型在视频生成过程中存在一些局限性。首先，它对于视频中物体的运动控制能力有限，无法精确地控制物体的运动轨迹。其次，Sora模型在生成较长的视频时，容易出现运动模糊、物体变形等问题，导致视频质量下降。

为了解决Sora模型的局限性，阿里团队提出了Tora模型。Tora模型的主要创新之处在于引入了轨迹控制机制，使得视频生成更加符合物理规律。具体而言，Tora模型通过以下几个关键技术实现了轨迹控制：

轨迹提取器（TE）：Tora模型首先通过轨迹提取器将用户指定的轨迹信息转化为视频中的运动条件。轨迹提取器通过将轨迹信息转化为空间时间运动补丁，使得模型能够更好地理解和利用轨迹信息。
运动指导融合器（MGF）：Tora模型通过运动指导融合器将提取到的运动条件与视频生成模型进行融合。运动指导融合器通过自适应归一化层将运动条件注入到视频生成模型中，使得模型在生成视频时能够更好地遵循指定的运动轨迹。
空间时间扩散变换器（ST-DiT）：Tora模型采用空间时间扩散变换器作为视频生成模型的基础架构。空间时间扩散变换器通过结合空间注意力和时间注意力机制，能够更好地捕捉视频中的时空关系，从而生成更加连贯和流畅的视频。

为了评估Tora模型的性能，阿里团队进行了一系列的实验。实验结果表明，Tora模型在视频生成质量和运动控制能力方面都取得了显著的提升。

首先，Tora模型能够生成更高质量的视频。与之前的Sora模型相比，Tora模型在视频清晰度、细节丰富度等方面都有所提升。这得益于Tora模型对于运动条件的精确控制，使得视频中的物体运动更加自然和真实。

其次，Tora模型的运动控制能力得到了显著提升。通过引入轨迹控制机制，Tora模型能够更加精确地控制视频中物体的运动轨迹。无论是简单的直线运动还是复杂的曲线运动，Tora模型都能够很好地还原用户指定的运动轨迹。

尽管Tora模型在视频生成质量和运动控制能力方面取得了显著的提升，但它仍然存在一些局限性。首先，Tora模型的训练和推理过程相对复杂，需要大量的计算资源和时间。其次，Tora模型对于用户指定的运动轨迹的理解和还原能力还有一定的提升空间。

未来，研究人员可以进一步探索如何简化Tora模型的训练和推理过程，提高模型的效率和可扩展性。此外，还可以探索如何进一步提高Tora模型对于用户指定运动轨迹的理解和还原能力，使得视频生成更加符合用户的期望。

论文地址：https://arxiv.org/pdf/2407.21705

阿里轨迹可控版Sora，告别抽卡，让视频生成更符合物理规律

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里轨迹可控版Sora，告别抽卡，让视频生成更符合物理规律

热门文章

最新文章

相关课程

相关电子书

相关实验场景