阿里轨迹可控版Sora,告别抽卡,让视频生成更符合物理规律

简介: 【8月更文挑战第26天】阿里团队新推出的Tora视频生成模型是对先前Sora模型的重要升级。Tora通过引入轨迹控制机制,极大提升了视频中物体运动的真实性和准确性。其核心技术包括轨迹提取器、运动指导融合器及空间时间扩散变换器,共同确保视频既高质量又流畅。实验表明,Tora在清晰度、细节表现力及运动轨迹控制上均有显著进步。尽管如此,模型训练复杂度和轨迹理解能力仍有待优化。[论文](https://arxiv.org/pdf/2407.21705)

在人工智能领域,视频生成技术一直备受关注。最近,阿里团队提出了一种名为Tora的新型视频生成模型,它是对之前备受瞩目的Sora模型的改进和扩展。Tora模型通过引入轨迹控制机制,使得视频生成更加符合物理规律,为视频生成技术的发展开辟了新的可能性。

Sora模型是之前由阿里团队提出的一种文本到视频的生成模型,它通过将文本描述转化为视频内容,实现了高质量的视频生成。然而,Sora模型在视频生成过程中存在一些局限性。首先,它对于视频中物体的运动控制能力有限,无法精确地控制物体的运动轨迹。其次,Sora模型在生成较长的视频时,容易出现运动模糊、物体变形等问题,导致视频质量下降。

为了解决Sora模型的局限性,阿里团队提出了Tora模型。Tora模型的主要创新之处在于引入了轨迹控制机制,使得视频生成更加符合物理规律。具体而言,Tora模型通过以下几个关键技术实现了轨迹控制:

  1. 轨迹提取器(TE):Tora模型首先通过轨迹提取器将用户指定的轨迹信息转化为视频中的运动条件。轨迹提取器通过将轨迹信息转化为空间时间运动补丁,使得模型能够更好地理解和利用轨迹信息。
  2. 运动指导融合器(MGF):Tora模型通过运动指导融合器将提取到的运动条件与视频生成模型进行融合。运动指导融合器通过自适应归一化层将运动条件注入到视频生成模型中,使得模型在生成视频时能够更好地遵循指定的运动轨迹。
  3. 空间时间扩散变换器(ST-DiT):Tora模型采用空间时间扩散变换器作为视频生成模型的基础架构。空间时间扩散变换器通过结合空间注意力和时间注意力机制,能够更好地捕捉视频中的时空关系,从而生成更加连贯和流畅的视频。

为了评估Tora模型的性能,阿里团队进行了一系列的实验。实验结果表明,Tora模型在视频生成质量和运动控制能力方面都取得了显著的提升。

首先,Tora模型能够生成更高质量的视频。与之前的Sora模型相比,Tora模型在视频清晰度、细节丰富度等方面都有所提升。这得益于Tora模型对于运动条件的精确控制,使得视频中的物体运动更加自然和真实。

其次,Tora模型的运动控制能力得到了显著提升。通过引入轨迹控制机制,Tora模型能够更加精确地控制视频中物体的运动轨迹。无论是简单的直线运动还是复杂的曲线运动,Tora模型都能够很好地还原用户指定的运动轨迹。

尽管Tora模型在视频生成质量和运动控制能力方面取得了显著的提升,但它仍然存在一些局限性。首先,Tora模型的训练和推理过程相对复杂,需要大量的计算资源和时间。其次,Tora模型对于用户指定的运动轨迹的理解和还原能力还有一定的提升空间。

未来,研究人员可以进一步探索如何简化Tora模型的训练和推理过程,提高模型的效率和可扩展性。此外,还可以探索如何进一步提高Tora模型对于用户指定运动轨迹的理解和还原能力,使得视频生成更加符合用户的期望。

论文地址:https://arxiv.org/pdf/2407.21705

目录
相关文章
|
5天前
|
人工智能 自然语言处理 计算机视觉
浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余
【9月更文挑战第14天】近年来,人工智能的迅猛发展推动了计算机视觉与自然语言处理交叉领域的研究,其中指代表达理解任务备受关注。REC的目标是在图像中根据自然语言描述定位目标对象。然而,现有方法因密集感知图像而导致计算开销大。为此,浙江大学李玺团队提出了ScanFormer,一种迭代感知框架,通过自顶向下的方式逐步提取与语言相关的视觉块,并通过信息性预测丢弃不相关部分,有效减少冗余,提升模型效率。实验表明,ScanFormer在多个基准数据集上表现优异,实现了准确性和效率的良好平衡。不过,它目前仅支持单目标定位,且在某些场景下可能不如其他方法精确。
15 1
|
1月前
|
机器学习/深度学习 编解码
Sora视频重建与创新路线问题之通过多尺度策略提升视频的生成质量该如何操作
Sora视频重建与创新路线问题之通过多尺度策略提升视频的生成质量该如何操作
|
24天前
|
搜索推荐 知识图谱 UED
信息检索新技术问题之回音室效应的定义如何解决
信息检索新技术问题之回音室效应的定义如何解决
10 0
|
算法
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
116 0
|
人工智能 文字识别 NoSQL
风控系统就该这么设计,万能通用,稳的一批!(建议收藏)
风控系统就该这么设计,万能通用,稳的一批!(建议收藏)
183 0
风控系统就该这么设计,万能通用,稳的一批!(建议收藏)
|
传感器 机器学习/深度学习 人工智能
「纯视觉」与「多传感器」路线之争背后,久未解决的3大难题
「纯视觉」与「多传感器」路线之争背后,久未解决的3大难题
331 0
|
消息中间件 人工智能 JavaScript
风控系统就该这么设计(万能通用),稳的一批!
风控系统就该这么设计(万能通用),稳的一批!
|
机器学习/深度学习 数据采集 编解码
AAAI 2019 提前看:融合质量不理想数据
这篇文章笔者想讨论的研究主要跟数据质量相关。此前腾讯 AI Lab 主任张潼返回学术界的消息引起了对于学界和业界之间的鸿沟的思考。
132 0
AAAI 2019 提前看:融合质量不理想数据