近期,微软的研究人员进行了对 Sora 的逆向工程分析,并在一篇文章中揭示了 Sora 的一些秘密。这项研究推测了 Sora 的技术细节,包括其整体架构、多样性视觉数据预处理、指令调优以及视频提示工程等方面。
据研究人员推测,Sora 可能采用了扩散型 Transformer 架构。这一架构在处理视频数据时,利用了空间-时间 patch 压缩的方法,将视频压缩到低维潜在空间中,并通过多次迭代去噪,最终生成高质量的视频。这种方法不仅能有效地处理不同分辨率、宽高比和时长的视频,还能保持视频的自然连贯性。
Sora 在处理多样性视觉数据方面有着显著的优势。相比传统方法需要裁剪或调整尺寸,Sora 能够在原生尺寸的视频和图像上进行训练,并保持样本的完整性。这一特点使得 Sora 能够更好地理解和生成各种类型的视频内容,提升了其视频构图与框架的质量。
为了增强模型遵循指令的能力,Sora 采用了指令调优和视频提示工程的方法。通过训练视频摘要生成器,Sora 能够生成高质量的视频-文本对,从而更好地理解用户的指令并生成符合需求的视频内容。此外,Sora 还能够利用视觉和文本信息,将静态图像转换为动态的、叙事驱动的视频,为用户提供更加丰富的视觉体验。
以上这些发现对于理解 Sora 的工作原理和未来发展具有重要意义。Sora 的推出标志着视觉模型领域的一个重要里程碑,它不仅为视频生成模型的发展带来了新的思路和方法,也为深入探索视觉模型的规模化定律提供了有价值的参考。随着技术的不断进步和研究的深入,相信 Sora 将会在未来发展中发挥越来越重要的作用,为人工智能领域的发展做出更大的贡献。