在计算机视觉(CV)领域,生成式AI技术的发展经历了多个阶段。在深度学习革命之前,传统的图像生成技术主要依赖于手工制作的特征,如纹理合成和纹理映射等方法。然而,这些方法在生成复杂和生动的图像方面的能力是有限的。
随着生成对抗网络(GANs)和变分自编码器(VAEs)的引入,计算机视觉领域的生成式AI技术得到了重要的发展。随后,流模型和扩散模型等技术的出现,进一步提高了图像生成的细节和质量。自2021年以来,多模态模型成为AI领域的一个重要焦点,例如CLIP和Stable Diffusion等模型。
在过去的十年中,生成式计算机视觉(CV)模型的发展采取了多种路径。其中,变压器架构的成功应用为计算机视觉领域带来了新的启示。通过将变压器架构与视觉组件相结合,研究人员成功地将这一概念推向更远,使其能够应用于下游CV任务,如视觉变压器(ViT)和Swin变压器。
与此同时,扩散模型在图像和视频生成领域也取得了重大进展。扩散模型提供了一个数学上合理的框架,通过U-Nets将噪声转换成图像。自2022年11月ChatGPT的发布以来,我们在2023年见证了商业文本到图像产品的出现,如Stable Diffusion、Midjourney和DALL-E 3。这些工具使用户能够用简单的文本提示生成高分辨率和高质量的新图像,展示了AI在创意图像生成方面的潜力。
然而,从文本到图像过渡到文本到视频仍然面临着挑战。尽管工业界和学术界做出了许多努力,但大多数现有的视频生成工具仅限于生成几秒钟的短视频片段。在这个背景下,Sora成为了一个重大突破,它是第一个能够根据人类指令生成长达一分钟的视频的模型,标志着对生成式AI研究和开发产生深远影响的里程碑。
此外,Sora还展示了其他显著能力,包括遵循指令、视觉提示工程和视频理解。这些功能方面代表了计算机视觉领域的重大进步,并将为后续相关研究提供有益的启示。