谷歌在人工智能领域一直处于领先地位,其最新发布的视频生成大语言模型VideoPoet引起了广泛关注。
随着互联网和数字媒体的迅猛发展,视频内容已经成为人们日常生活中不可或缺的一部分。然而,传统的视频制作过程通常需要大量的人力和时间,成本较高,效率较低。因此,研究开发一种能够自动生成高质量视频的技术显得尤为重要。
与许多使用扩散模型的图像视频生成AI系统不同,VideoPoet采用了Transformer架构。这种架构经过训练后能够执行各类零次学习生成任务,包括文本生成视频、图像生成视频、视频补全及视频风格转换等。相比于传统的扩散模型,Transformer架构在处理多种模式和任务时表现更为灵活。
VideoPoet是在两万亿的文本、音频、图像和视频数据中进行训练的。训练集包含了来自10亿个图像文本对和2.7亿个视频的2万亿token。这样庞大的训练数据为模型的性能提升提供了有力支撑,使其能够生成高质量、多样化的视频内容。
研究结果显示,VideoPoet在视频生成领域表现出极具竞争力的质量。经过评估,其输出结果优于其他模型,尤其是在生成有趣且高质量的动作方面。这一成果为谷歌在人工智能领域的技术积累和突破提供了重要的支持。
谷歌表示,VideoPoet的出现将为视频生成领域带来重大影响。未来,他们计划进一步优化该模型的性能,并探索更多的应用场景。例如,将其应用于文本到音频、音频到视频以及视频字幕等扩展生成任务。随着技术的不断进步和应用的扩展,VideoPoet有望成为视频生成领域的标杆模型,为人们提供更加便捷、高效的视频制作工具。