随着人工智能技术的不断发展,AI视频生成技术正逐渐成为研究和产业界的热点。其中,一款名为Sora的AI视频生成系统近期因其出色的表现而引起了广泛关注。然而,除了视频的生成,对已有视频进行编辑同样具有重要意义。在这个背景下,浙江大学、微软亚洲研究院和北京大学的研究者们共同提出了一款全新的视频编辑框架——UniEdit。
UniEdit是一款基于文本描述的视频编辑框架,其最大的特点之一是其无需额外训练的能力。传统的视频编辑方法往往需要大量的训练数据和时间,而UniEdit则不同,它能够直接利用现有的文本到视频生成模型进行编辑,极大地提升了用户的便捷性和编辑效率。此外,UniEdit还具有灵活的自然语言接口,用户可以通过简单的文本描述来完成复杂的视频编辑任务,无需专业的技术知识。
UniEdit的创新之处主要体现在两个方面:一是编辑过程中对源视频内容的保留和注入,二是编辑过程中空间结构的一致性保持。为了实现源视频内容的保留和动作的注入,UniEdit引入了辅助动作参考分支和视频重建分支。这些辅助分支能够提供所需的源视频内容和动作特征,并将其注入到主编辑路径中,从而实现了源视频内容的保留和动作的编辑。另外,为了保持编辑过程中的空间结构一致性,UniEdit使用了空间自注意层来控制编辑过程中的空间结构,确保生成的视频在外观上与源视频保持一致。
通过定性和定量实验结果,UniEdit在多种编辑场景中都表现出了较好的时序一致性和编辑质量。无论是对象动作编辑、风格迁移、背景替换还是刚性/非刚性物体替换,UniEdit都能够有效地保持源视频的内容和结构,并根据用户的需求进行编辑。此外,UniEdit还允许将图像作为输入,并能够生成高质量的视频,为用户提供了更大的灵活性。
浙大联合微软等提出的全新视频编辑框架UniEdit不仅在技术上具有创新性,而且在实验结果上也表现出了良好的性能。作为一款无需额外训练的视频编辑工具,UniEdit为用户提供了更加便捷、高效的视频编辑体验,有望成为未来视频编辑领域的重要工具和标准。