浙大联合微软等提出全新视频编辑统一框架UniEdit

简介: 【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit

0d67167cc51ce833b024a2b27ac2794e.jpeg
随着人工智能技术的不断发展,AI视频生成技术正逐渐成为研究和产业界的热点。其中,一款名为Sora的AI视频生成系统近期因其出色的表现而引起了广泛关注。然而,除了视频的生成,对已有视频进行编辑同样具有重要意义。在这个背景下,浙江大学、微软亚洲研究院和北京大学的研究者们共同提出了一款全新的视频编辑框架——UniEdit。

UniEdit是一款基于文本描述的视频编辑框架,其最大的特点之一是其无需额外训练的能力。传统的视频编辑方法往往需要大量的训练数据和时间,而UniEdit则不同,它能够直接利用现有的文本到视频生成模型进行编辑,极大地提升了用户的便捷性和编辑效率。此外,UniEdit还具有灵活的自然语言接口,用户可以通过简单的文本描述来完成复杂的视频编辑任务,无需专业的技术知识。

UniEdit的创新之处主要体现在两个方面:一是编辑过程中对源视频内容的保留和注入,二是编辑过程中空间结构的一致性保持。为了实现源视频内容的保留和动作的注入,UniEdit引入了辅助动作参考分支和视频重建分支。这些辅助分支能够提供所需的源视频内容和动作特征,并将其注入到主编辑路径中,从而实现了源视频内容的保留和动作的编辑。另外,为了保持编辑过程中的空间结构一致性,UniEdit使用了空间自注意层来控制编辑过程中的空间结构,确保生成的视频在外观上与源视频保持一致。

通过定性和定量实验结果,UniEdit在多种编辑场景中都表现出了较好的时序一致性和编辑质量。无论是对象动作编辑、风格迁移、背景替换还是刚性/非刚性物体替换,UniEdit都能够有效地保持源视频的内容和结构,并根据用户的需求进行编辑。此外,UniEdit还允许将图像作为输入,并能够生成高质量的视频,为用户提供了更大的灵活性。

浙大联合微软等提出的全新视频编辑框架UniEdit不仅在技术上具有创新性,而且在实验结果上也表现出了良好的性能。作为一款无需额外训练的视频编辑工具,UniEdit为用户提供了更加便捷、高效的视频编辑体验,有望成为未来视频编辑领域的重要工具和标准。

目录
相关文章
|
2月前
|
人工智能
微软靠“想象力”解决大语言模型调用工具两大难题!方法已开源
【2月更文挑战第24天】微软靠“想象力”解决大语言模型调用工具两大难题!方法已开源
18 1
微软靠“想象力”解决大语言模型调用工具两大难题!方法已开源
|
3月前
|
机器学习/深度学习 vr&ar 决策智能
创新性3D数据合成模型,微软推出EgoGen
【2月更文挑战第6天】创新性3D数据合成模型,微软推出EgoGen
21 2
创新性3D数据合成模型,微软推出EgoGen
|
2月前
|
测试技术
华人团队推出视频扩展模型MOTIA
华人团队推出视频扩展模型MOTIA,通过智能算法扩展视频内容,适应不同设备和场景。该模型分为输入特定适应和模式感知扩展两阶段,有效保持视频帧内帧间一致性,提升扩展质量。在DAVIS和YouTube-VOS基准上超越现有先进方法,且无需大量任务调整,降低创作者的时间成本。然而,源视频信息不足或模式不明显时,MOTIA性能受限,且对计算资源要求较高。
37 2
华人团队推出视频扩展模型MOTIA
|
4月前
|
人工智能 自然语言处理 数据可视化
书生·浦语 2.0 开源!回归语言建模本质,综合性能领先开源社区,魔搭最佳实践来啦!
1月17日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语2.0(InternLM2),模型开源可商用,魔搭社区作为首发平台,支持大家第一时间下载体验。
|
12月前
|
机器学习/深度学习 人工智能 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(2)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
163 0
|
12月前
|
人工智能 自然语言处理 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(1)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
169 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
103 0
|
12月前
|
机器学习/深度学习 人工智能 Linux
中科院团队推出开源神经形态芯片「文曲星」(附源代码)
中科院团队推出开源神经形态芯片「文曲星」(附源代码)
156 0
|
12月前
|
机器学习/深度学习 自然语言处理 前端开发
首个用于工业开发的自动代码生成系统,精巧高效还入选了顶会
首个用于工业开发的自动代码生成系统,精巧高效还入选了顶会
151 0
|
12月前
|
机器学习/深度学习 存储 人工智能
罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺
罗格斯大学华人团队开源OpenAGI平台:语言模型是AGI的入口,领域专家模型不可或缺
207 0