浙大联合微软等提出全新视频编辑统一框架UniEdit

简介: 【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit

0d67167cc51ce833b024a2b27ac2794e.jpeg
随着人工智能技术的不断发展,AI视频生成技术正逐渐成为研究和产业界的热点。其中,一款名为Sora的AI视频生成系统近期因其出色的表现而引起了广泛关注。然而,除了视频的生成,对已有视频进行编辑同样具有重要意义。在这个背景下,浙江大学、微软亚洲研究院和北京大学的研究者们共同提出了一款全新的视频编辑框架——UniEdit。

UniEdit是一款基于文本描述的视频编辑框架,其最大的特点之一是其无需额外训练的能力。传统的视频编辑方法往往需要大量的训练数据和时间,而UniEdit则不同,它能够直接利用现有的文本到视频生成模型进行编辑,极大地提升了用户的便捷性和编辑效率。此外,UniEdit还具有灵活的自然语言接口,用户可以通过简单的文本描述来完成复杂的视频编辑任务,无需专业的技术知识。

UniEdit的创新之处主要体现在两个方面:一是编辑过程中对源视频内容的保留和注入,二是编辑过程中空间结构的一致性保持。为了实现源视频内容的保留和动作的注入,UniEdit引入了辅助动作参考分支和视频重建分支。这些辅助分支能够提供所需的源视频内容和动作特征,并将其注入到主编辑路径中,从而实现了源视频内容的保留和动作的编辑。另外,为了保持编辑过程中的空间结构一致性,UniEdit使用了空间自注意层来控制编辑过程中的空间结构,确保生成的视频在外观上与源视频保持一致。

通过定性和定量实验结果,UniEdit在多种编辑场景中都表现出了较好的时序一致性和编辑质量。无论是对象动作编辑、风格迁移、背景替换还是刚性/非刚性物体替换,UniEdit都能够有效地保持源视频的内容和结构,并根据用户的需求进行编辑。此外,UniEdit还允许将图像作为输入,并能够生成高质量的视频,为用户提供了更大的灵活性。

浙大联合微软等提出的全新视频编辑框架UniEdit不仅在技术上具有创新性,而且在实验结果上也表现出了良好的性能。作为一款无需额外训练的视频编辑工具,UniEdit为用户提供了更加便捷、高效的视频编辑体验,有望成为未来视频编辑领域的重要工具和标准。

目录
相关文章
|
6月前
|
机器学习/深度学习 vr&ar 决策智能
创新性3D数据合成模型,微软推出EgoGen
【2月更文挑战第6天】创新性3D数据合成模型,微软推出EgoGen
61 2
创新性3D数据合成模型,微软推出EgoGen
|
6月前
|
存储 人工智能 自然语言处理
社区供稿 | 开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE
OneKE 是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE 以开源形式贡献给 OpenKG 开放知识图谱社区。
|
5月前
|
机器学习/深度学习 人工智能 算法
清华、华为等提出iVideoGPT:专攻交互式世界模型
【6月更文挑战第6天】清华和华为团队联合推出iVideoGPT,这是一种创新的交互式世界模型,旨在解决视频生成模型的互动性和扩展性挑战。iVideoGPT采用可扩展的自回归变换器框架,整合多模态信号,通过预测标记序列提升智能体交互体验。模型利用压缩标记技术处理高维视觉数据,预训练于大量人类和机器人操控轨迹,适用于视频预测、视觉规划等任务,展现出与顶级方法相当的性能。尽管存在数据多样性、长视频处理和高分辨率视频预测等问题,iVideoGPT仍展现了在视觉机器人操控等领域的巨大潜力。[论文链接](https://arxiv.org/pdf/2405.15223)
60 1
|
6月前
|
人工智能 自然语言处理 API
【活动】开源与闭源大模型:探索未来趋势的双轨道路
在人工智能领域,大模型(Large Language Models, LLMs)凭借其强大的语言理解和生成能力,正逐步成为推动技术革新和社会进步的关键力量。随着GPT-3、BERT、Turing-NLG等知名模型的面世,大模型的开放与封闭策略也成为行业内外热议的话题。本文旨在探讨开源与闭源大模型各自的优劣,并基于当前技术发展、市场趋势及社会需求,分析两者在未来的发展前景。
104 2
|
4月前
|
人工智能
ACM最新论文戳破大公司开源谎言,GenAI时代到底如何定义开源模型
【7月更文挑战第2天】ACM论文揭示GenAI开源真相,指出开源模型常缺乏开放数据集、完整代码与功能,质疑大公司仅借开源名义吸引利益。论文倡导重新定义开源,提议全面评估框架、加强监管及教育,确保真开源,促进领域健康发展。[链接:https://dl.acm.org/doi/3630106.3659005]
74 16
|
6月前
|
测试技术
华人团队推出视频扩展模型MOTIA
华人团队推出视频扩展模型MOTIA,通过智能算法扩展视频内容,适应不同设备和场景。该模型分为输入特定适应和模式感知扩展两阶段,有效保持视频帧内帧间一致性,提升扩展质量。在DAVIS和YouTube-VOS基准上超越现有先进方法,且无需大量任务调整,降低创作者的时间成本。然而,源视频信息不足或模式不明显时,MOTIA性能受限,且对计算资源要求较高。
128 2
华人团队推出视频扩展模型MOTIA
|
6月前
|
人工智能 自然语言处理 数据可视化
书生·浦语 2.0 开源!回归语言建模本质,综合性能领先开源社区,魔搭最佳实践来啦!
1月17日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语2.0(InternLM2),模型开源可商用,魔搭社区作为首发平台,支持大家第一时间下载体验。
|
机器学习/深度学习 人工智能 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(2)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
250 0
|
人工智能 自然语言处理 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(1)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
298 0
|
机器学习/深度学习 人工智能 Linux
中科院团队推出开源神经形态芯片「文曲星」(附源代码)
中科院团队推出开源神经形态芯片「文曲星」(附源代码)
218 0