支持合成一分钟高清视频，华科等提出人类跳舞视频生成新框架UniAnimate-阿里云开发者社区

支持合成一分钟高清视频，华科等提出人类跳舞视频生成新框架UniAnimate

2024-06-14 50

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【6月更文挑战第14天】华科等机构推出 UniAnimate 框架，能生成逼真的人类跳舞视频，尤其适合动画、虚拟偶像和游戏领域。该框架采用视频扩散模型，减少优化难度，确保时间一致性，且支持生成长达一分钟的高清视频。虽然存在动作不自然和计算成本高的问题，但已在实验中展现出优于现有技术的表现。[链接](https://arxiv.org/abs/2406.01188)

最近，华中科技大学等机构的研究人员提出了一种名为UniAnimate的新框架，用于生成人类跳舞的视频。这一研究有望在动画制作、虚拟偶像和游戏开发等领域带来重大突破。

UniAnimate是一种基于扩散过程的视频生成技术，它能够根据给定的参考图像和一系列期望的动作姿势，生成高度真实和连贯的人类跳舞视频。与之前的方法相比，UniAnimate具有几个显著的优势。

首先，UniAnimate通过引入统一的视频扩散模型，将参考图像、姿势指导和噪声视频映射到一个共同的特征空间，从而减少了优化的难度并确保了时间上的一致性。这不仅降低了对齐参考图像和主视频分支所需的额外参考模型的需求，还减少了模型的参数量，从而提高了生成视频的效率。

其次，UniAnimate提出了一种统一的噪声输入方法，支持随机噪声输入和基于第一帧的有条件输入。这种设计增强了生成长期视频的能力，使得研究人员能够探索更长序列的生成，而不会受到之前方法的限制。

此外，为了进一步提高处理长序列的效率，UniAnimate采用了一种基于状态空间模型的替代时间建模架构，以取代原始的计算密集型时间Transformer。这种新的方法在保持生成质量的同时，显著减少了计算成本。

UniAnimate的提出解决了当前人类图像动画技术面临的两个主要挑战。首先，它消除了对额外参考模型的需求，从而减轻了优化的负担并减少了模型的复杂性。其次，它能够生成更长的视频，这对于实际应用至关重要，因为短视频通常不足以捕捉到舞蹈的复杂性和多样性。

研究人员对UniAnimate进行了广泛的实验评估，结果显示它在定量和定性方面都优于现有的最新技术。特别是，UniAnimate能够生成长达一分钟的高清视频，这在之前是无法实现的。此外，通过迭代使用基于第一帧的条件策略，UniAnimate还能够生成具有高度一致性的视频。

然而，UniAnimate也存在一些限制。首先，尽管它能够生成高质量的视频，但这些视频仍然可能包含一些不自然或不准确的动作。这可能是由于姿势估计或运动合成过程中的错误造成的。其次，UniAnimate的计算成本仍然相对较高，这可能会限制其在实时应用中的可行性。

论文地址：https://arxiv.org/abs/2406.01188

支持合成一分钟高清视频，华科等提出人类跳舞视频生成新框架UniAnimate

热门文章

最新文章

相关课程

相关电子书

相关实验场景