支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

简介: 【6月更文挑战第14天】华科等机构推出 UniAnimate 框架,能生成逼真的人类跳舞视频,尤其适合动画、虚拟偶像和游戏领域。该框架采用视频扩散模型,减少优化难度,确保时间一致性,且支持生成长达一分钟的高清视频。虽然存在动作不自然和计算成本高的问题,但已在实验中展现出优于现有技术的表现。[链接](https://arxiv.org/abs/2406.01188)

最近,华中科技大学等机构的研究人员提出了一种名为UniAnimate的新框架,用于生成人类跳舞的视频。这一研究有望在动画制作、虚拟偶像和游戏开发等领域带来重大突破。

UniAnimate是一种基于扩散过程的视频生成技术,它能够根据给定的参考图像和一系列期望的动作姿势,生成高度真实和连贯的人类跳舞视频。与之前的方法相比,UniAnimate具有几个显著的优势。

首先,UniAnimate通过引入统一的视频扩散模型,将参考图像、姿势指导和噪声视频映射到一个共同的特征空间,从而减少了优化的难度并确保了时间上的一致性。这不仅降低了对齐参考图像和主视频分支所需的额外参考模型的需求,还减少了模型的参数量,从而提高了生成视频的效率。

其次,UniAnimate提出了一种统一的噪声输入方法,支持随机噪声输入和基于第一帧的有条件输入。这种设计增强了生成长期视频的能力,使得研究人员能够探索更长序列的生成,而不会受到之前方法的限制。

此外,为了进一步提高处理长序列的效率,UniAnimate采用了一种基于状态空间模型的替代时间建模架构,以取代原始的计算密集型时间Transformer。这种新的方法在保持生成质量的同时,显著减少了计算成本。

UniAnimate的提出解决了当前人类图像动画技术面临的两个主要挑战。首先,它消除了对额外参考模型的需求,从而减轻了优化的负担并减少了模型的复杂性。其次,它能够生成更长的视频,这对于实际应用至关重要,因为短视频通常不足以捕捉到舞蹈的复杂性和多样性。

研究人员对UniAnimate进行了广泛的实验评估,结果显示它在定量和定性方面都优于现有的最新技术。特别是,UniAnimate能够生成长达一分钟的高清视频,这在之前是无法实现的。此外,通过迭代使用基于第一帧的条件策略,UniAnimate还能够生成具有高度一致性的视频。

然而,UniAnimate也存在一些限制。首先,尽管它能够生成高质量的视频,但这些视频仍然可能包含一些不自然或不准确的动作。这可能是由于姿势估计或运动合成过程中的错误造成的。其次,UniAnimate的计算成本仍然相对较高,这可能会限制其在实时应用中的可行性。

论文地址:https://arxiv.org/abs/2406.01188

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 编解码
哲学家解析Sora本质,AI视频离世界模拟器还有多远?
【2月更文挑战第24天】哲学家解析Sora本质,AI视频离世界模拟器还有多远?
78 2
哲学家解析Sora本质,AI视频离世界模拟器还有多远?
|
1月前
|
机器学习/深度学习 人工智能 算法
技术视界|多模态说话人开源项目3D-Speaker
技术视界|多模态说话人开源项目3D-Speaker
|
2月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
127 1
|
2月前
|
物联网
ChilloutMix几个模型的区别——专注东方面孔人像生成
ChilloutMix几个模型的区别——专注东方面孔人像生成
437 0
|
机器学习/深度学习 编解码 人工智能
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
169 0
|
机器学习/深度学习 编解码 vr&ar
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
150 0
|
机器学习/深度学习 人工智能 算法
别看乐高模板了!利用计算机视觉技术,这个软件几秒就识别满地积木,还能激发灵感
别看乐高模板了!利用计算机视觉技术,这个软件几秒就识别满地积木,还能激发灵感
322 0
|
机器学习/深度学习 人工智能 编解码
杜克大学提出AI算法,拯救渣画质马赛克秒变高清
本文介绍杜克大学提出的 AI 算法,不仅可以去掉马赛克,还能精细到每一道皱纹、每一根头发。
|
机器学习/深度学习 编解码 人工智能
Nature子刊研究颠覆常识:视网膜计算使眼睛先于大脑产生视觉信息
Aarhus大学博士生第一篇论文即登上Nature子刊,揭秘视觉细胞如何让将运动信号形成大脑意识。