支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

简介: 【6月更文挑战第14天】华科等机构推出 UniAnimate 框架,能生成逼真的人类跳舞视频,尤其适合动画、虚拟偶像和游戏领域。该框架采用视频扩散模型,减少优化难度,确保时间一致性,且支持生成长达一分钟的高清视频。虽然存在动作不自然和计算成本高的问题,但已在实验中展现出优于现有技术的表现。[链接](https://arxiv.org/abs/2406.01188)

最近,华中科技大学等机构的研究人员提出了一种名为UniAnimate的新框架,用于生成人类跳舞的视频。这一研究有望在动画制作、虚拟偶像和游戏开发等领域带来重大突破。

UniAnimate是一种基于扩散过程的视频生成技术,它能够根据给定的参考图像和一系列期望的动作姿势,生成高度真实和连贯的人类跳舞视频。与之前的方法相比,UniAnimate具有几个显著的优势。

首先,UniAnimate通过引入统一的视频扩散模型,将参考图像、姿势指导和噪声视频映射到一个共同的特征空间,从而减少了优化的难度并确保了时间上的一致性。这不仅降低了对齐参考图像和主视频分支所需的额外参考模型的需求,还减少了模型的参数量,从而提高了生成视频的效率。

其次,UniAnimate提出了一种统一的噪声输入方法,支持随机噪声输入和基于第一帧的有条件输入。这种设计增强了生成长期视频的能力,使得研究人员能够探索更长序列的生成,而不会受到之前方法的限制。

此外,为了进一步提高处理长序列的效率,UniAnimate采用了一种基于状态空间模型的替代时间建模架构,以取代原始的计算密集型时间Transformer。这种新的方法在保持生成质量的同时,显著减少了计算成本。

UniAnimate的提出解决了当前人类图像动画技术面临的两个主要挑战。首先,它消除了对额外参考模型的需求,从而减轻了优化的负担并减少了模型的复杂性。其次,它能够生成更长的视频,这对于实际应用至关重要,因为短视频通常不足以捕捉到舞蹈的复杂性和多样性。

研究人员对UniAnimate进行了广泛的实验评估,结果显示它在定量和定性方面都优于现有的最新技术。特别是,UniAnimate能够生成长达一分钟的高清视频,这在之前是无法实现的。此外,通过迭代使用基于第一帧的条件策略,UniAnimate还能够生成具有高度一致性的视频。

然而,UniAnimate也存在一些限制。首先,尽管它能够生成高质量的视频,但这些视频仍然可能包含一些不自然或不准确的动作。这可能是由于姿势估计或运动合成过程中的错误造成的。其次,UniAnimate的计算成本仍然相对较高,这可能会限制其在实时应用中的可行性。

论文地址:https://arxiv.org/abs/2406.01188

目录
相关文章
|
6月前
|
人工智能 机器人 人机交互
哥大华人开发人脸机器人,照镜子自主模仿人类表情超逼真
【4月更文挑战第3天】哥伦比亚大学研究人员开发了一款名为Emo的机器人,能观察并模仿人类面部表情,实现更自然的人机交互。Emo配备26个面部执行器和高分辨率摄像头,通过“自我建模”学习模仿表情,并能预测人类表情变化。这一创新有望改善人机理解和响应情绪的能力,应用于教育、医疗等领域,但也引发了关于情感依赖和伦理问题的讨论。
116 4
哥大华人开发人脸机器人,照镜子自主模仿人类表情超逼真
|
2月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
62 2
|
3月前
|
自然语言处理 语音技术
|
6月前
|
机器学习/深度学习 自然语言处理 计算机视觉
CVPR 2024:生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
【4月更文挑战第14天】中山大学和微信团队的研究者提出 SingDiffusion,一种解决扩散模型在处理极端亮度图像时的平均亮度问题的新方法。SingDiffusion 可无缝集成到预训练模型中,无需额外训练,通过处理 t=1 时间步长的采样问题,改善了图像生成的亮度偏差。在 COCO 数据集上的实验显示,相较于现有模型,SingDiffusion 在 FID 和 CLIP 分数上表现更优。
78 7
CVPR 2024:生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
|
6月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
157 1
|
6月前
|
物联网
ChilloutMix几个模型的区别——专注东方面孔人像生成
ChilloutMix几个模型的区别——专注东方面孔人像生成
776 0
|
机器学习/深度学习 编解码 vr&ar
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
171 0
|
机器学习/深度学习 人工智能 自然语言处理
|
存储 编解码 人工智能
荔枝FM技术团队:当我们谈论声音时究竟应谈论什么
荔枝FM是一个集录制、编辑、上传、存储、收听、下载于一体的网络电台APP应用。在音频创业公司中,荔枝应该是最早开展语音识别研究的,而启动语音识别的初衷并不是因为人工智能近年的火爆,而是同样因为他们对声音的深入理解和思考。
391 0
|
机器学习/深度学习 人工智能 算法
别看乐高模板了!利用计算机视觉技术,这个软件几秒就识别满地积木,还能激发灵感
别看乐高模板了!利用计算机视觉技术,这个软件几秒就识别满地积木,还能激发灵感
359 0
下一篇
无影云桌面