CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

简介: 【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)

在CVPR 2024会议上,南洋理工大学的研究团队提出了一种名为SurMo的新型动态人体渲染范式。该方法在动态人体渲染领域取得了显著的进展,能够高度还原出视频序列中人物的动作和外观,包括飞扬的裙摆等细节。

动态人体渲染是指根据人物的静态姿势生成对应的动态图像,这一技术在电影制作、游戏开发等领域有着广泛的应用。然而,现有的动态人体渲染方法往往只关注于单帧图像中人物外观的重建,而对人物动作的连续性和时间关系缺乏充分的探索。

为了解决这个问题,SurMo采用了一种全新的4D运动建模方法。它通过三个关键设计,实现了对人物动作和外观的联合建模:

首先,SurMo采用了基于表面的运动编码方式。它使用一种高效紧凑的表面基三角平面来描述4D人体运动。这种编码方式不仅能够在密集的表面流形上捕捉到空间和时间上的动作关系,还能够继承人体拓扑结构先验,从而在训练样本稀疏的情况下实现具有良好泛化能力的新颖视角合成。

其次,SurMo采用了物理运动解码方式。在训练阶段,它通过解码时间步t的运动三角平面特征来预测下一个时间步t+1的时空导数,从而鼓励模型学习到更符合物理规律的运动模式。

最后,SurMo采用了4D外观解码方式。它使用一种高效的体素表面条件渲染器,将运动三角平面渲染成图像。这种渲染器专注于身体表面的渲染,并利用运动学习进行条件化,从而能够生成高保真、视角一致的人体图像,甚至包括快速运动和运动依赖的阴影效果。

通过大量的实验验证,SurMo在动态人体渲染任务上取得了最先进的性能。它能够高度还原出人物的动作和外观,包括快速运动和复杂的身体姿势。此外,SurMo还展示了表面基运动三角平面在表达能力上的优越性,能够生成高质量的动态人体图像。

然而,SurMo也存在一些局限性。首先,由于它采用了基于表面的运动编码方式,对于一些复杂的人体动作,如手指的精细运动,可能无法完全捕捉到。其次,SurMo的训练和推理过程可能需要较大的计算资源,这对于一些实时应用场景可能存在挑战。

论文地址:https://arxiv.org/pdf/2404.01225.pdf

目录
相关文章
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
|
7天前
|
人工智能 算法 测试技术
探索软件自动化测试的未来:AI驱动的测试策略构建高效可靠的微服务架构:后端开发的新范式
【5月更文挑战第28天】 在软件开发的世界中,测试是确保产品质量的关键步骤。随着技术的进步和项目复杂性的增加,传统的手动测试方法逐渐显得力不从心。本文旨在探讨自动化测试的最新趋势——人工智能(AI)驱动的测试策略。我们将分析AI如何通过智能化的测试用例生成、测试执行优化以及结果分析来提高测试效率和精确性。文章还将讨论实施AI测试策略的挑战与机遇,为软件测试工程师提供未来技术转型的视角。 【5月更文挑战第28天】 在当今软件开发的快速迭代和复杂多变的环境中,传统的单体应用架构已经难以满足业务敏捷性和可扩展性的需求。微服务架构作为一种新的解决方案,以其服务的细粒度、独立部署和弹性伸缩等特性,正逐
|
20天前
|
人工智能 IDE Devops
通义灵码技术解析,打造 AI 原生开发新范式
本文第一部分先介绍 AIGC 对软件研发的根本性影响,从宏观上介绍当下的趋势;第二部分将介绍 Copilot 模式,第三部分是未来软件研发 Agent 产品的进展。
71763 7
|
20天前
|
人工智能 弹性计算 自动驾驶
2023 AI开发者生态报告:技术生态、开发范式与应用案例全景
随着人工智能技术的飞速发展,全球IT市场对AI的投入持续增长,预计到2027年将达到4236亿美元。
|
20天前
|
数据采集 人工智能 安全
以AI对抗AI,瑞数“动态安全+AI”助力在线反欺诈
瑞数信息也将进一步加强在反欺诈领域的技术革新和实践,助力企业全方位筑牢网络安全防线,努力实现“御敌于千里之外”。
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
AI生产范式
【5月更文挑战第7天】AI生产范式
28 4
|
20天前
|
数据采集 人工智能 编解码
二次元专用超分AI模型APISR:在线可用,入选CVPR
【4月更文挑战第15天】APISR是一款由密歇根大学、耶鲁大学和浙江大学联合研发的AI模型,专攻动漫风格的超分辨率问题。在CVPR会议上发表的这项成果,通过理解动漫制作流程,针对性地收集和处理训练数据,提升了动漫图像的清晰度和视觉效果。APISR引入预测导向的压缩模块和平衡的双感知损失函数,有效恢复手绘线条并减少颜色伪影。此外,模型关注图像复杂性,优化训练数据质量和学习效率。尽管面临处理复杂场景和颜色偏差的挑战,APISR为动漫图像处理开辟了新方向。
47 1
二次元专用超分AI模型APISR:在线可用,入选CVPR
|
20天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
37 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
20天前
|
机器学习/深度学习 人工智能 关系型数据库
南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
156 0
|
20天前
|
人工智能 自然语言处理 搜索推荐
AI能力新突破下的AIGC:内容生产新范式
【1月更文挑战第1天】AI能力新突破下的AIGC:内容生产新范式
106 1
AI能力新突破下的AIGC:内容生产新范式