CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

简介: 【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)

在CVPR 2024会议上,南洋理工大学的研究团队提出了一种名为SurMo的新型动态人体渲染范式。该方法在动态人体渲染领域取得了显著的进展,能够高度还原出视频序列中人物的动作和外观,包括飞扬的裙摆等细节。

动态人体渲染是指根据人物的静态姿势生成对应的动态图像,这一技术在电影制作、游戏开发等领域有着广泛的应用。然而,现有的动态人体渲染方法往往只关注于单帧图像中人物外观的重建,而对人物动作的连续性和时间关系缺乏充分的探索。

为了解决这个问题,SurMo采用了一种全新的4D运动建模方法。它通过三个关键设计,实现了对人物动作和外观的联合建模:

首先,SurMo采用了基于表面的运动编码方式。它使用一种高效紧凑的表面基三角平面来描述4D人体运动。这种编码方式不仅能够在密集的表面流形上捕捉到空间和时间上的动作关系,还能够继承人体拓扑结构先验,从而在训练样本稀疏的情况下实现具有良好泛化能力的新颖视角合成。

其次,SurMo采用了物理运动解码方式。在训练阶段,它通过解码时间步t的运动三角平面特征来预测下一个时间步t+1的时空导数,从而鼓励模型学习到更符合物理规律的运动模式。

最后,SurMo采用了4D外观解码方式。它使用一种高效的体素表面条件渲染器,将运动三角平面渲染成图像。这种渲染器专注于身体表面的渲染,并利用运动学习进行条件化,从而能够生成高保真、视角一致的人体图像,甚至包括快速运动和运动依赖的阴影效果。

通过大量的实验验证,SurMo在动态人体渲染任务上取得了最先进的性能。它能够高度还原出人物的动作和外观,包括快速运动和复杂的身体姿势。此外,SurMo还展示了表面基运动三角平面在表达能力上的优越性,能够生成高质量的动态人体图像。

然而,SurMo也存在一些局限性。首先,由于它采用了基于表面的运动编码方式,对于一些复杂的人体动作,如手指的精细运动,可能无法完全捕捉到。其次,SurMo的训练和推理过程可能需要较大的计算资源,这对于一些实时应用场景可能存在挑战。

论文地址:https://arxiv.org/pdf/2404.01225.pdf

目录
相关文章
|
4月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
886 125
|
4月前
|
消息中间件 人工智能 运维
事件驱动重塑 AI 数据链路:阿里云 EventBridge 发布 AI ETL 新范式
“一个简单的数据集成任务,开始时总是轻松愉快的,但随着业务扩展,数据源越来越多,格式越来越乱,整个数据链路就会变得一团糟。”陈涛在演讲中指出了当前 AI 数据处理的普遍困境。扩展难、运维难、稳定性差,这三大挑战已成为制约 AI 应用创新和落地的关键瓶颈。针对这些痛点,在2025云栖大会期间,阿里云重磅发布了事件驱动 AI ETL 新范式,其核心产品 EventBridge 通过深度集成 AI 能力,为开发者提供了一套革命性的解决方案,旨在彻底改变 AI 时代的数据准备与处理方式。
472 40
|
3月前
|
人工智能 监控 安全
人体姿态[站着、摔倒、坐、深蹲、跑]检测数据集(6000张图片已划分、已标注)| AI训练适用于目标检测
本数据集包含6000张已标注人体姿态图片,覆盖站着、摔倒、坐、深蹲、跑五类动作,按5:1划分训练集与验证集,标注格式兼容YOLO等主流框架,适用于跌倒检测、健身分析、安防监控等AI目标检测任务,开箱即用,助力模型快速训练与部署。
|
3月前
|
SQL 人工智能 机器人
AI Agent新范式:FastGPT+MCP协议实现工具增强型智能体构建
FastGPT 与 MCP 协议结合,打造工具增强型智能体新范式。MCP 如同 AI 领域的“USB-C 接口”,实现数据与工具的标准化接入。FastGPT 可调用 MCP 工具集,动态执行复杂任务,亦可作为 MCP 服务器共享能力。二者融合推动 AI 应用向协作式、高复用、易集成的下一代智能体演进。
504 0
|
8月前
|
云安全 人工智能 安全
AI 云盾(Cloud Shield for AI)重磅发布,打造安全新范式
提供大模型应用端到端的安全解决方案
3202 48
|
人工智能 Cloud Native 搜索推荐
【2025云栖大会】阿里云AI搜索年度发布:开启Agent时代,重构搜索新范式
2025云栖大会阿里云AI搜索专场上,发布了年度AI搜索技术与产品升级成果,推出Agentic Search架构创新与云原生引擎技术突破,实现从“信息匹配”到“智能问题解决”的跨越,支持多模态检索、百亿向量处理,助力企业降本增效,推动搜索迈向主动服务新时代。
509 0
|
6月前
|
机器学习/深度学习 人工智能 编解码
智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking,引入思考范式,性能提升8倍
视觉语言大模型(VLM)已经成为智能系统的关键基石。
1202 0
|
8月前
|
人工智能 JavaScript Devops
云效 MCP Server:AI 驱动的研发协作新范式
云效MCP Server是阿里云云效平台推出的模型上下文协议(Model Context Protocol)标准化接口系统,作为AI助手与DevOps平台的核心桥梁。通过该协议,AI大模型可无缝集成云效DevOps平台,直接访问和操作包括项目管理、代码仓库、工作项等关键研发资产,实现智能化全生命周期管理。其功能涵盖代码仓库管理、代码评审、项目管理和组织管理等多个方面,支持如创建分支、合并请求、查询工作项等具体操作。用户可通过通义灵码内置的MCP市场安装云效MCP服务,并配置个人访问令牌完成集成。实际场景中,AI助手可自动分析需求、生成代码、创建功能分支并提交合并请求,极大提升研发效率。

热门文章

最新文章