HumanRig:高德地图提出在大规模数据集中学习人形角色的自动绑定技术,数据集开源!

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: HumanRig:高德地图提出在大规模数据集中学习人形角色的自动绑定技术,数据集开源!

以下文章来源于高德技术,作者 颍舟

引言

HumanRig——高德地图3D数字人技术的核心引擎,正深度赋能IP语音包(含3D车标及动态皮肤)、个性化3D数字人等创新业务场景。这项突破性技术大幅度降低角色动画制作成本,成为高德打造沉浸式导航体验的关键基础设施。

 

目前,业内自动化3D角色绑定技术因缺乏全面、大规模的高质量数据集而面临挑战。作为角色动画的关键步骤,自动绑定技术的进步亟需数据支持。为此,高德推出了HumanRig——业界首个专门针对3D人形角色绑定设计的大规模数据集包含11,434个遵循统一骨骼拓扑结构的T姿态网格。基于这一数据集,高德提出了一种创新的自动绑定算法,有效克服了基于图神经网络(GNN)的深度学习方法在处理复杂AI生成网格时的局限性,以实现从粗到细的3D骨架关节回归,并完成稳健的蒙皮权重估计。实验结果表明,HumanRig在多项评价指标和可视化对比中均超越了现有方法。这项研究不仅填补了3D人形角色绑定领域的数据集空白,还推动了动画行业向更高效、更自动化的角色绑定方向发展。

https://live.csdn.net/v/475097

 

论文主题:

HumanRig: Learning Automatic Rigging for Humanoid Character in a Large Scale Dataset

论文链接:https://arxiv.org/abs/2412.02317

项目主页:https://c8241998.github.io/HumanRig/

数据集:

https://modelscope.cn/datasets/jellyczd/HumanRig

 

Introduction

image.gif 编辑

动画行业正处于一场深刻的变革之中,这场变革的核心在于机器学习与数据驱动技术的深度融合,特别是在3D建模和角色动画领域。在这一背景下,3D拟人角色的“绑定”(rigging)技术,即通过构建骨架和蒙皮来实现逼真运动的关键环节,显得尤为重要。传统绑定工作高度依赖人工操作,需要经验丰富的艺术家手动构建骨架关节并绘制蒙皮权重,这一过程不仅耗时耗力,还难以满足日益加速的内容创作需求。随着行业对效率要求的不断提升,绑定自动化已成为亟待解决的课题。

尽管AI驱动的3D生成领域取得了显著进展,但自动绑定技术的发展仍面临瓶颈,主要原因在于缺乏全面且标准化的数据集。现有数据集如RigNet虽然为早期绑定方法提供了数据基础,但其规模有限(仅包含1729个T-pose人形网格),且存在骨架拓扑不一致、关节标签不完善等问题,难以满足实际动画制作的需求。其他研究如NBS,主要基于SMPL数据集,因此主要局限于真实人体形状,缺乏对多样化角色类型的泛化,限制了其应用范围。这些局限性促使我们开发了HumanRig数据集。

HumanRig是首个专门为3D拟人角色自动绑定任务设计的大规模数据集,包含11,434个高质量的AI生成人形网格。所有模型均以T-pose呈现,并严格遵循行业标准的骨架拓扑结构,确保其可直接应用于主流动画引擎。HumanRig不仅在规模上远超现有数据集,还涵盖了广泛的角色类型和体型比例,从真实人物到卡通角色,甚至拟人化动物,充分满足了多样化应用的需求。

 

基于HumanRig数据集,我们提出了一种创新的自动绑定框架。与以往依赖图神经网络(GNN)从3D网格几何特征中学习绑定的方法不同,我们的框架通过以下核心模块显著提升了性能:1)先验引导的骨架估计器(Prior-guided skeleton estimator, PGSE),利用2D先验信息投射到3D空间,初始化粗略骨架,大幅降低绑定任务的复杂度;2)U形Point Transformer作为网格编码器,摒弃了对3D网格的边信息的依赖,增强了复杂网格上的绑定鲁棒性;3)网格-骨架互注意力网络(MSMAN),通过在高级语义空间中融合网格与骨架特征,实现了骨架构建与蒙皮的联合优化。

实验结果表明,我们的方法在性能上显著超越了现有技术。这一贡献不仅填补了大规模人形绑定数据集的空白,还为动画行业提供了一种高效的自动绑定解决方案。通过简化绑定流程,我们的研究为角色动画的自动化和高效化铺平了道路,开启了创意表达与内容创作的新篇章。

Dataset

image.gif 编辑

HumanRig数据集构造流程

构建大规模3D人形模型数据集面临的主要挑战是人工成本高。基于AI的2D图像生成技术(如文本到图像生成)和3D模型生成技术(如单图像到3D模型)为这一问题提供了高效解决方案。通过T姿态图像生成、T姿态网格生成及基于Mixamo的半自动绑骨(含人工修复)我们收集了11434个AI生成的3D人形网格,涵盖多样化头身比例和角色类型,并与Mixamo骨架拓扑对齐。每个样本包括:绑定骨骼的T姿态网格、3D骨架关节位置、蒙皮权重矩阵、前视图图像(含相机参数)及2D骨架关节位置。

image.gif 编辑

HumanRig与其他绑骨数据集对比

 

image.gif 编辑

HumanRig中3D角色头身比分布示意图

与现有数据集相比,HumanRig在规模、多样性和骨架一致性方面具有显著优势,为绑定研究和应用提供了高质量、多样化的数据支持。

Method

image.gif 编辑

HumanRig自动绑定算法

利用具有统一骨架拓扑的HumanRig数据集,我们提出了一种数据驱动的自动绑定框架。正如上图所示,我们的方法首先通过一个先验引导的骨架估计器(PGSE)初始化一个粗略的骨架。这个骨架具有双重作用:它促进关节位置从粗到细的学习,并增强顶点属性以产生骨架感知的顶点特征,从而简化骨架和蒙皮权重的学习过程。此外,我们采用两个编码器分别提取骨架和网格特征:一个基于MLP的骨架编码器用于提取骨架特征,以及一个基于Point Transformer的网格编码器用于提取网格特征。这些不同的特征随后通过网格-骨架互注意网络(MSMAN)进行更深层的特征融合。我们将分别介绍这些模块。

  • 先验引导的骨架估计器(PGSE)

先验引导的骨架估计器(PGSE)利用来自模型正视图的二维骨架先验,并借助摄像机参数将其投影为近似的三维位置。通过提供初始估计,这一方法大大简化了从三维网格几何直接学习骨架位置的任务,然后可以利用网格数据对其进行进一步优化。具体来说,我们在正视图图像上对RTMPose进行微调,以准确预测二维模板关节。随后,每个二维关节被回投影为一条射线。在这个过程中,我们确定粗略的三维骨架,通过计算每条射线与网格表面的交点,并使用每个三维粗略关节的第一次和最后一次交点的中点来得到结果。

  • 骨架和网格编码器

我们使用一个由简单的三层多层感知机(MLP)组成的骨架编码器来处理粗略的三维骨架点并提取骨架特征。这种编码器由于骨架的固定拓扑结构和有限的关节数量而言非常高效。

对于网格特征提取,我们首先提取所有顶点并构建与骨架相关的顶点特征,每个顶点具有三个位置坐标和若干个与骨架的欧几里得距离特征。然后,我们使用一种U形的Point Transformer作为网格编码器来提取深度网格特征,其中最后一个上升转换层的输出作为我们的编码器输出。基于Point Transformer的网格编码器有效地结合了局部几何特征和全局语义特征。与常用的基于图神经网络(GNN)的网格编码器相比,它在处理通常具有不规则面拓扑并包含大量顶点的AI生成网格时表现出更好的泛化能力。

 

  • 网格-骨架互注意网络

网格-骨架互注意网络(Mesh-Skeleton Mutual Attention Network,简称MSMAN)用以通过互相交叉注意机制整合骨架特征和网格特征。骨架特征为网格特征提供了身体部位的归属信息,这有助于网格顶点的语义理解,并提升蒙皮权重预测的准确性。类似地,网格特征增强了骨架的局部特征表示,这有利于精确定位骨架的准确位置。以一个方向为例,我们引入多头交叉注意机制来增强网格特征。对于交互的另一面,我们采用相同的公式,但将注意机制的点设置为由骨架特征整合到网格特征。最终得到代表具备骨架信息的网格特征。

 

  • 损失设计

网络整体损失由两部分组成。对于骨骼创建来说,使用均方误差损失,对于蒙皮权重来说,使用KL散度损失。

image.gif 编辑

image.gif 编辑

image.gif 编辑

Experiments

image.gif 编辑

骨架构建:在骨架预测任务中,我们将所提出的方法与RigNet和NBS进行了对比实验。RigNet由于未引入类人骨架的先验知识,导致预测结果存在以下问题:(1)关键关节缺失现象普遍存在;(2)关节位置和骨骼连接关系存在不确定性。NBS虽然采用了SMPL的固定骨架模板,但其预测结果在下肢区域存在明显的关节位置偏差。这种不准确性主要源于两个因素:首先,直接从网格特征回归关节位置本身具有较高的技术挑战性;其次,由于仅在SMPL数据集上进行训练,模型难以有效泛化到具有不同头身比的多样化网格数据。相比之下,我们的方法通过引入稳健的2D先验知识,并结合标准骨架模板进行关节预测,能够生成更加合理且符合解剖学结构的骨架。

image.gif 编辑

网格变形质量定性分析

image.gif 编辑

网格变形质量定量分析

蒙皮预测与网格变形:我们与Heat Diffusion、GVB和RigNet进行了全面的对比分析。定量评估结果表明,RigNet在处理顶点数超过5K的复杂网格时存在明显局限性,而我们的方法在艺术家创作的高精度网格和AI生成的多样化网格上均表现出色。此外,定性可视化分析进一步验证了我们的方法在生成逼真且流畅的动画效果方面的优势,尤其是在处理不同头身比例、穿戴复杂服装或配件的角色时表现尤为突出。这一优势主要归功于我们采用的基于Point Transformer的网格编码器,它能够有效区分不同身体部位的特征,从而生成更加精确的蒙皮权重分布,最终实现更高质量的网格变形效果。

Conclusion

综上所述,本文的贡献如下:

  1. 我们提出的HumanRig,是第一个专为3D人形角色模型自动绑定任务量身打造的大规模数据集,提供了11,434个精心制作的AI生成的人形mesh。所有模型均以T-pose生成,并与行业标准的骨架拓扑对齐,使其可以直接在标准动画引擎中即插即用。HumanRig在规模和多样性方面无与伦比,拥有广泛的体型比例和角色类型。
  2. 我们推出了一种创新的自动绑定算法,我们方法的核心模块包括:a)先验引导骨架估计器(PGSE),使用投射到3D空间中的2D先验初始化粗略骨架,显著降低绑定任务的复杂性。b)U形Point Transformer作为我们的网格编码器,忽略3D网格中边的信息以增强复杂网格上的绑定稳健性。c)网格-骨架互注意网络(MSMAN),在高级语义空间中通过互信息增强网格和骨架特征,实现骨架构建和蒙皮的联合优化。

对于未来工作,我们有如下展望:

  1. 智能化角色生成:未来的系统可能实现从文本描述或简单草图到完整可动画化3D角色的端到端生成,彻底颠覆游戏、影视和虚拟社交中的人物创作流程。
  2. 一站式动画方案:研究绑定与动画生成的端到端联合训练框架,实现从静态模型到动态动画的一站式解决方案。

点击链接 即可跳转数据集链接~

https://modelscope.cn/datasets/jellyczd/HumanRig/summary

 

目录
相关文章
|
机器学习/深度学习 人工智能 算法
阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
从节点架构到网络架构,再到通信算法,阿里巴巴把自研的高性能AI集群技术细节写成了论文,并对外公布。
阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
|
4月前
|
人工智能 JSON API
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
284 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
|
2月前
|
存储 人工智能 搜索推荐
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
Shandu 是一款开源的 AI 研究自动化工具,结合 LangChain 和 LangGraph 技术,能够自动化地进行多层次信息挖掘和分析,生成结构化的研究报告,适用于学术研究、市场分析和技术探索等多种场景。
279 8
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
|
3月前
|
人工智能
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你LLM+外部数据的正确使用姿势
在人工智能领域,大型语言模型(LLM)结合外部数据展现出强大能力,尤其检索增强生成(RAG)和微调技术备受关注。然而,不同专业领域的有效部署仍面临挑战,如准确检索数据、理解用户意图等。综述文章《Retrieval Augmented Generation (RAG) and Beyond》提出RAG任务分类方法,将用户查询分为四个级别,并探讨了外部数据集成的三种形式:上下文、小型模型和微调。文章提供了宝贵见解和实用指导,帮助更好地利用LLM潜力解决实际问题。论文链接:https://arxiv.org/abs/2409.14924
130 6
|
6月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
103 2
|
9月前
|
算法 语音技术
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
|
10月前
|
机器学习/深度学习 自然语言处理 算法
大模型技术基础
【7月更文挑战第26天】大模型技术基础
220 6
|
12月前
|
人工智能 异构计算 Python
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
223 0
|
12月前
|
人工智能
全方位解析PAI:数据准备、模型开发、模型训练一网打尽
全方位解析PAI:数据准备、模型开发、模型训练一网打尽 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研发中。然而,AI的研发并非易事,从数据准备、模型开发、模型训练到模型服务,每一个环节都需要专业的工具和平台来支持。阿里云的PAI(Powered by AI)正是一个涵盖了数据准备、模型开发、模型训练、模型服务全流程的AI工作平台。本文将为您详细介绍PAI的各个子产品的产品线上规格及使用指引。
311 2
|
存储 数据挖掘 数据处理
R语言之处理大型数据集的策略
R语言之处理大型数据集的策略
205 4

热门文章

最新文章