1张照片 2秒钟 一键变身3D数字人

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: LHM是一种基于单视角图像的端到端Transformer模型,结合SMPL-X人体模型与高斯渲染技术,可从一张照片生成可驱动的3D数字人。它采用Vision Transformer和Mae模型提取特征,并通过Body-Head Transformer融合2D与3D信息,输出具有动作能力的高精度3D人体模型。应用于动作重现、游戏角色生成及虚拟现实等领域,代码已开源并提供在线体验入口。

640 (102).png

640 - 2025-07-08T175533.427.png


一.LHM是什么?

LHM是一个单视角输入、端到端的Transformer模型,依赖于人体先验模型SMPL-X进行驱动,最终输出一个可驱动的高斯3D人体模型。你可以把LHM看作一个“魔法工具”,它能帮你用一张照片快速生成一个可以在电脑里动起来的3D数字人。


640 - 2025-07-08T175715.739.png

LHM架构图


二.如何将单张图片Token化?

我们通过Vision Transformer技术将单张图片拆解为小块,并借助Meta的Mae模型编码身体特征。为获取更精细的人体头部特征,我们设计了Head Tokenization方式(借鉴DINOv2网络结构),通过提取多感受的特征信息,并结合MLP映射,捕捉头部的整体结构细节。

三.如何得到可驱动的3D高斯模型?

我们基于人体先验模型SMPL-X,基于Transformer回归出五个关键高斯特征:坐标偏移、透视程度、表面颜色值、高斯大小和旋转向量。这些特征定义了3D模型的形状、颜色和动态表现能力。  

640 - 2025-07-08T180056.486.png

3D高斯模型生成pipeline


通过高斯渲染技术,得到T-pose下的人体先验图,并与SMPL-X建立一一映射关系,就可以直接索引SMPL-X中的骨骼,从而实现让3D数字人动起来的效果,最终得到一个真实且可驱动的3D高斯模型。


四.如何有效的将2D与3D Token结合?

我们提出了Body-Head Transformer架构,借鉴了多模态Transformer(SD3)的设计理念,通过自适应Token和多层次Self-Attention机制,有效融合2D与3D Token。具体来说,我们先将头部Token输入到Multi-modality Transformer中学习头部特征,再将其与身体的随机Token结合,输入到Body Multi-modality Transformer 中,同步学习头部和身体的特征。


640 - 2025-07-08T180755.724.png

Body-Head Transformer架构图


五.LHM的应用场景有哪些?你可以用LHM做什么?

LHM有三大应用方向:动作重现、游戏角色生成和虚拟现实探索。你可以生成3D数字人并指定动作,比如跳舞、打篮球等,这些动作流畅且细节还原度高。还能在游戏领域,生成的3D资产可以无缝融入渲染管线,作为游戏角色使用。未来,LHM还可以与VR眼镜结合,生成的数字人可以直接进入虚拟现实世界,与玩家互动。


六.如何获取LHM的代码和资源?

LHM的所有代码已开源,我们也为大家提供了详细的安装教程,你可以在公众号后台回复【LHM】。如果不想本地部署,我们也在魔搭上为大家提供了入口,欢迎大家在线体验。


七.关键入口


官方API地址

GitHub开源仓库

项目主页导航

官方安装指南地址

ComfyUI B站教程


相关文章
|
7月前
|
机器学习/深度学习 人工智能 异构计算
SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控
SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。
609 23
|
9月前
|
人工智能 搜索推荐 物联网
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
《MimicTalk: 快速生成个性化3D数字人》介绍了一种创新方法,利用3D大模型在15分钟内训练出高质量、个性化的数字人模型。该方法基于NeRF技术,通过“静态-动态混合适应”实现高效训练,显著提升了数字人在视频会议、虚拟现实等领域的应用潜力。论文链接:https://arxiv.org/pdf/2410.06734
267 4
|
机器学习/深度学习 自然语言处理 图形学
CVPR 2024:文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
【5月更文挑战第12天】CVPR 2024将展出阿尔伯塔大学的MoMask框架,该框架创新性地将文本转化为3D数字人骨骼动画,推动计算机图形学和动画制作的发展。MoMask结合NLP和计算机视觉,由文本编码器解析输入文本,动作生成器则将其转化为骨骼动画。该技术提升动画制作效率,降低门槛,但面临训练数据需求大和生成动画可能有偏差的挑战。[论文链接](https://arxiv.org/abs/2312.00063)
367 2
|
机器学习/深度学习 编解码 算法
微软诈骗届王牌框架,真到可怕!一张照片+音频即可生成数字人
【5月更文挑战第8天】微软发布VASA-1框架,仅需照片和音频即可实时创建逼真数字人,引发诈骗关注。该技术利用深度学习,将静态照片转为动态面部特征,根据音频生成唇动、表情和头部动作,实现高真实感、实时、多模态输入的数字人生成。尽管有广泛应用前景,如虚拟主播、游戏角色等,但其高真实度也可能加剧诈骗风险,需平衡技术创新与安全防范。[[论文链接](https://arxiv.org/pdf/2404.10667.pdf)]
313 0
|
人工智能 算法 搜索推荐
如何在淘宝人生2一键定制你的专属3D数字人(下)
如何在淘宝人生2一键定制你的专属3D数字人(下):
589 4
|
人工智能 算法 搜索推荐
如何在淘宝人生2一键定制你的专属3D数字人(上)
如何在淘宝人生2一键定制你的专属3D数字人(上)
1662 3
|
编解码 人工智能 自然语言处理
SIGGRAPH2023|DreamFace:一句话生成 3D 数字人?
SIGGRAPH2023|DreamFace:一句话生成 3D 数字人?
315 0
|
数据采集 人工智能 Rust
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
1955 0
|
7月前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
356 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
|
6月前
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
2962 8