文档备案控制台

开发者社区 ModelScope模型即服务计算机视觉文章正文

PersonaCraft：首尔国立大学推出的单参考图像生成多身份全身图像技术

2024-12-04 434

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PersonaCraft是由首尔国立大学推出的创新技术，能够从单一参考图像生成多个人物的逼真全身图像。该技术结合了扩散模型和3D人类建模，有效处理人物间的遮挡问题，并支持用户自定义身体形状调整，为多人图像合成树立了新标准。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

技术背景：PersonaCraft结合了扩散模型和3D人类建模，能够从单一参考图像生成多个人物的逼真全身图像。
主要功能：支持多人物图像合成、遮挡处理、全身个性化以及用户定义身体形状控制。
应用场景：广泛应用于社交媒体、广告与营销、时尚与服装、游戏与娱乐以及电影与动画制作等领域。

正文

PersonaCraft 是什么

公众号: 蚝油菜花 - PersonaCraft

PersonaCraft是韩国首尔国立大学推出的个性化全身图像合成技术，结合扩散模型和3D人类建模，能从单一参考图像生成多个人物的逼真、个性化全身图像。PersonaCraft能有效处理人物间的遮挡问题，支持用户自定义身体形状调整，实现更灵活的个性化定制。

基于精确控制身体姿态和形状，PersonaCraft在复杂场景中生成高质量图像方面表现出色，为多人图像合成树立了新标准。

PersonaCraft 的主要功能

多人物图像合成：根据单一参考图像生成包含多个人物的逼真图像。
遮挡处理：有效管理人物间的遮挡问题，确保图像中每个人物的身体部分都能准确展现。
全身个性化：不仅关注面部身份的个性化，还能准确个性化每个人的全身形状。
用户定义身体形状控制：用户根据个人喜好调整生成人物的身体比例和形状。
3D感知姿态条件控制：用SMPLx-ControlNet（SCNet）进行3D感知的姿态条件控制，提高身体形状和姿态的准确性。

PersonaCraft 的技术原理

3D人类建模与扩散模型结合：PersonaCraft整合3D人类建模（特别是SMPLx模型）和扩散模型，增强对人物身体形状和姿态的控制。
SMPLx-ControlNet（SCNet）：用SMPLx模型生成的深度图作为条件信号，准确捕捉身体形状和姿态，有效处理复杂的遮挡问题。
面部和身体身份提取：基于InsightFace等技术从参考图像中提取面部身份嵌入，用SMPLx拟合方法提取身体形状参数。
3D感知姿态条件：与传统的2D骨架姿势条件不同，PersonaCraft用3D姿势信息，提供更全面的人体姿势表示，包括深度信息。
多人个性化图像合成：结合SCNet和IdentityNet，使用面部掩码准确定位身份，实现多人身份的个性化图像合成。

资源

项目官网：https://gwang-kim.github.io/persona_craft
GitHub 仓库：https://github.com/gwang-kim/PersonaCraft
arXiv 技术论文：https://arxiv.org/pdf/2411.18068

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

文章标签：

视觉智能开放平台

搜索推荐

人工智能

蚝油菜花

目录

相关文章

ModelScope运营小助手

|

人工智能搜索推荐物联网

InstantID：一张照片，无需训练，秒级个人写真生成

InstantID 是由InstantX项目组推出的一种SOTA的tuning-free方法，只需单个图像即可实现 ID 保留生成，并支持各种下游任务。

ModelScope运营小助手

2449 0 1

ModelScope运营小助手

|

机器学习/深度学习人工智能编解码

基于ViT主干的扩散模型技术，开源！

近期大火的OpenAI推出的Sora模型，其核心技术点之一，是将视觉数据转化为Patch的统一表示形式，并通过Transformers技术和扩散模型结合，展现了卓越的scale特性。

ModelScope运营小助手

1049 0 1

光影少年

|

7月前

|

人工智能 Rust 并行计算

AI大模型开发语言排行

AI大模型开发涉及多种编程语言：Python为主流，用于算法研发；C++/CUDA优化性能；Go/Rust用于工程部署；Java适配企业系统；Julia等小众语言用于科研探索。

光影少年

2068 127 127

蚝油菜花

|

机器学习/深度学习人工智能异构计算

SkyReels-A1：解放动画师！昆仑开源「数字人制造机」：一张照片生成逼真虚拟主播，表情连眉毛颤动都可控

SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型，支持高保真肖像动画生成和精确的表情动作控制。

蚝油菜花

1425 23 24

阿里云开发者

|

机器学习/深度学习缓存人工智能

一文了解DeepSeek及应用场景

本文详细介绍了DeepSeek及其应用场景，涵盖了大模型的发展历程、基本原理和分类（通用与推理模型）。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点，以及其技术路线（如MoE、MLA架构），并与竞品进行了对比。此外，还探讨了DeepSeek在金融风控等领域的应用前景。

阿里云开发者

2807 6 6

一文了解DeepSeek及应用场景

1015608500650149

|

机器学习/深度学习人工智能监控

足球预测：进球率预测法的接力人——AI预测

足球预测已有近200年历史，但依赖“自媒体人”推送的方式存在诸多问题。本文介绍了一种基于1990年大卫·杰克逊和K.R.莫舍斯基研究的进球率预测法，通过比较球队平均进球率来预测比赛结果。结合AI技术，该方法可批量处理数据并优化预测模型，提高预测准确性。文中还展示了AI预测的实际应用案例及代码实现，并强调了AI在赛事监控中的重要性。尽管AI预测效果显著，但仍需理性对待。

1015608500650149

1928 1 1

蚝油菜花

|

人工智能自然语言处理开发工具

Pangea：卡内基梅隆大学开源的多语言多模态大语言模型

Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型，支持39种语言，包含高质量英文指令、机器翻译指令及文化相关任务。该模型在多语言和文化背景下的性能超越现有开源模型，适用于多语言客户服务、教育和学习、跨文化交流等多个应用场景。

蚝油菜花

424 2 2

Pangea：卡内基梅隆大学开源的多语言多模态大语言模型

wljslmz

|

存储安全程序员

十六进制转换全解析：通往二进制和十进制的桥梁

【4月更文挑战第22天】

wljslmz

2083 1 1

路卿老师-18703

|

Linux 虚拟化

Vmware 傻瓜式安装（不可不知道的Linux基础知识和技术 01）

本文介绍了VMware虚拟机的下载与安装步骤。首先，通过提供的网盘链接下载VMware安装包。接着，详细描述了安装流程，包括接受协议、选择安装路径（建议避免系统C盘）、取消更新选项等。最后，输入许可证密钥完成安装，并展示了打开虚拟机后的主界面。整个过程简单易懂，适合新手操作。

路卿老师-18703

495 1 1

石小石Orz

|

JavaScript 前端开发

我为展开收起功能做了动画，被老板称赞！

【8月更文挑战第23天】我为展开收起功能做了动画，被老板称赞！

石小石Orz

649 1 1

我为展开收起功能做了动画，被老板称赞！

ModelScope模型即服务

计算机视觉

热门文章

最新文章

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

Hi3DGen：2D照片秒变高精度模型，毛孔级细节完爆Blender！港中文×字节×清华联手打造3D生成黑科技

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

LTX Video：Lightricks推出的开源AI视频生成模型

DeepMesh：3D建模革命！清华团队让AI自动优化拓扑，1秒生成工业级网格

红外小目标检测新突破！异常感知检测头AA-YOLO：节俭又鲁棒，小样本也能精准识别

基于YOLO11的交通违规检测系统（Python源码+数据集+Pyside6界面）

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

NeurlPS 2025！多伦多大学TIRE助力3D/4D 生成精准保留主体身份

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

腾讯混元最新开源：一张图，秒变游戏大片

漫画师福音！开源AI神器让线稿着色快如闪电！MagicColor：港科大开源多实例线稿着色框架，一键生成动画级彩图

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

这个模型让AI角色会说话还会演！MoCha：Meta联手滑铁卢大学打造对话角色视频生成黑科技

WorldScore：斯坦福开源世界生成模型评估新标杆：3000样本+九维指标，视频/4D/3D模型一网打尽

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

PHP：将本地文件上传到阿里云OSS存储