PersonaCraft:首尔国立大学推出的单参考图像生成多身份全身图像技术

简介: PersonaCraft是由首尔国立大学推出的创新技术,能够从单一参考图像生成多个人物的逼真全身图像。该技术结合了扩散模型和3D人类建模,有效处理人物间的遮挡问题,并支持用户自定义身体形状调整,为多人图像合成树立了新标准。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:PersonaCraft结合了扩散模型和3D人类建模,能够从单一参考图像生成多个人物的逼真全身图像。
  2. 主要功能:支持多人物图像合成、遮挡处理、全身个性化以及用户定义身体形状控制。
  3. 应用场景:广泛应用于社交媒体、广告与营销、时尚与服装、游戏与娱乐以及电影与动画制作等领域。

正文

PersonaCraft 是什么

公众号: 蚝油菜花 - PersonaCraft

PersonaCraft是韩国首尔国立大学推出的个性化全身图像合成技术,结合扩散模型和3D人类建模,能从单一参考图像生成多个人物的逼真、个性化全身图像。PersonaCraft能有效处理人物间的遮挡问题,支持用户自定义身体形状调整,实现更灵活的个性化定制。

基于精确控制身体姿态和形状,PersonaCraft在复杂场景中生成高质量图像方面表现出色,为多人图像合成树立了新标准。

PersonaCraft 的主要功能

  • 多人物图像合成:根据单一参考图像生成包含多个人物的逼真图像。
  • 遮挡处理:有效管理人物间的遮挡问题,确保图像中每个人物的身体部分都能准确展现。
  • 全身个性化:不仅关注面部身份的个性化,还能准确个性化每个人的全身形状。
  • 用户定义身体形状控制:用户根据个人喜好调整生成人物的身体比例和形状。
  • 3D感知姿态条件控制:用SMPLx-ControlNet(SCNet)进行3D感知的姿态条件控制,提高身体形状和姿态的准确性。

PersonaCraft 的技术原理

  • 3D人类建模与扩散模型结合:PersonaCraft整合3D人类建模(特别是SMPLx模型)和扩散模型,增强对人物身体形状和姿态的控制。
  • SMPLx-ControlNet(SCNet):用SMPLx模型生成的深度图作为条件信号,准确捕捉身体形状和姿态,有效处理复杂的遮挡问题。
  • 面部和身体身份提取:基于InsightFace等技术从参考图像中提取面部身份嵌入,用SMPLx拟合方法提取身体形状参数。
  • 3D感知姿态条件:与传统的2D骨架姿势条件不同,PersonaCraft用3D姿势信息,提供更全面的人体姿势表示,包括深度信息。
  • 多人个性化图像合成:结合SCNet和IdentityNet,使用面部掩码准确定位身份,实现多人身份的个性化图像合成。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 搜索推荐 物联网
InstantID:一张照片,无需训练,秒级个人写真生成
InstantID 是由InstantX项目组推出的一种SOTA的tuning-free方法,只需单个图像即可实现 ID 保留生成,并支持各种下游任务。
|
机器学习/深度学习 人工智能 编解码
基于ViT主干的扩散模型技术,开源!
近期大火的OpenAI推出的Sora模型,其核心技术点之一,是将视觉数据转化为Patch的统一表示形式,并通过Transformers技术和扩散模型结合,展现了卓越的scale特性。
|
7月前
|
人工智能 Rust 并行计算
AI大模型开发语言排行
AI大模型开发涉及多种编程语言:Python为主流,用于算法研发;C++/CUDA优化性能;Go/Rust用于工程部署;Java适配企业系统;Julia等小众语言用于科研探索。
2068 127
|
机器学习/深度学习 人工智能 异构计算
SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控
SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。
1425 23
|
机器学习/深度学习 缓存 人工智能
一文了解DeepSeek及应用场景
本文详细介绍了DeepSeek及其应用场景,涵盖了大模型的发展历程、基本原理和分类(通用与推理模型)。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点,以及其技术路线(如MoE、MLA架构),并与竞品进行了对比。此外,还探讨了DeepSeek在金融风控等领域的应用前景。
一文了解DeepSeek及应用场景
|
机器学习/深度学习 人工智能 监控
足球预测:进球率预测法的接力人——AI预测
足球预测已有近200年历史,但依赖“自媒体人”推送的方式存在诸多问题。本文介绍了一种基于1990年大卫·杰克逊和K.R.莫舍斯基研究的进球率预测法,通过比较球队平均进球率来预测比赛结果。结合AI技术,该方法可批量处理数据并优化预测模型,提高预测准确性。文中还展示了AI预测的实际应用案例及代码实现,并强调了AI在赛事监控中的重要性。尽管AI预测效果显著,但仍需理性对待。
1928 1
|
人工智能 自然语言处理 开发工具
Pangea:卡内基梅隆大学开源的多语言多模态大语言模型
Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型,支持39种语言,包含高质量英文指令、机器翻译指令及文化相关任务。该模型在多语言和文化背景下的性能超越现有开源模型,适用于多语言客户服务、教育和学习、跨文化交流等多个应用场景。
424 2
Pangea:卡内基梅隆大学开源的多语言多模态大语言模型
|
存储 安全 程序员
|
Linux 虚拟化
Vmware 傻瓜式安装(不可不知道的Linux基础知识和技术 01)
本文介绍了VMware虚拟机的下载与安装步骤。首先,通过提供的网盘链接下载VMware安装包。接着,详细描述了安装流程,包括接受协议、选择安装路径(建议避免系统C盘)、取消更新选项等。最后,输入许可证密钥完成安装,并展示了打开虚拟机后的主界面。整个过程简单易懂,适合新手操作。
|
JavaScript 前端开发
我为展开收起功能做了动画,被老板称赞!
【8月更文挑战第23天】我为展开收起功能做了动画,被老板称赞!
649 1
我为展开收起功能做了动画,被老板称赞!

热门文章

最新文章