PersonaCraft:首尔国立大学推出的单参考图像生成多身份全身图像技术

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: PersonaCraft是由首尔国立大学推出的创新技术,能够从单一参考图像生成多个人物的逼真全身图像。该技术结合了扩散模型和3D人类建模,有效处理人物间的遮挡问题,并支持用户自定义身体形状调整,为多人图像合成树立了新标准。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:PersonaCraft结合了扩散模型和3D人类建模,能够从单一参考图像生成多个人物的逼真全身图像。
  2. 主要功能:支持多人物图像合成、遮挡处理、全身个性化以及用户定义身体形状控制。
  3. 应用场景:广泛应用于社交媒体、广告与营销、时尚与服装、游戏与娱乐以及电影与动画制作等领域。

正文

PersonaCraft 是什么

公众号: 蚝油菜花 - PersonaCraft

PersonaCraft是韩国首尔国立大学推出的个性化全身图像合成技术,结合扩散模型和3D人类建模,能从单一参考图像生成多个人物的逼真、个性化全身图像。PersonaCraft能有效处理人物间的遮挡问题,支持用户自定义身体形状调整,实现更灵活的个性化定制。

基于精确控制身体姿态和形状,PersonaCraft在复杂场景中生成高质量图像方面表现出色,为多人图像合成树立了新标准。

PersonaCraft 的主要功能

  • 多人物图像合成:根据单一参考图像生成包含多个人物的逼真图像。
  • 遮挡处理:有效管理人物间的遮挡问题,确保图像中每个人物的身体部分都能准确展现。
  • 全身个性化:不仅关注面部身份的个性化,还能准确个性化每个人的全身形状。
  • 用户定义身体形状控制:用户根据个人喜好调整生成人物的身体比例和形状。
  • 3D感知姿态条件控制:用SMPLx-ControlNet(SCNet)进行3D感知的姿态条件控制,提高身体形状和姿态的准确性。

PersonaCraft 的技术原理

  • 3D人类建模与扩散模型结合:PersonaCraft整合3D人类建模(特别是SMPLx模型)和扩散模型,增强对人物身体形状和姿态的控制。
  • SMPLx-ControlNet(SCNet):用SMPLx模型生成的深度图作为条件信号,准确捕捉身体形状和姿态,有效处理复杂的遮挡问题。
  • 面部和身体身份提取:基于InsightFace等技术从参考图像中提取面部身份嵌入,用SMPLx拟合方法提取身体形状参数。
  • 3D感知姿态条件:与传统的2D骨架姿势条件不同,PersonaCraft用3D姿势信息,提供更全面的人体姿势表示,包括深度信息。
  • 多人个性化图像合成:结合SCNet和IdentityNet,使用面部掩码准确定位身份,实现多人身份的个性化图像合成。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
人工智能 编解码 自动驾驶
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
MagicDriveDiT是由华为联合港中文等机构推出的一种新型自动驾驶高分辨率长视频生成方法。该方法基于DiT架构,通过流匹配增强模型的可扩展性,并采用渐进式训练策略处理复杂场景。MagicDriveDiT能够生成高分辨率的长视频,提供对视频内容的精确控制,适用于自动驾驶系统的测试与验证、感知模型训练、场景重建与模拟以及数据增强等多个应用场景。
230 17
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
|
9月前
|
人工智能 API 开发者
用 OpenVINO™ 部署 GLM-Edge 全家桶
11月29日,智谱发布了GLM-Edge系列模型,包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B、GLM-Edge-V-5B,适用于手机、车机及PC平台。文章介绍了如何使用OpenVINO™工具套件在本地部署这些模型,实现高效的AI任务处理,如聊天与图像理解。提供了详细的环境配置、模型转换与量化、以及具体的应用示例。
313 16
|
9月前
|
人工智能
HunyuanVideo:腾讯推出的开源视频生成模型,参数高达130亿
腾讯推出的开源视频生成模型HunyuanVideo,拥有130亿参数,是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性,能生成带有背景音乐的视频,推动了视频生成技术的发展和应用。
399 16
HunyuanVideo:腾讯推出的开源视频生成模型,参数高达130亿
|
9月前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
535 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
9月前
|
机器学习/深度学习 人工智能 计算机视觉
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
261 73
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
|
6月前
|
机器学习/深度学习 缓存 人工智能
一文了解DeepSeek及应用场景
本文详细介绍了DeepSeek及其应用场景,涵盖了大模型的发展历程、基本原理和分类(通用与推理模型)。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点,以及其技术路线(如MoE、MLA架构),并与竞品进行了对比。此外,还探讨了DeepSeek在金融风控等领域的应用前景。
一文了解DeepSeek及应用场景
|
9月前
|
存储 人工智能 数据库
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
Codel是一款全自主AI代理工具,支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中,具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务,如创建项目结构、进行网络搜索等,适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。
278 11
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
|
9月前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
265 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
9月前
|
存储 关系型数据库 MySQL
MySQL引擎InnoDB和MyISAM的区别?
InnoDB是MySQL默认的事务型存储引擎,支持事务、行级锁、MVCC、在线热备份等特性,主索引为聚簇索引,适用于高并发、高可靠性的场景。MyISAM设计简单,支持压缩表、空间索引,但不支持事务和行级锁,适合读多写少、不要求事务的场景。
147 9

热门文章

最新文章