一句话塑造一个3D形象,文本生成3D头部模型魔搭最佳实践

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 高保真 3D 人脸重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。

导读


高保真 3D 人脸重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。


本文,我们将介绍文本生成3D头部模型,结合了文生图stable diffusion模型和头部重建模型HRN,以文本为输入,可生成高质量3D头部。头部重建模型HRN在单图人脸重建榜单REALY上取得正脸、侧脸双榜第一,并在其他多个数据集中取得了SOTA的效果。


prompt: a girl with freckles and blue eyes.



prompt: a clown with red nose.



该文本生成3D头部模型包含了text-to-image以及head reconstruction两个部分,首先利用sd+controlnet进行文本引导的、姿态可控的人脸图像生成,而后利用HRN算法重建出3D头部,从而实现文生3D头部的功能。


HRN算法简介:

HRN是一种新颖的层次化表征网络,以实现单图的高精细人脸重建。 具体来说,HRN对人脸几何细节进行了解耦并引入了层次表征来实现精细的人脸建模。 同时,结合面部细节的3D先验,提高重建结果的准确性和真实性。HRN还提出了一个de-retouching模块,以实现更好的几何和纹理解耦。 值得注意的是,通过考虑不同视图的细节一致性,HRN框架可以扩展到多视图重建。 在两个单视图和两个多视图人脸重建基准上的大量实验表明,HRN框架方法在重建精度和视觉效果方面优于现有方法。



魔搭社区最佳实践


使用方式


输入文本描述(目前仅支持英文),返回对应符合文本描述的3D模型(.obj文件+纹理贴图)。



模型参数


hair_tex: pipeline参数,可在configuration.json中修改,或者在pipeline初始化中传入,如:


当hair_tex为True时(默认),将输出带头发的纹理,如以上第一个示例。

当hair_tex为False时,将输出光头的纹理,如以上第二个示例.


使用范围


请输入人物描述词,当输入描述词与人无关时,可能会失败。


由于HRN是基于真实人脸的重建模型,所以当目标与真实人头越相近时,效果越好。


目标场景


影视、娱乐等。

最佳实践代码

本模型基于pytorch进行训练和推理,在ModelScope框架上,提供输入描述词,即可以通过简单的Pipeline调用来使用text-to-head模型。

import os
import cv2
from modelscope.models.cv.face_reconstruction.utils import write_obj
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
def save_results(result, save_root):
    os.makedirs(save_root, exist_ok=True)
    # export obj and texture
    mesh = result[OutputKeys.OUTPUT]['mesh']
    texture_map = result[OutputKeys.OUTPUT_IMG]
    mesh['texture_map'] = texture_map
    write_obj(os.path.join(save_root, 'text_to_head_result.obj'), mesh)
    print(f'Output written to {os.path.abspath(save_root)}')
text_to_head = pipeline(Tasks.text_to_head, model='damo/cv_HRN_text-to-head', model_revision='v0.2')
result = text_to_head('a clown with red nose')
save_results(result, './text_to_head_results')

预处理


对输入的prompt进行优化,加入后缀描述词,反向描述词等。



后处理


将顶点坐标、三角面片、贴图等数据转化为obj等模型文件。



欢迎开发者们来魔搭社区体验!


点击直达示例开源模型链接

https://www.modelscope.cn/models/damo/cv_HRN_text-to-head/summary



相关文章
|
6月前
|
机器学习/深度学习 编解码 人工智能
AI短视频制作一本通:文本生成视频、图片生成视频、视频生成视频
AI短视频制作一本通:文本生成视频、图片生成视频、视频生成视频
791 0
|
机器学习/深度学习 人工智能 自然语言处理
挖掘文本的奇妙力量:传统与深度方法探索匹配之道
挖掘文本的奇妙力量:传统与深度方法探索匹配之道
|
23天前
|
人工智能
写歌词的技巧和方法:构建独特歌词结构的策略,妙笔生词AI智能写歌词软件
歌词创作如同搭建艺术殿堂,独特的歌词结构是其基石。掌握构建策略,让你的歌词脱颖而出。开头营造神秘氛围或出人意料的情感,主体部分采用倒叙、插叙或融合矛盾情感,结尾带来情感反转或深邃思考。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化等功能,助你轻松获取灵感,打造独特歌词结构。
|
3月前
|
人工智能 JSON 自然语言处理
🔍深度揭秘!如何用提示词驾驭生成式大模型,让你的创意无限飞🌈
【8月更文挑战第1天】在AI风潮中,生成式大模型因出色的内容创造能力备受创意工作者青睐。但如何巧妙运用提示词,激发模型潜力,仍是挑战。本文通过问答形式揭秘提示词技巧:理解其定义、掌握设计方法(明确目标、具象描述、考虑模型特性)、评估其影响力及调整策略(细化描述、变换风格、调节参数),并分享实用贴士,助您成为驾驭AI创作的高手。
174 7
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
【颠覆传统】解锁记忆新姿势:多模态AI单词助记神器——让单词学习变得生动有趣,打造个性化学习新体验!
【8月更文挑战第21天】多模态AI单词助记模型融合文本、语音与图像,增强英语单词记忆效果。设计上利用多感官刺激提升信息处理与记忆效率。技术栈包括React.js前端、Node.js后端、PyTorch深度学习框架等。实现过程涵盖数据准备、前端开发、后端服务搭建、深度学习模型构建及用户反馈循环。应用显示该模型显著提高学习兴趣与记忆效率,尤其对视觉和听觉学习者有益,个性化推荐系统进一步优化学习体验。
87 0
|
4月前
|
数据采集 边缘计算 自然语言处理
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
【7月更文挑战第5天】谷歌研究者提出新方法,通过自然语言提示训练视觉模型,减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型,以对话理解视觉概念并自动生成标注,降低训练成本,提高效率。实验显示定义概念工作量减少90%,并在多种任务上超越现有技术。尽管有限制,但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)
32 1
|
5月前
|
人工智能 自然语言处理 决策智能
超长小说可以用AI翻译了,新型多智能体协作系统媲美人工翻译
【6月更文挑战第11天】研究人员开发了一种基于大型语言模型的多智能体协作系统TransAgents,用于文学翻译,挑战复杂的文学文本翻译。通过单语人类偏好和双语LLM偏好评估,系统在保留文学风格和表达上表现出色,尤其在需要领域知识的文本中。然而,系统在捕捉文学翻译的细微差别、文化特定元素和长文本翻译效率上仍有局限性。相关论文链接:https://arxiv.org/abs/2405.11804
159 1
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
从文字到视频:借助ChatGPT与剪映轻松生成高质量视频
从文字到视频:借助ChatGPT与剪映轻松生成高质量视频
334 0
|
人工智能 自然语言处理 安全
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
600 0
|
机器学习/深度学习 自然语言处理
社区供稿 | EcomGPT:基于任务链数据的电商大模型(附魔搭推理实践)
在电商领域中,自然语言处理和深度学习的发展对电商技术的推进做出了很大的贡献。通过这些技术,可以实现从产品信息提取到用户查询理解等多种能力,尤其是近期各类大语言模型(Large Language Models,LLMs)的涌现,让我们看到了它们在电商领域引用的潜力。然而,通用的大语言模型并不是专门为电商领域设计的,这可能导致它们在电商任务中表现不佳。

热门文章

最新文章