一句话塑造一个3D形象,文本生成3D头部模型魔搭最佳实践

简介: 高保真 3D 人脸重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。

导读


高保真 3D 人脸重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。


本文,我们将介绍文本生成3D头部模型,结合了文生图stable diffusion模型和头部重建模型HRN,以文本为输入,可生成高质量3D头部。头部重建模型HRN在单图人脸重建榜单REALY上取得正脸、侧脸双榜第一,并在其他多个数据集中取得了SOTA的效果。


prompt: a girl with freckles and blue eyes.



prompt: a clown with red nose.



该文本生成3D头部模型包含了text-to-image以及head reconstruction两个部分,首先利用sd+controlnet进行文本引导的、姿态可控的人脸图像生成,而后利用HRN算法重建出3D头部,从而实现文生3D头部的功能。


HRN算法简介:

HRN是一种新颖的层次化表征网络,以实现单图的高精细人脸重建。 具体来说,HRN对人脸几何细节进行了解耦并引入了层次表征来实现精细的人脸建模。 同时,结合面部细节的3D先验,提高重建结果的准确性和真实性。HRN还提出了一个de-retouching模块,以实现更好的几何和纹理解耦。 值得注意的是,通过考虑不同视图的细节一致性,HRN框架可以扩展到多视图重建。 在两个单视图和两个多视图人脸重建基准上的大量实验表明,HRN框架方法在重建精度和视觉效果方面优于现有方法。



魔搭社区最佳实践


使用方式


输入文本描述(目前仅支持英文),返回对应符合文本描述的3D模型(.obj文件+纹理贴图)。



模型参数


hair_tex: pipeline参数,可在configuration.json中修改,或者在pipeline初始化中传入,如:


当hair_tex为True时(默认),将输出带头发的纹理,如以上第一个示例。

当hair_tex为False时,将输出光头的纹理,如以上第二个示例.


使用范围


请输入人物描述词,当输入描述词与人无关时,可能会失败。


由于HRN是基于真实人脸的重建模型,所以当目标与真实人头越相近时,效果越好。


目标场景


影视、娱乐等。

最佳实践代码

本模型基于pytorch进行训练和推理,在ModelScope框架上,提供输入描述词,即可以通过简单的Pipeline调用来使用text-to-head模型。

import os
import cv2
from modelscope.models.cv.face_reconstruction.utils import write_obj
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
def save_results(result, save_root):
    os.makedirs(save_root, exist_ok=True)
    # export obj and texture
    mesh = result[OutputKeys.OUTPUT]['mesh']
    texture_map = result[OutputKeys.OUTPUT_IMG]
    mesh['texture_map'] = texture_map
    write_obj(os.path.join(save_root, 'text_to_head_result.obj'), mesh)
    print(f'Output written to {os.path.abspath(save_root)}')
text_to_head = pipeline(Tasks.text_to_head, model='damo/cv_HRN_text-to-head', model_revision='v0.2')
result = text_to_head('a clown with red nose')
save_results(result, './text_to_head_results')

预处理


对输入的prompt进行优化,加入后缀描述词,反向描述词等。



后处理


将顶点坐标、三角面片、贴图等数据转化为obj等模型文件。



欢迎开发者们来魔搭社区体验!


点击直达示例开源模型链接

https://www.modelscope.cn/models/damo/cv_HRN_text-to-head/summary



相关文章
|
存储 人工智能 自然语言处理
Scepter Studio-万能图片生成工作台
一句“A cute girl”这样的提示词,到底在Scepter studio上可以生成多少张不同风格的图片?答案是:无限
|
人工智能 搜索推荐 物联网
InstantID:一张照片,无需训练,秒级个人写真生成
InstantID 是由InstantX项目组推出的一种SOTA的tuning-free方法,只需单个图像即可实现 ID 保留生成,并支持各种下游任务。
|
数据采集 存储 人工智能
TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)
近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。
|
人工智能 物联网 开发者
让你拥有专属且万能的AI摄影师+AI修图师——FaceChain迎来最大版本更新
自8月11日开源了第一版本证件照后,FaceChain迎来了最大版本的更新,不仅集中上线了一波非常有用的功能,在gradio界面上也做了大幅度优化
|
人工智能 安全
Stable Diffusion:网页版 体验 / AI 绘图
Stable Diffusion:网页版 体验 / AI 绘图
2801 0
|
机器学习/深度学习
基于PaddleGAN精准唇形合成模型实现美女表白视频
基于PaddleGAN精准唇形合成模型实现美女表白视频
2167 0
基于PaddleGAN精准唇形合成模型实现美女表白视频
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
1544 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
10月前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
492 5
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
10月前
|
人工智能 并行计算 测试技术
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作
HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。
983 2
从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作

热门文章

最新文章