基于域校准翻译的人像卡通化模型测评

简介: 基于域校准翻译的人像卡通化模型测评

基于域校准翻译的人像卡通化模型测评

模型描述
该任务采用一种全新的域校准图像翻译模型DCT-Net(Domain-Calibrated Translation),利用小样本的风格数据,即可得到高保真、强鲁棒、易拓展的人像风格转换模型,并通过端到端推理快速得到风格转换结果。
使用方式和范围
使用方式:
● 直接推理,在任意真实人物图像上进行直接推理;
使用范围:
● 包含人脸的人像照片,人脸分辨率大于100x100,总体图像分辨率小于3000×3000,低质人脸图像建议预先人脸增强处理。
目标场景:
● 艺术创作、社交娱乐、隐私保护场景,自动化生成卡通肖像。
如何使用
在ModelScope框架上,提供输入图片,即可以通过简单的Pipeline调用来使用人像卡通化模型。
代码范例
import cv2
from modelscope.hub.snapshot_download import snapshot_download
from modelscope.pipelines import pipeline

model_dir = snapshot_download('damo/cv_unet_person-image-cartoon_compound-models', cache_dir='.')
img_cartoon = pipeline('image-portrait-stylization', model=model_dir)

result = img_cartoon('input.png')

cv2.imwrite('result.png', result['output_img'])
print('finished!')

模型局限性以及可能的偏差
● 低质/低分辨率人脸图像由于本身内容信息丢失严重,无法得到理想转换效果,可预先采用人脸增强模型预处理图像解决;
● 小样本数据涵盖场景有线,人脸暗光、阴影干扰可能会影响生成效果。
训练数据介绍
训练数据从公开数据集(COCO等)、互联网搜索人像图像,并进行标注作为训练数据。
● 真实人脸数据FFHQ常用的人脸公开数据集,包含7w人脸图像;
● 卡通人脸数据,互联网搜集,100+张
模型推理流程
预处理
● 人脸关键点检测
● 人脸提取&对齐,得到256x256大小的对齐人脸
推理
● 为控制推理效率,人脸及背景resize到指定大小分别推理,再背景融合得到最终效果;
● 亦可将整图依据人脸尺度整体缩放到合适尺寸,直接单次推理

引用
如果该模型对你有所帮助,请引用相关的论文:
@inproceedings{men2022domain,
title={DCT-Net: Domain-Calibrated Translation for Portrait Stylization},
author={Men, Yifang and Yao, Yuan and Cui, Miaomiao and Lian, Zhouhui and Xie, Xuansong},
journal={ACM Transactions on Graphics (TOG)},
volume={41},
number={4},
pages={1--9},
year={2022}
}
测评

原图:

人像卡通化模型:

相关文章
|
存储 自然语言处理 API
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(下)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
111 0
|
7月前
|
机器学习/深度学习 自然语言处理
一张图说清楚:大模型“大”在哪?ChatGLM模型结构详解
一张图说清楚:大模型“大”在哪?ChatGLM模型结构详解
296 2
|
7月前
|
机器学习/深度学习 人工智能 缓存
Contextual发布生成式表征指导调整模型
【2月更文挑战第17天】Contextual发布生成式表征指导调整模型
138 1
Contextual发布生成式表征指导调整模型
|
机器学习/深度学习 传感器 编解码
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
|
存储 缓存 自然语言处理
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(上)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
164 0
|
存储 自然语言处理 API
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)(中)
【网安AIGC专题11.1】12 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
103 0
|
算法 自然语言处理 机器学习/深度学习
中文竞技场大模型测评后续之双模型匿名对话
在中文竞技场大模型测评的延续中,我们将在双模型匿名对话技术场景中,通过趣味游戏方式对写作创作、代码相关、知识常识等领域进行全面测评
643 0
中文竞技场大模型测评后续之双模型匿名对话
|
自然语言处理 人工智能
中文竞技场大模型测评后续之模型自动对话
中文竞技场大模型测评延续中,模型自动对话场景测评
581 0
中文竞技场大模型测评后续之模型自动对话
|
机器学习/深度学习 人工智能 自然语言处理
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
139 0
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
|
自然语言处理 测试技术 开发者
刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+
刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+
181 0
下一篇
DataWorks