达摩卡通化模型的体验

简介: 目标场景:艺术创作、社交娱乐、隐私保护场景,自动化生成卡通肖像。

首先我先向大家介绍一下我自己,我是一名计算机在读硕士生,今天进行一下阿里云产品的评测.我体验的师达摩卡通化模型的使用.

我先对我们在社区可以获得什么做几点的介绍:

  • 免费使用平台提供的预训练模型,支持免费下载运行(这点我想大家都会实实在在感到实惠吧,传统的我们需要自己去对数据进行处理,对不同的参数进行修改最后慢慢的训练出一个模型作为预模型的使用)
  • 一行命令实现模型预测,简单快速验证模型效果(一行命令可以进行模型预测我是从来没想到,但是实际体验了确实是,这个功能绝了)
  • 用自己的数据对模型进行调优,定制自己的个性化模型(模型及参数的优化直接关系到我们的实验成败一点也不夸张)

社区会给我们提供到什么:(此处我都是列举的与我自己在学校跑实验联系紧密的)

  • 丰富的预训练SOTA模型

覆盖NLP、CV、Audio等多领域的具有竞争力的SOTA模型,更有行业领先的多模态大模型,全部免费开放下载以及使用。(覆盖的模型越多对开发者的福音越高,可以方便大家优中选优)

  • 多元开放的数据集

汇集行业和学术热门的公开数据集,更有阿里巴巴集团贡献的专业领域数据集等你来探索。(现在市场上的数据集很多,但是涵盖面全的数据集还是很少的,官方给出的数据集还是不错的)

  • 即开即用的在线开发平台

一键开启在线notebook实训平台,集成官方镜像免除环境安装困扰,链接澎湃云端算力,体验便捷的交互式编程。(jupyter notebook对开发者是非常方便的,随时可以知道自己编写的代码是否可以正常的运行)

  • 灵活的模型框架与部署方式

兼容主流AI框架,更好地实现模型迁移;多种模型训练与服务部署方式,提供更多自主可控的选择。(部署一旦简化可以减少大家的工作量,还是减轻压力的)

阿里云的官方文档给我们直观的分了三大模块,给了相应的入口,方便大家各取所需.

image.png

接下来我就进入正题:

第一步,我们首先需要在社区进行注册



第二步,登录社区进入社区的主页面



第三步,选择今天的主题,达摩卡通化模型的体验,我们点击这一栏进入主页面,我们需要做的是在Notebook中进行打开,官方设置的是Jupyter的笔记本,这一点对于本人而言是比较友好地,因为我一直在使用这一款笔记本,可以直接进行运行.



打开笔记本之后,如下图所示:


此时,我们需要做的一点就是创建一个新的python文件,然后将使用模型所需要的代码进行输入.

import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
img_cartoon = pipeline(Tasks.image_portrait_stylization, 
                       model='damo/cv_unet_person-image-cartoon_compound-models')
result = img_cartoon('input.png')
cv2.imwrite('result.png', result[OutputKeys.OUTPUT_IMG])
print('finished!')

此处需要注意的是:这里的python文件以及照片的导入都需要我们自己进行,照片的导入需要注意的是必须与python文件在同一级目录下,如果不在同一级目录下,我们在运行的时候一定要注意将照片的路径完整的导入进来,不然容易造成运行错误.



如上:我用红框圈住的位置就是修改照片的位置.

在一切设置完毕后,接下来我们就进行代码的运行来验证模型的效果,我们需要打开控制台,


以下是Python文件的运行代码:


此处出现finished以后即是运行完毕,我们可以通过result.jpg进行查看

注意: 如果我们导入的是.jpg文件,那么我们导出设置一定得是相同格式,不然容易出现意想不到的错误.


最后我们来进行效果的查看.

首先我展示的是原图片



接下来我们展示运行结束卡通化的图片



最后,我进行一个总结:

  1. 官方文档对于开发者还是友好的,但是对于小白需要将指导文档更加的详细一些,注意事项提醒一些.
  2. 进入jupyter笔记本之后的操作步骤,怎么创建Python文件,怎么进行照片导入以及格式的注意,在评测阶段最好整理的越完善越好,这样用户体验更好一些.
  3. python文件创建好之后,怎么进行运行官方文档也有必要说一下,帮助大家更快的实现效果,避免时间的浪费.

我们的官方学习文档的链接地址如下:

学习文档链接

我们的官方模型库地址链接如下:

模型库使用链接

我们的数据集地址链接如下:(数据集还是很全面的,起码我是比较看好的)

数据集学习链接

相关文章
|
4月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
384 2
|
9月前
|
人工智能 机器人 人机交互
哥大华人开发人脸机器人,照镜子自主模仿人类表情超逼真
【4月更文挑战第3天】哥伦比亚大学研究人员开发了一款名为Emo的机器人,能观察并模仿人类面部表情,实现更自然的人机交互。Emo配备26个面部执行器和高分辨率摄像头,通过“自我建模”学习模仿表情,并能预测人类表情变化。这一创新有望改善人机理解和响应情绪的能力,应用于教育、医疗等领域,但也引发了关于情感依赖和伦理问题的讨论。
154 4
哥大华人开发人脸机器人,照镜子自主模仿人类表情超逼真
|
人工智能 Linux 开发工具
真人AI写真的制作方法-文生图换脸
AI写真最近火起来了,特别是某款现象级相机的出现,只需要上传自己的照片,就能生成漂亮的写真照,这一产品再次带火了AI绘画。今天我就来分享一个使用Stable Diffusion WebUI制作真人AI写真的方法,不用训练,快速出图。
883 1
|
9月前
|
机器学习/深度学习 搜索推荐 计算机视觉
ComicTrainee_v1.0模型——专注生成动漫风格人物画像
ComicTrainee_v1.0模型——专注生成动漫风格人物画像
95 0
|
4月前
|
自然语言处理 语音技术
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
|
4月前
|
人工智能 开发者
FacePoke:AI时代的面部表情编辑新体验
**FacePoke** 是一款引人注目的开源工具,利用先进的人工智能技术,让用户通过简单的拖拽界面实时编辑面部表情。它支持实时编辑与动画,提供直观的操作体验,适用于艺术项目、视频制作和社交内容等多种场景。FacePoke 的开源特性还允许开发者自由修改和扩展功能。无论是艺术家还是内容创作者,都能轻松提升数字内容的情感表达。
比较妙笔生词智能写歌词软件与 ChatGPT 写歌词的优势所在
妙笔生词(veve522)专精于歌词创作,强调韵律节奏,风格聚焦,操作简易适合新手。ChatGPT则以其丰富的知识、灵活的语言表达和广泛的适应性,不仅能写歌词,还能提供多元创意和语言任务支持。
|
9月前
|
机器学习/深度学习 自然语言处理 计算机视觉
CVPR 2024:生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
【4月更文挑战第14天】中山大学和微信团队的研究者提出 SingDiffusion,一种解决扩散模型在处理极端亮度图像时的平均亮度问题的新方法。SingDiffusion 可无缝集成到预训练模型中,无需额外训练,通过处理 t=1 时间步长的采样问题,改善了图像生成的亮度偏差。在 COCO 数据集上的实验显示,相较于现有模型,SingDiffusion 在 FID 和 CLIP 分数上表现更优。
98 7
CVPR 2024:生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
|
9月前
|
人工智能 算法 搜索推荐
淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案
淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案
184 0
|
9月前
|
人工智能
FaceChain集成最强开源SDXL,生成人像质感拉满!
FaceChain集成最强开源SDXL,生成人像质感拉满!
99 2