0代码体验效果,1行实现推理,10行搞定调优!101个CV模型集体开源(3)

简介: 0代码体验效果,1行实现推理,10行搞定调优!101个CV模型集体开源

1. 变得更漂亮

模型名字:ABPN 人像美肤

体验链接:https://www.modelscope.cn/models/damo/cv_unet_skin-retouching/

人们对照片人像的美观度是一个刚性需求,包括斑点、颜色、瑕疵等,甚至高矮胖瘦。本次我们开放了专业级别的人像美肤、液化等模型供大家使用。

本模型提出了一个新颖的自适应混合模块 ABM,其利用自适应混合图层实现了图像的局部精准修饰。此外,我们在 ABM 的基础上进一步构建了一个混合图层金字塔,实现了超高清图像的快速修饰。

相比于现有的图像修饰方法,ABPN 在修饰精度、速度上均有较大提升。ABPN 人像美肤模型为 ABPN 模型在人像美肤任务中的具体应用。

如下示例:

更进一步,我们还可以在服饰上做一些有意思的尝试,如去皱:

甚至瘦身美型:

体验链接:https://www.modelscope.cn/models/damo/cv_flow-based-body-reshaping_damo/summary

从效果上来说,有如下几点特色:

  • 局部修饰。只对目标区域进行编辑,保持非目标区域不动。
  • 精准修饰。充分考虑目标本身的纹理特征和全局上下文信息,以实现精准修饰,去除瑕疵的同时保留皮肤本身的质感。
  • 超高分辨率的处理能力。模型的混合图层金字塔设计,使其可以处理超高分辨率图像(4K~6K)。

本模型有很强的实用性,比如可应用于专业修图领域,如影楼、广告等,提高生产力,也可以应用于直播互娱场景,提升人像皮肤质感。

2. 变成卡通人

模型名:DCT-Net 人像卡通化模型

体验链接:https://www.modelscope.cn/models/damo/cv_unet_person-image-cartoon_compound-models/

人像卡通化是一个具有很好互动性的玩法,同时又有多种风格可选。魔搭开放的人像卡通化模型基于全新的域校准图像翻译网络 DCT-Net(Domain-Calibrated Translation)实现,采用了「先全局特征校准,再局部纹理转换」的核心思想,利用百张小样本风格数据,即可训练得到轻量稳定的风格转换器,实现高保真、强鲁棒、易拓展的高质量人像风格转换效果。

如下示例:

从效果上来看:

  • DCT-Net 具备内容匹配的高保真能力,能有效保留原图内容中的人物 ID、配饰、身体部件、背景等细节特征;
  • DCT-Net 具备面向复杂场景的强鲁棒能力,能轻松处理面部遮挡、稀有姿态等;
  • DCT-Net 在处理维度上和风格适配度上具有易拓展性,利用头部数据即可拓展至全身像 / 全图的精细化风格转换,同时模型具有通用普适性,适配于日漫风、3D、手绘等多种风格转换。

后续我们也会对卡通化进行系列化的开放,除图像转换外,后续将包含图像、视频、3D 卡通化等系列效果,先放一些效果大家看看:

3. 小结

这类模型对图像内容进行修改,包括对源图内容进行编辑加工(增加内容、删除内容、改换内容等),或者直接生成一个新的视觉内容,转换一个风格,得到一张新的图像(基于源图像且与源图不同),都属于编辑生成这个大类,可以理解成,从 A 图得到 B 图的过程。

行业场景类模型

如最开始所说,视觉 AI 技术的价值体现,在广泛的各类场景中都存在,除了上述「人」相关的视觉 AI 技术,我们也开放了来自互联网、工业、互娱、传媒、安全、医疗等多个实战型的模型,这些模型可以拿来即用,也可以基于finetune训练或自学习工具进一步加工完善,用于开发者、客户特定的场景,这里举一个例子:

模型名:烟火检测(正在集成中)

模型功能: 可做室外、室内的火焰检测以及烟雾检测,森林、城市道路、园区,卧室、办公区域、厨房、吸烟场所等,算法打磨近 2 年,并在多个客户场景实际应用,整体效果相对稳定。

从技术视角来说,本模型提出 Correlation block 提升多帧检测精度,其设计数据增强方法提高识别灵敏度同时有效控制误报。

从应用上来说,模型可应用于室内、室外多种场景,只需要手机拍摄、监控摄像头等简单设备就可以实现模型功能。

结语:视觉 AI 的开放未来

通过上述分析,我们可以发现,视觉 AI 的应用潜能极为广泛,社会需求极为多样,但现实情况却是:视觉 AI 的供给能力非常有限。

达摩院在魔搭 ModelScope 之前,就率先开放了 API 形态的视觉 AI 服务,通过公共云平台对 AI 开发者提供一站式视觉在线服务平台,即视觉智能开放平台(vision.aliyun.com),其中开放了超 200 个 API,涵盖了基础视觉、行业视觉等方面,也包括上面所说的「以人为中心」的视觉技术。

从开放视觉平台到魔搭社区,这意味着达摩院视觉 AI 的开放迈出了更大的一步。从 OpenAPI 拓展到 OpenSDK、OpenSOTA,从公共云到端云协同,从平台到社区,我们希望去满足千行百业对视觉 AI 的需求,希望促进视觉 AI 的生态发展。

相关文章
|
12月前
|
机器学习/深度学习 人工智能 机器人
魔搭社区模型速递(5.11-5.17)
🙋魔搭ModelScope本期社区进展:📟1656个模型,151个数据集,645个创新应用,📄 9 篇内容
520 11
WordArt Designer:基于用户驱动与大语言模型的艺术字生成
本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入,从而将抽象概念转化为具体的设计。SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo的基础上,StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。
43764 20
WordArt Designer:基于用户驱动与大语言模型的艺术字生成
|
编解码 算法 PyTorch
超好用!图像去雾算法C2PNet介绍与使用指南
超好用!图像去雾算法C2PNet介绍与使用指南
|
消息中间件 Kafka 分布式数据库
实时计算 Flink版产品使用合集之如何批量读取Kafka数据
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
达摩院 算法 计算机视觉
一键抹去瑕疵、褶皱:深入解读达摩院高清人像美肤模型ABPN(2)
一键抹去瑕疵、褶皱:深入解读达摩院高清人像美肤模型ABPN
987 1
|
存储
第八章:MATLAB中的struct语法解析及案例详解
第八章:MATLAB中的struct语法解析及案例详解
934 1
|
机器学习/深度学习 算法 PyTorch
深度学习实践篇 第四章:模型训练与示例
简要介绍pytorch中模型训练的流程和部分原理知识。
564 0
|
计算机视觉 Python
OpenCV中图像的平移、旋转、倾斜、透视的讲解与实战(附Python源码)
OpenCV中图像的平移、旋转、倾斜、透视的讲解与实战(附Python源码)
1553 0
|
机器学习/深度学习 人工智能 编解码
101 个 CV 模型集体开源,魔搭社区视觉 AI 深度解析
本文,阿里达摩院开放视觉智能负责人谢宣松,深入解析了魔搭社区里首批开源的 101 个视觉 AI 模型。
|
IDE Java Maven
手动创建Spring Boot 2.x项目
手动创建Spring Boot 2.x项目
689 0
手动创建Spring Boot 2.x项目

热门文章

最新文章