魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战(中)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战

二、 ModelScope社区视觉模型概览

 

image.png

 

除此之外,阿里巴巴通过“模型+服务”或者“模型+数据”的方式,完成了模型形态的能力开放。主要分为视觉感知类、视觉理解类、视觉生产类。ModelScope社区兼容国际主流的开源框架,坚持学术研究与产业应用的双轮驱动。

 

image.png

 

接下来,介绍一些在ModelScope社区开源的视觉模型。如上图所示,视觉理解,开放能力主要分为图像分类,目标检测,图像分别三个环节。

 

image.png

 

其中,图像分类模型主要有VIT图像分类,动物识别,万物识别等等;目标检测模型主要有通用实时检测模型,VitDet图像目标检测,StreamYOLO实时视频目标检测等等。

 

image.png

 

在图像分割模型方面,主要有CascadeMaskRCNN-SwinB图像实例分割,BSHM人像抠图,Mask2Former-SwinL全景分割等等。

 

image.png

 

如上图所示,达摩院开放的生物识别能力主要包含三个模型,即生物识别系统Pipeline、RetinaFace检测关键点模型、CurricularFace识别模型。

 

其中,生物识别系统Pipeline包含三个模块:人脸检测,人脸关键点和人脸识别模型。目前可体验MogFace人脸检测,Mtcnn人脸检测关键点模型,1M人脸检测模型ULFD,RetinaFace人脸检测关键点模型,CurricularFace人脸识别模型和人脸表情识别模型FER。

 

RetinaFace检测关键点模型的优势在于,人脸检测关键点二合一模型;单阶段&e2e使用MobileNet Backbone可以在端上实时inference。

 

CurricularFace识别模型的优势在于,它提出一种自适应的课程学习损失函数,解决了基于间隔和难样本挖掘损失函数的固有缺陷问题。

 

image.png

 

如上图所示,ModelScope社区在生物智能方面开放了经典的MogFace检测模型、1M检测模型ULFD、MTCNN检测模型、以及FRE表情识别模型。

 

其中,MogFace检测模型的优势在于,提出一种解决误检的方法,解决了人脸检测实际应用时面对的挑战。MogFace检测模型是Wider Face榜单上的六项冠军模型,并已持续一年以上。

 

1M检测模型ULFD的优势在于,无特殊算子,支持onnx导出,便于移植推理。在FP32精度下,模型大小为1.1MB,推理框架int8量化后大小为300KB左右。

 

FRE表情识别模型的优势在于,backbone是VGG19后面接一个fc层,在性能和速度实现了较好的trade-off。目前,Fer为人脸表情识别领域的明星项目,网络结构比较简单。

 

image.png

 

除此之外,阿里云达摩院在ModelScope社区开放了视频增强相关能力。让用户在视频制作、播出等场景中提供全面的画质提升能力,让AI画质管理品类成为视频业务的基础设施。

 

如上图所示,视频增强能力主要有四个方面,即色彩增强、画质评估、时域增强、清晰度。

 

image.png

 

如上图所示,在ModelScope社区,以人像增强模型为例。它可以实现图像的超分辨率、人像增强、图像降噪、图像上色、图像颜色增强等等。

 

image.png

 

在视觉编辑能力方面,达摩院在ModelScope社区开放了风格迁移、人像动漫化、人像美肤等能力。

 

其中,风格迁移可以将给定图像和参考图像作为输入,风格迁移模型会自动地将图像变为参考图的风格。人像动漫化可以实现,端到端全图卡通化转换,生成二次元虚拟形象。人像美肤主要对图像中的人体皮肤进行处理,实现匀肤(处理痘印、肤色不均等)、去瑕疵(脂肪粒、斑点、痣等)以及美白等功能。

 

image.png

 


相关文章
|
14天前
|
人工智能
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
【7月更文挑战第3天】新研究表明语言和思维是分离的,引发AI社区激烈讨论。论文通过fMRI实验显示语言处理与思维在大脑中独立,即使无语言人们仍能推理。这质疑了AI仅通过语言学习高级智能的可能性,暗示应更关注模拟人类思维。[[1](https://www.nature.com/articles/s41586-024-07522-w)]
30 1
|
26天前
|
人工智能 开发工具 Swift
ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发
魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。
|
1月前
|
人工智能 自然语言处理 机器人
AI大战因Claude 3而升温,自称拥有接近人类的能力
AI大战因Claude 3而升温,自称拥有接近人类的能力
|
1月前
|
人工智能 自然语言处理 API
云栖发布:通义听悟AI能力再进化,开放API接口
云栖发布:通义听悟AI能力再进化,开放API接口
|
1月前
|
人工智能 JSON 文字识别
印刷文字识别操作报错合集之口算判题AI能力(文字识别OCR)接口返回数据的时,不显示正确答案只判断对错吗
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
2月前
|
人工智能 前端开发 数据库
体验AI驱动的软件开发 | 普元低代码社区版使用
体验AI驱动的软件开发 | 普元低代码社区版使用
59 1
|
2月前
|
人工智能 文字识别 语音技术
学习资料大全​ | 一起来魔搭社区学AI吧!
魔搭社区特别推出研习社栏目,包含AI前沿技术解读、模型应用最佳实践、动手做AI应用(AIGC/Agent/RAG)等主题,持续更新,代码实战点击即运行
|
2月前
|
机器学习/深度学习 人工智能 Swift
PAI x ModelScope: 在PAI使用ModelScope模型
在当前的人工智能领域,特别是大语言模型、文生图等领域,基于预训练模型完成机器学习模型的开发部署已成为重要的应用范式,开发者们依赖于这些先进的开源预训练模型,以简化机器学习应用的开发并加速创新。
|
2月前
|
机器学习/深度学习 测试技术 TensorFlow
ModelScope模型使用与EAS部署调用
本文以魔搭数据的模型为例,演示在DSW实例中如何快速调用模型,然后通过Python SDK将模型部署到阿里云PAI EAS服务,并演示使用EAS SDK实现对服务的快速调用,重点针对官方关于EAS模型上线后示例代码无法正常调通部分进行了补充。
132 2
|
2月前
|
人工智能 安全 Anolis