魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战(中)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战

二、 ModelScope社区视觉模型概览

 

image.png

 

除此之外,阿里巴巴通过“模型+服务”或者“模型+数据”的方式,完成了模型形态的能力开放。主要分为视觉感知类、视觉理解类、视觉生产类。ModelScope社区兼容国际主流的开源框架,坚持学术研究与产业应用的双轮驱动。

 

image.png

 

接下来,介绍一些在ModelScope社区开源的视觉模型。如上图所示,视觉理解,开放能力主要分为图像分类,目标检测,图像分别三个环节。

 

image.png

 

其中,图像分类模型主要有VIT图像分类,动物识别,万物识别等等;目标检测模型主要有通用实时检测模型,VitDet图像目标检测,StreamYOLO实时视频目标检测等等。

 

image.png

 

在图像分割模型方面,主要有CascadeMaskRCNN-SwinB图像实例分割,BSHM人像抠图,Mask2Former-SwinL全景分割等等。

 

image.png

 

如上图所示,达摩院开放的生物识别能力主要包含三个模型,即生物识别系统Pipeline、RetinaFace检测关键点模型、CurricularFace识别模型。

 

其中,生物识别系统Pipeline包含三个模块:人脸检测,人脸关键点和人脸识别模型。目前可体验MogFace人脸检测,Mtcnn人脸检测关键点模型,1M人脸检测模型ULFD,RetinaFace人脸检测关键点模型,CurricularFace人脸识别模型和人脸表情识别模型FER。

 

RetinaFace检测关键点模型的优势在于,人脸检测关键点二合一模型;单阶段&e2e使用MobileNet Backbone可以在端上实时inference。

 

CurricularFace识别模型的优势在于,它提出一种自适应的课程学习损失函数,解决了基于间隔和难样本挖掘损失函数的固有缺陷问题。

 

image.png

 

如上图所示,ModelScope社区在生物智能方面开放了经典的MogFace检测模型、1M检测模型ULFD、MTCNN检测模型、以及FRE表情识别模型。

 

其中,MogFace检测模型的优势在于,提出一种解决误检的方法,解决了人脸检测实际应用时面对的挑战。MogFace检测模型是Wider Face榜单上的六项冠军模型,并已持续一年以上。

 

1M检测模型ULFD的优势在于,无特殊算子,支持onnx导出,便于移植推理。在FP32精度下,模型大小为1.1MB,推理框架int8量化后大小为300KB左右。

 

FRE表情识别模型的优势在于,backbone是VGG19后面接一个fc层,在性能和速度实现了较好的trade-off。目前,Fer为人脸表情识别领域的明星项目,网络结构比较简单。

 

image.png

 

除此之外,阿里云达摩院在ModelScope社区开放了视频增强相关能力。让用户在视频制作、播出等场景中提供全面的画质提升能力,让AI画质管理品类成为视频业务的基础设施。

 

如上图所示,视频增强能力主要有四个方面,即色彩增强、画质评估、时域增强、清晰度。

 

image.png

 

如上图所示,在ModelScope社区,以人像增强模型为例。它可以实现图像的超分辨率、人像增强、图像降噪、图像上色、图像颜色增强等等。

 

image.png

 

在视觉编辑能力方面,达摩院在ModelScope社区开放了风格迁移、人像动漫化、人像美肤等能力。

 

其中,风格迁移可以将给定图像和参考图像作为输入,风格迁移模型会自动地将图像变为参考图的风格。人像动漫化可以实现,端到端全图卡通化转换,生成二次元虚拟形象。人像美肤主要对图像中的人体皮肤进行处理,实现匀肤(处理痘印、肤色不均等)、去瑕疵(脂肪粒、斑点、痣等)以及美白等功能。

 

image.png

 


相关文章
|
1天前
|
机器学习/深度学习 人工智能 算法
AI - 决策树模型
决策树算法起源于古希腊的逻辑推理,20世纪在军事策略研究中首次提出。它通过构建树形模型模拟决策过程,每个节点代表一个属性判断,分支代表可能结果。ID3算法基于信息增益,C4.5则引入信息增益率,解决了ID3偏好多值属性的问题,还能处理缺失值。CART决策树适用于分类和回归任务,使用基尼系数或信息增益来选择特征。在Python的`sklearn`库中,`DecisionTreeClassifier`实现决策树分类,通过参数如`criterion`、`max_depth`等控制模型。
|
1天前
|
机器学习/深度学习 资源调度 算法
AI-逻辑回归模型
逻辑回归是一种用于分类问题的统计模型,尤其适合二分类任务,如预测广告点击率、判断邮件是否为垃圾邮件、评估疾病风险和预测信用卡违约等。模型通过线性方程(logit函数)结合Sigmoid函数将结果映射到0到1区间,表示概率。损失函数通常使用交叉熵,优化时常用梯度下降。评估指标包括ROC曲线和AUC,后者衡量模型整体性能,值越接近1表示性能越好。在不平衡数据集上,可使用`class_weight='balanced'`来调整样本权重。
|
1天前
|
机器学习/深度学习 算法 大数据
AI-线性回归模型(二)
这篇内容介绍了梯度下降法在机器学习中的应用,特别是在线性回归中的角色。它是一种迭代优化算法,用于找到损失函数最小值的参数。全梯度下降(FGD)使用所有数据计算梯度,适合大数据但计算成本高;随机梯度下降(SGD)随机选取样本,速度快但可能收敛到局部最小值。随机平均梯度下降(SAG)结合两者的优点,提高收敛速度。评估线性回归模型的性能通常使用平均绝对误差、均方误差和均方根误差。文中还展示了波士顿房价预测案例,使用SGDRegressor进行训练,并讨论了学习率的影响。最后提到了如何使用`joblib`库保存和加载模型。
|
1天前
|
机器学习/深度学习 API Python
AI-线性回归模型(一)
线性回归是用于分析变量间线性关系的统计方法,常见于房价预测、销售额预测和贷款额度评估。通过最小二乘法寻找最佳直线方程y=wx+b,其中y是因变量,x是自变量,w和b是模型参数。在Python的`sklearn`库中,使用`LinearRegression`类可构建模型,通过`fit`训练和`predict`进行预测。损失函数通常用平方损失(均方误差)衡量预测误差,优化目标是最小化这些误差的平方和。
|
1月前
|
自然语言处理
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
29 1
|
1月前
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
81 2
|
1月前
|
人工智能 API 决策智能
Modelscope结合α-UMi:基于Modelscope的多模型协作Agent
基于单个开源小模型的工具调用Agent,由于模型容量和预训练能力获取的限制,无法在推理和规划、工具调用、回复生成等任务上同时获得比肩大模型等性能。
|
1月前
|
文字识别 并行计算 语音技术
ModelScope问题之下载模型文件报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
396 3
|
1月前
|
人工智能 达摩院 自然语言处理
超好用的开源模型平台,ModelScope阿里达摩院
超好用的开源模型平台,ModelScope阿里达摩院
176 1
|
1月前
|
API
使用ModelScope平台进行模型验证时
【2月更文挑战第9天】使用ModelScope平台进行模型验证时
80 4