魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战(中)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战

二、 ModelScope社区视觉模型概览

 

image.png

 

除此之外,阿里巴巴通过“模型+服务”或者“模型+数据”的方式,完成了模型形态的能力开放。主要分为视觉感知类、视觉理解类、视觉生产类。ModelScope社区兼容国际主流的开源框架,坚持学术研究与产业应用的双轮驱动。

 

image.png

 

接下来,介绍一些在ModelScope社区开源的视觉模型。如上图所示,视觉理解,开放能力主要分为图像分类,目标检测,图像分别三个环节。

 

image.png

 

其中,图像分类模型主要有VIT图像分类,动物识别,万物识别等等;目标检测模型主要有通用实时检测模型,VitDet图像目标检测,StreamYOLO实时视频目标检测等等。

 

image.png

 

在图像分割模型方面,主要有CascadeMaskRCNN-SwinB图像实例分割,BSHM人像抠图,Mask2Former-SwinL全景分割等等。

 

image.png

 

如上图所示,达摩院开放的生物识别能力主要包含三个模型,即生物识别系统Pipeline、RetinaFace检测关键点模型、CurricularFace识别模型。

 

其中,生物识别系统Pipeline包含三个模块:人脸检测,人脸关键点和人脸识别模型。目前可体验MogFace人脸检测,Mtcnn人脸检测关键点模型,1M人脸检测模型ULFD,RetinaFace人脸检测关键点模型,CurricularFace人脸识别模型和人脸表情识别模型FER。

 

RetinaFace检测关键点模型的优势在于,人脸检测关键点二合一模型;单阶段&e2e使用MobileNet Backbone可以在端上实时inference。

 

CurricularFace识别模型的优势在于,它提出一种自适应的课程学习损失函数,解决了基于间隔和难样本挖掘损失函数的固有缺陷问题。

 

image.png

 

如上图所示,ModelScope社区在生物智能方面开放了经典的MogFace检测模型、1M检测模型ULFD、MTCNN检测模型、以及FRE表情识别模型。

 

其中,MogFace检测模型的优势在于,提出一种解决误检的方法,解决了人脸检测实际应用时面对的挑战。MogFace检测模型是Wider Face榜单上的六项冠军模型,并已持续一年以上。

 

1M检测模型ULFD的优势在于,无特殊算子,支持onnx导出,便于移植推理。在FP32精度下,模型大小为1.1MB,推理框架int8量化后大小为300KB左右。

 

FRE表情识别模型的优势在于,backbone是VGG19后面接一个fc层,在性能和速度实现了较好的trade-off。目前,Fer为人脸表情识别领域的明星项目,网络结构比较简单。

 

image.png

 

除此之外,阿里云达摩院在ModelScope社区开放了视频增强相关能力。让用户在视频制作、播出等场景中提供全面的画质提升能力,让AI画质管理品类成为视频业务的基础设施。

 

如上图所示,视频增强能力主要有四个方面,即色彩增强、画质评估、时域增强、清晰度。

 

image.png

 

如上图所示,在ModelScope社区,以人像增强模型为例。它可以实现图像的超分辨率、人像增强、图像降噪、图像上色、图像颜色增强等等。

 

image.png

 

在视觉编辑能力方面,达摩院在ModelScope社区开放了风格迁移、人像动漫化、人像美肤等能力。

 

其中,风格迁移可以将给定图像和参考图像作为输入,风格迁移模型会自动地将图像变为参考图的风格。人像动漫化可以实现,端到端全图卡通化转换,生成二次元虚拟形象。人像美肤主要对图像中的人体皮肤进行处理,实现匀肤(处理痘印、肤色不均等)、去瑕疵(脂肪粒、斑点、痣等)以及美白等功能。

 

image.png

 


相关文章
|
4天前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
5天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
4天前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
7天前
|
人工智能 安全 Linux
龙蜥社区首推 AI 原生操作系统路线,三大重磅计划协同生态布局未来
第二届龙蜥大会圆满落幕,龙蜥操作系统装机量突破800万。
|
3天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在现代医疗领域的革命性应用
随着人工智能技术的飞速发展,其在医疗领域的应用也日益广泛。本文将从AI技术在医疗诊断、治疗和健康管理等方面的应用入手,探讨其如何改变传统医疗模式,提高医疗服务质量和效率。同时,我们也将关注AI技术在医疗领域面临的挑战和未来发展趋势。
|
2天前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
3天前
|
机器学习/深度学习 存储 人工智能
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
【9月更文挑战第1天】AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
|
2天前
|
机器学习/深度学习 人工智能 自动驾驶
AI与未来:探索智能技术的新纪元
【9月更文挑战第9天】本文将探讨人工智能(AI)的发展历程、现状和未来趋势。我们将从AI的基本概念入手,逐步深入到其在各个领域的应用,以及它对社会的影响。最后,我们将展望AI的未来,探讨其可能带来的变革。
|
5天前
|
人工智能 监控 安全
揭秘AI技术在智能家居中的应用
【9月更文挑战第6天】本文深入探讨了AI技术如何在智能家居领域大放异彩。从智能语音助手到自动化家居控制,再到安全监控和能源管理,AI技术正在改变我们的生活方式。文章还将通过代码示例,展示如何利用AI技术实现家居自动化控制。
28 5
|
10天前
|
人工智能 运维 自然语言处理
AI战略丨构建未来: 生成式人工智能技术落地策略
GenAI 的技术落地需要企业进行周密地规划和持续地努力。企业必须从自身的战略出发, 综合考虑成本、效果和性能,制定合理的技术架构,通过全面的 AI 治理,实现可持续的创新和发展。