魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战(中)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战

二、 ModelScope社区视觉模型概览

 

image.png

 

除此之外,阿里巴巴通过“模型+服务”或者“模型+数据”的方式,完成了模型形态的能力开放。主要分为视觉感知类、视觉理解类、视觉生产类。ModelScope社区兼容国际主流的开源框架,坚持学术研究与产业应用的双轮驱动。

 

image.png

 

接下来,介绍一些在ModelScope社区开源的视觉模型。如上图所示,视觉理解,开放能力主要分为图像分类,目标检测,图像分别三个环节。

 

image.png

 

其中,图像分类模型主要有VIT图像分类,动物识别,万物识别等等;目标检测模型主要有通用实时检测模型,VitDet图像目标检测,StreamYOLO实时视频目标检测等等。

 

image.png

 

在图像分割模型方面,主要有CascadeMaskRCNN-SwinB图像实例分割,BSHM人像抠图,Mask2Former-SwinL全景分割等等。

 

image.png

 

如上图所示,达摩院开放的生物识别能力主要包含三个模型,即生物识别系统Pipeline、RetinaFace检测关键点模型、CurricularFace识别模型。

 

其中,生物识别系统Pipeline包含三个模块:人脸检测,人脸关键点和人脸识别模型。目前可体验MogFace人脸检测,Mtcnn人脸检测关键点模型,1M人脸检测模型ULFD,RetinaFace人脸检测关键点模型,CurricularFace人脸识别模型和人脸表情识别模型FER。

 

RetinaFace检测关键点模型的优势在于,人脸检测关键点二合一模型;单阶段&e2e使用MobileNet Backbone可以在端上实时inference。

 

CurricularFace识别模型的优势在于,它提出一种自适应的课程学习损失函数,解决了基于间隔和难样本挖掘损失函数的固有缺陷问题。

 

image.png

 

如上图所示,ModelScope社区在生物智能方面开放了经典的MogFace检测模型、1M检测模型ULFD、MTCNN检测模型、以及FRE表情识别模型。

 

其中,MogFace检测模型的优势在于,提出一种解决误检的方法,解决了人脸检测实际应用时面对的挑战。MogFace检测模型是Wider Face榜单上的六项冠军模型,并已持续一年以上。

 

1M检测模型ULFD的优势在于,无特殊算子,支持onnx导出,便于移植推理。在FP32精度下,模型大小为1.1MB,推理框架int8量化后大小为300KB左右。

 

FRE表情识别模型的优势在于,backbone是VGG19后面接一个fc层,在性能和速度实现了较好的trade-off。目前,Fer为人脸表情识别领域的明星项目,网络结构比较简单。

 

image.png

 

除此之外,阿里云达摩院在ModelScope社区开放了视频增强相关能力。让用户在视频制作、播出等场景中提供全面的画质提升能力,让AI画质管理品类成为视频业务的基础设施。

 

如上图所示,视频增强能力主要有四个方面,即色彩增强、画质评估、时域增强、清晰度。

 

image.png

 

如上图所示,在ModelScope社区,以人像增强模型为例。它可以实现图像的超分辨率、人像增强、图像降噪、图像上色、图像颜色增强等等。

 

image.png

 

在视觉编辑能力方面,达摩院在ModelScope社区开放了风格迁移、人像动漫化、人像美肤等能力。

 

其中,风格迁移可以将给定图像和参考图像作为输入,风格迁移模型会自动地将图像变为参考图的风格。人像动漫化可以实现,端到端全图卡通化转换,生成二次元虚拟形象。人像美肤主要对图像中的人体皮肤进行处理,实现匀肤(处理痘印、肤色不均等)、去瑕疵(脂肪粒、斑点、痣等)以及美白等功能。

 

image.png

 


相关文章
|
3天前
|
人工智能 负载均衡 安全
云上AI推理平台全掌握 (3):服务接入与全球调度
阿里云人工智能平台 PAI 平台推出的全球化的服务接入矩阵,为 LLM 服务量身打造了专业且灵活的服务接入方案,正重新定义 AI 服务的高可用接入标准——从单地域 VPC 安全隔离到跨洲际毫秒级调度,让客户的推理服务在任何网络环境下都能实现「接入即最优」。
|
14天前
|
机器学习/深度学习 人工智能 编解码
智谱AI发布新版VLM开源模型GLM-4.1V-9B-Thinking,引入思考范式,性能提升8倍
视觉语言大模型(VLM)已经成为智能系统的关键基石。
218 0
|
4天前
|
XML 人工智能 测试技术
在AI应用中Prompt撰写重要却难掌握,‘理解模型与行业知识是关键’:提升迫在眉睫
本文三桥君探讨Prompt优化技巧对AI应用的重要性。内容涵盖理解大语言模型、行业Know-how及Prompt撰写方法,助力提升AI输出质量与应用效率。
98 58
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
AI产品经理的技术必修课:从工具应用到系统设计
AI产品经理的技术必修课:从工具应用到系统设计
210 84
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
当无人机遇上Agentic AI:新的应用场景及挑战
本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战
133 5
当无人机遇上Agentic AI:新的应用场景及挑战
|
2月前
|
开发框架 人工智能 Java
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
本文详细介绍了阿里云应用服务器如何助力传统J2EE应用实现智能化升级。文章分为三部分:第一部分阐述了传统J2EE应用在智能化转型中的痛点,如协议鸿沟、资源冲突和观测失明;第二部分展示了阿里云应用服务器的解决方案,包括兼容传统EJB容器与微服务架构、支持大模型即插即用及全景可观测性;第三部分则通过具体步骤说明如何基于EDAS开启J2EE应用的智能化进程,确保十年代码无需重写,轻松实现智能化跃迁。
309 40
|
2月前
|
人工智能 数据挖掘
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
本文介绍了如何通过智能体组件化设计快速生成PPT。首先,创建一个“PPT大纲生成”智能体并发布为组件,该组件可根据用户输入生成结构清晰的大纲。接着,在新的智能体应用中调用此组件与MCP服务(如ChatPPT),实现从大纲到完整PPT的自动化生成。整个流程模块化、复用性强,显著降低AI开发门槛,提升效率。非技术人员也可轻松上手,满足多样化场景需求。
284 0
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
|
2月前
|
人工智能 数据挖掘 大数据
“龟速”到“光速”?算力如何加速 AI 应用进入“快车道”
阿里云将联合英特尔、蚂蚁数字科技专家,带来“云端进化论”特别直播。
129 11
|
2月前
|
数据采集 机器学习/深度学习 人工智能
代理IP:企业AI应用的隐形加速器与合规绞索
代理IP作为企业AI应用的重要基础设施,既是效率提升的加速器,也可能成为合规风险的来源。它通过技术演进重塑数据采集、模型训练与安全防护等核心环节,如智能路由、量子加密和边缘计算等创新方案显著优化性能。然而,全球法规(如GDPR)对数据流动提出严格要求,促使企业开发自动化合规审计系统应对挑战。未来,代理IP将向智能路由3.0、PaaS服务及量子网络方向发展,成为连接物理与数字世界的神经网络。企业在享受其带来的效率增益同时,需构建技术、法律与伦理三位一体的防护体系以规避风险。
68 0

热门文章

最新文章