超好用的开源模型平台,ModelScope阿里达摩院

简介: 超好用的开源模型平台,ModelScope阿里达摩院

今天主要想要分享Modelscope(魔搭社区)的使用,ModelScope是阿里达摩院于近一年刚上线的一款开源模型平台,里面提供了很多的热门模型供使用体验,而且与阿里云服务进行联动,不需要额外部署机器进行模型的运行调试,即可自动在阿里云进行实例创建。

一行代码实现模型推理,十几行代码实现对预训练模型的调优训练。兼容主流深度学习框架,提供灵活简单的python SDK,方便开发者构建自己的专属模型。

目前因为平台推广,注册是送CPU资源的,可以在阿里云上长期使用。而大型模型训练光有CPU是不够的,还需要GPU进行运算,新用户会送100小时 16G显存资源时长进行体验使用。

需要绑定阿里云身份即可长期使用CPU资源和额外GPU资源

以【文本生成图像大模型】为例进行体验及模型描述


模型在线体验


如下图所示:支持中英文输入,输入你所想要生成的图片特征描述即可,并且每次生成的图片是不一样的。而最终返回结果不仅有实际图片,还包括一个json输出,包含了图片的oss链接及相关信息。


模型描述


文本到图像生成扩散模型由特征提取、级联生成扩散模型等模块组成。整体模型参数约50亿,支持中英双语输入。通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。知识重组示意图如下:

可变维度扩散模型示意图如下:


模型训练流程


训练


模型分为文本特征提取、文本特征到图像特征生成、级联扩散生成模型等子网络组成,训练也是分别进行。文本特征提取使用大规模图文样本对数据上训练的CLIP的文本分支得到。文本到图像特征生成部分采用GPT结构,是一个width为2048、32个heads、24个blocks的Transformer网络,利用causal attention mask实现GPT预测。64x64、256x256、1024x1024扩散模型均为UNet结构,在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding条件。为降低计算复杂度,在256扩散模型训练过程中,随机64x64 crop、128x128 crop、256x256 crop进行了multi-grid训练,来提升生成质量;在1024扩散模型中,对输入图随机256x256 crop。


更多应用


图像多样化


将输入图像经过CLIP image encoder得到image embeeding,并通过diffusion model decoding实现图像多样化生成,生成的新图保留了原始输入图的语义信息,但实现了其他细节的变化。


图像融合


将输入的两张图像均经过CLIP image encoder得到image embeeding,将两个image embedding进行插值、并通过diffusion model decoding实现图像多样化生成,生成的新图保留了融合了原始两张输入图的风格和内容。


快速使用


以【文本生成视频大模型-英文-通用领域 (Text-to-video-synthesis Model in Open Domain)】为例


1、在线使用


通过注册时赠送的CPU、GPU资源进行免安装运行Notebook


(1)启动阿里云弹性加速计算EAIS实例,打开jupyter

(2)modelscope包已经默认集成,所以只需要安装额外包:

(3)运行代码,进行视频生成(需要等待20min下载13GB左右的模型文件):

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

(4)运行结束后会输出默认保存视频的地址,将视频移到当前目录下,即可进行视频下载

当然,ModelScope还提供了数据集和创空间的概念


数据集:是方便共享及访问的数据集合,可用于算法训练、测试、验证,通常以表格形式出现。按照模态可划分为文本、图像、音频、视频、多模态等。可通过Git方式进行管理,公开的数据集可进行下载使用。


创空间(Studio):ModelScope平台提供的模型应用可视化私域空间与运营阵地,基于ModelScope平台上模型提供的原子能力,自行搭建与展示不同AI应用,包括自定义的模型输入输出,多模型的组合,以及可视化交互展现形式等等。由创空间为白纸,以模型为颜料,以想象力为画笔,共谱AI应用五彩斑斓的新画卷!


相关文章
|
11天前
|
人工智能 物联网 大数据
开源大赛 | 第七届CCF开源创新大赛ModelScope赛题解读
第七届CCF开源创新大赛由CCF主办,长沙理工大学和CCF开源发展委员会联合承办,以国家“十四五”开源生态发展战略布局为导向,重点关注人工智能、大数据、芯片设计、物联网等领域的开源软件,旨在创建一个展示、交流和合作的平台,激发开源创新精神,培养开源人才,并促进高质量的开源生态系统建设。
|
19天前
|
人工智能 开发框架 物联网
赢万元奖金 | 第七届CCF开源创新大赛ModelScope开源模型应用挑战赛开启报名!
第七届CCF开源创新大赛(后简称“大赛”) 由中国计算机学会(CCF)主办,长沙理工大学、CCF开源发展委员会联合承办。
|
3月前
|
人工智能 开发工具 Swift
ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发
魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。
|
4月前
|
开发框架 API 决策智能
ModelScope-Agent框架再升级!新增一键配置多人聊天,配套开源多智能体数据集和训练
ModelScope-Agent是魔搭社区推出的适配开源大语言模型(LLM)的AI Agent(智能体)开发框架,借助ModelScope-Agent,所有开发者都可基于开源 LLM 搭建属于自己的智能体应用。在最新升级完Assistant API和Tool APIs之后,我们又迎来了多智能体聊天室的升级,通过几分钟快速配置即可搭建一个全新的聊天室。
|
4月前
|
机器学习/深度学习 人工智能 Swift
PAI x ModelScope: 在PAI使用ModelScope模型
在当前的人工智能领域,特别是大语言模型、文生图等领域,基于预训练模型完成机器学习模型的开发部署已成为重要的应用范式,开发者们依赖于这些先进的开源预训练模型,以简化机器学习应用的开发并加速创新。
|
4月前
|
自然语言处理
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
93 1
|
4月前
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
157 2
|
4月前
|
人工智能 API 决策智能
Modelscope结合α-UMi:基于Modelscope的多模型协作Agent
基于单个开源小模型的工具调用Agent,由于模型容量和预训练能力获取的限制,无法在推理和规划、工具调用、回复生成等任务上同时获得比肩大模型等性能。
|
4月前
|
文字识别 并行计算 语音技术
ModelScope问题之下载模型文件报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
643 3
|
4月前
|
数据采集 自然语言处理 搜索推荐
ModelScope问题之模型encoder配置报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
174 0

热门文章

最新文章

下一篇
云函数