超好用的开源模型平台,ModelScope阿里达摩院

简介: 超好用的开源模型平台,ModelScope阿里达摩院

今天主要想要分享Modelscope(魔搭社区)的使用,ModelScope是阿里达摩院于近一年刚上线的一款开源模型平台,里面提供了很多的热门模型供使用体验,而且与阿里云服务进行联动,不需要额外部署机器进行模型的运行调试,即可自动在阿里云进行实例创建。

一行代码实现模型推理,十几行代码实现对预训练模型的调优训练。兼容主流深度学习框架,提供灵活简单的python SDK,方便开发者构建自己的专属模型。

目前因为平台推广,注册是送CPU资源的,可以在阿里云上长期使用。而大型模型训练光有CPU是不够的,还需要GPU进行运算,新用户会送100小时 16G显存资源时长进行体验使用。

需要绑定阿里云身份即可长期使用CPU资源和额外GPU资源

以【文本生成图像大模型】为例进行体验及模型描述


模型在线体验


如下图所示:支持中英文输入,输入你所想要生成的图片特征描述即可,并且每次生成的图片是不一样的。而最终返回结果不仅有实际图片,还包括一个json输出,包含了图片的oss链接及相关信息。


模型描述


文本到图像生成扩散模型由特征提取、级联生成扩散模型等模块组成。整体模型参数约50亿,支持中英双语输入。通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。知识重组示意图如下:

可变维度扩散模型示意图如下:


模型训练流程


训练


模型分为文本特征提取、文本特征到图像特征生成、级联扩散生成模型等子网络组成,训练也是分别进行。文本特征提取使用大规模图文样本对数据上训练的CLIP的文本分支得到。文本到图像特征生成部分采用GPT结构,是一个width为2048、32个heads、24个blocks的Transformer网络,利用causal attention mask实现GPT预测。64x64、256x256、1024x1024扩散模型均为UNet结构,在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding条件。为降低计算复杂度,在256扩散模型训练过程中,随机64x64 crop、128x128 crop、256x256 crop进行了multi-grid训练,来提升生成质量;在1024扩散模型中,对输入图随机256x256 crop。


更多应用


图像多样化


将输入图像经过CLIP image encoder得到image embeeding,并通过diffusion model decoding实现图像多样化生成,生成的新图保留了原始输入图的语义信息,但实现了其他细节的变化。


图像融合


将输入的两张图像均经过CLIP image encoder得到image embeeding,将两个image embedding进行插值、并通过diffusion model decoding实现图像多样化生成,生成的新图保留了融合了原始两张输入图的风格和内容。


快速使用


以【文本生成视频大模型-英文-通用领域 (Text-to-video-synthesis Model in Open Domain)】为例


1、在线使用


通过注册时赠送的CPU、GPU资源进行免安装运行Notebook


(1)启动阿里云弹性加速计算EAIS实例,打开jupyter

(2)modelscope包已经默认集成,所以只需要安装额外包:

(3)运行代码,进行视频生成(需要等待20min下载13GB左右的模型文件):

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

(4)运行结束后会输出默认保存视频的地址,将视频移到当前目录下,即可进行视频下载

当然,ModelScope还提供了数据集和创空间的概念


数据集:是方便共享及访问的数据集合,可用于算法训练、测试、验证,通常以表格形式出现。按照模态可划分为文本、图像、音频、视频、多模态等。可通过Git方式进行管理,公开的数据集可进行下载使用。


创空间(Studio):ModelScope平台提供的模型应用可视化私域空间与运营阵地,基于ModelScope平台上模型提供的原子能力,自行搭建与展示不同AI应用,包括自定义的模型输入输出,多模型的组合,以及可视化交互展现形式等等。由创空间为白纸,以模型为颜料,以想象力为画笔,共谱AI应用五彩斑斓的新画卷!


相关文章
|
1月前
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
28 2
|
1月前
|
人工智能 API 决策智能
Modelscope结合α-UMi:基于Modelscope的多模型协作Agent
基于单个开源小模型的工具调用Agent,由于模型容量和预训练能力获取的限制,无法在推理和规划、工具调用、回复生成等任务上同时获得比肩大模型等性能。
|
1月前
modelscope-funasr怎么拿验证集评估微调后的模型效果呢
【2月更文挑战第19天】modelscope-funasr怎么拿验证集评估微调后的模型效果呢
26 1
|
2月前
|
PyTorch 测试技术 TensorFlow
Modelscope-FunASR是一个开源的语音识别框架
【2月更文挑战第9天】Modelscope-FunASR是一个开源的语音识别框架
197 2
|
2月前
|
文字识别 并行计算 语音技术
ModelScope问题之下载模型文件报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
225 3
|
2月前
|
数据采集 自然语言处理 搜索推荐
ModelScope问题之模型encoder配置报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
80 0
|
2月前
|
数据采集 机器学习/深度学习 算法
ModelScope问题之恢复模型训练如何解决
ModelScope训练是指在ModelScope平台上对机器学习模型进行训练的活动;本合集将介绍ModelScope训练流程、模型优化技巧和训练过程中的常见问题解决方法。
52 0
|
2月前
|
人工智能 自然语言处理 开发工具
通过ModelScope开源Embedding模型将文本转换为向量
本文介绍如何通过ModelScope魔搭社区中的文本向量开源模型将文本转换为向量,并入库至向量检索服务DashVector中进行向量检索。
|
2月前
|
人工智能 自然语言处理 搜索推荐
魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
【2月更文挑战第9天】魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
167 3
|
2月前
|
API
使用ModelScope平台进行模型验证时
【2月更文挑战第9天】使用ModelScope平台进行模型验证时
59 4

热门文章

最新文章