超好用的开源模型平台，ModelScope阿里达摩院

2024-03-18 89

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 超好用的开源模型平台，ModelScope阿里达摩院

今天主要想要分享Modelscope（魔搭社区）的使用，ModelScope是阿里达摩院于近一年刚上线的一款开源模型平台，里面提供了很多的热门模型供使用体验，而且与阿里云服务进行联动，不需要额外部署机器进行模型的运行调试，即可自动在阿里云进行实例创建。

一行代码实现模型推理，十几行代码实现对预训练模型的调优训练。兼容主流深度学习框架，提供灵活简单的python SDK，方便开发者构建自己的专属模型。

目前因为平台推广，注册是送CPU资源的，可以在阿里云上长期使用。而大型模型训练光有CPU是不够的，还需要GPU进行运算，新用户会送100小时 16G显存资源时长进行体验使用。

需要绑定阿里云身份即可长期使用CPU资源和额外GPU资源

以【文本生成图像大模型】为例进行体验及模型描述

模型在线体验

如下图所示：支持中英文输入，输入你所想要生成的图片特征描述即可，并且每次生成的图片是不一样的。而最终返回结果不仅有实际图片，还包括一个json输出，包含了图片的oss链接及相关信息。

模型描述

文本到图像生成扩散模型由特征提取、级联生成扩散模型等模块组成。整体模型参数约50亿，支持中英双语输入。通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。知识重组示意图如下：

可变维度扩散模型示意图如下：

模型训练流程

训练

模型分为文本特征提取、文本特征到图像特征生成、级联扩散生成模型等子网络组成，训练也是分别进行。文本特征提取使用大规模图文样本对数据上训练的CLIP的文本分支得到。文本到图像特征生成部分采用GPT结构，是一个width为2048、32个heads、24个blocks的Transformer网络，利用causal attention mask实现GPT预测。64x64、256x256、1024x1024扩散模型均为UNet结构，在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding条件。为降低计算复杂度，在256扩散模型训练过程中，随机64x64 crop、128x128 crop、256x256 crop进行了multi-grid训练，来提升生成质量；在1024扩散模型中，对输入图随机256x256 crop。

快速使用

以【文本生成视频大模型-英文-通用领域 (Text-to-video-synthesis Model in Open Domain)】为例

1、在线使用

通过注册时赠送的CPU、GPU资源进行免安装运行Notebook

（1）启动阿里云弹性加速计算EAIS实例，打开jupyter

（2）modelscope包已经默认集成，所以只需要安装额外包：

（3）运行代码，进行视频生成（需要等待20min下载13GB左右的模型文件）：

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

（4）运行结束后会输出默认保存视频的地址，将视频移到当前目录下，即可进行视频下载

当然，ModelScope还提供了数据集和创空间的概念

数据集：是方便共享及访问的数据集合，可用于算法训练、测试、验证，通常以表格形式出现。按照模态可划分为文本、图像、音频、视频、多模态等。可通过Git方式进行管理，公开的数据集可进行下载使用。

创空间（Studio）：ModelScope平台提供的模型应用可视化私域空间与运营阵地，基于ModelScope平台上模型提供的原子能力，自行搭建与展示不同AI应用，包括自定义的模型输入输出，多模型的组合，以及可视化交互展现形式等等。由创空间为白纸，以模型为颜料，以想象力为画笔，共谱AI应用五彩斑斓的新画卷！

超好用的开源模型平台，ModelScope阿里达摩院

模型在线体验

模型描述

模型训练流程

训练

更多应用

图像多样化

图像融合

快速使用

1、在线使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景