今天主要想要分享Modelscope(魔搭社区)的使用,ModelScope是阿里达摩院于近一年刚上线的一款开源模型平台,里面提供了很多的热门模型供使用体验,而且与阿里云服务进行联动,不需要额外部署机器进行模型的运行调试,即可自动在阿里云进行实例创建。
一行代码实现模型推理,十几行代码实现对预训练模型的调优训练。兼容主流深度学习框架,提供灵活简单的python SDK,方便开发者构建自己的专属模型。
目前因为平台推广,注册是送CPU资源的,可以在阿里云上长期使用。而大型模型训练光有CPU是不够的,还需要GPU进行运算,新用户会送100小时 16G显存资源时长进行体验使用。
需要绑定阿里云身份即可长期使用CPU资源和额外GPU资源
以【文本生成图像大模型】为例进行体验及模型描述
模型在线体验
如下图所示:支持中英文输入,输入你所想要生成的图片特征描述即可,并且每次生成的图片是不一样的。而最终返回结果不仅有实际图片,还包括一个json输出,包含了图片的oss链接及相关信息。
模型描述
文本到图像生成扩散模型由特征提取、级联生成扩散模型等模块组成。整体模型参数约50亿,支持中英双语输入。通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。知识重组示意图如下:
可变维度扩散模型示意图如下:
模型训练流程
训练
模型分为文本特征提取、文本特征到图像特征生成、级联扩散生成模型等子网络组成,训练也是分别进行。文本特征提取使用大规模图文样本对数据上训练的CLIP的文本分支得到。文本到图像特征生成部分采用GPT结构,是一个width为2048、32个heads、24个blocks的Transformer网络,利用causal attention mask实现GPT预测。64x64、256x256、1024x1024扩散模型均为UNet结构,在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding条件。为降低计算复杂度,在256扩散模型训练过程中,随机64x64 crop、128x128 crop、256x256 crop进行了multi-grid训练,来提升生成质量;在1024扩散模型中,对输入图随机256x256 crop。
更多应用
图像多样化
将输入图像经过CLIP image encoder得到image embeeding,并通过diffusion model decoding实现图像多样化生成,生成的新图保留了原始输入图的语义信息,但实现了其他细节的变化。
图像融合
将输入的两张图像均经过CLIP image encoder得到image embeeding,将两个image embedding进行插值、并通过diffusion model decoding实现图像多样化生成,生成的新图保留了融合了原始两张输入图的风格和内容。
快速使用
以【文本生成视频大模型-英文-通用领域 (Text-to-video-synthesis Model in Open Domain)】为例
1、在线使用
通过注册时赠送的CPU、GPU资源进行免安装运行Notebook
(1)启动阿里云弹性加速计算EAIS实例,打开jupyter
(2)modelscope包已经默认集成,所以只需要安装额外包:
(3)运行代码,进行视频生成(需要等待20min下载13GB左右的模型文件):
from modelscope.pipelines import pipeline from modelscope.outputs import OutputKeys p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis') test_text = { 'text': 'A panda eating bamboo on a rock.', } output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO] print('output_video_path:', output_video_path)
(4)运行结束后会输出默认保存视频的地址,将视频移到当前目录下,即可进行视频下载
当然,ModelScope还提供了数据集和创空间的概念
数据集:是方便共享及访问的数据集合,可用于算法训练、测试、验证,通常以表格形式出现。按照模态可划分为文本、图像、音频、视频、多模态等。可通过Git方式进行管理,公开的数据集可进行下载使用。
创空间(Studio):ModelScope平台提供的模型应用可视化私域空间与运营阵地,基于ModelScope平台上模型提供的原子能力,自行搭建与展示不同AI应用,包括自定义的模型输入输出,多模型的组合,以及可视化交互展现形式等等。由创空间为白纸,以模型为颜料,以想象力为画笔,共谱AI应用五彩斑斓的新画卷!