超好用的开源模型平台,ModelScope阿里达摩院

简介: 超好用的开源模型平台,ModelScope阿里达摩院

今天主要想要分享Modelscope(魔搭社区)的使用,ModelScope是阿里达摩院于近一年刚上线的一款开源模型平台,里面提供了很多的热门模型供使用体验,而且与阿里云服务进行联动,不需要额外部署机器进行模型的运行调试,即可自动在阿里云进行实例创建。

一行代码实现模型推理,十几行代码实现对预训练模型的调优训练。兼容主流深度学习框架,提供灵活简单的python SDK,方便开发者构建自己的专属模型。

目前因为平台推广,注册是送CPU资源的,可以在阿里云上长期使用。而大型模型训练光有CPU是不够的,还需要GPU进行运算,新用户会送100小时 16G显存资源时长进行体验使用。

需要绑定阿里云身份即可长期使用CPU资源和额外GPU资源

以【文本生成图像大模型】为例进行体验及模型描述


模型在线体验


如下图所示:支持中英文输入,输入你所想要生成的图片特征描述即可,并且每次生成的图片是不一样的。而最终返回结果不仅有实际图片,还包括一个json输出,包含了图片的oss链接及相关信息。


模型描述


文本到图像生成扩散模型由特征提取、级联生成扩散模型等模块组成。整体模型参数约50亿,支持中英双语输入。通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。知识重组示意图如下:

可变维度扩散模型示意图如下:


模型训练流程


训练


模型分为文本特征提取、文本特征到图像特征生成、级联扩散生成模型等子网络组成,训练也是分别进行。文本特征提取使用大规模图文样本对数据上训练的CLIP的文本分支得到。文本到图像特征生成部分采用GPT结构,是一个width为2048、32个heads、24个blocks的Transformer网络,利用causal attention mask实现GPT预测。64x64、256x256、1024x1024扩散模型均为UNet结构,在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding条件。为降低计算复杂度,在256扩散模型训练过程中,随机64x64 crop、128x128 crop、256x256 crop进行了multi-grid训练,来提升生成质量;在1024扩散模型中,对输入图随机256x256 crop。


更多应用


图像多样化


将输入图像经过CLIP image encoder得到image embeeding,并通过diffusion model decoding实现图像多样化生成,生成的新图保留了原始输入图的语义信息,但实现了其他细节的变化。


图像融合


将输入的两张图像均经过CLIP image encoder得到image embeeding,将两个image embedding进行插值、并通过diffusion model decoding实现图像多样化生成,生成的新图保留了融合了原始两张输入图的风格和内容。


快速使用


以【文本生成视频大模型-英文-通用领域 (Text-to-video-synthesis Model in Open Domain)】为例


1、在线使用


通过注册时赠送的CPU、GPU资源进行免安装运行Notebook


(1)启动阿里云弹性加速计算EAIS实例,打开jupyter

(2)modelscope包已经默认集成,所以只需要安装额外包:

(3)运行代码,进行视频生成(需要等待20min下载13GB左右的模型文件):

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

(4)运行结束后会输出默认保存视频的地址,将视频移到当前目录下,即可进行视频下载

当然,ModelScope还提供了数据集和创空间的概念


数据集:是方便共享及访问的数据集合,可用于算法训练、测试、验证,通常以表格形式出现。按照模态可划分为文本、图像、音频、视频、多模态等。可通过Git方式进行管理,公开的数据集可进行下载使用。


创空间(Studio):ModelScope平台提供的模型应用可视化私域空间与运营阵地,基于ModelScope平台上模型提供的原子能力,自行搭建与展示不同AI应用,包括自定义的模型输入输出,多模型的组合,以及可视化交互展现形式等等。由创空间为白纸,以模型为颜料,以想象力为画笔,共谱AI应用五彩斑斓的新画卷!


相关文章
|
13天前
|
自然语言处理
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
19 1
|
13天前
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
45 2
|
5天前
|
开发框架 API 决策智能
ModelScope-Agent框架再升级!新增一键配置多人聊天,配套开源多智能体数据集和训练
ModelScope-Agent是魔搭社区推出的适配开源大语言模型(LLM)的AI Agent(智能体)开发框架,借助ModelScope-Agent,所有开发者都可基于开源 LLM 搭建属于自己的智能体应用。在最新升级完Assistant API和Tool APIs之后,我们又迎来了多智能体聊天室的升级,通过几分钟快速配置即可搭建一个全新的聊天室。
|
13天前
|
机器学习/深度学习 测试技术 TensorFlow
ModelScope模型使用与EAS部署调用
本文以魔搭数据的模型为例,演示在DSW实例中如何快速调用模型,然后通过Python SDK将模型部署到阿里云PAI EAS服务,并演示使用EAS SDK实现对服务的快速调用,重点针对官方关于EAS模型上线后示例代码无法正常调通部分进行了补充。
|
13天前
|
机器学习/深度学习 数据采集 编解码
阿里云魔搭发起“ModelScope-Sora开源计划”
阿里云魔搭发起“ModelScope-Sora开源计划”
60 0
阿里云魔搭发起“ModelScope-Sora开源计划”
|
13天前
|
数据采集 机器学习/深度学习 人工智能
阿里云魔搭社区发起ModelScope-Sora开源计划
阿里云魔搭社区在2024全球开发者先锋大会上启动ModelScope-Sora开源计划,聚焦中国多模态大模型研究,推出一站式工具链和Data-Juicer多模态数据处理系统,提升处理效率与质量。该计划还包括基础类Sora模型开源及沙盒实验室,以支持开发者迭代与训练。面对数据质量、安全、商业平衡及算力挑战,魔搭社区致力于推动AI创新,已汇聚众多模型与开发者。
385 1
阿里云魔搭社区发起ModelScope-Sora开源计划
|
13天前
|
人工智能 API 决策智能
Modelscope结合α-UMi:基于Modelscope的多模型协作Agent
基于单个开源小模型的工具调用Agent,由于模型容量和预训练能力获取的限制,无法在推理和规划、工具调用、回复生成等任务上同时获得比肩大模型等性能。
|
13天前
|
文字识别 并行计算 语音技术
ModelScope问题之下载模型文件报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
324 3
|
13天前
|
数据采集 自然语言处理 搜索推荐
ModelScope问题之模型encoder配置报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
|
13天前
|
人工智能 自然语言处理 搜索推荐
魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
【2月更文挑战第9天】魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
245 3