ModelScope是什么
- ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!
中文分词任务就是把连续的汉字分隔成具有语言语义学意义的词汇。中文的书写习惯不像英文等日耳曼语系语言词与词之前显式的用空格分隔。为了让计算机理解中文文本,通常来说中文信息处理的第一步就是进行文本分词。
- 模型:是指一个具体的模型实例,包括模型网络结构和相应参数。ModelScope平台提供丰富的模型信息供用户体验与使用。 模型库:是指对模型进行存储、版本管理和相关操作的模型服务,用户上传和共享的模型将存储至ModelScope的模型库中,同时用户也可在Model hub中创建属于自己的模型存储库,并沿用平台提供的模型库管理功能进行模型管理。
- 模型库(Modelhub)是指对模型进行存储、版本管理和相关操作的模型服务,用户上传和共享的模型将存储至ModelScope的模型库中,同时用户也可在Model hub中创建属于自己的模型存储库,并沿用平台提供的模型库管理功能进行模型管理。
- 数据集(Dataset)是方便共享及访问的数据集合,可用于算法训练、测试、验证,通常以表格形式出现。按照模态可划分为文本、图像、音频、视频、多模态等。
- 数据集库(Datahub)用于集中管理数据,支持模型进行训练、预测等,使各类型数据具备易访问、易管理、易共享的特点。
- ModelScope Library是ModelScope平台自研的一套Python Library框架,通过调用特定的方法,用户可以只写短短的几行代码,就可以完成模型的推理、训练和评估等任务,也可以在此基础上快速进行二次开发,实现自己的创新想法。
modelscope社区
- 根据阿里云提供的ModelScope社区,地址
https://www.modelscope.cn/#/models
在社区平台可以体验到阿里云提供的几种模型
- 计算机视觉模型
- 自言语言处理
- 语音
- 多模态
中文分词样例
- 输入 '今天天气不错哈'
- 输出 今天 天气 不错 哈
在notebook打开,
- 在当前页面选择右上角按钮,创建启动实例
- 在启动实例这个弹框,选择方式一,然后点击创建,
- 等创建完之后,可以打开地址,看到在线编辑器
- 输入对应的代,然后运行程序即可
代码示范
from modelscope.models import Model
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.preprocessors import TokenClassificationPreprocessor
pipeline_ins = pipeline(task=Tasks.word_segmentation)
result = pipeline_ins(input="今天天气不错哈")
print (result)
{'output': '今天 天气 不错 哈'}
model_id = 'damo/nlp_structbert_word-segmentation_chinese-base'
model = Model.from_pretrained(model_id)
tokenizer = TokenClassificationPreprocessor(model.model_dir)
pipeline_ins = pipeline(task=Tasks.word_segmentation, model=model, preprocessor=tokenizer)
result = pipeline_ins(input="今天天气不错哈")
print (result)
{'output': '今天 天气 不错 哈'}