中文分词模型体验

简介: 中文分词任务就是把连续的汉字分隔成具有语言语义学意义的词汇。中文的书写习惯不像英文等日耳曼语系语言词与词之前显式的用空格分隔。为了让计算机理解中文文本,通常来说中文信息处理的第一步就是进行文本分词。
  • ModelScope是什么

    • ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!
  • 中文分词任务就是把连续的汉字分隔成具有语言语义学意义的词汇。中文的书写习惯不像英文等日耳曼语系语言词与词之前显式的用空格分隔。为了让计算机理解中文文本,通常来说中文信息处理的第一步就是进行文本分词。

    • 模型:是指一个具体的模型实例,包括模型网络结构和相应参数。ModelScope平台提供丰富的模型信息供用户体验与使用。 模型库:是指对模型进行存储、版本管理和相关操作的模型服务,用户上传和共享的模型将存储至ModelScope的模型库中,同时用户也可在Model hub中创建属于自己的模型存储库,并沿用平台提供的模型库管理功能进行模型管理。
  • 模型库(Modelhub)是指对模型进行存储、版本管理和相关操作的模型服务,用户上传和共享的模型将存储至ModelScope的模型库中,同时用户也可在Model hub中创建属于自己的模型存储库,并沿用平台提供的模型库管理功能进行模型管理。
  • 数据集(Dataset)是方便共享及访问的数据集合,可用于算法训练、测试、验证,通常以表格形式出现。按照模态可划分为文本、图像、音频、视频、多模态等。
  • 数据集库(Datahub)用于集中管理数据,支持模型进行训练、预测等,使各类型数据具备易访问、易管理、易共享的特点。
  • ModelScope Library是ModelScope平台自研的一套Python Library框架,通过调用特定的方法,用户可以只写短短的几行代码,就可以完成模型的推理、训练和评估等任务,也可以在此基础上快速进行二次开发,实现自己的创新想法。

modelscope社区

  • 根据阿里云提供的ModelScope社区,地址https://www.modelscope.cn/#/models

++.png

  • 在社区平台可以体验到阿里云提供的几种模型

    1. 计算机视觉模型
    2. 自言语言处理
    3. 语音
    4. 多模态

中文分词样例

  • 输入 '今天天气不错哈'
  • 输出 今天 天气 不错 哈

在notebook打开,

  • 在当前页面选择右上角按钮,创建启动实例
  • 在启动实例这个弹框,选择方式一,然后点击创建,

+++.png

  • 等创建完之后,可以打开地址,看到在线编辑器

+++++.png

  • 输入对应的代,然后运行程序即可

1312.png

代码示范

from modelscope.models import Model
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
from modelscope.preprocessors import TokenClassificationPreprocessor

pipeline_ins = pipeline(task=Tasks.word_segmentation)
result = pipeline_ins(input="今天天气不错哈")
print (result)
{'output': '今天 天气 不错 哈'}

model_id = 'damo/nlp_structbert_word-segmentation_chinese-base'
model = Model.from_pretrained(model_id)
tokenizer = TokenClassificationPreprocessor(model.model_dir)
pipeline_ins = pipeline(task=Tasks.word_segmentation, model=model, preprocessor=tokenizer)
result = pipeline_ins(input="今天天气不错哈")
print (result)
{'output': '今天 天气 不错 哈'}
目录
相关文章
|
6月前
|
自然语言处理 物联网 API
检索增强生成(RAG)实践:基于LlamaIndex和Qwen1.5搭建智能问答系统
检索增强生成(RAG)实践:基于LlamaIndex和Qwen1.5搭建智能问答系统
检索增强生成(RAG)实践:基于LlamaIndex和Qwen1.5搭建智能问答系统
|
2月前
|
自然语言处理 数据可视化 BI
文档解析(大模型版)服务体验评测
体验文档解析(大模型版)服务时,清晰的入门指南、操作手册和FAQ至关重要。若存在不足,需增加直观的操作流程说明(如动画演示)、深化高级功能文档,并提供实时在线支持,帮助用户快速解决问题。
|
6月前
|
自然语言处理 API 开发工具
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手(检索增强生成(RAG)大模型)
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
494 42
|
自然语言处理
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
365 0
|
自然语言处理 小程序
ModelScope体验:自然语言推理模型应用
自然语言推理,即输入形如(前提句,假设句)的句子对数据,模型会给出该句子对应的自然语言推理标签(contradiction、entailment、neutral)以及相应的概率,从而反映出句子对之间的关系。本文以“达摩自然语言推理”模型为例,展示了如果调用ModelScope工具,并通过gradio将该功能部署为小程序的过程。
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验
|
自然语言处理 PyTorch 算法框架/工具
CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型
CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型
490 0