中文分词介绍
【Task简介】
给定连续输入文本内容,分词模型会将给出分词结果
【说明视频】
点击链接查看视频:
https://www.yuque.com/modelscope/rdum8e/vyysdb?inner=LKXh0
【输入与输出】
Input就是一段文字,StructBERT+softmax序列标注模型,序列标注标签体系(B、I、E、S),四个标签分别表示单字处理单词的起始、中间、终止位置或者该单字独立成词,output就是根据输出标签确定的分词结果
【场景应用】
中文数据词云展示、需要先将数据进行分词
【数据集链接】
数据集:
https://modelscope.cn/datasets/dingkun/chinese_word_segmentation_pku/summary
https://modelscope.cn/datasets/dingkun/chinese_word_segmentation_pku/summary
模型文件:
https://modelscope.cn/models/damo/nlp_structbert_word-segmentation_chinese-base/file