中文分词

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 中文分词

中文分词介绍

【Task简介】

给定连续输入文本内容,分词模型会将给出分词结果

【说明视频】

image.png

点击链接查看视频:

https://www.yuque.com/modelscope/rdum8e/vyysdb?inner=LKXh0

【输入与输出】

Input就是一段文字,StructBERT+softmax序列标注模型,序列标注标签体系(B、I、E、S),四个标签分别表示单字处理单词的起始、中间、终止位置或者该单字独立成词,output就是根据输出标签确定的分词结果

image.png

【场景应用】

中文数据词云展示、需要先将数据进行分词

【数据集链接】

数据集:

https://modelscope.cn/datasets/dingkun/chinese_word_segmentation_pku/summary

https://modelscope.cn/datasets/dingkun/chinese_word_segmentation_pku/summary

模型文件:

https://modelscope.cn/models/damo/nlp_structbert_word-segmentation_chinese-base/file

相关文章
|
3月前
|
自然语言处理 Rust 搜索推荐
jieba分词-Python中文分词领域的佼佼者
jieba分词-Python中文分词领域的佼佼者
|
自然语言处理 搜索推荐 算法
中文分词利器-jieba
中文分词利器-jieba
|
自然语言处理 搜索推荐 索引
白话Elasticsearch28-IK中文分词之IK中文分词器的安装和使用
白话Elasticsearch28-IK中文分词之IK中文分词器的安装和使用
108 0
|
机器学习/深度学习 人工智能 自然语言处理
中文分词工具 MiNLP-Tokenizer
中文分词工具 MiNLP-Tokenizer
420 0
中文分词工具 MiNLP-Tokenizer
|
自然语言处理 搜索推荐 Java
Hanlp等七种优秀的开源中文分词库推荐
中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。
3879 0
|
自然语言处理
HanLP分词工具中的ViterbiSegment分词流程
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也是作者直接封装到HanLP类中的分词器,作者也推荐使用该分词器,同时文本分类包以及其他一些自然语言处理任务包中的分词器也都间接使用了ViterbiSegment分词器。
1124 0
|
自然语言处理
Ansj与hanlp分词工具对比
一、Ansj1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效:比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。
1126 0
|
自然语言处理
HanLP-实词分词器详解
在进行文本分类(非情感分类)时,我们经常只保留实词(名、动、形)等词,为了文本分类的分词方便,HanLP专门提供了实词分词器类NotionalTokenizer,同时在分类数据集加载处理时,默认使用了NotionalTokenizer分词器。
1823 0
|
自然语言处理 Java Maven
HanLP中文分词Lucene插件
基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。
2008 0
|
自然语言处理 算法 测试技术
分词工具Hanlp基于感知机的中文分词框架
结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用
2081 0

热门文章

最新文章