热门中文分词系统调查报告

简介: **中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
**中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
目录

常见的分词系统介绍

  • ICTCLAS(NLPIR)
  • MMSEG4J
  • IK Analyzer
  • LTP-cloud
  • paoding

常见的分词系统简介

img_fb5216ee4afbfe4223a095b953731fbe.png

ICTCLAS


简介

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),又称NLPIR,是中国科学院计算技术研究所研制的汉语分词系统。

网址:http://ictclas.nlpir.org/

主要功能包括:

  • 中文分词;
  • 词性标注;
  • 命名实体识别;
  • 用户词典功能;

支持GBK编码、UTF8编码、BIG5编码;
支持Windows,Linux,Android等操作系统;
支持Java/C++/C#/C等开发。

在线演示

img_cae712e1ab6ca7a4169097827be63c1b.png

中文分词


img_e88474ae4d13b49fdba1535c2ce216ee.png

实体抽取


img_5d49b06de8620b7187d2a6dc60f11a84.png

词频统计
img_193a5a23c81e0ea62dab5749e4e39a71.png

MMSEG4J


**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。

实现了 **Lucene **的 analyzer 和 **Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。

MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过滤。

官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

Lucene简介

img_c921eccd9dd05f6e2afd1925c6c98678.png

*Lucene是一个非常优秀的开源的全文搜索引擎; 我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度; 现在已经是Apache的顶级项目 *

Apache Lucene官网

Sorl简介

img_66cc92c6a9c7907ab9a9c49c7388c7ac.png

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

img_a3138fe70f4e7db843f099b493b0e36e.jpe
Solr

参考链接:
mmseg4j-core from Github
中文分词器 mmseg4j

IK Analyzer


IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。

从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现,并且支持solr6.x版本。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

  1. 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

  2. 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

  3. 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

  4. 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

  5. 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

LTP cloud(语言云)


img_826ad174f57235fef6682882753ceb2f.png

语言云是哈工大和科大讯飞联合研发的云端中文自然语言处理服务平台,提供分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理服务。

在线演示

样例:他叫汤姆去拿外衣。
他点头表示同意我的意见。
我们即将以昂扬的斗志迎来新的一年。
国内专家学者40余人参加研讨会。

句子视图
img_f076974dfa4a4c0b3cb76d8f68197f2e.png
句子视图
篇章视图
img_d01dd5603d085361f8ca50a11f726748.png
分词
img_e3195c56220867313d0e02b743652d2f.png
词性标注
img_a99b0a585cb8b637f9ec39217a4db44f.png

img_2935d71383433e0bdbe9002075868b17.png
命名实体

相关链接:
LTP Docs
讯飞开放平台

paoding(庖丁解牛分词器)


庖丁中文分词器是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析
参考链接:
中文分词库 Paoding

参考链接:
搜索引擎11 款开放中文分词引擎大比拼
中文分词工具测评

目录
相关文章
|
30天前
|
人工智能 运维 UED
文档智能与RAG评测报告
《文档智能 & RAG让AI大模型更懂业务》解决方案通过结合文档智能和检索增强生成(RAG)技术,提升AI模型在特定业务场景下的理解和应用能力。方案在部署和使用中表现出色,但建议增加故障排查指南和应用案例分析,以进一步优化用户体验和技术信任度。
43 2
|
3月前
|
自然语言处理 算法 数据可视化
NLP-基于bertopic工具的新闻文本分析与挖掘
这篇文章介绍了如何使用Bertopic工具进行新闻文本分析与挖掘,包括安装Bertopic库、加载和预处理数据集、建立并训练主题模型、评估模型性能、分类新闻标题、调优聚类结果的详细步骤和方法。
NLP-基于bertopic工具的新闻文本分析与挖掘
|
3月前
|
自然语言处理 应用服务中间件 nginx
一文教会你 分词器elasticsearch-analysis-ik 的安装使用【自定义分词库】
这篇文章是关于如何在Elasticsearch中安装和使用ik分词器的详细教程,包括版本匹配、安装步骤、分词测试、自定义词库配置以及创建使用ik分词器的索引的方法。
一文教会你 分词器elasticsearch-analysis-ik 的安装使用【自定义分词库】
|
机器学习/深度学习 自然语言处理 搜索推荐
北大开源分词工具包: 准确率远超THULAC、jieba 分词
北大开源分词工具包: 准确率远超THULAC、jieba 分词
|
数据可视化 数据挖掘 Python
数据分析案例-文本挖掘与中文文本的统计分析
数据分析案例-文本挖掘与中文文本的统计分析
233 0
数据分析案例-文本挖掘与中文文本的统计分析
开源一个文本分析项目
Github https://github.com/sea-boat/TextAnalyzer TextAnalyzer a text analizer that can analyze text.
1528 0
|
自然语言处理 搜索推荐 程序员
让分词更懂你的搜索!海量分词-ES插件重磅发布!
海量中文智能分词v5.0-ES插件 发布!
3225 0
|
自然语言处理
HanLP分词工具中的ViterbiSegment分词流程
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也是作者直接封装到HanLP类中的分词器,作者也推荐使用该分词器,同时文本分类包以及其他一些自然语言处理任务包中的分词器也都间接使用了ViterbiSegment分词器。
1124 0
|
搜索推荐 SEO
关键词挖掘工具有哪些?
关键词研究工具有哪些? 如果您想进行高质量的关键词研究,您需要花费大量时间。关键词研究是一个需要您进入受众群体的过程。你想知道他们正在使用哪些词。之后,您需要先分析哪些关键词。更重要的是,你需要评估竞争:关注长尾关键词可能是一个很好的策略,特别是当你试图在竞争激烈的市场中排名时。
2149 0
部分常用分词工具使用整理
以下分词工具均能在Python环境中直接调用(排名不分先后)。1、jieba(结巴分词) 免费使用2、HanLP(汉语言处理包) 免费使用3、SnowNLP(中文的类库) 免费使用4、FoolNLTK(中文处理工具包) 免费使用5、Jiagu(甲骨NLP) 免费使用6、pyltp(哈工大语言云) 商用需要付费7、THULAC(清华中文词法分析工具包) 商用需要付费8、NLPIR(汉语分词系统) 付费使用 1、jieba(结巴分词)“结巴”中文分词:做最好的 Python 中文分词组件。
2174 0