热门中文分词系统调查报告

简介: **中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
**中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
目录

常见的分词系统介绍

  • ICTCLAS(NLPIR)
  • MMSEG4J
  • IK Analyzer
  • LTP-cloud
  • paoding

常见的分词系统简介

img_fb5216ee4afbfe4223a095b953731fbe.png

ICTCLAS


简介

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),又称NLPIR,是中国科学院计算技术研究所研制的汉语分词系统。

网址:http://ictclas.nlpir.org/

主要功能包括:

  • 中文分词;
  • 词性标注;
  • 命名实体识别;
  • 用户词典功能;

支持GBK编码、UTF8编码、BIG5编码;
支持Windows,Linux,Android等操作系统;
支持Java/C++/C#/C等开发。

在线演示

img_cae712e1ab6ca7a4169097827be63c1b.png

中文分词


img_e88474ae4d13b49fdba1535c2ce216ee.png

实体抽取


img_5d49b06de8620b7187d2a6dc60f11a84.png

词频统计
img_193a5a23c81e0ea62dab5749e4e39a71.png

MMSEG4J


**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。

实现了 **Lucene **的 analyzer 和 **Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。

MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过滤。

官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

Lucene简介

img_c921eccd9dd05f6e2afd1925c6c98678.png

*Lucene是一个非常优秀的开源的全文搜索引擎; 我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度; 现在已经是Apache的顶级项目 *

Apache Lucene官网

Sorl简介

img_66cc92c6a9c7907ab9a9c49c7388c7ac.png

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

img_a3138fe70f4e7db843f099b493b0e36e.jpe
Solr

参考链接:
mmseg4j-core from Github
中文分词器 mmseg4j

IK Analyzer


IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。

从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现,并且支持solr6.x版本。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

  1. 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

  2. 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

  3. 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

  4. 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

  5. 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

LTP cloud(语言云)


img_826ad174f57235fef6682882753ceb2f.png

语言云是哈工大和科大讯飞联合研发的云端中文自然语言处理服务平台,提供分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理服务。

在线演示

样例:他叫汤姆去拿外衣。
他点头表示同意我的意见。
我们即将以昂扬的斗志迎来新的一年。
国内专家学者40余人参加研讨会。

句子视图
img_f076974dfa4a4c0b3cb76d8f68197f2e.png
句子视图
篇章视图
img_d01dd5603d085361f8ca50a11f726748.png
分词
img_e3195c56220867313d0e02b743652d2f.png
词性标注
img_a99b0a585cb8b637f9ec39217a4db44f.png

img_2935d71383433e0bdbe9002075868b17.png
命名实体

相关链接:
LTP Docs
讯飞开放平台

paoding(庖丁解牛分词器)


庖丁中文分词器是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析
参考链接:
中文分词库 Paoding

参考链接:
搜索引擎11 款开放中文分词引擎大比拼
中文分词工具测评

目录
相关文章
|
8月前
|
自然语言处理 运维 机器人
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
|
7月前
|
自然语言处理 搜索推荐 算法
中文分词利器-jieba
中文分词利器-jieba
|
8月前
|
机器学习/深度学习 自然语言处理 搜索推荐
北大开源分词工具包: 准确率远超THULAC、jieba 分词
北大开源分词工具包: 准确率远超THULAC、jieba 分词
|
数据可视化 数据挖掘 Python
数据分析案例-文本挖掘与中文文本的统计分析
数据分析案例-文本挖掘与中文文本的统计分析
175 0
数据分析案例-文本挖掘与中文文本的统计分析
|
自然语言处理 算法 Java
第三方中文分词器|学习笔记
快速学习第三方中文分词器
144 0
第三方中文分词器|学习笔记
开源一个文本分析项目
Github https://github.com/sea-boat/TextAnalyzer TextAnalyzer a text analizer that can analyze text.
1487 0
|
自然语言处理
HanLP分词工具中的ViterbiSegment分词流程
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也是作者直接封装到HanLP类中的分词器,作者也推荐使用该分词器,同时文本分类包以及其他一些自然语言处理任务包中的分词器也都间接使用了ViterbiSegment分词器。
1060 0
部分常用分词工具使用整理
以下分词工具均能在Python环境中直接调用(排名不分先后)。1、jieba(结巴分词) 免费使用2、HanLP(汉语言处理包) 免费使用3、SnowNLP(中文的类库) 免费使用4、FoolNLTK(中文处理工具包) 免费使用5、Jiagu(甲骨NLP) 免费使用6、pyltp(哈工大语言云) 商用需要付费7、THULAC(清华中文词法分析工具包) 商用需要付费8、NLPIR(汉语分词系统) 付费使用 1、jieba(结巴分词)“结巴”中文分词:做最好的 Python 中文分词组件。
2085 0
|
自然语言处理 测试技术 Python
hanlp和jieba等六大中文分工具的测试对比
本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友!
5716 0
|
机器学习/深度学习 自然语言处理
简单有效的多标准中文分词详解
本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。
2337 0