中文分词器

简介: 1.IKAnalyzer IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。 IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。 项目地址:http://www.oschina.net/p/ikanalyzer/下载页面:http://git.oschina.ne

1.IKAnalyzer

IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。

IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。

项目地址:http://www.oschina.net/p/ikanalyzer/

下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF

central repository中似乎没有。

示例代码:

该代码的工程结构:下图


1.1部署在web应用

把IKAnalyzer.cfg.xml与stopword.dic配置在WEB-INF\lib\目录下就行了。

1.2中文停用词

中文停用词所在文件(一般就直接加在stopword.dic中)要求utf-8无bom格式编码,否则无效。

2.SmartChineseAnalyzer

org.apache.lucene.analysis.cn.smart. SmartChineseAnalyzer
是一个中文、中英混合的分词器。

2.1依赖

compile 'org.apache.lucene:lucene-analyzers-smartcn:6.0.0'

2.2 效果

Example phrase: "我是中国人"
StandardAnalyzer: 我-是-中-国-人
CJKAnalyzer: 我是-是中-中国-国人
SmartChineseAnalyzer: 我-是-中国-人

3.ansj_seg

它是ict 的java实现,分词效果速度都超过开源版的ict. 。
特点是中文分词,人名识别, 词性标注,用户自定义词典。
分词示例:
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
 System.out.println(ToAnalysis.parse(str));
 
 欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!



目录
相关文章
|
24天前
|
自然语言处理 Rust 搜索推荐
jieba分词-Python中文分词领域的佼佼者
jieba分词-Python中文分词领域的佼佼者
|
4月前
|
自然语言处理 Python
python实现分词器
python实现分词器
|
自然语言处理 BI
|
自然语言处理 搜索推荐 算法
中文分词利器-jieba
中文分词利器-jieba
|
自然语言处理 搜索推荐 索引
白话Elasticsearch28-IK中文分词之IK中文分词器的安装和使用
白话Elasticsearch28-IK中文分词之IK中文分词器的安装和使用
99 0
|
自然语言处理 安全 关系型数据库
白话Elasticsearch30-IK中文分词之热更新IK词库
白话Elasticsearch30-IK中文分词之热更新IK词库
165 0
|
自然语言处理 Java
中文分词之Java实现使用IK Analyzer实现
中文分词之Java实现使用IK Analyzer实现
678 0
|
机器学习/深度学习 人工智能 自然语言处理
中文分词工具 MiNLP-Tokenizer
中文分词工具 MiNLP-Tokenizer
399 0
中文分词工具 MiNLP-Tokenizer
|
自然语言处理 搜索推荐 Java
Hanlp等七种优秀的开源中文分词库推荐
中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。
3849 0
|
自然语言处理
Ansj与hanlp分词工具对比
一、Ansj1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效:比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。
1101 0