中文分词器

2015-02-11 4165

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1.IKAnalyzer IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。 IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。项目地址：http://www.oschina.net/p/ikanalyzer/下载页面：http://git.oschina.ne

1.IKAnalyzer

IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。

IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。

项目地址：http://www.oschina.net/p/ikanalyzer/

下载页面：http://git.oschina.net/wltea/IK-Analyzer-2012FF

central repository中似乎没有。

示例代码：

该代码的工程结构：下图

1.1部署在web应用

把IKAnalyzer.cfg.xml与stopword.dic配置在WEB-INF\lib\目录下就行了。

1.2中文停用词

中文停用词所在文件（一般就直接加在stopword.dic中）要求utf-8无bom格式编码,否则无效。

2.SmartChineseAnalyzer

org.apache.lucene.analysis.cn.smart. SmartChineseAnalyzer

是一个中文、中英混合的分词器。

2.1依赖

compile 'org.apache.lucene:lucene-analyzers-smartcn:6.0.0'

2.2 效果

Example phrase： "我是中国人"
StandardAnalyzer: 我－是－中－国－人
CJKAnalyzer: 我是－是中－中国－国人
SmartChineseAnalyzer: 我－是－中国－人

3.ansj_seg

github地址： https://github.com/NLPchina/ansj_seg

它是ict 的java实现，分词效果速度都超过开源版的ict. 。

特点是中文分词，人名识别，词性标注，用户自定义词典。

分词示例：

String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
 System.out.println(ToAnalysis.parse(str));
 
 欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!

中文分词器

1.IKAnalyzer

1.1部署在web应用

1.2中文停用词

2.SmartChineseAnalyzer

2.1依赖

2.2 效果

3.ansj_seg

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

中文分词器

1.IKAnalyzer

1.1部署在web应用

1.2中文停用词

2.SmartChineseAnalyzer

2.1依赖

2.2 效果

3.ansj_seg

热门文章

最新文章

相关电子书