关于分词

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文围绕分词作一些入门资源信息介绍,偏分词应用。内容10年前的,不代表最新的内容啊。

目前分词不少,下面列举一些。至于分词的基本原理啥的,这里就不罗嗦了。对于下面的分词源码或者分词原理的细节有疑问的,可以与我联系,一起探讨优化下,看是否能满足你的应用场景

paoding分词

http://code.google.com/p/paoding/ 

特点:基于词典、机械分词、提供全匹配分词、速度快、词库可扩展、Solr兼容。适用与大部分中文场景。追求速度,使用paoding

 

IK分词

http://code.google.com/p/ik-analyzer/

特点:基于词典、机械分词、提供可配置最大、最小、全匹配分词、速度快、词库可扩展、Solr兼容。适用与大部分中文场景

 

DoubleTrie

特点:基于词典、机械分词、支持最大、最小、全匹配分词、速度快、占用空间小。适用与大部分中文场景。

 

LuceneStandard

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters

特点:Solr/Lucene默认单字、空格等分词,速度非常快,适用于英文、数字。适用大部分中英文场景

 

StanfordSegment

http://nlp.stanford.edu/software/index.shtml

特点:基于概率与词典均有实现、语料库可配置、高精度中英文分词、词性标志、翻译等。重量级工具,适用大部分中文场景。研究或者文本分析,这是不可多得的资源啊。

 

ICTCLAS

http://ictclas.org/index.html

特点:基于概率与基于词典均由实现、高精度、速度快、代表国内中文分词最高水平.免费版功能与性能有限

 

TLP

http://ir.hit.edu.cn/demo/ltp

特点:基于概率与基于词典均由实现、高精度、速度快、代表国内中文分词一流水平

 

MMSEG

http://technology.chtsai.org/mmseg/

台湾版,性能不错,效果也很好,也有兼容lucene的版本,推荐使用。

 

目录
相关文章
|
8月前
|
自然语言处理
leetcode-1078:Bigram 分词
leetcode-1078:Bigram 分词
44 0
|
自然语言处理 BI
|
自然语言处理
pkuseg 和 jieba 分词对比测试,结果出乎意料...
pkuseg 和 jieba 分词对比测试,结果出乎意料...
|
自然语言处理 算法
中文文本处理分词的二元模型
中文文本处理分词的二元模型
193 1
中文文本处理分词的二元模型
|
自然语言处理 搜索推荐
jieba分词有哪些模式,分别详细介绍
jieba分词有哪些模式,分别详细介绍
1241 0
|
自然语言处理 BI
分词
中文分词介绍
分词
|
自然语言处理
IK分词器自定义词汇
IK分词器自定义词汇
|
机器学习/深度学习 人工智能 自然语言处理
分词的那些事
使用阿里云学习分词,分词就是指将连续的自然语言文本切分成具有语义合理性和完整性的词汇序列的过程。
分词的那些事
|
机器学习/深度学习 自然语言处理 算法
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
182 0
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
|
自然语言处理