目前分词不少,下面列举一些。至于分词的基本原理啥的,这里就不罗嗦了。对于下面的分词源码或者分词原理的细节有疑问的,可以与我联系,一起探讨优化下,看是否能满足你的应用场景
paoding分词
http://code.google.com/p/paoding/
特点:基于词典、机械分词、提供全匹配分词、速度快、词库可扩展、Solr兼容。适用与大部分中文场景。追求速度,使用paoding吧
IK分词
http://code.google.com/p/ik-analyzer/
特点:基于词典、机械分词、提供可配置最大、最小、全匹配分词、速度快、词库可扩展、Solr兼容。适用与大部分中文场景
DoubleTrie
特点:基于词典、机械分词、支持最大、最小、全匹配分词、速度快、占用空间小。适用与大部分中文场景。
LuceneStandard
http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters
特点:Solr/Lucene默认单字、空格等分词,速度非常快,适用于英文、数字。适用大部分中英文场景
StanfordSegment
http://nlp.stanford.edu/software/index.shtml
特点:基于概率与词典均有实现、语料库可配置、高精度中英文分词、词性标志、翻译等。重量级工具,适用大部分中文场景。研究或者文本分析,这是不可多得的资源啊。
ICTCLAS
特点:基于概率与基于词典均由实现、高精度、速度快、代表国内中文分词最高水平.免费版功能与性能有限
TLP
特点:基于概率与基于词典均由实现、高精度、速度快、代表国内中文分词一流水平
MMSEG
http://technology.chtsai.org/mmseg/
台湾版,性能不错,效果也很好,也有兼容lucene的版本,推荐使用。