关于分词-阿里云开发者社区

关于分词

2022-05-02 153

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 假期重新把之前在新浪博客里面的文字梳理了下，搬到这里。本文围绕分词作一些入门资源信息介绍，偏分词应用。内容10年前的，不代表最新的内容啊。

目前分词不少，下面列举一些。至于分词的基本原理啥的，这里就不罗嗦了。对于下面的分词源码或者分词原理的细节有疑问的，可以与我联系，一起探讨优化下，看是否能满足你的应用场景

paoding分词

http://code.google.com/p/paoding/

特点：基于词典、机械分词、提供全匹配分词、速度快、词库可扩展、Solr兼容。适用与大部分中文场景。追求速度，使用paoding吧

IK分词

http://code.google.com/p/ik-analyzer/

特点：基于词典、机械分词、提供可配置最大、最小、全匹配分词、速度快、词库可扩展、Solr兼容。适用与大部分中文场景

DoubleTrie

特点：基于词典、机械分词、支持最大、最小、全匹配分词、速度快、占用空间小。适用与大部分中文场景。

LuceneStandard

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters

特点：Solr/Lucene默认单字、空格等分词，速度非常快，适用于英文、数字。适用大部分中英文场景

StanfordSegment

http://nlp.stanford.edu/software/index.shtml

特点：基于概率与词典均有实现、语料库可配置、高精度中英文分词、词性标志、翻译等。重量级工具，适用大部分中文场景。研究或者文本分析，这是不可多得的资源啊。

ICTCLAS

http://ictclas.org/index.html

特点：基于概率与基于词典均由实现、高精度、速度快、代表国内中文分词最高水平.免费版功能与性能有限

TLP

http://ir.hit.edu.cn/demo/ltp

特点：基于概率与基于词典均由实现、高精度、速度快、代表国内中文分词一流水平

MMSEG

http://technology.chtsai.org/mmseg/

台湾版，性能不错，效果也很好，也有兼容lucene的版本，推荐使用。

关于分词

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

关于分词

热门文章

最新文章

相关电子书