4 内置分词器
Standard Analyzer
默认分词器,按词切分,支持多语言,小写处理
Simple Analyzer
按照非字母切分,小写处理
Whitespace Analyzer
- 按空格切分
Stop Analyzer
Stop Word 指语气助词等修饰性词语,比如 the、an、的、这等等,特性是相比 Simple Analyzer 多 Stop Word 处理
keyword Analyzer
不分词,直接将输入作为一个单词输出
Pattern Analyzer
通过正则表达式自定义分隔符,默认 \W+,即非字词的符号为分隔符
Language Analyzer
提供了 30+ 常见语言的分词器
5 中文分词
将一个汉字序列切分成一个个单独的词。在英文中,单词之间是以空格作为自然分界符,汉语中词没有一个形式上的分界符。而且中文博大精深,上下文不同,分词结果也大不相同。
比如:
- 乒乓球拍/卖/完了
- 乒乓球/拍卖/完了
以下是 ES 中常见的分词系统:
IK
实现中英文单词的切分,可自定义词库,支持热更新分词词典
jieba
python 中最流行饿分词系统,支持分词和词性标注,支持繁体分词,自定义词典,并行分词
以下是基于自然语言处理的分词系统:
Hanlp
由一系列模型与算法组成的 java 工具包,支持索引分词、繁体分词、简单匹配分词(极速模式)、基于 CRF 模型的分词、N- 最短路径分词等,实现了不少经典分词方法。目标是普及自然语言处理在生产环境中的应用。
https://github.com/hankcs/HanLP
THULAC
THU Lexical Analyzer for Chinese ,由清华大学自然语言处理与社会人文计算
实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能
https://github.com/microbun/elasticsearch-thulac-plugin
6 自定义分词器
当自带的分词无法满足需求时,可以自定义分词器,通过定义 Character Filters、Tokenizer、Token Filter 实现。自定义的分词需要在索引的配置中设定,示例如下所示:
- 自定义如下分词器
// 自定义分词器 PUT test_index_name { "settings":{ "analysis":{ "analyzer":{ "my_customer_analyzer":{ "type":"custome", "tokenizer":"standard", "char_filter":["html_strip"], "filter":["lowercase", "asciifolding"] } } } } } // 测试自定义分词器效果: POST test_index/_analyze { "tokenizer":"keyword", "char_filter":["html_strip"], "text":"Is this <b>a box</b>?" } // 得到 is、this、a、box
7 分词使用说明
分词会在如下两个时机使用:
创建或者更新文档时(Index Time)
会对相应的文档进行分词处理
索引时分词是通过配置Index Mapping中每个字段的analyzer属性实现的。不指定分词时,使用默认standard。
查询时(Search Time)
会对查询语句进行分词。查询时分词的指定方式:
查询的时候通过analyzer指定分词器
通过index mapping设置 search_analyzer 实现
分词的最佳实践
- 明确字段是否需要分词,不需要分词的字段就将 type 设置为 keyword,可以节省空间和提高写性能。
- 善用 _analyze API,查看文档的具体分词结果
- 多动手测试
参考
https://blog.csdn.net/weixin_38118016/article/details/90416391