Elasticsearch实战(五)-倒排索引与分词（下）

2021-12-22 202

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介： Elasticsearch实战(五)-倒排索引与分词

4 内置分词器

Standard Analyzer

默认分词器，按词切分，支持多语言，小写处理

Simple Analyzer

按照非字母切分，小写处理

Whitespace Analyzer

按空格切分

Stop Analyzer

Stop Word 指语气助词等修饰性词语，比如 the、an、的、这等等，特性是相比 Simple Analyzer 多 Stop Word 处理

keyword Analyzer

不分词，直接将输入作为一个单词输出

Pattern Analyzer

通过正则表达式自定义分隔符，默认 \W+，即非字词的符号为分隔符

Language Analyzer

提供了 30+ 常见语言的分词器

5 中文分词

将一个汉字序列切分成一个个单独的词。在英文中，单词之间是以空格作为自然分界符，汉语中词没有一个形式上的分界符。而且中文博大精深，上下文不同，分词结果也大不相同。

比如：

乒乓球拍/卖/完了
乒乓球/拍卖/完了

以下是 ES 中常见的分词系统：

IK

实现中英文单词的切分，可自定义词库，支持热更新分词词典

jieba

python 中最流行饿分词系统，支持分词和词性标注，支持繁体分词，自定义词典，并行分词

以下是基于自然语言处理的分词系统：

Hanlp

由一系列模型与算法组成的 java 工具包，支持索引分词、繁体分词、简单匹配分词（极速模式）、基于 CRF 模型的分词、N- 最短路径分词等，实现了不少经典分词方法。目标是普及自然语言处理在生产环境中的应用。

https://github.com/hankcs/HanLP

THULAC

THU Lexical Analyzer for Chinese ,由清华大学自然语言处理与社会人文计算

实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能

https://github.com/microbun/elasticsearch-thulac-plugin

6 自定义分词器

当自带的分词无法满足需求时，可以自定义分词器，通过定义 Character Filters、Tokenizer、Token Filter 实现。自定义的分词需要在索引的配置中设定，示例如下所示：

自定义如下分词器

// 自定义分词器
PUT test_index_name
{
  "settings":{ 
    "analysis":{
      "analyzer":{
        "my_customer_analyzer":{
          "type":"custome",
          "tokenizer":"standard",
          "char_filter":["html_strip"],
          "filter":["lowercase", "asciifolding"]
        }
      }
    }
  }
}
// 测试自定义分词器效果：
POST test_index/_analyze
{
  "tokenizer":"keyword",
  "char_filter":["html_strip"],
  "text":"Is this <b>a box</b>?"
}
// 得到 is、this、a、box

7 分词使用说明

分词会在如下两个时机使用：

创建或者更新文档时（Index Time）

会对相应的文档进行分词处理

索引时分词是通过配置Index Mapping中每个字段的analyzer属性实现的。不指定分词时，使用默认standard。

查询时（Search Time）

会对查询语句进行分词。查询时分词的指定方式：

查询的时候通过analyzer指定分词器

通过index mapping设置 search_analyzer 实现

分词的最佳实践

明确字段是否需要分词，不需要分词的字段就将 type 设置为 keyword，可以节省空间和提高写性能。
善用 _analyze API,查看文档的具体分词结果
多动手测试

参考

https://blog.csdn.net/weixin_38118016/article/details/90416391

https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247486148&idx=1&sn=817027a204650763c1bea3e837d695ea&source=41#wechat_redirect