【Elasticsearch】-文本分析

2022-01-18 136

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介： 文本分析是搜索引擎中一个重要的环节，文本分析是将全文本转换为一系列单词的过程，也叫分词。analysis是通过analyzer分词器来实现的，可以使用Elasticsearch内置的分词器，也可以自己去制定一些分词器。除了在数据写入的时候将词条进行转换，在查询的时候也可以指定分词器对语句进行分析。

一、文本分析

analysis（只是一个概念），文本分析是将全文本转换为一系列单词的过程，也叫分词。analysis是通过analyzer分词器来实现的，可以使用Elasticsearch内置的分词器，也可以自己去制定一些分词器。除了在数据写入的时候将词条进行转换，在查询的时候也可以指定分词器对语句进行分析。

analyzer由三部分组成。例如有

Hello a world ,the world is beautiful

Character Filter :将文本中的html标签剔除掉。
Tokenizer:按照规则进行分词，在英文中按照空格分词
Token Filter: 去掉stop world（停顿词，a,an,the,is,are等），然后转换为小写

内置分词器

GET _analyze

{

"analyzer": "standard",

"text": "hello a world"

}

（一）分词器的安装

1.1 IK分词器

1.1.1下载

下载地址 https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.11.2

1.1.2安装

下载后是个zip包，上传到/usr/local/elasticsearch-7.11.2/plugins目录

#解压文件到ik文件夹

unzip elasticsearch-analysis-ik-7.11.2.zip -d ik

#重新修改文件的拥有者

chown -R es elasticsearch-7.11.2

#重新启动es

./bin/elasticsearch -d -p pid

1.1.3分词方式

ik分词器提供了两种分词方式

分词器名称	说明
ik_smart	会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国”，“国歌”，适合phrase查询
ik_max_word	会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、共和国、共和、国歌”，会穷尽各种可能组合，适合Term Query

GET _analyze

{

"analyzer": "ik_max_word",

"text": "河南省郑州市"

}

1.1.4自定义词库

在很多时候，业务上的一些词库极有可能不再IK分词器的词库中，需要去定制属于我们自己的词库。特别是在一些行业领域，比如银行、金融、电力行业都有自己的特殊词库。比如下面的例子中，电能表、计量点点被切分为一个个的字，我们希望这两个词语不是被拆分；另外的作为中文的停顿词，也不希望出现在分词中，所以我们需要自定义词库和停顿词词库。

进入到$ES_HOME/plugins/ik/config目录下，创建custom目录，在目录下创建mydic.dic、ext_stopword.dic文件。

在文件中增加词条，如下图所示