120.【ElastiSearch】(四)

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 120.【ElastiSearch】

(七)、IK分词器

下载地址: ik-7.6.2版本下载

1.什么是IK分词器

分词: 即把一段中文或者别的划分成一个个的关键字,我们咋在搜索时候会把自己的信息进行分成,会把数据库中或者索引库中进行分词,然后进行一个匹配的操作,默认的中文分词就是将每个字看成一个词,比如"我爱李明"会被分为"我",“爱”,“李”,“明”,这显然是不符合要求的,所以我们需要安装中文分词器IK来解决这个问题。

Ik提供了两个分词算法:

  1. ik_smart: 为最少切分。
  2. ik_max_word: 为最细粒度划分。

2.解压与安装IK分词器

(1).解压并放置ElasticSearch目录中
C:\Environment\elasticsearch-7.6.2-windows-x86_64\elasticsearch-7.6.2\plugins

(2).重启ElasticSearch服务

版本号要完全一致

elasticsearch-plugin list

3.Kibana进行测试

默认会有一个字典词库

(1).ik_max_word查看 (最大拆分)
GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "中国人民"
}

(2).ik_ik_smart查看 (最小拆分)
GET _analyze
{
  "analyzer": "ik_smart",
  "text": "中国人民"
}

(3).发现问题

我们发现我们想不拆分的名词给我们拆分开来了。

对于我们自己需要自定义的词,需要我们自己加到分词器的字典里面。

4.自定义Ik分词器字典内容

C:\Environment\elasticsearch-7.6.2-windows-x86_64\elasticsearch-7.6.2\plugins\elasticsearch-analysis-ik-7.6.2\config
(1).新建 .dic文件

填充词汇

(2).配置自定义dic

如果建立多个自定义文件: 我们只需要复制一行值配置语句

<entry key="ext_dict">jsxs.dic</entry>

(3).重启ElasticSearch文件

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
索引
120.【ElastiSearch】(十)
120.【ElastiSearch】
59 1
|
SQL JavaScript 数据可视化
120.【ElastiSearch】(二)
120.【ElastiSearch】
56 0
|
存储 监控 关系型数据库
120.【ElastiSearch】(三)
120.【ElastiSearch】
97 0
|
JSON Java 数据格式
120.【ElastiSearch】(六)
120.【ElastiSearch】
59 0
|
自然语言处理 索引
120.【ElastiSearch】(七)
120.【ElastiSearch】
68 0
|
搜索推荐 Java 大数据
120.【ElastiSearch】(一)
120.【ElastiSearch】
67 0
|
5月前
|
存储 自然语言处理 搜索推荐
【技术解析 | 实践】Havenask分析器
本次分享内容为Havenask的分析器,本次课程主要分为3部分内容(分析器介绍、解释分析器主要配置、实战演示),希望本次通过分享帮助大家更好了解和使用Havenask。
52248 3
【技术解析 | 实践】Havenask分析器
|
4月前
|
网络安全 数据库 Python
常用百宝箱——日志处理
常用百宝箱——日志处理
|
API 索引
120.【ElastiSearch】(九)
120.【ElastiSearch】
50 0
|
NoSQL Java
120.【ElastiSearch】(八)
120.【ElastiSearch】
57 0