es索引、类型(mapping)、文档、ik分词器

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: es索引、类型(mapping)、文档、ik分词器

一、概念

1、初学可以把es看作数据库 可以建立索引(库) 文档(库中的数据)

2、es是面向文档的,一切都是json

3、物理设计

es后台把每个索引划分成多个分片,每份分片可以在集群中的不同服务器间迁移,一个默认就是一个集群 默认集群名称elaticsearch

4、逻辑设计

二、ik分词器

1、概述

把一段中文分成一个个关键字,搜索的时候根据关键信息搜索,会把数据库中或者索引中的数据进行分词,默认中文分词是将每一字都看成一个词,比如我爱中国 分成‘我’ ‘爱’ ‘中’‘国’显然有问题,所以安装中文分词器解决这个问题

ik提供了ik_smart和ik_max_word,其中ik_smart为最少切分,ik_max_word最细粒度划分

2、安装

地址

Releases · medcl/elasticsearch-analysis-ik · GitHub

注意版本和es一致

下载完成解压到es的plugis插件文件下的ik(自己创建)文件夹下,并删除压缩包

查看,进入es bin目录执行

D:\es\elasticsearch-7.14.0\bin>elasticsearch-plugin list

"warning: usage of JAVA_HOME is deprecated, use ES_JAVA_HOME"

Future versions of Elasticsearch will require Java 11; your Java version from [D:\Java\jdk1.8.0_131\jre] does not meet this requirement. Consider switching to a distribution of Elasticsearch with a bundled JDK. If you are already using a distribution with a bundled JDK, ensure the JAVA_HOME environment variable is not set.

ik

3、使用kibana测试

GET _analyze

{

 "analyzer": "ik_smart",

 "text": "中国共产党"

}


GET _analyze

{

 "analyzer": "ik_max_word",

 "text": "中国共产党"

}


GET _analyze

{

 "analyzer": "ik_max_word",

 "text": "java一号中国共产党"

}

没有‘java一号’,这种需要自己自定义dic分词

ik目录下配置

再次测试完成

总结:项目中的搜索功能 我们只需定义自己的分词dic文件就行


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
4月前
|
自然语言处理 索引
ES 分词器简单应用
ES 分词器简单应用
201 0
|
存储 自然语言处理 索引
ES分词器使用说明(analyzer)
本文章主要介绍了分词器的配置方法,以及分词器的优先级,同时配置了多个维度的分词器,哪一个分词器会生效,当出现分词结果不符合预期的时候,可以通过这个本文档内容进行梳理和排查。
2390 0
|
6月前
|
自然语言处理 算法 搜索推荐
ES-IK分词器的概念和基本使用
ES-IK分词器的概念和基本使用
|
自然语言处理 Shell 索引
【ES系列七】——ik自定义分词词库
在利用ik分词的过程中,当ik的分词规则不满足我们的需求了,这个时候就可以利用ik的自定义词库进行筛选,举个例子:当我要将“我是中国人,我想测试一下”这句话通过分词,将“我想测试一下”分为一个词的时候,就需要利用ik的自定义词库进行灌入指定的词。
【ES系列七】——ik自定义分词词库
|
自然语言处理 索引
【ES系列三】——ES集成ik分词并测试
解压后的结构如下图(需要放到elasticsearch安装目录的plugins文件夹下进行解压)
一日一技:在ES中如何使用通配符搜索keyword字段
一日一技:在ES中如何使用通配符搜索keyword字段
294 0
|
JSON 数据格式 索引
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(一)
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(一)
104 0
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(一)
|
容器
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(六)
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(六)
164 0
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(六)
|
Docker 容器
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(八)
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(八)
150 0
|
索引
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(三)
ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器(三)
130 0