干货 | Elasticsearch 6个不明显但很重要的注意事项

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Elasticsearch是被Netflix,微软,eBay,Facebook等Top N 顶级公司使用的搜索引擎。它很容易使用,但从长远来看相对难掌握。在本文中,我们分享了在系统中使用Elasticsearch六个不太明显但非常值得了解的特性。

image.png

链接

1. Elastic Stack

Elasticsearch最初是作为独立产品开发的。它的核心作用是提供可扩展的搜索引擎服务,它提供多种语言库API,基于分布式模型创建,并对外提供REST API接口服务。

随着Elastic生态圈的发展,衍生出了与Elasticsearch并肩作战的其他工具集合。从最早的Kibana (用于可视化和数据分析)、Logstash (用于日志收集),到如下的N多工具都是Elastic公司开发的:


Beats - 核心功能:数据传输目的,

Elastic Cloud  - 托管Elasticsearch集群,

Machine Learning - 用于发现数据模式,

APM - 应用程序性能监控,

Swiftype - 一键式网站搜索。

工具数量每年都在增长,这使得公司能够实现新的目标并创造新的机会。


铭毅:Elastic早已不单单是Elasticsearch,而是一体化的工具集合、一体化大数据解决方案工具集。


2.两种数据集

2.1 数据集分类

基本上,你可以在Elasticsearch中索引(即存储)您想要的任何数据。但实际上有两类:静态数据和时间序列数据。它们会严重影响群集的配置和管理方式。


静态数据是可能会缓慢增长或变化的数据集。像目录或物品清单。

你可以将它们视为存储在常规数据库中的数据。如:博客文章,图书馆书籍,订单等。你可能希望在Elasticsearch中索引此类数据以启用快速搜索,常规数据库很难实现这些功能。

时间序列数据集,可以是与通常快速增长的时刻相关联的事件数据,例如:日志文件或度量。

你需要上在Elasticsearch中为它们编制索引,以进行数据分析,模式发现和系统监视。

2.2 数据集建模方式

根据您存储的数据类型,你应该以不同的方式为集群建模。


对于静态数据:你应该选择固定数量的索引和分片。它们不会快速增长,您总是希望搜索数据集中的所有文档。

对于时间序列数据,你应该选择基于时间的滚动索引。您会相对频繁地查询最近的数据,并且最终甚至会删除或者至少归档过时的文档以便在机器物理存储上节省资金。

铭毅:两种数据集,决定了我们数据的两种不同的建模方式。


3.搜索评分

对于每个搜索查询,Elasticsearch都会计算相关性分数。该分数基于tf-idf算法,该算法代表词项频率 - 反向文档频率。

基本上,在该算法中计算两个值。


第一个:词项频率TF - 表示在文档中使用给定词项的频率。

第二个 - 反向文档频率IDF - 表示给定词项在所有文档中的唯一性。

3.1 TF计算

例如,如果我们有两个文档:


文档1:To be or not to be, that is the question.

文档2:To be. I am. You are. He, she is.


question词项的TF计算如下:


对于文档1:1/10(10个词项中有1个出现)

对于文档2:0/9(9个词项中出现0次)。

3.2 IDF计算

IDF计算为整个数据集的单个值。它是所有文档与包含搜索词的文档的比率。

在我们的例子中它是:log(2/1)= 0.301

其中:


2 - 所有文件的数量,

1 - 包含“question”词项的文件数量。

3.3 相关性得分结果

最后,两个文档的tf-idf分数计算为两个值的乘积:


文档1:1/10 x 0.301 = 0.1 * 0.301 = 0.03

文档2:0/9 x 0.301 = 0 * 0.301 = 0.00

现在我们看到文档1的值为0.03,而文档2的值为0.00。

因此,文档1将在结果列表中优先返回。

铭毅:实际应用中比这要复杂一些,可以结合explain:true验证一把


如下:

PUT my_index3

{

 "mappings": {

   "_doc": {

     "properties": {

       "title": {  

         "type": "text"

       }

     }

   }

 }

}

POST my_index3/_doc/1

{

 "title":"To be or not to be, that is the question."

}

POST my_index3/_doc/2

{

 "title":"To be. I am. You are. He, she is."

}

POST my_index3/_search

{

 "explain": true,  

 "query": {

   "match": {

       "title":"question"

   }

 }

}4 数据模型

Elasticsearch在性能方面有两个好处。它可以水平扩展,速度非常快。其中速度主要取决于:数据的存储方式。


4.1 索引阶段数据模型

索引文档时,它将通过三个步骤:character filters(字符过滤器),tokenizer(标记生成器)和token filters(标记过滤器)。它们用于规范化文档。

例如:一个文档


To be or not to be, that is the question.


1)可能实际存储为:

如果标点符号被删除且所有词项都是小写的:


to be or not to be that is the question


2)它也可以存储为:

如果应用了停用词过滤器,它将删除所有常用语言术语,例如:to,be,or,not,that,is,the。

仅剩下:


question


以上是索引部分。


4.2 搜索阶段数据模型

在搜索文档时会应用相同的步骤。查询也被过滤为character filters(字符过滤器),tokenizer(标记生成器)和token filters(标记过滤器)。

然后Elasticsearch正在搜索带有规范化词项的文档。

Elasticsearch中的字段存储在倒排索引结构中,这使得快速获取匹配文档。


可以为每个字段定义特定过滤器。借助于analyzers实现定义。可以使用多个analyzers分词器分析字段以实现不同的目标。

例如:


可以使用standard分词器逐字分词,使用ik_max_word 细粒度分词,使用ik_smart粗粒度分词。

1

然后在搜索阶段,您可以定义要扫描的字段,获得你想要的检索结果。

通过应用此行为,ElasticSearch可以比常规数据库更快地提供结果。


铭毅:模型的好坏除了提升检索效率,还能节省存储空间。


5 分片计划

5.1 我应该有多少分片和索引?

这是新手学习、实操Elasticsearch提出的最常见问题。

为什么会出现这个问题?只能在索引创建的最开始设置分片数。


所以答案真的取决于你拥有的数据集。根据经验,单分片最大应包含20-40 GB的数据。 Shards来自Apache Lucene。


考虑到Apache Lucene用于反向索引和快速搜索的所有结构和开销,划分小分片(例如100 MB或1 GB)是没有意义的。


Elastic顾问建议使用20-40 GB。请记住,分片不能进一步划分,并且始终驻留在单个节点上。这样大小的分片也可以很容易地移动到其他节点,或者如果需要,在集群内复制。具有此分片容量可以为您提供速度和内存消耗之间的折衷值。


当然,在您的特定情况下,性能指标可能显示不同的内容,因此请记住,这只是一个建议,您可能结合您的实际业务场景,希望实现其他性能目标。


5.2 实际分片注意事项

1)为了知道每个索引应该有多少分片,你可以简单地估计一下,通过将一些文档索引到一个临时索引中,看看它们消耗了多少内存,以及你希望在一段时间内有多少文档。时间指的:部分时间(在时间序列数据集中),或者全部时间(在静态数据集中)。


2)不要忘记,即使您错误配置了分片数或索引数,也可以始终将数据重新索引方式设置正确的数据,然后reindex操作完成数据迁移。

3)最后但并非最不重要的。您始终可以一次查询多个索引。

例如,您可以基于日期递增的滚动索引,并在一个查询中简单地询问上个月的所有日期的索引或者别名实现一键查询。


logstash_20190201_000001

logstash_20190202_000002

....

logstash_20190228_000028

1

2

3

4

查询包含单分片的30个索引和包含30个分片的1个大索引的性能是一致的。


铭毅:结合业务数据量是分片的根本。


6.节点类型

Elasticsearch节点可以包括多个角色。角色包括:


Master:主节点,

Data:数据节点,

Ingest:摄取节点,

Coordinating-only:仅协调节点。

每个角色都有对应的用途。


6.1 主节点

作用:负责群集范围的设置和更改,例如创建或删除索引,添加或删除节点以及将分片分配给节点。

针对大数据量级规模的集群,(建议)每个集群中应至少包含3个候选主节点。系统会从所有符合主节点的节点中,选择一个节点作为主节点,其作用是执行群集范围的操作。另外两个节点纯粹是为了获得高可用性。

硬件要求:主节点对CPU,RAM和磁盘存储的要求相对较低。


6.2 数据节点

作用:用于存储和搜索数据。

硬件要求:数据节点对所有资源都有很高的要求:CPU,RAM和磁盘。您拥有的数据越多,硬件资源要求也就越高。


6.3 Ingest节点

作用:在实际索引发生之前,Ingest节点用于文档预处理。

Ingest节点拦截批量和索引查询,应用转换,然后将文档传递回索引或批量API。

硬件要求:低磁盘、中等RAM和高CPU,


6.4 仅协调节点

作用:客户端请求的负载平衡器。

它知道特定文档可以驻留的位置,并将搜索请求路由到对应节点。

【官方文档警告】:

将过多的仅协调节点添加到群集会增加整个群集的负担,因为所选主节点必须等待来自每个节点的群集状态更新的确认!

不应过分夸大仅协调节点的好处 - 数据节点可以愉快地用于相同的目的。


硬件要求:低磁盘,中高速RAM和中高CPU。


6.5 配置大型集群的首选方法是什么?

以下是建议:


三个主节点 - 维护集群状态和集群设置,

两个仅协调节点 - 它们监听外部请求,并充当整个集群的智能负载平衡器,

许多数据节点 - 取决于数据集需求,

几个 Ingest节点(可选) - 如果您正在执行摄取管道并希望减轻其他节点对预处理文档的影响。

具体数字取决于您的特定用例+实际业务场景,并且必须根据性能测试进行调整。

铭毅:需要根据实际业务场景、业务规模做分配。


7 小结

毕竟每个公司业务场景不一致,以上6个特性建议供选型参考。

实际中需要结合业务场景+官方文档+源代码做进一步优化。

翻译中,结合自己的实践做了部分微调+解读。


原文作者:Dariusz Mydlarz,系Elastic官方认证工程师。

原文地址:https://blog.softwaremill.com/6-not-so-obvious-things-about-elasticsearch-422491494aa4

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
2月前
|
测试技术 API 开发工具
ElasticSearch7.6.x 模板及滚动索引创建及注意事项
ElasticSearch7.6.x 模板及滚动索引创建及注意事项
52 8
|
数据建模 索引 存储
干货 | Elasticsearch 6个不明显但很重要的注意事项
Elasticsearch是被Netflix,微软,eBay,Facebook等Top N 顶级公司使用的搜索引擎。它很容易使用,但从长远来看相对难掌握
717 0
|
2月前
|
存储 安全 数据管理
如何在 Rocky Linux 8 上安装和配置 Elasticsearch
本文详细介绍了在 Rocky Linux 8 上安装和配置 Elasticsearch 的步骤,包括添加仓库、安装 Elasticsearch、配置文件修改、设置内存和文件描述符、启动和验证 Elasticsearch,以及常见问题的解决方法。通过这些步骤,你可以快速搭建起这个强大的分布式搜索和分析引擎。
68 5
|
3月前
|
存储 JSON Java
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。
这篇文章是关于Elasticsearch的学习指南,包括了解Elasticsearch、版本对应、安装运行Elasticsearch和Kibana、安装head插件和elasticsearch-ik分词器的步骤。
283 0
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。
|
4月前
|
NoSQL 关系型数据库 Redis
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
mall在linux环境下的部署(基于Docker容器),docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongodb、minio详细教程,拉取镜像、运行容器
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
|
5月前
|
数据可视化 Docker 容器
一文教会你如何通过Docker安装elasticsearch和kibana 【详细过程+图解】
这篇文章提供了通过Docker安装Elasticsearch和Kibana的详细过程和图解,包括下载镜像、创建和启动容器、处理可能遇到的启动失败情况(如权限不足和配置文件错误)、测试Elasticsearch和Kibana的连接,以及解决空间不足的问题。文章还特别指出了配置文件中空格的重要性以及环境变量中字母大小写的问题。
一文教会你如何通过Docker安装elasticsearch和kibana 【详细过程+图解】
|
5月前
|
JSON 自然语言处理 数据库
Elasticsearch从入门到项目部署 安装 分词器 索引库操作
这篇文章详细介绍了Elasticsearch的基本概念、倒排索引原理、安装部署、IK分词器的使用,以及如何在Elasticsearch中进行索引库的CRUD操作,旨在帮助读者从入门到项目部署全面掌握Elasticsearch的使用。
|
5月前
|
Ubuntu Oracle Java
如何在 Ubuntu VPS 上安装 Elasticsearch
如何在 Ubuntu VPS 上安装 Elasticsearch
65 0
|
5月前
|
存储 Ubuntu Oracle
在Ubuntu 14.04上安装和配置Elasticsearch的方法
在Ubuntu 14.04上安装和配置Elasticsearch的方法
53 0