带你读《Elastic Stack 实战手册》之47:——3.5.6.Datastream (5)

本文涉及的产品
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: 带你读《Elastic Stack 实战手册》之47:——3.5.6.Datastream (5)

《Elastic Stack 实战手册》——三、产品能力——3.5 进阶篇——3.5.6.Datastream (4) https://developer.aliyun.com/article/1228580


关于修改 data stream 的 mapping 和 setting

 

data stream 的 setting 和 mapping 修改主要还是基于 Elasticsearch 默认的修改规则。总结一下,主要有以下几点:

 

l 新增字段不影响。

l 已存在的配置不可更改。

l 修改的 template 只能应用于未来新增的索引。

 

因此,如果需要修改不可更改的配置,可以考虑 reindex 或者修改 template 后手工Rolloverdata stream。

 

关于 Data tiers

 

Data tiers 也称数据层,是一个在 7.10 版本的一个新概念。

 

Data tiers 主要的一个特点是将节点角色( node roles )与索引生命周期所需要的节点属性( attribute )结合,直接可以在制定 Elasticsearch 节点角色时配置,不需要再去设置

attribute 。Data tiers 的概念也是对时序性数据分层管理的优化配置。

 

Data tiers 的数据节点默认是都配置的,即 data_content/data_hot/data_warm/data_cold( chsw )都具备。

 

Tiers 的定义

 

Content tier

 

Content tier 节点存储的数据,往往定义为与时序性数据相反的常态化数据,比如商品种类这种随着时间推移保持相对不变。这种数据并不能根据冷热数据性质分层存储。


此类数据有以下特点:

 

l Content tier 节点通常需要较高的计算性能,要求处理能力比 IO 吞吐能力高,需要处理复杂的搜索和聚合并快速返回结果。

l 对数据内容的获取,即文档内容本身获取比时序性数据要少。

l 这类数据索引需要配置为一个或多个副本。

 

Hot tier

 

Hot tier,热层是时间序列数据的 Elasticsearch 入口点,最新存储的时间序列数据。Hot tier 的数据也是会被查询最多的数据。因此热层中的节点在读取和写入时都需要快速,这需要更多的硬件资源和更快的存储( SSD )。属于数据流 ( Data stream )的新索引会自动分配给热层。

 

Warm tier

 

即温层,一旦查询时间序列数据的频率低于 hot tier 中最近索引的数据,便可以将其移至

warm tier 。 warm tier 通常保存最近几周的数据。 仍然允许进行更新,但可能很少。通常,warm tier 中的节点不需要像 hot tier 中的节点一样快。

 

Cold tier

 

冷层的数据一般查询频率非常低,且不会被更新。 但是 cold tier 仍然是响应查询层。 随着数据过渡到 cold tier,可以对其进行压缩和去副本。Cold tier节点的机器配置可以相对较低。

 

tier_preference

 

index.routing.allocation.include._tier_preference 是 Data tiers 的主要配置方式,在分片数据的时候使用 tier_preference 指定数据节点的分配。

 

tier_preference 的设置会有三种情况:


l 创建正常索引时,默认情况下,Elasticsearch 将 index.routing.allocation.include._tier_preference 设置为 data_content ,以将索引分片自动分配给内容层。

l 创建数据流时,Elasticsearch 会将后备索引的 index.routing.allocation.include._tier_preference 设置为 data_hot,以自动将索引分片分配给热层。

l 显式设置 index.routing.allocation.include._tier_preference,选择索引需要的数据节点。 如果将层首选项设置为 null,则 Elasticsearch 在分配期间将忽略数据层角色,依照其它参数分配。

 

相关的图形和命令配置如下:


image.png

上图时在索引生命周期管理中选择 Data tiers节点。

PUT _index_template/template_demo
{
  "index_patterns": ["demo-*"],
  "data_stream": {},
  "priority": 200,
   "template": {
    "settings": {
      "number_of_shards": 2,
      "index.lifecycle.name": "demo",
      "index.routing.allocation.include._tier_preference": "data_hot"
    }
  }
}

上面命令中设置索引模板匹配 demo-* 的索引的分配策略为 "index.routing.allocation.include._tier_preference":"data_hot"

 

创作人简介

赵凯,平时喜欢阅读 elastic 官网,对 Elasticsearch 较为熟悉。 学习一门技术,官网永远是最好的学习文档。在西安,我们也建立了自己的圈子,欢迎西安的小伙伴们一起交流,共同进步。

博客https://dr-kyle.github.io/

 

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
8月前
|
消息中间件 存储 监控
活动实践 | 快速体验云消息队列RocketMQ版
本方案介绍如何使用阿里云消息队列RocketMQ版Serverless实例进行消息管理。主要步骤包括获取接入点、创建Topic和订阅组、收发消息、查看消息轨迹及仪表盘监控。通过这些操作,用户可以轻松实现消息的全生命周期管理,确保消息收发的高效与可靠。此外,还提供了消费验证、下载消息等功能,方便用户进行详细的消息处理与调试。
|
Shell
openstack 查看所有项目配额的命令
在OpenStack中,可以使用以下命令来查看所有项目的配额: 1. 查看所有项目的配额列表: ```shell openstack quota list ``` 2. 查看指定项目的配额: ```shell openstack quota show <project_id> ``` 3. 查看默认项目的配额: ```shell openstack quota default-show ``` 这些命令将显示每个项目的配额信息,包括各种资源的配额限制和使用情况。请注意,您需要具有适当的权限和角色才能执行这些命令。
373 0
|
关系型数据库 MySQL 定位技术
高德地图、百度地图的经纬度科普|MySQL和编程语言是如何计算两个坐标之间的距离?
高德地图、百度地图的经纬度科普|MySQL和编程语言是如何计算两个坐标之间的距离?
875 0
高德地图、百度地图的经纬度科普|MySQL和编程语言是如何计算两个坐标之间的距离?
|
4月前
|
存储 弹性计算 安全
阿里云服务器ECS实例选购参考:vCPU到云盘IOPS等指标详解
阿里云服务器ECS实例可以分为多种实例规格族,而根据CPU、内存等配置的不同,一种实例规格族又进一步细分为多种实例规格。这些实例规格包含了众多关键的性能指标,如 vCPU、处理器、内存、vTPM、本地存储、网络带宽、网络收发包 PPS、连接数、弹性网卡、云盘带宽、云盘 IOPS 等。深入理解这些性能指标,对于用户在阿里云服务器购买过程中选择最适合自己业务需求的实例规格至关重要。
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之支持哪些函数
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
148 1
|
JSON Java Maven
接口调用神器RestTemplate(四)
接口调用神器RestTemplate
224 1
|
自然语言处理 PyTorch TensorFlow
Transformers 4.37 中文文档(一)(1)
Transformers 4.37 中文文档(一)
263 1
|
5G API 索引
ElastiSearch Merger介绍
ElastiSearch Merger介绍
373 1
|
算法 前端开发 语音技术
推荐6款2023年爆火的开源项目,你值得一试!
推荐6款2023年爆火的开源项目,你值得一试!
249 0
推荐6款2023年爆火的开源项目,你值得一试!
|
存储 数据采集 监控
从存储统一到数据融合,SLS在可观测场景的思考和行动
介绍SLS在可观测数据融合分析的一系列技术升级,融合Trace、全栈监控、Continuous Profiling、移动端监控等功能,帮助大家更快速地构筑全栈、自动化的观测能力。
128338 52