ES索引切分

本文涉及的产品
数据库智能运维 DAS Agent,价值:99元,包含10万个字符
简介: 在生产项目中,由于ElasticSearch单个索引数据量大,索引中部分数据不常用,在搜索和写入文档时,效率较低。为了减小单个索引的数据量,提升搜索和文档写入效率,将大索引根据一定的规则拆分为小的索引。
提示:对于一些日志类的数据,我们常用到es作为存储,数据量过大时,可能会用到索引切分,这里可以参考

ES索引切分


前言

在生产项目中,由于ElasticSearch单个索引数据量大,索引中部分数据不常用,在搜索和写入文档时,效率较低。为了减小单个索引的数据量,提升搜索和文档写入效率,将大索引根据一定的规则拆分为小的索引。


直接上干货,不多bb(记得点赞,收藏,是我最大的动力)

方案一:ES索引切分验证(policy策略)

配置ilm策略 (max_docs = 1 测试用)

  • Ilm策略和模板搭配使用,模板引用此策略
PUT _ilm/policy/das_v5_policy
{
  "policy":{
    "phases": {
      "hot": {
        "actions": {
          "set_priority": {
            "priority": 100
          },
          "rollover": {
            "max_age": "1d",
            "max_docs": 1,
            "max_size": "5gb"
          }
        }
      }
    }
  }
}

查询ilm策略

GET _ilm/policy

rollover检测索引策略默认10min - 配置为3s 测试

PUT _cluster/settings
{
  "transient": {
    "indices.lifecycle.poll_interval":"3s"
  }
}

创建索引模板

说明:创建索引模板,具体的_mapping根据审计日志确定
das_v5_policy 为指定 策略名称
das_v5_index 滚动触发的别名

PUT _template/das_v5_template
{
  "index_patterns":["das_v5_*"],
  "settings":{
    "number_of_shards":2,
    "number_of_replicas":0,
    "index.lifecycle.name":"das_v5_policy",
    "index.lifecycle.rollover_alias":"das_v5_index "
  }, 
  "mappings": {
    "properties": {
      "name":{
      "type":"keyword"
    },
    "age":{
      "type":"long"
    }
    }
  }
}

创建索引,指定别名

说明:创建索引,指定别名,允许索引写入数据

PUT das_v5_20210121-000001
{
  "aliases": {
    "das_v5_index": {
      "is_write_index":true
    }
  }
}

使用别名插入数据

说明:每次put数据,会产生一个新的索引

POST das_v5_index/_doc
{
  "name":"yxd",
  "age":17
}

第一次put数据
在这里插入图片描述
策略配置3秒检测一次,所以3秒后再次put结果:
在这里插入图片描述索引自动滚动,验证成功,由 03 变成 04

仔细研究,发现存在一个问题

  1. 使用策略进行维护管理索引,需要配置好模板- 模板和策略关联,必须使用别名
  2. 历史数据问题:

    • Rollover控制索引滚动,写入数据使用别名写入,那么使用别名写入时,无法向历史索引写入数据
    • 手动使用指定历史索引写入数据,不使用别名,那么索引无法自动进行切分,策略不会生效

在这里插入图片描述
如上图所示:

  1. 此时别名das_v5_index 已经滚动到das_v5_20200123_02索引上
  2. Write通过别名无法向索引das_v5_20200122_02写入数据

解决方案

多模板多别名同策略模式

① 创建日期模板 YYYYMM 日期替换

PUT _template/das_v5_template_YYYYMM
{
  "index_patterns":["das_v5_YYYYMM*"],
  "settings":{
    "number_of_shards":2,
    "number_of_replicas":0,
    "index.lifecycle.name":"das_v5_policy",
    "index.lifecycle.rollover_alias":"das_v5_index_YYYYMM"
  }, 
  "mappings": {
    "properties": {
      "name":{
      "type":"keyword"
    },
    "age":{
      "type":"long"
    }
    }
  }
}

② 创建该日期符合索引模板的索引,并配置日期格式别名

PUT das_v5_YYYYMM-000001
{
  "aliases": {
    "das_v5_index_YYYYMM": {
      "is_write_index":true
    }
  }
}

③ 使用别名插入当天数据

POST das_v5_index_YYYYMM/_doc
{
  "name":"yxd",
  "age":17
}

④ 如果索引模板多了,可删除N天之前的模板

DELETE _Template/ das_v5_index_YYYYMM

备注:重复put索引,产生异常,可能导致策略无法维护索引,集群部署状态下,可能要考虑相关问题

方案二:多别名,rollover方式

该方案为:

  1. 创建一个独立公用的索引模板
  2. 使用日期滚动创建索引,并使用别名(一次可创建多个索引/别名,未来几天的)

       实现:可通过定时任务,每天凌晨执行,创建未来几天要用到的索引
    
  3. 代码每次提交写入es数据之后, Rollover 检测滚动一次

创建公共索引模板

代码如下(示例):

在这里插入图片描述

创建索引

说明:定时任务,执行创建日期-索引并使用日期别名,查询也可使用日期别名
在这里插入图片描述

数据插入

说明:程序插入数据,只需要使用日期别名,插入数据到es即可,历史数据使用历史当天日期的别名插入
在这里插入图片描述

索引切分

第一种
每次数据插入提交之后,可代码手动rollover一次

第二种
定时任务管理rollover,查询最近几天的索引,定时检测切分,可每10分钟一次(一二种,可同时用)
在这里插入图片描述


总结

推荐使用方案二:
优点

  1. 简单好用,不用担心集群部署等会出现的问题
  2. 查询也可使用别名
  3. 索引切分方式灵活,可靠
  4. 插入历史数据等,都可使用别名插入,不用做多余的开销维护
目录
相关文章
|
存储 关系型数据库 MySQL
MySQL 处理大数据表的 3 种方案,写的太好了,建议收藏!!
MySQL 处理大数据表的 3 种方案,写的太好了,建议收藏!!
1065 0
|
Linux 虚拟化
Vmware 傻瓜式安装(不可不知道的Linux基础知识和技术 01)
本文介绍了VMware虚拟机的下载与安装步骤。首先,通过提供的网盘链接下载VMware安装包。接着,详细描述了安装流程,包括接受协议、选择安装路径(建议避免系统C盘)、取消更新选项等。最后,输入许可证密钥完成安装,并展示了打开虚拟机后的主界面。整个过程简单易懂,适合新手操作。
397 1
|
自然语言处理 芯片 异构计算
BitNet b1.58:开启1位LLM时代,全大型语言模型都在1.58位
大型语言模型(LLM)在自然语言处理领域取得了显著的成果。然而,这些模型的训练和运行需要大量的计算资源和时间,同时也产生了高昂的能耗。为了解决这些问题,我国研究人员提出了一种名为BitNet b1.58的技术,将大型语言模型的精度降低到1位,从而在保证性能的同时,大幅提高了运行效率和降低了能耗。
375 3
|
存储 NoSQL Java
探索Java分布式锁:在高并发环境下的同步访问实现与优化
【7月更文挑战第1天】在分布式系统中,Java分布式锁解决了多节点共享资源的同步访问问题,确保数据一致性。常见的实现包括Redis的SETNX和过期时间、ZooKeeper的临时有序节点、数据库操作及Java并发库。优化策略涉及锁超时、续期、公平性及性能。选择合适的锁策略对高并发系统的稳定性和性能至关重要。
435 0
修改了node_modules的文件打包后不生效
修改了node_modules的文件打包后不生效
1741 1
|
存储 JSON 算法
新手避坑:盘点使用ClickHouse最容易犯的12个错误
在这篇文章中,我们突出了新手用户遇到的最常见的12个问题,这些问题是由于在使用ClickHouse的过程中,不遵循最佳实践,甚至反最佳实践而导致的。对于每一个问题,我们都推荐了一个解决方案或正确的使用方法。
8679 18
新手避坑:盘点使用ClickHouse最容易犯的12个错误
|
分布式计算 Unix MaxCompute
在MaxCompute中,时间的计算是基于秒的
在MaxCompute中,时间的计算是基于秒的
280 1
Elasticsearch 更新指定字段
讲述Elasticsearch更新索引指定字段操作
|
关系型数据库 MySQL 数据库
|
Shell Linux 数据安全/隐私保护
如何在Mac OS下用ISO包制作启动U盘
从U盘启动现在越来越重要了。在没有 cd/dvd 驱动器的情况下,为了安装您选择的操作系统, U盘最简单。事实上, 它甚至可以比刻录 CD 或 DVD 更便宜, 一旦版本过时就扔掉。
4234 0