es实战-分片分配失败解决方案

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 分片无法分配情况的一些解决办法

分片分配失败的原因

  1. 线上集群突然断电或者使用了kill -9 pid进行集群关闭
  2. 磁盘信道损坏
  3. 使用了错误的配置(小问题,排查副本/分片路由等配置即可)

排查解决方案

1. 查看未分配的原因

GET /_cluster/allocation/explain
GET _cat/indices?v&health=red
GET /_cat/shards?v&h=n,index,shard,prirep,state,sto,sc,unassigned.reason,unassigned.details
ALLOCATION_FAILED:由于分片分配失败而未分配。
CLUSTER_RECOVERED:由于集群恢复而未分配。
DANGLING_INDEX_IMPORTED:由于导入了悬空索引导致未分配。
EXISTING_INDEX_RESTORED:由于恢复为已关闭的索引导致未分配。
INDEX_CREATED:由于API创建索引而未分配。
INDEX_REOPENED:由于打开已关闭索引而未分配。
NEW_INDEX_RESTORED:由于恢复到新索引而未分配。
NODE_LEFT:由于托管的节点离开集群而未分配。
REALLOCATED_REPLICA:确定了更好的副本位置,并导致现有副本分配被取消。
REINITIALIZED:当分片从开始移动回初始化,导致未分配。
REPLICA_ADDED:由于显式添加副本而未分配。
REROUTE_CANCELLED:由于显式取消重新路由命令而未分配。

2. 尝试重新分配失败的分片

POST /_cluster/reroute?retry_failed=true

默认索引的尝试次数为5,可以将此参数调大尝试reroute,也许有奇效:

PUT /indexname/_settings
{
  "index": {
    "allocation": {
      "max_retries": 20
    }
  }
}

3. 重新关开索引尝试或者重启集群

POST /index/_close(_open)

4. 将副本分片提升为主分片

如果确定了主分片已经损坏,可以尝试将副本分片提升为主(会丢部分数据):

POST /_cluster/reroute?pretty
{
  "commands": [
    {
      "allocate_stale_primary": {
        "index": "indexname",//索引名
        "shard": 3,//操作的分片id
        "node": "node1",//此分片副本位于的节点
        "accept_data_loss": true//提示数据可能会丢失
      }
    }
  ]
}

此方案存在一个问题是需要提前知道此分片的副本位于哪个节点用以指定,可以通过如果api获取副本分片位置:

GET _shard_stores?pretty
GET indexname/_shard_stores?pretty

判断当前es进程使用的数据目录:通过pid和yml配置的目录去匹配,如data

ll /proc/pid/fd |grep data

如果索引损坏导致api失效,则需要人工去数据目录进行查找副本分片位置,目录结构如下:

data/nodes/0/indices/Z60wvPOWSP6Qbk79i757Vg/0

数据目录下为节点号 -> 索引文件夹 -> 索引ID -> 分片号

5. 将此分片置为空分片

如果此分片的主副都已经损坏,则可将此分片置为空以保留索引其他分片数据:

{
  "commands": [
    {
      "allocate_empty_primary": {
        "index": "indexname",//索引名
        "shard": 3,//操作的分片id
        "node": "node1",//空分片要分配的节点
        "accept_data_loss": true//提示数据可能会丢失
      }
    }
  ]
}

如果集群存在大量索引分片无法恢复,则可以使用脚本将全部分片置空,可以基于下面的脚本修改:

#!/bin/bash
master=$(curl -s 'http://localhost:9200/_cat/master?v' | grep -v ' ip ' | awk '{print $1}')
for index in $(curl  -s 'http://localhost:9200/_cat/shards' | grep UNASSIGNED | awk '{print $1}' | sort | uniq); do
    for shard in $(curl  -s 'http://localhost:9200/_cat/shards' | grep UNASSIGNED | grep $index | awk '{print $2}' | sort | uniq); do
        echo  $index $shard
        curl -XPOST -H 'Content-Type: application/json'  'http://localhost:9200/_cluster/reroute' -d '{
            "commands" : [ {
                  "allocate_empty_primary" : {
                      "index" : "'$index'",
                      "shard" : "'$shard'",
                      "node" : "'$master'",
                  "accept_data_loss" : true
                  }
                }
            ]
        }'
        sleep 1
    done
done
相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
NoSQL API 调度
.NET开源的轻量化定时任务调度,支持临时的延时任务和重复循环任务(可持久化) - FreeScheduler
.NET开源的轻量化定时任务调度,支持临时的延时任务和重复循环任务(可持久化) - FreeScheduler
182 0
|
应用服务中间件 索引 nginx
生产环境ES查询延迟排查
最近经常收到业务方配置的ES查询延迟告警,同样的请求手动在Kibana控制台执行只需几十毫秒就返回结果。受影响的整个链路情况如下,php应用程序通过部署在ES集群各节点上的nginx访问ES请求查询数据。
5421 0
|
1月前
|
消息中间件 JSON 大数据
大数据-66 Kafka 高级特性 分区Partition 副本因子Replication Factor replicas动态修改 线上动态修改副本数
大数据-66 Kafka 高级特性 分区Partition 副本因子Replication Factor replicas动态修改 线上动态修改副本数
38 1
|
3月前
|
资源调度 Java 调度
项目环境测试问题之Schedulerx2.0通过分布式分片任务解决单机计算瓶颈如何解决
项目环境测试问题之Schedulerx2.0通过分布式分片任务解决单机计算瓶颈如何解决
项目环境测试问题之Schedulerx2.0通过分布式分片任务解决单机计算瓶颈如何解决
|
6月前
|
监控 固态存储 安全
源码剖析:Elasticsearch 段合并调度及优化手段
源码剖析:Elasticsearch 段合并调度及优化手段
73 0
|
消息中间件 运维 监控
kafka实战】分区重分配可能出现的问题和排查问题思路
kafka实战】分区重分配可能出现的问题和排查问题思路
|
安全 数据可视化 测试技术
Elastic:集群相关知识点总结(一)数据流 Data Stream、索引生命周期 ILM、可搜索快照 searchable snapshots、跨集群搜索 CCS、跨集群复制 CCR
# 0.引言 集群管理是ES的核心重点,因此相关的知识点至关重要,本期主要针对数据流、索引生命周期、可搜索快照、跨集群搜索、跨集群复制进行讲解
324 0
Elastic:集群相关知识点总结(一)数据流 Data Stream、索引生命周期 ILM、可搜索快照 searchable snapshots、跨集群搜索 CCS、跨集群复制 CCR
|
负载均衡 算法 API
ES经典面试题:为什么主分片的数目不能修改?
ES经典面试题:为什么主分片的数目不能修改?
512 0
ES经典面试题:为什么主分片的数目不能修改?
|
Java 测试技术 索引
Elasticsearch索引分片的数量及大小分配策略
Elasticsearch索引分片的数量及大小分配策略
|
消息中间件 运维 监控
【kafka实战】分区重分配可能出现的问题和排查问题思路(生产环境实战,附视频)
【kafka实战】分区重分配可能出现的问题和排查问题思路(生产环境实战,附视频)
【kafka实战】分区重分配可能出现的问题和排查问题思路(生产环境实战,附视频)