【Elasticsearch 技术分享】—— Elasticsearch 存储一条数据， put 过程是什么样子的？

2022-05-25 901

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

Elasticsearch Serverless通用抵扣包，测试体验金 200元

简介： 在前面已经介绍了 ES 中常用的一些名词，知道了数据是存储在 shard 中的，而 index 会映射一个或者多个 shard 。那这时候我要存储一条数据到某个索引下，这条数据是在哪个 index 下的呢？

网络异常，图片无法展示

前言

在前面已经介绍了 ES 中常用的一些名词，知道了数据是存储在 shard 中的，而 index 会映射一个或者多个 shard 。那这时候我要存储一条数据到某个索引下，这条数据是在哪个 index 下的呢？

ES 演示

一切按照官方教程使用三条命令，在本机启动三个节点组装成伪集群。

~  % > ./elasticsearch
~  % > ./elasticsearch -Epath.data=data2 -Epath.logs=log2
~  % > ./elasticsearch -Epath.data=data3 -Epath.logs=log3
复制代码

创建索引

curl -X PUT "localhost:9200/my-index-000001?pretty" -H 'Content-Type: application/json' -d'
{
  "settings": {
    "index": {
      "number_of_shards": 3,  
      "number_of_replicas": 2 
    }
  }
}
'
复制代码

当前版本 7.9

文档地址：www.elastic.co/guide/en/el…

ES 默认 number_of_shards 为 1 默认 number_of_replicas 为 1，即一个分片只有一个副本

下面命令可以查看索引信息

curl -X GET "localhost:9200/_cat/indices/my-index-000001?v&s=index&pretty"
复制代码

存放数据

curl -X PUT "localhost:9200/my-index-000001/_doc/0825?pretty" -H 'Content-Type: application/json' -d'
{
  "name": "liuzhihang"
}
'
复制代码

查询数据

curl -X GET "localhost:9200/my-index-000001/_doc/0825?pretty"
复制代码

文档地址： www.elastic.co/guide/en/el…

一条数据该存放在哪个 shard

通过命令可以看出：在存放数据时并没有指定到哪个 shard，那数据是存在哪里的呢？

当一条数据进来，会默认会根据 id 做路由

shard = hash(routing) % number_of_primary_shards
复制代码

从而确定存放在哪个 shard。 routing 默认是 _id，也可以设置其他。

这个 id 可以自己指定也可以系统给生成, 如果不指定则会系统自动生成。

put 一条数据的过程是什么样的？

写入过程主要分为三个阶段

协调阶段：Client 客户端选择一个 node 发送 put 请求，此时当前节点就是协调节点（coordinating node）。协调节点根据 document 的 id 进行路由，将请求转发给对应的 node。这个 node 上的是 primary shard 。
主要阶段：对应的 primary shard 处理请求，写入数据，然后将数据同步到 replica shard。

primary shard 会验证传入的数据结构
本地执行相关操作
将操作转发给 replica shard
当数据写入 primary shard 和 replica shard 成功后，路由节点返回响应给 Client。

副本阶段：每个 replica shard 在转发后，会进行本地操作。

在写操作时，默认情况下，只需要 primary shard 处于活跃状态即可进行操作。

在索引设置时可以设置这个属性

index.write.wait_for_active_shards

默认是 1，即 primary shard 写入成功即可返回。

如果设置为 all 则相当于 number_of_replicas+1 就是 primary shard 数量 + replica shard 数量。就是需要等待 primary shard 和 replica shard 都写入成功才算成功。

可以通过索引设置动态覆盖此默认设置。

总结

如何查看数据在哪个 shard 上呢？

curl -X GET "localhost:9200/my-index-000001/_search_shards?routing=0825&pretty"
复制代码

通过上面命令可以查到数据 0825 的所在 shard。

【Elasticsearch 技术分享】—— Elasticsearch 存储一条数据， put 过程是什么样子的？

前言

ES 演示

创建索引

存放数据

查询数据

一条数据该存放在哪个 shard

put 一条数据的过程是什么样的？

总结

如何查看数据在哪个 shard 上呢？

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Elasticsearch 技术分享】—— Elasticsearch 存储一条数据， put 过程是什么样子的？

前言

ES 演示

创建索引

存放数据

查询数据

一条数据该存放在哪个 shard

put 一条数据的过程是什么样的？

总结

如何查看数据在哪个 shard 上呢？

热门文章

最新文章

相关课程

相关电子书