阿里云大佬叮嘱我务必要科普这个 Elasticsearch API-阿里云开发者社区

阿里云大佬叮嘱我务必要科普这个 Elasticsearch API

2024-05-07 154

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

Elasticsearch Serverless通用抵扣包，测试体验金 200元

简介： 阿里云大佬叮嘱我务必要科普这个 Elasticsearch API

上截图是阿里云魏子珺大佬（阿里巴巴集团技术专家）周一叮嘱我的。

魏子珺大佬的早期分享参考：

2021 年 Elasticsearch 生态和技术峰会干货总结

1、啥 API 这么重要，阿里大佬要亲自叮嘱？

There’s a new API that supports analyzing the disk usage of each field of an index, including the entire index itself. The API estimates the disk usage of a field by iterating over its content and tracking the number of bytes read

https://www.elastic.co/guide/en/elasticsearch/reference/7.15/release-highlights.html#_index_disk_usage_api

POST kibana_sample_data_ecommerce/_disk_usage?run_expensive_tasks=true

用途：

第一：支持统计索引自身的磁盘使用。
第二：支持统计每个字段级别的磁盘使用。

2、_disk_usage API 适用场景是啥？

此 API 不支持在以前的 Elasticsearch 版本中创建的索引。

适用于大索引。

PS：小索引的结果可能不准确，因为 API 可能无法分析索引的某些细节部分。

本质用途：

技术人员可直观看到索引各个字段占据存储空间的大小。
评估数据建模的合理性。
定量指导Mapping 优化。

3、_disk_usage API对应版本？

7.15+ 之后的版本才可以用哦。

4、_disk_usage API 如何用？

POST kibana_sample_data_ecommerce/_disk_usage?run_expensive_tasks=true

注意一个细节：run_expensive_tasks 意味着这个 API 非常耗费资源，所以大家别频繁验证线上环境。

召回结果如下：

执行结果部分截图

每个字段的磁盘使用率清晰、明白的列举出来了。

7.17 版本 Elasticsearch 集群验证一把：

POST _reindex
{
  "source": {
    "index": "kibana_sample_data_logs",
    "_source": [
      "host",
      "index",
      "ip",
      "tags",
      "response"
    ]
  },
  "dest": {
    "index": "kibana_sample_data_logs_ext"
  }
}
 
POST kibana_sample_data_logs_ext/_disk_usage?run_expensive_tasks=true

官方并没有统计，我把结果数据梳理统计了一下，如下两张图所示：

说明了啥？

所有字段的存储实际是：倒排索引所占据存储空间大小 + doc_values 正排索引存储空间大小 + store_fields 存储空间大小等的总和。

再深问一句，这个和咱们最早设定的 Mapping 就有关系了，和数据建模就有关系了。

看一下 Mapping：

{
  "kibana_sample_data_logs_ext" : {
    "mappings" : {
      "properties" : {
        "host" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "index" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "ip" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "response" : {
          "type" : "long"
        },
        "tags" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

再进一步看看各个字段所占据的存储空间大小：

能有什么结论？

_source 是占据存储空间的。
默认的 Mapping 在 dynamic 默认为 true 的前提下字符串类型会包含两种类型：text 和 keyword，两个是分别占据不同的存储空间的。
数据建模建议：如果只需要全文检索，字符串类型设置 text 就足够了。
数据建模建议：如果不需要全文检索只需要排序和聚合，字符串类型设置 keyword 就足够了。
_version 是占据存储空间的，咱们的 update_by_query 和 delete_by_query 本质都是逻辑删除，势必会增加 _version 的空间。
如果未来再有字段选型搞不定存储空间的时候——用这个 API 一下就搞定了。
。。。。。
还能进一步推出很多有意思的结论。

5、_disk_usage API "牛逼"在什么地方？

之前我们对于磁盘占据空间是一个泛泛的整体概念，现在有了这个 API 我们可以做的很细了。

具体到哪个字段占据了多少磁盘知道了以后，极大便利的指导我们的数据建模。

相当于数据建模有了可量化的、可视化的参考依据。

之前两个同事可能为某个字段的某些属性的设置会争吵，甚至吵得不可开交。

现在不需要了，“走两步”，对比一下磁盘容量，直接就能给出孰优孰劣的结论。

图片来自：优酷

6、小结

个人更期望的功能就是字段存储空间的可视化功能，各个字段占据一目了然呈现出来，类似：search_profile 的功能。估计未来版本会出现。

欢迎大家留言说一下自己的思考。

您或者您的团队发现类似好用但相对小众的“新功能”，也欢迎第一时间联系我。我会尽自己的一点微薄之力，让更多 Elastic 爱好者知道。

感谢魏子珺大佬！

阿里云大佬叮嘱我务必要科普这个 Elasticsearch API

1、啥 API 这么重要，阿里大佬要亲自叮嘱？

2、_disk_usage API 适用场景是啥？

3、_disk_usage API对应版本？

4、_disk_usage API 如何用？

5、_disk_usage API "牛逼"在什么地方？

6、小结

推荐

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里云大佬叮嘱我务必要科普这个 Elasticsearch API

1、啥 API 这么重要，阿里大佬要亲自叮嘱？

2、_disk_usage API 适用场景是啥？

3、_disk_usage API对应版本？

4、_disk_usage API 如何用？

5、_disk_usage API "牛逼"在什么地方？

6、小结

推荐

热门文章

最新文章

相关课程

相关电子书

相关实验场景