阿里云大佬叮嘱我务必要科普这个 Elasticsearch API

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 阿里云大佬叮嘱我务必要科普这个 Elasticsearch API

上截图是阿里云魏子珺大佬(阿里巴巴集团技术专家)周一叮嘱我的。

魏子珺大佬的早期分享参考:

2021 年 Elasticsearch 生态和技术峰会干货总结

1、啥 API 这么重要,阿里大佬要亲自叮嘱?

There’s a new API that supports analyzing the disk usage of each field of an index, including the entire index itself. The API estimates the disk usage of a field by iterating over its content and tracking the number of bytes read

https://www.elastic.co/guide/en/elasticsearch/reference/7.15/release-highlights.html#_index_disk_usage_api

POST kibana_sample_data_ecommerce/_disk_usage?run_expensive_tasks=true

用途:

  • 第一:支持统计索引自身的磁盘使用。
  • 第二:支持统计每个字段级别的磁盘使用。

2、_disk_usage API 适用场景是啥?

此 API 不支持在以前的 Elasticsearch 版本中创建的索引。

适用于大索引

PS:小索引的结果可能不准确,因为 API 可能无法分析索引的某些细节部分。

本质用途:

  • 技术人员可直观看到索引各个字段占据存储空间的大小。
  • 评估数据建模的合理性。
  • 定量指导Mapping 优化。

3、_disk_usage API对应版本?

7.15+ 之后的版本才可以用哦。

4、_disk_usage API 如何用?

POST kibana_sample_data_ecommerce/_disk_usage?run_expensive_tasks=true

注意一个细节:run_expensive_tasks 意味着这个 API 非常耗费资源,所以大家别频繁验证线上环境。

召回结果如下:

执行结果部分截图

每个字段的磁盘使用率清晰、明白的列举出来了。

7.17 版本 Elasticsearch 集群验证一把:

POST _reindex
{
  "source": {
    "index": "kibana_sample_data_logs",
    "_source": [
      "host",
      "index",
      "ip",
      "tags",
      "response"
    ]
  },
  "dest": {
    "index": "kibana_sample_data_logs_ext"
  }
}
 
POST kibana_sample_data_logs_ext/_disk_usage?run_expensive_tasks=true

官方并没有统计,我把结果数据梳理统计了一下,如下两张图所示:

说明了啥?

所有字段的存储实际是:倒排索引所占据存储空间大小 + doc_values 正排索引存储空间大小 + store_fields 存储空间大小等的总和。

再深问一句,这个和咱们最早设定的 Mapping 就有关系了,和数据建模就有关系了。

看一下 Mapping:

{
  "kibana_sample_data_logs_ext" : {
    "mappings" : {
      "properties" : {
        "host" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "index" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "ip" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "response" : {
          "type" : "long"
        },
        "tags" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

再进一步看看各个字段所占据的存储空间大小:

能有什么结论?

  • _source 是占据存储空间的。
  • 默认的 Mapping 在 dynamic 默认为 true 的前提下字符串类型会包含两种类型:text 和 keyword,两个是分别占据不同的存储空间的。
  • 数据建模建议:如果只需要全文检索,字符串类型设置 text 就足够了。
  • 数据建模建议:如果不需要全文检索只需要排序和聚合,字符串类型设置 keyword 就足够了。
  • _version 是占据存储空间的,咱们的 update_by_query 和  delete_by_query 本质都是逻辑删除,势必会增加 _version 的空间。
  • 如果未来再有字段选型搞不定存储空间的时候——用这个 API 一下就搞定了。
  • 。。。。。
    还能进一步推出很多有意思的结论。

5、_disk_usage API "牛逼"在什么地方?

之前我们对于磁盘占据空间是一个泛泛的整体概念,现在有了这个 API 我们可以做的很细了。

具体到哪个字段占据了多少磁盘知道了以后,极大便利的指导我们的数据建模。

相当于数据建模有了可量化的、可视化的参考依据。

之前两个同事可能为某个字段的某些属性的设置会争吵,甚至吵得不可开交。

现在不需要了,“走两步”,对比一下磁盘容量,直接就能给出孰优孰劣的结论。

图片来自:优酷

6、小结

个人更期望的功能就是字段存储空间的可视化功能,各个字段占据一目了然呈现出来,类似:search_profile 的功能。估计未来版本会出现。

欢迎大家留言说一下自己的思考。

您或者您的团队发现类似好用但相对小众的“新功能”,也欢迎第一时间联系我。我会尽自己的一点微薄之力,让更多 Elastic 爱好者知道。

感谢魏子珺大佬!

推荐

1、重磅 | 死磕 Elasticsearch 方法论认知清单(2021年国庆更新版)

2Elasticsearch 7.X 进阶实战私训课(口碑不错)

3、如何系统的学习 Elasticsearch ?

4、Elasticsearch 数据建模实战指南

5、干货 | 论Elasticsearch数据建模的重要性

6、从一个实战问题再谈 Elasticsearch 数据建模


更短时间更快习得更多干货!

和全球近 1600+ Elastic 爱好者一起精进!

比同事抢先一步学习进阶干货!


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
2天前
|
监控 安全 数据挖掘
Email 接口API有哪些?具体分析一下阿里云和AOK的优点
本文介绍了常见的Email接口API,如阿里云邮件推送、AOKSend、SendGrid、Mailgun和Amazon SES。阿里云API以其高稳定性和数据分析功能脱颖而出,支持批量发送和多语言;而AOKSend API以易于集成、高安全性和优秀客户支持为亮点。企业在选择时应考虑自身需求和预算,以优化邮件营销效果。
|
2天前
|
监控 安全 搜索推荐
Email发送API的方法?AOKSend和阿里云哪个效果更好?
Email发送API在企业与客户沟通中扮演关键角色,允许自动化和个性化邮件发送。本文比较了AOKSend和阿里云的API:AOKSend以其高送达率、快速发送和详细分析报告脱颖而出,适合中小企业;阿里云则凭借稳定性、大规模发送能力和综合云服务吸引大企业。选择合适API能优化邮件营销效果。
|
4天前
|
人工智能 API
阿里云微服务引擎及 API 网关 2024 年 4 月产品动态
阿里云微服务引擎及 API 网关 2024 年 4 月产品动态。
|
4天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2024 年 04 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要。
|
4天前
|
存储 自然语言处理 搜索推荐
Elasticsearch 8.10 同义词管理新篇章:引入同义词 API
Elasticsearch 8.10 同义词管理新篇章:引入同义词 API
15 0
|
4天前
|
弹性计算 运维 监控
解密阿里云弹性计算:探索云服务器ECS的核心功能
阿里云ECS是核心计算服务,提供弹性云服务器资源,支持实例按需配置、集群管理和监控,集成安全防护,确保服务稳定、安全,助力高效业务运营。
84 0
|
4天前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置详细指南,如何选择合适云服务器配置?
阿里云服务器配置选择涉及CPU、内存、公网带宽和磁盘。个人开发者或中小企业推荐使用轻量应用服务器或ECS经济型e实例,如2核2G3M配置,适合低流量网站。企业用户则应选择企业级独享型ECS,如通用算力型u1、计算型c7或通用型g7,至少2核4G配置,公网带宽建议5M,系统盘可选SSD或ESSD云盘。选择时考虑实际应用需求和性能稳定性。
149 6
|
4天前
|
域名解析 弹性计算 Linux
阿里云购买云服务器、注册域名、备案及绑定图文教程参考
本文为大家介绍了2024年购买阿里云服务器和注册域名,绑定以及备案的教程,适合需要在阿里云购买云服务器、注册域名并备案的用户参考,新手用户可通过此文您了解在从购买云服务器到完成备案的流程。
阿里云购买云服务器、注册域名、备案及绑定图文教程参考
|
2天前
|
存储 安全 数据库
阿里云服务器计算型、通用型、内存型主要实例规格特点、适用场景及最新价格参考
在阿里云服务器的实例规格中,有共享型也有企业型,一般用户选择较多的企业级实例规格有计算型、通用型、内存型,每一种实例规格又有多个实例规格族可选,不同的云服务器实例规格在架构、计算、存储、网络、安全等方面有着不同,因此,其适用场景也有所不同。本文来详细介绍一下阿里云服务器计算型、通用型、内存型主要实例计算、存储等性能及其适用场景,以供参考。
阿里云服务器计算型、通用型、内存型主要实例规格特点、适用场景及最新价格参考
|
4天前
|
存储 弹性计算 固态存储
阿里云服务器租用价格参考,云服务器收费标准与实时活动价格整理
阿里云服务器租用价格参考,本文更新了阿里云服务器最新的租赁费用,包括云服务器实时的活动价格与云服务器收费标准。经济型e实例云服务器4核16G10M带宽配置30.00元/1个月、90.00元/3个月,独享型通用算力型u1实例2核4G服务器仅需199元1年,轻量云服务器2核2G新用户专享价格61元/1年,计算型c7a实例2核4G配置特惠价625.68元/1年。更多阿里云服务器热门配置活动价格及云服务器租赁费用及活动价格见下文。
阿里云服务器租用价格参考,云服务器收费标准与实时活动价格整理

热门文章

最新文章