Nested 数据类型—Elastic Stack 实战手册

本文涉及的产品
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: Nested 是 Object 的专用版本,允许对象数组以可以彼此独立查询的方式进行索引。

970X90.png

· 更多精彩内容,请下载阅读全本《Elastic Stack实战手册》

· 加入创作人行列,一起交流碰撞,参与技术圈年度盛事吧

创作人:李增胜

Nested 是 Object 的专用版本,允许对象数组可以以彼此独立查询的方式进行索引。

Elasticsearch 中其实是没有内部对象的概念,因此它将对象层次结构,简化为字段名称和值,以列表的形式展现。

首先来比较 Nested 与 Join 以及 Object 的区别

对比结果 Nested Object Join Object
优点 一对多关系存在一个文档中,查询速度较高 一对多关系存在多个文档中,父子文档更新性能高,可独立更新,互不影响 存储单个对象,性能高
缺点 无法单独更新父子文档,必须更新整个文档 维护关系需要占用更多内存,读取性能不高 当对象为数组时自动扁平化处理,无法满足多场景的查询条件,扩展性差
适用场景 查询性能高要求,子文档偶尔更新 子文档更新高频场景 对象非数组类型

小结:

Nested 类型使用场景:

  1. 含有 Object 数组。
  2. 需要对 Object 中的字段(至少两个及以上)同时进行查询,并维护这种关系。

Nested 类型允许相互独立地对对象数组进行索引和查询。如果需要维护数组中每个对象的关系,请使用 nested 数据类型。

以 B2B 电商行业的实际业务场景来举例说明,2B 行业的交易具有一定封闭性,只有签署合同、经常往来交易的会员,往往有更高资格的交易权、议价权。

定义商品索引,其中 groupPrice 标识分组价对象,对象里面包含了 boxLevelPrice 分组价格、level 分组级别。当前端业务线搜索时,传入用户所在组级别,即可查询对应的价格。

为了便于区分我们先定义为 Object 类型来观察下现象:

定义分组为 Object 类型

其中 groupPrice 为数组 Object 数据结构类型

PUT goods_info_object
{
  "mappings": {
    "properties": {
      "goodsName": {
        "type": "text",
        "analyzer": "ik_smart"
      },
      "skuCode": {
        "type": "keyword"
      },
      "brandName": {
        "type": "keyword"
      },
      "shopCode": {
        "type": "keyword"
      },
      "publicPrice": {
        "type": "float"
      },
      "groupPrice": {
        "properties": {
          "boxLevelPrice": {
            "type": "keyword"
          },
          "level": {
            "type": "keyword"
          }
        }
      }
    }
  }
}

#插入测试数据,为了便于阅读 JSON 格式进行了展开
POST goods_info_object/_bulk
{
  "index": {
    "_id": 1
  }
}
{
  "goodsName": "美国苹果",
  "skuCode": "skuCode1",
  "brandName": "美国苹果",
  "shopCode": "sc00001",
  "publicPrice": "8388.88",
  "groupPrice": [
    {
      "boxLevelPrice": "4888.00",
      "level": "A"
    },
    {
      "boxLevelPrice": "6888.00",
      "level": "B"
    }
  ]
}
{
  "index": {
    "_id": 2
  }
}
{
  "goodsName": "山东苹果",
  "skuCode": "skuCode2",
  "brandName": "山东苹果",
  "shopCode": "sc00001",
  "publicPrice": "7388.88",
  "groupPrice": [
    {
      "boxLevelPrice": "5888.00",
      "level": "A"
    },
    {
      "boxLevelPrice": "4888.00",
      "level": "B"
    }
  ]
}

#检索A组且价格等于4888.00的商品
POST goods_info_object/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "groupPrice.level": "A"
          }
        },
        {
          "match": {
            "groupPrice.boxLevelPrice": "4888.00"
          }
        }
      ]
    }
  }
}

#返回:
{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score" : 0.45840856,
    "hits" : [
      {
        "_index" : "goods_info_object",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.45840856,
        "_source" : {
          "goodsName" : "美国苹果",
          "skuCode" : "skuCode1",
          "brandName" : "美国苹果",
          "shopCode" : "sc00001",
          "publicPrice" : "8388.88",
          "groupPrice" : [
            {
              "boxLevelPrice" : "4888.00",
              "level" : "A"
            },
            {
              "boxLevelPrice" : "6888.00",
              "level" : "B"
            }
          ]
        }
      },
      {
        "_index" : "goods_info_object",
        "_type" : "_doc",
        "_id" : "2",
        "_score" : 0.45840856,
        "_source" : {
          "goodsName" : "山东苹果",
          "skuCode" : "skuCode2",
          "brandName" : "山东苹果",
          "shopCode" : "sc00001",
          "publicPrice" : "7388.88",
          "groupPrice" : [
            {
              "boxLevelPrice" : "5888.00",
              "level" : "A"
            },
            {
              "boxLevelPrice" : "4888.00",
              "level" : "B"
            }
          ]
        }
      }
    ]
  }
}

我们查询的数据,要满足分组等级是 A 级且价格为 4888.00 的数据信息。

如下图所示,只有文档 1 是满足的,但是却查询到了 2 条,其中包括不符合条件的文档 2:

3.4.2.7 Nested.png

这是因为 Elasticsearch 中将 Object 数组打平了做存储导致,在 Elasticsearch 中,会将数据做如下存储:

{
     "goodsName" : "山东苹果",
     "skuCode" : "skuCode2",
     "brandName" : "山东苹果",
     "shopCode" : "sc00001",
     "publicPrice" : "7388.88",
     "groupPrice.boxLevelPrice" :["5888.00","4888.00"],
     "groupPrice.level" :["A","B"]
}

查询恰好 boxLevelPrice 为"4888.00" 并且 level 为"A"的文档 2 是能被检索到的,当需要对数组中两个字段进行查询时,就需要用 Nested 数据结构类型来解决此问题。

定义分组为 Nested 数据结构类型

PUT goods_info_nested
{
  "mappings": {
    "properties": {
      "goodsName": {
        "type": "text",
        "analyzer": "ik_smart"
      },
      "skuCode": {
        "type": "keyword"
      },
      "brandName": {
        "type": "keyword"
      },
      "shopCode": {
        "type": "keyword"
      },
      "publicPrice": {
        "type": "float"
      },
      "groupPrice": {
        "type": "nested",
        "properties": {
          "boxLevelPrice": {
            "type": "float"
          },
          "level": {
            "type": "keyword"
          }
        }
      }
    }
  }
}

#插入同样的测试数据
POST goods_info_nested/_bulk
{"index":{"_id":1}}
{"goodsName":"美国苹果","skuCode":"skuCode1","brandName":"美国苹果","shopCode":"sc00001","publicPrice":"8388.88","groupPrice":[{"boxLevelPrice":"4888.00","level":"A"},{"boxLevelPrice":"6888.00","level":"B"}]}
{"index":{"_id":2}}
{"goodsName":"山东苹果","skuCode":"skuCode2","brandName":"山东苹果","shopCode":"sc00001","publicPrice":"7388.88","groupPrice":[{"boxLevelPrice":"5888.00","level":"A"},{"boxLevelPrice":"4888.00","level":"B"}]}
#查询
POST goods_info_nested/_search
{
  "query": {
    "nested": {
      "path": "groupPrice",
      "query": {
        "bool": {
          "must": [
            {
              "match": {
                "groupPrice.level": "A"
              }
            },
            {
              "match": {
                "groupPrice.boxLevelPrice": "4888.00"
              }
            }
          ]
        }
      }
    }
  }
}
#返回:
"hits" : [
      {
        "_index" : "goods_info_nested",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 1.3862942,
        "_source" : {
          "goodsName" : "美国苹果",
          "skuCode" : "skuCode1",
          "brandName" : "美国苹果",
          "shopCode" : "sc00001",
          "publicPrice" : "8388.88",
          "groupPrice" : [
            {
              "boxLevelPrice" : "4888.00",
              "level" : "A"
            },
            {
              "boxLevelPrice" : "6888.00",
              "level" : "B"
            }
          ]
        }
      }
    ]

同样查询 groupPrice.boxLevelPrice 为"4888.00" 且 level 为"A"的数据,显然只有文档 1 满足,通过查询也验证了此结论,说明 Nested 查询生效,解决了嵌套查询的问题。

Nested 在 Aggregation 中的应用

在对 Nested Object 进行聚合操作时,我们需要使用到 Nested Aggregation,我们需要聚合查询最大的分组价格( groupPrice )。

POST /goods_info_nested/_search
{
  "query": {
    "match": {
      "goodsName": "苹果"
    }
  },
  "aggs": {
    "groupPrice": {
      "nested": {
        "path": "groupPrice"
      },
      "aggs": {
        "max_price": {
          "max": {
            "field": "groupPrice.boxLevelPrice"
          }
        }
      }
    }
  }
}

#返回
{
    .....
    "aggregations" : {
        "groupPrice" : {
          "doc_count" : 4,
          "max_price" : {
            "value" : 6888.0
          }
        }
     }
}
相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
Java 编译器
Java“精度可能丢失”错误解决
在处理Java编程语言中“精度可能丢失”的警告或错误信息时,通常涉及到数据类型之间的转换,特别是从高精度类型(如long、double)转换到低精度类型(如int、short)时。本指南将帮助你理解这一问题的根源,并提供有效策略来避免或解决此类错误,确保程序正确无误地运行。我们将会探讨如何使用显式类型转换(cast),以及如何优化代码逻辑来规避潜在的数据丢失风险。
649 0
|
SQL Java Maven
Mac下安装DBeaver
Mac下安装DBeaver
1582 0
Mac下安装DBeaver
|
前端开发 Java 调度
springboot整合SSE技术开发经验总结及心得
springboot整合SSE技术开发经验总结及心得
2738 0
Idea在debug时打上断点没有用 Skipped breakpoint at ... because it happened inside debugger evaluation
Idea在debug时打上断点没有用 Skipped breakpoint at ... because it happened inside debugger evaluation
2905 0
|
数据采集 监控 数据挖掘
CSV文件自动化生成:用Pandas与Datetime高效处理京东商品信息
在电商竞争激烈的背景下,实时掌握商品价格和库存信息至关重要。本文介绍如何使用Python的`pandas`和`datetime`库从京东抓取商品名称、价格等信息,并生成CSV文件。结合代理IP技术,提升爬取效率和稳定性。通过设置请求头、使用代理IP和多线程技术,确保数据抓取的连续性和成功率。最终,数据将以带时间戳的CSV文件形式保存,方便后续分析。
450 2
|
移动开发 网络协议 前端开发
每日一博 - Server-Sent Events推送技术
每日一博 - Server-Sent Events推送技术
592 0
|
SQL 监控 安全
网络安全产品之认识WEB应用防火墙
随着B/S架构的广泛应用,Web应用的功能越来越丰富,蕴含着越来越有价值的信息,应用程序漏洞被恶意利用的可能性越来越大,因此成为了黑客主要的攻击目标。传统防火墙无法解析HTTP应用层的细节,对规则的过滤过于死板,无法为Web应用提供足够的防护。为了解决上述问题,WAF应运而生。它通过执行一系列针对HTTP、HTTPS的安全策略,专门对Web应用提供保护。
476 1
|
存储 机器学习/深度学习 缓存
APM-Elastic Stack 实战手册
应用程序性能管理(Application Performance Management)简称 APM。主要功能为监视和管理软件应用程序性能和可用性。
3220 0
APM-Elastic Stack 实战手册
|
Kubernetes 网络协议 调度
在K8S中,flannel可以固定节点IP和Pod的IP地址吗?
在K8S中,flannel可以固定节点IP和Pod的IP地址吗?
|
机器学习/深度学习 Python
LightGBM高级教程:高级特征工程
LightGBM高级教程:高级特征工程【2月更文挑战第8天】
1134 2

热门文章

最新文章