elasticsearch中join类型数据如何进行父子文档查询?

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: elasticsearch中join类型数据如何进行父子文档查询?

1.join 简介

ES 中有一种特殊的数据类型『join』,被形象地称为父子文档。它是一种可以在同一索引中存放两种有关系数据的数据类型,类似于关系数据库中让两张表发生关系的外键 FOREIGN KEY 。在官方文档中这样介绍:join 数据类型的字段是一个特殊字段,它可以在同一个索引的文档中创建 父子关系 。通过参数 relations 定义可能存在关系的一组文档,这个关系的参数由 父名子名 构成。下方是原文档描述:

The join datatype is a special field that creates parent/child relation within documents of the same index. The relations section defines a set of possible relations within the documents, each relation being a parent name and a child name.更多精彩文章请关注公众号『Pythonnote』或者『全栈技术精选』

2.定义

我们需要在设置 mapping 时将其关系定义好,如下示例:

PUT 索引名称
{
  "mappings": {
    "properties": {
      "join类型的字段名称": { 
        "type": "join",
        "relations": {
          "父文档标示字段名": "子文档标示字段名" 
        }
      }
    }
  }
}

2.1 父文档

构建父文档时可以通过如下方法:

PUT 索引名称/类型/文档id?refresh
{
  "text": "EthanYan",
  ...        // 父文档中其他的字段与值
  "join类型的字段名称": {
    "name": "父文档标示字段名" 
  }
}

这种方式是为了便于理解,与下方子文档中构建方式对应。当你运用熟练后,有一种简便的构建方法:

PUT 索引名称/类型/文档id?refresh
{
  "text": "EthanYan",
  ...        // 父文档中其他的字段与值
  "join类型的字段名称": "父文档标示字段名" 
}

2.2 子文档

构建子文档时可以通过如下方法:

PUT 索引名称/类型/文档id?routing=父文档id&refresh 
{
  "text": "xiaoyan",
  ...        // 子文档中其他的字段与值
  "join类型的字段名称": {
    "name": "子文档标示字段名", 
    "parent": "父文档id" 
  }
}

注意

构建子文档时与父文档有些许不同,以下几点需要特别注意:

1.url 中可以看到有一个参数 routing此参数必须设置,因为我们需要保证父文档与子文档在同一分片中。其原文描述为:The routing value is mandatory because parent and child documents must be indexed on the same shard.更多精彩文章请关注公众号『Pythonnote』或者『全栈技术精选』

2.我们可以看到子文档在 join 类型字段中除了参数 name 外,还多了一个参数 parent ,故名思义,此字段为了指明父文档的所在,其值填写为父文档的 id

3.查询

此字段类型当然是为了查询而存在,要不然没有灵魂。下面举例进行说明。索引名为 sales_org

有一个父文档为下方示例:

{
  "node_name_cn": "川渝",
  "node_code": "LP.IIB.RW.CTU",
  "node_type": "办事处",
  "node_id_fqdn": "SI/LP/LP.IIB.RW/LP.IIB.RW.CTU",
  "node_name_fqdn": "SI/LP//川渝",
  "node_name_en": "",
  "mgmt_territory": "",
  "node_tree_level": 3,
  "node_name_short": "LP.IIB.RW.CTU",
  "node_info": "node_parent"
}

一个子文档示例如下:

{    
  "empl_id": "*******",
  "email_addr": "*****@fafa.com",
  "dept_id": "LP.IIB.RW.CTU",
  "name_cn": "Nie Cong",
  "node_info": {
    "parent": "LP.IIB.RW.CTU",
    "name": "node_child"
  }
}

可以看到 join 类型字段名为 node_info ,父文档标示字段名为 node_parent ,子文档标示字段名为 node_child更多精彩文章请关注公众号『Pythonnote』或者『全栈技术精选』

3.1 基于父文档查询全部子文档

POST sales_org/_search
{
  "query": {
    "has_parent": {
      "parent_type": "node_parent",        // 填写父文档标示字段名
      "query": {        // 填写查询条件,注意填写的查询条件是查询父文档,该查询条件是为定位到要基于的父文档
        "match": {
          "_id": "LP.IIB.RW.CTU"
        }
      }
    }
  }
}

3.2 基于子文档查询其父文档

{
  "query": {
    "has_child": {
      "type": "node_child",        // 填写子文档标示字段名
      "query": {        // 填写查询条件,注意填写的查询条件是查询子文档,该查询条件是为定位到要基于的子文档
        "match": {
          "dept_id": "LP.IIB.RW.CTU"
        }
      }
    }
  }
}
相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
1月前
|
关系型数据库 MySQL
elasticsearch对比mysql以及使用工具同步mysql数据全量增量
elasticsearch对比mysql以及使用工具同步mysql数据全量增量
21 0
|
1月前
|
消息中间件 存储 关系型数据库
【微服务】mysql + elasticsearch数据双写设计与实现
【微服务】mysql + elasticsearch数据双写设计与实现
68 2
|
1月前
|
监控 安全 Linux
【Elasticsearch专栏 14】深入探索:Elasticsearch使用Logstash的日期过滤器删除旧数据
使用Logstash的日期过滤器可以有效删除Elasticsearch中的旧数据,释放存储空间并提高集群性能。通过配置Logstash,可以指定索引模式、筛选时间戳早于特定阈值的文档,并在输出阶段删除这些旧数据。执行配置时,需确保Logstash与Elasticsearch连接正常,并监控日志以确保操作安全。定期执行此操作可确保旧数据不会过多积累。总之,Logstash的日期过滤器提供了一种简单而高效的方法,帮助管理和优化Elasticsearch中的数据。
|
1月前
|
存储 搜索推荐 Java
|
2月前
|
存储 固态存储 Java
Elasticsearch中查询性能优化
Elasticsearch中查询性能优化
196 0
|
3月前
Elasticsearch之RestClient查询文档
Elasticsearch之RestClient查询文档
139 1
|
1月前
|
监控 Java 测试技术
【Elasticsearch专栏 13】深入探索:Elasticsearch使用Curator工具删除Elasticsearch中的历史数据
使用Curator工具可以有效管理Elasticsearch中的旧数据,通过编写YAML配置文件定义删除操作。配置中指定了基于索引名称前缀和年龄的过滤器,确保仅删除符合条件的旧索引。执行删除操作时,Curator会应用过滤器识别目标索引,并向Elasticsearch发送删除请求。通过设置选项,如忽略空列表和超时时间,可以确保操作的灵活性和稳定性。使用Curator不仅释放了存储空间,还提高了查询性能,是维护Elasticsearch健康的重要工具
|
1月前
|
JSON 监控 数据管理
【Elasticsearch专栏 12】深入探索:Elasticsearch使用索引生命周期管理(ILM)自动化删除旧数据
Elasticsearch的ILM功能允许用户定义策略,自动管理索引从创建到删除的生命周期。用户可以设置策略,根据索引年龄或大小自动删除旧数据,节省存储空间。通过应用ILM策略于索引模板,新索引将遵循预定义的生命周期。用户还可以监控ILM状态,确保策略按预期执行。使用ILM,用户可以高效地管理数据,确保旧数据及时删除,同时保持数据完整性和安全性。
|
2月前
|
存储 缓存 自然语言处理
【Elasticsearch专栏 05】深入探索:Elasticsearch在处理非结构化数据时,倒排索引有何优势
在处理非结构化数据时,倒排索引的优势在于其高效的查询性能,能够迅速匹配文本中的关键词,实现全文搜索。此外,倒排索引支持复杂的查询操作,可扩展性强,且通过压缩技术优化存储空间。这些特点使倒排索引成为处理非结构化数据的理想选择。
|
2月前
|
缓存 算法 索引
【Elasticsearch专栏 07】深入探索:Elasticsearch的倒排索引如何进行模糊查询和通配符查询
Elasticsearch的倒排索引支持模糊查询和通配符查询,通过特定的算法和数据结构,能够实现对关键词的模糊匹配和通配符匹配。这两种查询类型提供了更灵活的搜索功能,但可能影响查询性能,需结合优化策略使用。

热门文章

最新文章