ElasticSearch 查询与 Java API 实践(中)

简介: ElasticSearch 查询与 Java API 实践

三、父子关系数据建模


nested object的建模,有个不好的地方,就是采取的是类似冗余数据的方式,将多个数据都放在一起了,维护成本就比较高


每次更新,需要重新索引整个对象(包括跟对象和嵌套对象)

ES 提供了类似关系型数据库中 Join 的实现。使用 Join 数据类型实现,可以通过

Parent / Child 的关系,从而分离两个对象


父文档和子文档是两个独立的文档


更新父文档无需重新索引整个子文档。子文档被新增,更改和删除也不会影响到父文档和其他子文档。要点:父子关系元数据映射,用于确保查询时候的高性能,但是有一个限制,就是父子数据必须存在于一个shard中


父子关系数据存在一个shard中,而且还有映射其关联关系的元数据,那么搜索父子关系数据的时候,不用跨分片,一个分片本地自己就搞定了,性能当然高


父子关系


定义父子关系的几个步骤


  • 设置索引的 Mapping


  • 索引父文档


  • 索引子文档


  • 按需查询文档


设置 Mapping


image.png


DELETE my_blogs 
# 设定 Parent/Child Mapping 
PUT my_blogs
{
  "mappings": {
    "properties": {
      "blog_comments_relation": {
        "type": "join",
        "relations": {
          "blog": "comment"
        }
      },
      "content": {
        "type": "text"
      },
      "title": {
        "type": "keyword"
      }
    }
  }
} 


索引父文档


image.png

PUT my_blogs/_doc/blog1 
 { 
 "title":"Learning Elasticsearch", 
 "content":"learning ELK is happy", 
 "blog_comments_relation":{ 
 "name":"blog" 
 } 
 } 
 PUT my_blogs/_doc/blog2 
 { 
 "title":"Learning Hadoop", 
 "content":"learning Hadoop", 
 "blog_comments_relation":{ 
 "name":"blog" 
 } 
 }


索引子文档


**父文档和子文档必须存在相同的分片上 **


确保查询 join 的性能


当指定文档时候,必须指定它的父文档 ID


**使用 route 参数来保证,分配到相同的分片 **


image.png


#索引子文档


PUT my_blogs/_doc/comment1?routing=blog1 
 { 
 "comment":"I am learning ELK", 
 "username":"Jack", 
 "blog_comments_relation":{ 
 "name":"comment", 
 "parent":"blog1" 
 } 
 } 
 PUT my_blogs/_doc/comment2?routing=blog2 
 { 
 "comment":"I like Hadoop!!!!!", 
 "username":"Jack", 
 "blog_comments_relation":{ 
 "name":"comment", 
 "parent":"blog2" 
 } 
 } 
 PUT my_blogs/_doc/comment3?routing=blog2 
 { 
 "comment":"Hello Hadoop",
 "username":"Bob", 
 "blog_comments_relation":{ 
 "name":"comment", 
 "parent":"blog2" 
 } 
 } 


Parent / Child 所支持的查询


  • 查询所有文档


  • Parent Id 查询


  • Has Child 查询


  • Has Parent 查询


1 # 查询所有文档


POST my_blogs/_search 
{} 
#根据父文档ID查看 
GET my_blogs/_doc/blog2 
# Parent Id 查询 
POST my_blogs/_search 
{ 
"query": { 
"parent_id": { 
"type": "comment", 
"id": "blog2" 
} 
} 
} 
# Has Child 查询,返回父文档 
POST my_blogs/_search 
{ 
"query": { 
"has_child": { 
"type": "comment", 
"query" : { 
"match": { 
"username" : "Jack" 
} 
} 
} 
} 
} 
# Has Parent 查询,返回相关的子文档 
POST my_blogs/_search 
{ 
"query": { 
"has_parent": { 
"parent_type": "blog", 
"query" : { 
"match": { 
"title" : "Learning Hadoop" 
}
}
}
}
}


使用 has_child 查询


返回父文档


通过对子文档进行查询


返回具体相关子文档的父文档


父子文档在相同的分片上,因此 Join 效率高


image.png


使用 has_parent 查询


返回相关性的子文档


通过对父文档进行查询


返回相关的子文档


image.png


使用 parent_id 查询


返回所有相关子文档


通过对付文档 Id 进行查询


返回所有相关的子文档


image.png


访问子文档


需指定父文档 routing 参数


image.png


#通过ID ,访问子文档 
GET my_blogs/_doc/comment2 
#通过ID和routing ,访问子文档 
GET my_blogs/_doc/comment3?routing=blog2


更新子文档


更新子文档不会影响到父文档


image.png


#更新子文档


PUT my_blogs/_doc/comment3?routing=blog2 
 { 
 "comment": "Hello Hadoop??", 
 "blog_comments_relation": { 
 "name": "comment", 
 "parent": "blog2" 
 } 
 } 


嵌套对象 v.s 父子文档


Nested Object Parent / Child


**优点:文档存储在一起,读取性能高、父子文档可以独立更新 **


**缺点:更新嵌套的子文档时,需要更新整个文档、需要额外的内存去维护关系。读取性能 **


**相对差 **


适用场景子文档偶尔更新,以查询为主、子文档更新频繁


四、文件系统数据建模


思考一下,github中可以使用代码片段来实现数据搜索。这是如何实现的?


在github中也使用了ES来实现数据的全文搜索。其ES中有一个记录代码内容的索引,大致数据内容如下:


{
 "fileName" : "HelloWorld.java", 
 "authName" : "hxl", 
 "authID" : 110, 
 "productName" : "first‐java", 
 "path" : "/com/hxl/first", 
 "content" : "package com.hxl.first; public class HelloWorld { //code... }" 
 } 


我们可以在github中通过代码的片段来实现数据的搜索。也可以使用其他条件实现数据搜索。但是,如果需要使用文件路径搜索内容应该如何实现?这个时候需要为其中的字段path定义一个特殊的分词器。具体如下:


创建 mapping


PUT /codes 
{ 
"settings": { 
"analysis": { 
"analyzer": { 
"path_analyzer" : { 
"tokenizer" : "path_hierarchy" 
} 
} 
} 
}, 
"mappings": { 
"properties": { 
"fileName" : { 
"type" : "keyword" 
}, 
"authName" : { 
"type" : "text", 
"analyzer": "standard", 
"fields": { 
"keyword" : { 
"type" : "keyword" 
} 
} 
}, 
"authID" : { 
"type" : "long" 
}, 
"productName" : { 
"type" : "text", 
"analyzer": "standard", 
"fields": { 
"keyword" : {
"type" : "keyword" 
} 
} 
}, 
"path" : { 
"type" : "text", 
"analyzer": "path_analyzer", 
"fields": { 
"keyword" : { 
"type" : "keyword" 
} 
} 
}, 
"content" : { 
"type" : "text", 
"analyzer": "standard" 
} 
} 
} 
} 
PUT /codes/_doc/1 
{ 
"fileName" : "HelloWorld.java", 
"authName" : "hxl", 
"authID" : 110, 
"productName" : "first‐java", 
"path" : "/com/hxl/first", 
"content" : "package com.hxl.first; public class HelloWorld { // some code... }" 
} 
GET /codes/_search 
{ 
"query": { 
"match": { 
"path": "/com" 
} 
} 
} 
GET /codes/_analyze 
{ 
"text": "/a/b/c/d", 
"field": "path" 
}


数据操作


PUT /codes 
{ 
"settings": { 
"analysis": { 
"analyzer": { 
"path_analyzer" : { 
"tokenizer" : "path_hierarchy" 
} 
} 
} 
}, 
"mappings": { 
"properties": { 
"fileName" : { 
"type" : "keyword" 
}, 
"authName" : { 
"type" : "text", 
"analyzer": "standard", 
"fields": { 
"keyword" : { 
"type" : "keyword" 
} 
} 
}, 
"authID" : { 
"type" : "long" 
}, 
"productName" : { 
"type" : "text", 
"analyzer": "standard", 
"fields": { 
"keyword" : { 
"type" : "keyword" 
} 
} 
}, 
"path" : { 
"type" : "text", 
"analyzer": "path_analyzer", 
"fields": { 
"keyword" : {
"type" : "text", 
"analyzer": "standard" 
} 
} 
}, 
"content" : { 
"type" : "text", 
"analyzer": "standard" 
} 
} 
} 
} 
GET /codes/_search 
{ 
"query": { 
"match": { 
"path.keyword": "/com" 
} 
} 
} 
GET /codes/_search 
{ 
"query": { 
"bool": { 
"should": [ 
{ 
"match": { 
"path": "/com" 
} 
}, 
{ 
"match": { 
"path.keyword": "/com/hxl" 
} 
} 
] 
} 
} 
} 


参考文档:www.elastic.co/guide/en/el…


pathhierarchy-tokenizer.html



相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
8月前
|
缓存 监控 前端开发
顺企网 API 开发实战:搜索 / 详情接口从 0 到 1 落地(附 Elasticsearch 优化 + 错误速查)
企业API开发常陷参数、缓存、错误处理三大坑?本指南拆解顺企网双接口全流程,涵盖搜索优化、签名验证、限流应对,附可复用代码与错误速查表,助你2小时高效搞定开发,提升响应速度与稳定性。
|
11月前
|
监控 Java API
现代 Java IO 高性能实践从原理到落地的高效实现路径与实战指南
本文深入解析现代Java高性能IO实践,涵盖异步非阻塞IO、操作系统优化、大文件处理、响应式网络编程与数据库访问,结合Netty、Reactor等技术落地高并发应用,助力构建高效可扩展的IO系统。
314 0
|
11月前
|
Java Apache 开发者
解决java.lang.IllegalArgumentException: Invalid uri由无效查询引起的问题
最后,当你修改代码以避免这个异常时,保持代码的整洁和可读性同样重要。注释你的代码,用意图清晰的方法名,并确保逻辑简单明了,这样在未来你或其他开发者需要时可以轻松地维护它。
1236 20
|
11月前
|
SQL 缓存 安全
深度理解 Java 内存模型:从并发基石到实践应用
本文深入解析 Java 内存模型(JMM),涵盖其在并发编程中的核心作用与实践应用。内容包括 JMM 解决的可见性、原子性和有序性问题,线程与内存的交互机制,volatile、synchronized 和 happens-before 等关键机制的使用,以及在单例模式、线程通信等场景中的实战案例。同时,还介绍了常见并发 Bug 的排查与解决方案,帮助开发者写出高效、线程安全的 Java 程序。
550 0
|
11月前
|
并行计算 Java API
Java List 集合结合 Java 17 新特性与现代开发实践的深度解析及实战指南 Java List 集合
本文深入解析Java 17中List集合的现代用法,结合函数式编程、Stream API、密封类、模式匹配等新特性,通过实操案例讲解数据处理、并行计算、响应式编程等场景下的高级应用,帮助开发者提升集合操作效率与代码质量。
479 1
|
11月前
|
安全 Java API
Java 17 及以上版本核心特性在现代开发实践中的深度应用与高效实践方法 Java 开发实践
本项目以“学生成绩管理系统”为例,深入实践Java 17+核心特性与现代开发技术。采用Spring Boot 3.1、WebFlux、R2DBC等构建响应式应用,结合Record类、模式匹配、Stream优化等新特性提升代码质量。涵盖容器化部署(Docker)、自动化测试、性能优化及安全加固,全面展示Java最新技术在实际项目中的应用,助力开发者掌握现代化Java开发方法。
468 1
|
12月前
|
数据采集 机器学习/深度学习 Java
Java 大视界 —— Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践(174)
本文围绕 Java 大数据在智慧交通停车场智能管理与车位预测中的应用展开,深入剖析行业痛点,系统阐述大数据技术的应用架构,结合大型体育中心停车场案例,展示系统实施过程与显著成效,提供极具实操价值的技术方案。
|
11月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智慧文旅旅游线路规划与游客流量均衡调控中的应用实践(196)
本实践案例深入探讨了Java大数据技术在智慧文旅中的创新应用,聚焦旅游线路规划与游客流量调控难题。通过整合多源数据、构建用户画像、开发个性化推荐算法及流量预测模型,实现了旅游线路的精准推荐与流量的科学调控。在某旅游城市的落地实践中,游客满意度显著提升,景区流量分布更加均衡,充分展现了Java大数据技术在推动文旅产业智能化升级中的核心价值与广阔前景。
|
11月前
|
存储 Java 大数据
Java 大视界 —— 基于 Java 的大数据隐私保护在金融客户信息管理中的实践与挑战(178)
本文探讨了基于 Java 的大数据隐私保护技术在金融客户信息管理中的应用与挑战。随着金融行业数字化转型加速,客户信息的安全性愈发重要。文章详细分析了数据加密、脱敏、访问控制、区块链及联邦学习等关键技术,并结合实际案例展示了其在金融机构中的应用效果,为金融科技从业者提供了宝贵的实践经验与技术参考。
|
9月前
|
数据可视化 测试技术 API
从接口性能到稳定性:这些API调试工具,让你的开发过程事半功倍
在软件开发中,接口调试与测试对接口性能、稳定性、准确性及团队协作至关重要。随着开发节奏加快,传统方式已难满足需求,专业API工具成为首选。本文介绍了Apifox、Postman、YApi、SoapUI、JMeter、Swagger等主流工具,对比其功能与适用场景,并推荐Apifox作为集成度高、支持中文、可视化强的一体化解决方案,助力提升API开发与测试效率。