ElasticSearch的简单介绍与使用【进阶检索】实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤

2024-08-19 127 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 这篇文章是Elasticsearch的进阶使用指南，涵盖了Search API的两种检索方式、Query DSL的基本语法和多种查询示例，包括全文检索、短语匹配、多字段匹配、复合查询、结果过滤、聚合操作以及Mapping的概念和操作，还讨论了Elasticsearch 7.x和8.x版本中type概念的变更和数据迁移的方法。

1、SearchAPI

ES 支持两种基本方式检索 :

一个是通过使用 REST request URI 发送搜索参数（uri+检索参数）
另一个是通过使用 REST request body 来发送它们（uri+请求体）

//请求参数方式检索
GET bank/_search?q=*&sort=account_number:asc

//检索 bank 下所有信息，包括 type 和 docs
GET bank/_search

        
          
        
        
        
          
          AI 代码解读

1.1 检索信息（请求参数方式检索）

检索GET bank/_search?q=*&sort=account_number:asc

GET bank/_search?q=*&sort=account_number:asc

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

响应结果解释：
took - Elasticsearch    执行搜索的时间（毫秒）
time_out -              告诉我们搜索是否超时
_shards -               告诉我们多少个分片被搜索了，以及统计了成功/失败的搜索分片
hits -                  搜索结果
hits.total -            搜索结果
hits.hits -             实际的搜索结果数组（默认为前 10 的文档）
sort -                  结果的排序 key（键）（没有则按 score 排序）
score 和 max_score –    相关性得分和最高得分（全文检索用）

        
          
        
        
        
          
          AI 代码解读

1.2 检索信息（uri+请求体进行检索）

检索：GET bank/_search

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "account_number": {
        "order": "desc"
      }
    }
  ]
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

提示

HTTP 客户端工具（POSTMAN），get 请求不能携带请求体，我们变为 post 也是一样的我们 POST 一个 JSON风格的查询请求体到 _search API。需要了解，一旦搜索的结果被返回Elasticsearch 就完成了这次请求，并且不会维护任何服务端的资源或者结果的 cursor（游标）

2、Query DSL

1）基本语法格式

Elasticsearch 提供了一个可以执行查询的 Json 风格的 DSL（domain-specific language 领域特定语言）。这个被称为 Query DSL。该查询语言非常全面，并且刚开始的时候感觉有点复杂，真正学好它的方法是从一些基础的示例开始的

一个查询语句的典型结构

{
      QUERY_NAME: {
          ARGUMENT: VALUE,
          ARGUMENT: VALUE,...
      }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

如果是针对某个字段，那么它的结构如下：

{
    QUERY_NAME: {
        FIELD_NAME: {
        ARGUMENT: VALUE,
        ARGUMENT: VALUE,... 
        }
    }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "from": 0,
  "size": 5,
  "sort": [
    {
      "account_number": {
        "order": "desc"
      }
    }
  ]
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

query 定义如何查询:

match_all 查询类型【代表查询所有的所有】，es 中可以在 query 中组合非常多的查
询类型完成复杂查询
除了 query 参数之外，我们也可以传递其它的参数以改变查询结果。如 sort，size
from+size 限定，完成分页功能
sort 排序，多字段排序，会在前序字段相等时后续字段内部排序，否则以前序为准

2）返回部分字段

主要是添加上 "_source": ["firstname","balance","age"]，如果返回字段包含多个，需要使用['字段名1','字段名2','字段名3',....]

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "balance": {
        "order": "desc"
      }
    }
  ],
  "from": 0,
  "size": 5,
  "_source": ["firstname","balance","age"]
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

3）match(全文检索)【匹配查询】

3.1 基本类型（非字符串），精确匹配

GET bank/_search
{
  "query": {
    "match": {
      "account_number": "20"
    }
  }
}

        
          
        
        
        
          
          AI 代码解读

命中一条记录
在这里插入图片描述

3.2 字符串，全文检索

最终查询出 address 中包含 Kings单词的所有记录match 当搜索字符串类型的时候，会进行全文检索，并且每条记录有相关性得分。

GET bank/_search
{
  "query": {
    "match": {
      "address": "Kings"
    }
  },
    "_source": ["firstname","address"]
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

3.3 字符串，多个单词（分词+全文检索）

最终查询出 address 中包含 mill 或者 road 或者 mill road 的所有记录，并给出相关性得分

GET bank/_search
{
  "query": {
    "match": {
     "address":"mill road"
    }
  },
    "_source": ["firstname","address"]
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

4）match_phrase【短语匹配】

将需要匹配的值当成一个整体单词（不分词）进行检索。
查出 address 中包含 mill road 的所有记录，并给出相关性得分

GET bank/_search
{
  "query": {
    "match_phrase": {
      "address": "mill road"
    }
  }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

5）multi_match【多字段匹配】

在指定的字段属性值中包含 mill，就将对应的记录查询出来。

GET bank/_search
{
  "query": {
    "multi_match": {
      "query": "mill",
      "fields": ["state", "address"]
    }
  },
  "_source": ["state","address"]
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

6）bool【复合查询】

bool 用来做复合查询：复合语句可以合并任何其它查询语句，包括复合语句，了解这一点是很重要的。这就意味着，复合语句之间可以互相嵌套，可以表达非常复杂的逻辑。

6.1 must：必须达到 must 列举的所有条件

必须达到 must 列举的所有条件

GET bank/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "address": "mill"
          }
        },
        {
          "match": {
            "gender": "M"
          }
        }
      ]
    }
  },
   "_source": ["gender","address"]
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

6.2 must_not 必须不是指定的情况

提示：must_not 必须不是，查询的记录中，某个属性必须不是某个值。

GET bank/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "address": "mill"
          }
        },
        {
          "match": {
            "gender": "M"
          }
        }
      ],
      "must_not": [
        {
          "match": {
            "age": "38"
          }
        }
      ]
    }
  },
   "_source": ["gender","address","age"]
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

6.3 should 应该达到 should 列举的条件

should：应该达到 should 列举的条件，如果达到会增加相关文档的评分，并不会改变查询的结果。如果 query 中只有 should 且只有一种匹配规则，那么 should 的条件就会被作为默认匹配条件而去改变查询结果

GET bank/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "address": "mill"
          }
        },
        {
          "match": {
            "gender": "M"
          }
        }
      ],
      "should": [
        {"match": {
          "lastname": "Wallace"
        }}
      ]

    }
  },
   "_source": ["gender","address","lastname"]
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

7）filter【结果过滤】

并不是所有的查询都需要产生分数，特别是那些仅用于 “filtering”（过滤）的文档。为了不计算分数 Elasticsearch 会自动检查场景并且优化查询的执行

使用filter过滤

GET bank/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "range": {
            "age": {
              "gte": 18,
              "lte": 30
            }
          }
        }
      ]
    }
  }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

GET bank/_search
{
  "query": {
    "bool": {
      "must": [
        {"range": {
          "age": {
            "gte": 18,
            "lte": 30
          }
        }}
      ]
    }
  }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

8）term

和 match 一样。匹配某个属性的值。全文检索字段用 match，其他非 text 字段匹配用 term。

在这里插入图片描述

GET bank/_search
{
  "query": {
    "term": {
      "balance": {
        "value": "32838"
      }
    }
  }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

9）aggregations（执行聚合）

聚合提供了从数据中分组和提取数据的能力。最简单的聚合方法大致等于 SQL GROUPBY 和 SQL 聚合函数。在Elasticsearch 中，您有执行搜索返回 hits（命中结果），并且同时返回聚合结果，把一个响应中的所有 hits（命中结果）分隔开的能力。这是非常强大且有效的，您可以执行查询和多个聚合，并且在一次使用中得到各自的（任何一个的）返回结果，使用一次简洁和简化的 API 来避免网络往返。

9.1 案例1（平均年龄）

搜索 address 中包含 mill 的所有人的年龄分布以及平均年龄，但不显示这些人的详情。

GET bank/_search
{
  "query": {
    "match": {
      "address": "mill"
    }
  },
  "aggs": {
    "ageAgg": {
      "terms": {
        "field": "age",
        "size": 10
      }
    },
    "ageAvg": {
      "avg": {
        "field": "age"
      }
    }
  },
  "size": 0
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

提示：

size：0 不显示搜索数据
aggs：执行聚合。聚合语法如下
"aggs": { 
    "aggs_name 这次聚合的名字，方便展示在结果集中": { 
        "AGG_TYPE 聚合的类型（avg,term,terms）": {}
    }
},

        
          
        
        
        
          
          AI 代码解读

9.2 案例2 （平均薪资）

按照年龄聚合，并且请求这些年龄段的这些人的平均薪资

GET bank/_search
{
  "query": {
    "match": {
      "address": "mill"
    }
  },
  "aggs": {
    "ageAgg": {
      "terms": {
        "field": "age",
        "size":10

      }
    },
    "ageAvg":{
      "avg":{
        "field":"age"
      }
    },
    "balanceAvg":{
      "avg": {
        "field": "balance"
      }
    }
  },
  "size": 0
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

9.3 案例3（嵌套聚合）

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "ageAgg": {
      "terms": {
        "field": "age",
        "size": 100
      },
      "aggs": {
        "ageAvg": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

9.4 案例4（嵌套）

查出所有年龄分布，并且这些年龄段中 M 的平均薪资和 F 的平均薪资以及这个年龄段的总体平均薪资

GET bank/account/_search
{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "age_agg": {
      "terms": {
        "field": "age",
        "size": 100
      },
      "aggs": {
        "gender_agg": {
          "terms": {
            "field": "gender.keyword",
            "size": 100
          },
          "aggs": {
            "balance_avg": {
              "avg": {
                "field": "balance"
              }
            }
          }
        },
        "balance_avg": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  },
  "size": 1000
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

3、Mapping

1）字段类型

在这里插入图片描述

2）映射

Mapping（映射）
Mapping 是用来定义一个文档（document），以及它所包含的属性（field）是如何存储和索引的。比如，使用 mapping 来定义：

哪些字符串属性应该被看做全文本属性(full text fields)。
哪些属性包含数字，日期或者地理位置。
文档中的所有属性是否都能被索引（_all 配置）。
日期的格式。
自定义映射规则来执行动态添加属性。
查看 mapping 信息：

GET bank/_mapping

        
          
        
        
        
          
          AI 代码解读

修改 mapping 信息

在这里插入图片描述

3）新版本改变

Es7 及以上移除了 type 的概念。

关系型数据库中两个数据表示是独立的，即使他们里面有相同名称的列也不影响使用，但 ES 中不是这样的。elasticsearch 是基于 Lucene 开发的搜索引擎，而 ES 中不同 type下名称相同的 filed 最终在 Lucene 中的处理方式是一样的。
1. 两个不同 type 下的两个 user_name，在 ES 同一个索引下其实被认为是同一个 filed，你必须在两个不同的 type 中定义相同的 filed 映射。否则，不同 type 中的相同字段名称就会在处理中出现冲突的情况，导致 Lucene 处理效率下降。
2. 去掉 type 就是为了提高 ES 处理数据的效率。

Elasticsearch 7.x

URL 中的 type 参数为可选。比如，索引一个文档不再要求提供文档类型。
Elasticsearch 8.x
不再支持 URL 中的 type 参数。
解决：
1. 将索引从多类型迁移到单类型，每种类型文档一个独立索引
2. 将已存在的索引下的类型数据，全部迁移到指定位置即可。详见数据迁移

3.1 创建映射

创建索引并指定映射

PUT /my-index
{
  "mappings": {
    "properties": {
      "age": {
        "type": "integer"
      },
      "email": {
        "type": "keyword"
      },
      "name": {
        "type": "text"
      }
    }
  }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

3.2 添加新的字段映射

PUT /my-index/_mapping
{
  "properties": {
    "employee-id": {
      "type": "keyword",
      "index": false
    }
  }
}

GET /my-index

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

3.3 更新映射

对于已经存在的映射字段，我们不能更新。更新必须创建新的索引进行数据迁移

4.4 数据迁移

映射名是小写，在创建新索引的时候，指定类型。

PUT /newbank
{
  "mappings": {
    "properties": {
      "account_number": {
        "type": "long"
      },
      "address": {
        "type": "text"
      },
      "age": {
        "type": "integer"
      },
      "balance": {
        "type": "long"
      },
      "city": {
        "type": "keyword"
      },
      "email": {
        "type": "keyword"
      },
      "employer": {
        "type": "keyword"
      },
      "firstname": {
        "type": "text"
      },
      "gender": {
        "type": "keyword"
      },
      "lastname": {
        "type": "keyword"
      },
      "state": {
        "type": "keyword"
      }
    }
  }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

先创建出 new_twitter 的正确映射。然后使用如下方式进行数据迁移

POST _reindex   [固定写法]
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

//将旧索引的 type 下的数据进行迁移

POST _reindex
{
  "source": {
    "index": "bank",
    "type": "account"
  },
  "dest": {
    "index": "newbank"
  }
}

        
          
        
        
        
          
          AI 代码解读

这里按照旧索引的 type 下的数据进行迁移

POST _reindex
{
  "source": {
    "index": "bank",
    "type": "account"
  },
  "dest": {
    "index": "newbank"
  }
}

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

查看迁移后的数据

GET /newbank/_search

        
          
        
        
        
          
          AI 代码解读

在这里插入图片描述

ElasticSearch的简单介绍与使用【进阶检索】实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序

1、SearchAPI

1.1 检索信息（请求参数方式检索）

1.2 检索信息（uri+请求体进行检索）

2、Query DSL

1）基本语法格式

2）返回部分字段

3）match(全文检索)【匹配查询】

3.1 基本类型（非字符串），精确匹配

3.2 字符串，全文检索

3.3 字符串，多个单词（分词+全文检索）

4）match_phrase【短语匹配】

5）multi_match【多字段匹配】

6）bool【复合查询】

6.1 must：必须达到 must 列举的所有条件

6.2 must_not 必须不是指定的情况

6.3 should 应该达到 should 列举的条件

7）filter【结果过滤】

8）term

9）aggregations（执行聚合）

9.1 案例1（平均年龄）

9.2 案例2 （平均薪资）

9.3 案例3（嵌套聚合）

9.4 案例4（嵌套）

3、Mapping

1）字段类型

2）映射

3）新版本改变

3.1 创建映射

3.2 添加新的字段映射

3.3 更新映射

4.4 数据迁移

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ElasticSearch的简单介绍与使用【进阶检索】 实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序

1、SearchAPI

1.1 检索信息（请求参数方式检索）

1.2 检索信息（uri+请求体进行检索）

2、Query DSL

1）基本语法格式

2）返回部分字段

3）match(全文检索)【匹配查询】

3.1 基本类型（非字符串），精确匹配

3.2 字符串，全文检索

3.3 字符串，多个单词（分词+全文检索）

4）match_phrase【短语匹配】

5）multi_match【多字段匹配】

6）bool【复合查询】

6.1 must：必须达到 must 列举的所有条件

6.2 must_not 必须不是指定的情况

6.3 should 应该达到 should 列举的条件

7）filter【结果过滤】

8）term

9）aggregations（执行聚合）

9.1 案例1（平均年龄）

9.2 案例2 （平均薪资）

9.3 案例3（嵌套聚合）

9.4 案例4（嵌套）

3、Mapping

1） 字段类型

2） 映射

3）新版本改变

3.1 创建映射

3.2 添加新的字段映射

3.3 更新映射

4.4 数据迁移

热门文章

最新文章

相关课程

相关电子书

相关实验场景

ElasticSearch的简单介绍与使用【进阶检索】实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序

1）字段类型

2）映射