Elasticsearch-05Elasticsearch之查询与过滤

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Elasticsearch-05Elasticsearch之查询与过滤

官方API文档

当前版本 7.0 : https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

5.6的版本的: https://www.elastic.co/guide/en/elasticsearch/reference/5.6/index.html


准备数据

新建索引 book

{
  "settings":{
    "number_of_shards":3,
    "number_of_replicas":1
  },
  "mappings":{
    "novel":{
      "properties":{
        "word_count":{
          "type":"integer"
        },
        "author":{
          "type":"keyword"
        },
        "title":{
          "type":"text"
        },
        "publish_date":{
          "type":"date",
          "format":"yyyy-MM-dd HH:mm:ss || yyyy-MM-dd || epoch_millis"
        }
      }
    }
  }
}

新增数据

多增加几条数据

再增加个artisan 索引


请求体查询

空查询

GET      /_search

将会返回所有索引中所有的文档


可以查询一个, 多个或 _all 索引(indices)或类型(types) ,index支持通配符

GET     /b*k/type1,type2/_search

将会返回指定查询条件的文档

POST http://localhost:9200/*k/novel/_search


from 及 size 参数进行分页

GET /_search
{
"from": 30,
"size": 10
}

Get请求也能携带参数? 是不是很别扭? 因为携带交互数据的 GET 请求并不被广泛支持, 所以 search API同样支持 POST 请求, 类似于这样:

POST /_search
{
"from": 30,
"size": 10
}

这个原理同样应用于其他携带交互数据的 GET API请求中

POST http://localhost:9200/book/novel/_search


结构化查询

结构化查询Query DSL是一种灵活的, 多表现形式的查询语言。 Elasticsearch在一个简单的JSON接口中用结构化查询来展现Lucene的绝大多数能力, 使用DSL查询能够让查询更加灵活, 精准, 易于阅读并且易于debug。

使用结构化查询, 需要query 参数

GET /_search
{
"query": YOUR_QUERY_HERE
}

空查询 - {} - 在功能上等同于使用 match_all 查询子句, 正如其名字一样, 匹配所有的文档

POST http://localhost:9200/book/novel/_search


查询子句

语法如下:

{
  QUERY_NAME: {
    ARGUMENT: VALUE,
    ARGUMENT: VALUE,...
  }
}

或指向一个指定的字段

{
  QUERY_NAME: {
    FIELD_NAME: {
      ARGUMENT: VALUE,
      ARGUMENT: VALUE,...
    }
  }
}

举个例子: 使用 match 查询子句用来找寻在 title字段中找寻包含 elasticsearch 的成员

{
  "match": {
    "title": "Elasticsearch"
  }
}

完整的查询请求如下

必须使用query关键字 , url中必须使用_search

POST http://localhost:9200/book/novel/_search


合并多子句

查询子句就像是搭积木一样, 可以合并简单的子句为一个复杂的查询语句。

  • 简单子句(leaf clauses)(比如 match 子句)用以在将查询字符串与一个字段(或多字段)进行比较
  • 复合子句(compound)用以合并其他的子句。 例如, bool 子句允许你合并其他的合法子句, 无论是 must , must_not 还是 should .
  • 复合子句可以合并多种子句为一个单一的查询, 无论是简单子句还是其他的复合子句

在关系型数据库中有很多条件判断,比如 等于= 不等于!= ,或者 or ,在es中

  • must 需要满足条件 ==或like
  • must_not 不需要在满足条件内的 !=或 not like
  • should: should中的两个条件至少满足一个就可以,should下有多个条件时注意加参数 minimum_should_match

举个例子,查找 title包含Elasticsearch ,并且作者不能为李四的记录

{
  "query":{
    "bool":{
      "must":{
        "match":{
          "title":"Elasticsearch"
        }
      },
      "must_not":{
        "match":{
          "author":"李四"
        }
      }
    }
  }
}

POST http://localhost:9200/book/novel/_search


查询与过滤

查询与过滤语句非常相似, 但是它们由于使用目的不同而稍有差异。

一条过滤语句会询问每个文档的字段值是否包含着特定值, 比如 是否 createTime 的日期范围某个时间段内? 是否 status 字段中包含单词 “published” ?

查询语句与过滤语句的区别

  • Query查询语句会询问每个文档的字段值与特定值的匹配程度如何,ES会给出一个相关性评分 _score , 并且 按照相关性对匹配到的文档进行排序。 这种评分方式非常适用于一个没有完全配置结果的全文本搜索。
  • Query查询语句不仅要查找相匹配的文档, 还需要计算每个文档的相关性, 所以一般来说查询语句要比过滤语句更耗时, 并且查询结果也不可缓存
  • Filter过滤查询语句在查询过程中,只判断该文档是否满足条件,只有yes和no。用作过滤不用做模糊查询. 对fifter es会用缓存,相对query来说会更快

原则上来说, 使用查询语句做全文本搜索或其他需要进行相关性评分的时候, 剩下的全部用过滤语句


Query DSL

match_all 查询

使用 match_all 可以查询到所有文档, 是没有查询条件下的默认语句

POST http://localhost:9200/book/novel/_search

{
  "query":{
    "match_all":{}
  }
}

match 查询

match 查询是一个标准查询, 不管你需要全文本查询还是精确查询基本上都要用到它。

如果你使用 match 查询一个全文本字段, 它会在真正查询之前用分析器先分析 match 一下查询字符:

POST http://localhost:9200/book/novel/_search

{
  "query":{
    "match":{
      "title":"Elasticsearch"
    }
  }
}

如果用 match 下指定了一个确切值, 在遇到数字, 日期, 布尔值或者 not_analyzed 的字符串时, 它将为你搜索你给定的值,举几个例子

{ "match": { "age": 26 }}
{ "match": { "date": "2014-09-01" }}
{ "match": { "public": true }}
{ "match": { "tag": "full_text" }}

例子

做精确匹配搜索时最好用过滤语句, 因为过滤语句可以缓存数据。


multi_match 查询

multi_match 查询允许你做 match 查询的基础上同时搜索多个字段

{
    "multi_match": {
        "query": "full text search",
        "fields": [
            "title",
            "body"
        ]
    }
}

POST http://localhost:9200/book/novel/_search

{
  "query":{
    "multi_match":{
      "query":"李四",
      "fields":["author","title"]
    }
  }
}


bool 查询

bool 查询与 bool 过滤相似, 用于合并多个查询子句。 不同的是, bool 过滤可以直接给出是否匹配成功, 而 bool 查询要计算每一个查询子句的 _score (相关性分值)

  • must :: 查询指定文档一定要被包含。
  • must_not :: 查询指定文档一定不要被包含。
  • should :: 查询指定文档, 有则可以为文档相关性加分
{
    "bool": {
        "must": {
            "match": {
                "title": "how to make millions"
            }
        },
        "must_not": {
            "match": {
                "tag": "spam"
            }
        },
        "should": [
            {
                "match": {
                    "tag": "starred"
                }
            },
            {
                "range": {
                    "date": {
                        "gte": "2014-01-01"
                    }
                }
            }
        ]
    }
}

上述查询将会找到 title 字段中包含 “how to make millions”, 并且 “tag” 字段没有被标为 spam. 如果有标识为 "starred"或者发布日期为2014年之前, 那么这些匹配的文档将比同类网站等级高.

如果 bool 查询下没有 must 子句, 那至少应该有一个 should 子句。 但是 如果有 must 子句, 那么没有 should 子句也可以进行查询。


Filter DSL

term 过滤

term 主要用于精确匹配哪些值, 比如数字, 日期, 布尔值或 not_analyzed 的字符串(未经分析的文本数据类型)

term仅允许指定一个匹配条件 ,即 value只能有一个值

举例:过滤查询"public_date" 精确匹配 "2017-08-15"的数据

{
  "query":{
    "term":{
      "public_date": "2017-08-15"
    }
  }
}

POST http://localhost:9200/book/novel/_search


terms 过滤

terms 允许指定多个匹配条件。 如果某个字段指定了多个值, 那么文档需要一起去做匹配。

例子 查询author匹配 "李三"或者"孙悟空"的数据

POST http://localhost:9200/book/novel/_search

{
  "query":{
    "terms":{
      "author":["李三","孙悟空"]
    }
  }
}


range 过滤

range 过滤 按照指定范围查找一批数据

范围操作符包含:

  • gt 大于
  • gte 大于等于
  • lt 小于
  • lte 小于等于

例子: 过滤查询 字数 大于等于1000 小于2000的数据

POST http://localhost:9200/book/novel/_search

{
  "query":{
    "range":{
      "word_count":{
        "gte":1000,
        "lt":"2000"
      }
    }
  }
}


exists 和 missing 过滤

exists 和 missing 过滤可以用于查找文档中是否包含指定字段或没有某个字段, 类似于SQL语句中的 IS_NULL 条件。

这两个过滤只是针对已经查出一批数据来, 但是想区分出某个字段是否存在的时候使用。

目前es不推荐使用missing过滤, 使用bool.must_not + exists来替代

"bool": {
        "must_not": {
            "exists": {
                "field": "title"
            }
        }
    }

例子 查询是否存在 名为 xxxx 的字段

POST http://localhost:9200/book/novel/_search

{
  "query":{
    "exists":{
      "field":"xxxx"
    }
  }
}


bool 过滤

bool 过滤可以用来合并多个过滤条件查询结果的布尔逻辑,它包含一下操作符:

  • must :: 多个查询条件的完全匹配,相当于 and。
  • must_not :: 多个查询条件的相反匹配,相当于 not。
  • should :: 至少有一个查询条件匹配, 相当于 or。

这些参数可以分别继承一个过滤条件或者一个过滤条件的数组:

例子

{
    "query": {
        "bool": {
            "must": {
                "term": {
                    "folder": "inbox"
                }
            },
            "must_not": {
                "term": {
                    "tag": "spam"
                }
            },
            "should": [
                {
                    "term": {
                        "starred": true
                    }
                },
                {
                    "term": {
                        "unread": true
                    }
                }
            ]
        }
    }
}

查询与过滤条件的合并

查询语句和过滤语句可以放在各自的上下文中。 在 ElasticSearch API 中我们会看到许多带有 query 或 filter 的语句。

这些语句既可以包含单条 query 语句, 也可以包含一条 filter 子句。

换句话说, 这些语句需要首先创建一个 query 或 filter 的上下文关系

复合查询语句可以加入其他查询子句, 复合过滤语句也可以加入其他过滤子句。 通常情况下, 一条查询语句需要过滤语句的辅助, 全文本搜索除外。

所以说, 查询语句可以包含过滤子句, 反之亦然。 以便于我们切换 query 或 filter 的上下文。 这就要求我们在读懂需求的同时构造正确有效的语句。

带过滤的查询语句

假设我们有这样一条查询语句:

{
    "match": {
        "email": "business opportunity"
    }
}

然后我们想要让这条语句加入 term 过滤, 在收信箱中匹配邮件:

{
    "term": {
        "folder": "inbox"
    }
}

search API中只能包含 query 语句, 所以我们需要用 filtered 来同时包含 “query” 和 “filter” 子句 【过滤查询已被弃用,并在ES 5.0中删除,如下会在我们用的5.x版本中报错】

{
    "filtered": {
        "query": {
            "match": {
                "email": "business opportunity"
            }
        },
        "filter": {
            "term": {
                "folder": "inbox"
            }
        }
    }
}

我们在外层再加入 query 的上下文关系:

{
    "query": {
        "filtered": {
            "query": {
                "match": {
                    "email": "business opportunity"
                }
            },
            "filter": {
                "term": {
                    "folder": "inbox"
                }
            }
        }
    }
}

报错了。。。。 改成使用bool / must / filter查询

{
    "query": {
        "bool": {
            "must": {
                "match": {
                    "email": "business opportunity"
                }
            },
            "filter": {
                "term": {
                    "folder": "inbox"
                }
            }
        }
    }
}

单条过滤语句

在 query 上下文中, 如果你只需要一条过滤语句, 比如在匹配全部邮件的时候, 你可以 省略 query 子句( 5.x以后的版本 需要用bool 代替 filtered):

{
    "query": {
        "bool": {
            "filter": {
                "term": {
                    "folder": "inbox"
                }
            }
        }
    }
}

如果一条查询语句没有指定查询范围, 那么它默认使用 match_all 查询 ,等同于

{
    "query": {
        "bool": {
            "must": {
                "match_all": {}
            },
            "filter": {
                "term": {
                    "folder": "inbox"
                }
            }
        }
    }
}

上面说的是 查询中使用过滤。 那过滤中使用查询呢?

我们很少用到的过滤语句中包含查询,为了语法的完整性,ES也支持这种。 只有在过滤中用到全文本匹配时候才会使用这种结构。


验证查询 (_validate)

查询语句可以变得非常复杂, 特别是与不同的分析器和字段映射相结合后。

validate API 可以验证一条查询语句是否合法。

POST http://localhost:9200/book/novel/_validate/query

重点看 valid 的返回结果


查看错误信息

想知道语句非法的具体错误信息, 需要加上 explain 参数:

POST: http://localhost:9200/book/novel/_validate/query?explain

查看ES如何执行的

如果是合法语句的话, 使用 explain 参数可以返回一个带有查询语句的可阅读描述, 可以帮助了解查询语句在ES中是如何执行的

以 以下的JSON为例

{
  "query":{
    "match":{
      "title":"Elasticserach"
    }
  }
}

POST http://localhost:9200/book/novel/_validate/query?explain

关键请求: /_validate/query?explain

返回:

{
    "valid": true,
    "_shards": {
        "total": 1,
        "successful": 1,
        "failed": 0
    },
    "explanations": [
        {
            "index": "book",
            "valid": true,
            "explanation": "+title:elasticserach #_type:novel"
        }
    ]
}

explanation 会为每一个索引返回一段描述, 因为每个索引会有不同的映射关系和分析器. 上面的就只有一个。 ES如何查询是和分词器有关的。


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
3月前
|
存储 JSON 监控
大数据-167 ELK Elasticsearch 详细介绍 特点 分片 查询
大数据-167 ELK Elasticsearch 详细介绍 特点 分片 查询
62 4
|
3月前
|
自然语言处理 搜索推荐 Java
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图(一)
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图
69 0
|
3月前
|
存储 自然语言处理 搜索推荐
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图(二)
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图(二)
47 0
|
4月前
|
JSON 自然语言处理 算法
ElasticSearch基础2——DSL查询文档,黑马旅游项目查询功能
DSL查询文档、RestClient查询文档、全文检索查询、精准查询、复合查询、地理坐标查询、分页、排序、高亮、黑马旅游案例
|
5月前
|
自然语言处理 Java 关系型数据库
ElasticSearch 实现分词全文检索 - 聚合查询 cardinality
ElasticSearch 实现分词全文检索 - 聚合查询 cardinality
177 1
|
6月前
|
存储 自然语言处理 关系型数据库
Elasticsearch 查询时 term、match、match_phrase、match_phrase_prefix 的区别
【7月更文挑战第3天】Elasticsearch 查询时 term、match、match_phrase、match_phrase_prefix 的区别
|
6月前
|
存储 数据库 索引
面试题ES问题之动态映射的定义如何解决
面试题ES问题之动态映射的定义如何解决
43 1
|
5月前
|
存储 自然语言处理 Java
ElasticSearch 实现分词全文检索 - 经纬度定位商家距离查询
ElasticSearch 实现分词全文检索 - 经纬度定位商家距离查询
74 0
|
5月前
|
自然语言处理 Java
ElasticSearch 实现分词全文检索 - 高亮查询
ElasticSearch 实现分词全文检索 - 高亮查询
80 0
|
5月前
|
缓存 自然语言处理 Java
ElasticSearch 实现分词全文检索 - filter查询
ElasticSearch 实现分词全文检索 - filter查询
54 0