ES经典面试题:谈谈filter和query有什么区别?

简介: ES经典面试题:谈谈filter和query有什么区别?

一、实战演示


1、创建索引

PUT my-index-000001
{
  "mappings": {
    "properties": {
      "city": {
        "type": "keyword"
      }
    }
  }
}


2、添加测试数据

PUT my-index-000001/_doc/1
{
  "city": "北京"
}
PUT my-index-000001/_doc/2
{
  "city": "天津"
}
PUT my-index-000001/_doc/3
{
  "city": "武汉"
}


3、通过query查询


GET my-index-000001/_search
{
  "query": {
    "bool": {
      "must": [
        {"term": {
          "city": "北京"
        }}
      ]
    }
  }
}


执行结果:

82.png


4、通过filter过滤器查询


GET my-index-000001/_search
{
  "query": {
    "bool": {
      "filter": [
        {"term": {
           "city": "北京" 
        }}
      ]
    }
  }
}


执行结果:

81.png

结论:

由于数据量有限,查询性能方面看不出区别,只能得到以下结论:

1、filter和query查询都能正确获得预期的结果记录。

2、query查询会对匹配结果进行相关性打分,filter查询不会对结果记录进行打分。


二、filter和query的差别


官网中对query context和filter context的说明:

官网链接

80.png


filter和query的差别:

1、filter查询会缓存结果,不计算相关度分数,查询效率更高

2、query查询不缓存结果,且会计算相关度分数,查询效率会比filter查询低。


三、filter查询详解


1.filter并不是每次执行都会进行cache,而是当执行一定次数的时候才会进行cache一个二进制数组,1表示匹配,2表示不匹配。这个次数是不固定的。

2.filter会从优先过滤掉稀疏的数据中,保留匹配的cache数组。

3.filter cache保存的是匹配的结果,不需要再从倒排索引中去查找比对,大大提高查询效率。

4.filter一般会在query之前执行,过滤掉一部分数据,从而提高query速度。

5.filter不计算相关度分数,在执行效率上较query更高。

6.当元数据发生改变时,cache也会更新。

7.filter中不能使用match全文检索查询。


四、fitler和query的组合使用


在实际查询中,我们可以灵活选用fitler和query查询,并且二者还能组合在一起使用。


GET /_search
{
  "query": { 
    "bool": { 
      "must": [
        { "match": { "title":   "Search"        }},
        { "match": { "content": "Elasticsearch" }}
      ],
      "filter": [ 
        { "term":  { "status": "published" }},
        { "range": { "publish_date": { "gte": "2015-01-01" }}}
      ]
    }
  }
}


说明:

过滤器filter查询目前也被放在了bool查询的条件中,ES权威指南中提到的filtered关键字已经作废了。


filtered过期写法:

## INCORRECT - DEPRECATED SYNTAX, DO NOT USE
GET _search
{
  "query": {
    "filtered": {
      "query": {
        "match": {
          "text": "quick brown fox"
        }
      },
      "filter": {
        "term": {
          "status": "published"
        }
      }
    }
  }
}


正确写法:

move the query and filter to the must and filter parameters in the bool query:

GET _search
{
  "query": {
    "bool": {
      "must": {
        "match": {
          "text": "quick brown fox"
        }
      },
      "filter": {
        "term": {
          "status": "published"
        }
      }
    }
  }
}

五、最佳实践


除了需要计算相关性打分的检索条件,其他的检索条件尽量采用filter过滤器查询,以提升查询性能。

目录
相关文章
|
1月前
|
消息中间件 负载均衡 Kafka
【Kafka面试演练】那Kafka消费者手动提交、自动提交有什么区别?
嗯嗯Ok。分区的作用主要就是为了提高Kafka处理消息吞吐量。每一个topic会被分为多个分区。假如同一个topic下有n个分区、n个消费者,这样的话每个分区就会发送消息给对应的一个消费者,这样n个消费者负载均衡地处理消息。同时生产者会发送消息给不同分区,每个分区分给不同的brocker处理,让集群平坦压力,这样大大提高了Kafka的吞吐量。面试官思考中…
64 4
|
2月前
|
存储 安全 关系型数据库
|
1月前
|
编译器 C++ Python
【C/C++ 泡沫精选面试题02】深拷贝和浅拷贝之间的区别?
【C/C++ 泡沫精选面试题02】深拷贝和浅拷贝之间的区别?
32 1
|
2月前
|
存储 SQL 数据库
面试题20: 存储过程和函数的区别
面试题20: 存储过程和函数的区别
|
3月前
|
Java
【面试问题】Synchronized 和 ReentrantLock 区别?
【1月更文挑战第27天】【面试问题】Synchronized 和 ReentrantLock 区别?
|
3月前
|
Java 编译器 API
【面试问题】JDK 和 JRE 的区别?
【1月更文挑战第27天】【面试问题】JDK 和 JRE 的区别?
|
3月前
|
存储 JavaScript
面试官:请你说一说vuex的五个属性,分别是什么,区别和用途说一下(三)
面试官:请你说一说vuex的五个属性,分别是什么,区别和用途说一下
|
3月前
|
前端开发 JavaScript
面试官:请你说一说vuex的五个属性,分别是什么,区别和用途说一下(二)
面试官:请你说一说vuex的五个属性,分别是什么,区别和用途说一下
|
15天前
|
Java 关系型数据库 MySQL
大厂面试题详解:Java抽象类与接口的概念及区别
字节跳动大厂面试题详解:Java抽象类与接口的概念及区别
39 0
|
20天前
|
存储 JSON Java
面试官:Session和JWT有什么区别?
JSON Web Token (JWT) 是一种开放标准,用于安全地在网络上传输信息。JWT 包含头部、载荷和签名三部分,常用于身份验证和授权。与Session相比,JWT有以下优势:无服务器存储状态,支持跨域,适应微服务架构,自包含且可扩展。在Java开发中,可以使用HuTool框架操作JWT,包括生成、验证和解析Token。JWT通过在客户端存储令牌实现无状态认证,与Session的主要区别在于工作原理、存储方式和有效期管理。
31 6