说说 Elasticsearch filter 和 post_filter 的区别?

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 说说 Elasticsearch filter 和 post_filter 的区别?

1、线上问题

如上所示,问题是:“把 green 这个条件放到 query 里面做一个 bool 查询,有什么不一样吗?”

2、拿官方样例飞行数据举例

这个问题涉及到:filter(过滤器)和 post_filter(后过滤器)的区别,我们拿官方样例索引:kibana_sample_data_flights 做一样演示。

3、filter 过滤+聚合的场景

直接上 DSL,检索条件为:过滤目标城市为:CO(缩写代号)的数据,然后以目标天气执行聚合操作。本质是:先过滤后聚合。

POST kibana_sample_data_flights/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "DestCountry": "CO"
          }
        }
      ]
    }
  },
  "aggs": {
    "terms_aggs": {
      "terms": {
        "field": "DestWeather",
        "size": 10
      }
    }
  }
}

召回结果如下(忽略 检索部分,只保留聚合):

4、在filter 基础上加 post_filter 场景

POST kibana_sample_data_flights/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "DestCountry": "CO"
          }
        }
      ]
    }
  },
  "post_filter": {
    "term": {
      "FlightDelay": true
    }
  },
  "aggs": {
    "terms_aggs": {
      "terms": {
        "field": "DestWeather",
        "size": 10
      }
    }
  }
}

原有的:filter + 聚合没有变化,在此基础上加了:post_filter。

聚合部分结果如下图所示,对比发现,和第2部分结果一致。

但是,我们再查看检索部分的结果,我们用:beyondcompare 软件对比一下,发现基本没有相同的。

仔细梳理检索结果,如下截图所示:

初步得出结论:

  • post filter :不影响聚合结果。
  • post filter:是在检索+聚合之后,对已有数据再次进行的过滤。所以,不影响聚合结果。

5、把 post filter 过滤条件移动到 filter 内部会怎么样呢?

检索语句为:

POST kibana_sample_data_flights/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "DestCountry": "CO"
          }
        },
        {
          "term": {
            "FlightDelay": true
          }
        }
      ]
    }
  },
  "aggs": {
    "terms_aggs": {
      "terms": {
        "field": "DestWeather",
        "size": 10
      }
    }
  }
}

直接看聚合结果:很明显聚合结果完全不一样!为什么?

检索条件更加细化了,样本值减少了,所以聚合数据结果各项都少了很多

初步结论:filter 过滤+聚合操作,本质是先 filter 过滤,然后再聚合操作。聚合是在已有 filter 过滤基础上执行的。

6、post_filter 还可以自定义评分

POST kibana_sample_data_flights/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "DestCountry": "CO"
          }
        }
      ]
    }
  },
  "post_filter": {
    "term": {
      "FlightDelay": true
    }
  },
  "rescore": {
    "window_size": 50,
    "query": {
      "rescore_query": {
        "term": {
          "FlightDelay": true
        }
      },
      "query_weight": 0.7,
      "rescore_query_weight": 12
    }
  }
}

在已有评分基础上,二次评分,这属于用户自定义评分的范畴。

7、小结

  • filter,应用于带 filter 子句的布尔查询,搜索请求后 filter 过滤条件对检索和聚合都产生影响。
  • post_filter,应用于执行检索之后或者聚合之后,可以看做“后过滤器”,对检索或聚合之后的结果集再进行过滤,只检索结果受影响。

推荐阅读

比同事抢先一步学习进阶干货!


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
存储 自然语言处理 算法
ES高频面试问题:一张图带你读懂 Elasticsearch 中“正排索引(正向索引)”和“倒排索引(反向索引)”区别
ES高频面试问题:一张图带你读懂 Elasticsearch 中“正排索引(正向索引)”和“倒排索引(反向索引)”区别
ES高频面试问题:一张图带你读懂 Elasticsearch 中“正排索引(正向索引)”和“倒排索引(反向索引)”区别
|
4天前
|
NoSQL 关系型数据库 MySQL
[AIGC] 对比MySQL全文索引,RedisSearch,和Elasticsearch的详细区别
[AIGC] 对比MySQL全文索引,RedisSearch,和Elasticsearch的详细区别
128 1
|
4天前
|
自然语言处理
elasticsearch中term与match区别
elasticsearch中term与match区别
44 0
|
9月前
|
自然语言处理 数据库
Elasticsearch系列——实战探索text与keyword的区别
Elasticsearch系列——实战探索text与keyword的区别
|
12月前
|
缓存 自然语言处理 监控
白话Elasticsearch52-深入聚合数据分析之fielddata内存控制、circuit breaker短路器、fielddata filter、预加载机制以及序号标记预加载
白话Elasticsearch52-深入聚合数据分析之fielddata内存控制、circuit breaker短路器、fielddata filter、预加载机制以及序号标记预加载
81 0
|
12月前
|
数据挖掘
白话Elasticsearch42-深入聚合数据分析之案例实战__bucket filter:统计牌品最近一个月的平均价格(Filter Aggregation)
白话Elasticsearch42-深入聚合数据分析之案例实战__bucket filter:统计牌品最近一个月的平均价格(Filter Aggregation)
105 0
|
12月前
|
SQL 索引
白话Elasticsearch03- 结构化搜索之基于bool组合多个filter条件来搜索数据
白话Elasticsearch03- 结构化搜索之基于bool组合多个filter条件来搜索数据
266 0
|
12月前
|
缓存 索引
白话Elasticsearch02- 结构化搜索之filter执行原理bitset机制与caching机制
白话Elasticsearch02- 结构化搜索之filter执行原理bitset机制与caching机制
72 0
|
Linux
ElasticSearch启动报错:unable to install syscall filter:
ElasticSearch启动报错:unable to install syscall filter:
188 0
ElasticSearch启动报错:unable to install syscall filter:
|
自然语言处理
ElasticSearch中match和term的区别(第六更)
ElasticSearch中match和term的区别(第六更)
ElasticSearch中match和term的区别(第六更)

热门文章

最新文章