一、实战演示
1、创建索引
PUT my-index-000001 { "mappings": { "properties": { "city": { "type": "keyword" } } } }
2、添加测试数据
PUT my-index-000001/_doc/1 { "city": "北京" } PUT my-index-000001/_doc/2 { "city": "天津" } PUT my-index-000001/_doc/3 { "city": "武汉" }
3、通过query查询
GET my-index-000001/_search { "query": { "bool": { "must": [ {"term": { "city": "北京" }} ] } } }
执行结果:
4、通过filter过滤器查询
GET my-index-000001/_search { "query": { "bool": { "filter": [ {"term": { "city": "北京" }} ] } } }
执行结果:
结论:
由于数据量有限,查询性能方面看不出区别,只能得到以下结论:
1、filter和query查询都能正确获得预期的结果记录。
2、query查询会对匹配结果进行相关性打分,filter查询不会对结果记录进行打分。
二、filter和query的差别
官网中对query context和filter context的说明:
filter和query的差别:
1、filter查询会缓存结果,不计算相关度分数,查询效率更高
2、query查询不缓存结果,且会计算相关度分数,查询效率会比filter查询低。
三、filter查询详解
1.filter并不是每次执行都会进行cache,而是当执行一定次数的时候才会进行cache一个二进制数组,1表示匹配,2表示不匹配。这个次数是不固定的。
2.filter会从优先过滤掉稀疏的数据中,保留匹配的cache数组。
3.filter cache保存的是匹配的结果,不需要再从倒排索引中去查找比对,大大提高查询效率。
4.filter一般会在query之前执行,过滤掉一部分数据,从而提高query速度。
5.filter不计算相关度分数,在执行效率上较query更高。
6.当元数据发生改变时,cache也会更新。
7.filter中不能使用match全文检索查询。
四、fitler和query的组合使用
在实际查询中,我们可以灵活选用fitler和query查询,并且二者还能组合在一起使用。
GET /_search { "query": { "bool": { "must": [ { "match": { "title": "Search" }}, { "match": { "content": "Elasticsearch" }} ], "filter": [ { "term": { "status": "published" }}, { "range": { "publish_date": { "gte": "2015-01-01" }}} ] } } }
说明:
过滤器filter查询目前也被放在了bool查询的条件中,ES权威指南中提到的filtered关键字已经作废了。
filtered过期写法:
## INCORRECT - DEPRECATED SYNTAX, DO NOT USE GET _search { "query": { "filtered": { "query": { "match": { "text": "quick brown fox" } }, "filter": { "term": { "status": "published" } } } } }
正确写法:
move the query and filter to the must and filter parameters in the bool query:
GET _search { "query": { "bool": { "must": { "match": { "text": "quick brown fox" } }, "filter": { "term": { "status": "published" } } } } }
五、最佳实践
除了需要计算相关性打分的检索条件,其他的检索条件尽量采用filter过滤器查询,以提升查询性能。