《深入理解Elasticsearch（原书第2版）》一2.4.2　过滤器的工作原理-阿里云开发者社区

《深入理解Elasticsearch（原书第2版）》一2.4.2　过滤器的工作原理

2017-06-23 1378

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介：

本节书摘来华章计算机《深入理解Elasticsearch（原书第2版）》一书中的第2章，第2.4.2节，[美]拉斐尔·酷奇（Rafal Ku）　马雷克·罗戈任斯基（Marek Rogoziski）著张世武　余洪淼　商旦　译更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4.2　过滤器的工作原理

前一小节我们已经提到，过滤不影响所匹配文档的得分。基于两个原因，这一点非常重要。第1个原因是性能。针对索引中的一组文档进行过滤操作是非常简单高效的。过滤器持有的关于文档的唯一重要信息是该文档是否匹配这个过滤器—仅仅一个标记而已。
过滤器通过返回一个被称为DocIdSet（org.apache.lucene.search.DocIdSet）的数据结构来提供这类匹配信息。这个数据结构的用途是为索引段提供经过滤器过滤后的数据。它可以使用Bits接口（org.apache.lucene.util.Bits）的有关实现。Bits接口可以随机访问过滤器中的文档信息（主要是检查索引段中的某个文档是否和该过滤器匹配）。Bits的数据结构非常高效，因为CPU可以使用位运算来完成过滤（有一个精巧的CPU部件用来处理这类运算，详情参考环形移位的维基百科http://en.wikipedia.org/wiki/Circular_shift）。DocIdSet还针对内部文档标识的有序集合提供了一个DocIdSetIterator迭代器给我们使用。
下表展示了这些类是如何使用Bits进行工作的。

Lucene（以及Elasticsearch）提供了DocIdSet的多种实现来应对不同场景。不同实现的性能各不相同。不过，选择合适的实现是Lucene和Elasticsearch的职责，我们一般不需要关心这一点，除非我们要针对它们进行功能扩展。
　不是所有的过滤器都使用Bits结构，比如数值区间过滤器、脚本过滤器、以及基于地理位置的一组过滤器。这些特殊的过滤器选择把数据记录在字段缓存里，然后再遍历所需处理的文档集合，逐个进行过滤操作。这意味着过滤器链条中的下一个过滤器只能获取到匹配前一个过滤器的文档集合。因此，可以针对这些过滤器进行优化，比如把最重的（译者注：匹配文档最多的，或者性能最差的）过滤器放到过滤器链的最后去执行。
布尔过滤器和与或非过滤器
我们在《Elasticsearch Server，Second Edition》一书中探讨了过滤器的有关知识，在这里只需要提醒读者注意一点：与或非过滤器不使用Bits，而布尔过滤器使用了Bits。因此，请尽可能使用布尔过滤器。与或非过滤器一般在需要脚本过滤、地理位置过滤和数值区间过滤时使用。还需要注意的是，如果把任何不使用Bits的过滤器嵌套在与或非过滤器中，它们同样不会用到Bits。
一般来讲，在组合使用多个处理器时，如果其中包含不使用Bits的处理器，则需要使用与或非处理器来对它们进行组合。而如果要组合的所有处理器都使用Bits，则可以选择使用布尔过滤器来组合它们。

相关实践学习

使用阿里云Elasticsearch体验信息检索加速

通过创建登录阿里云Elasticsearch集群，使用DataWorks将MySQL数据同步至Elasticsearch，体验多条件检索效果，简单展示数据同步和信息检索加速的过程和操作。

ElasticSearch 入门精讲

ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr（也是基于Lucene）。 ElasticSearch的实现原理主要分为以下几个步骤：用户将数据提交到Elastic Search 数据库中通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据当用户搜索数据时候，再根据权重将结果排名、打分将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索，具有接近实时的搜索，并支持多租户。

《深入理解Elasticsearch（原书第2版）》一2.4.2　过滤器的工作原理

2.4.2　过滤器的工作原理

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《深入理解Elasticsearch（原书第2版）》一2.4.2 过滤器的工作原理

2.4.2 过滤器的工作原理

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《深入理解Elasticsearch（原书第2版）》一2.4.2　过滤器的工作原理

2.4.2　过滤器的工作原理