Elasticsearch倒排索引（一）简介

2023-06-25 358

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Elasticsearch倒排索引（一）简介

1. ES与倒排索引

毫无疑问，ES最擅长的是充当搜索引擎，在这类场景中较典型的应用领域是垂直搜索，如电商搜索、地图搜索、新闻搜索等各类站内搜索。
创建索引时，业务系统模块把数据存储到数据库中，第三方数据同步模块负责将数据库中的数据按照业务需求同步到ES中。
搜索时，前端应用先向搜索模块发起搜索请求，然后搜索模块组织搜索DSL向ES发起请求，ES响应搜索模块的请求开始搜索，并将搜索到的数据进行封装，传送给搜索模块，进而传递到前端进行展现。
关系数据库的索引大多是B-Tree结构，而ES使用倒排索引。倒排索引中的所有词语存储在词典中，每个词语又指向包含它的文档信息列表。在某些情况下，两种不同的数据索引方法决定了这两种产品在性能和速度上的差异。例如，在包含数亿数据的关系型数据表上执行最简单的计count查询时，关系型数据库可能需要几秒的响应时间。如果数据表的设计不合理，甚至可能拖垮整个数据库，影响其他数据服务；而ES可以在毫秒级别返回，该查询对整个集群的影响微乎其微。除此之外，ES建立在Lucene基础之上，与生俱来就能完成分词匹配，并且支持多种打分排序算法，还支持用户自定义排序脚本。

2. 倒排索引简介

假设需要对下面两个工地的信息进行倒排索引的创建：

文档ID为001，工地名称为“北京海淀花园小区”；

文档ID为002，工地名称为“北京朝阳星空小区”。

2.首先，ES将文档交给分析器进行处理，处理的过程包括字符过滤、分词和分词过滤，最终的处理结果是文档内容被表示为一系列关键词信息（关键词本身以及它在文档中出现的位置信息和词性信息）的集合。如下图所示。

其次，ES根据分析结果建立文档-词语矩阵，用以表示词语和文档的包含关系，如图所示。

文档-词语矩阵建立完成之后，接着需要建立基于词语的倒排索引。ES会遍历文档词语矩阵中的每一个词语，然后将包含该词语的文档信息与该词语建立一种映射关系。映射关系中的词语集合叫作Term Dictionary。映射中的文档集合信息不仅包含文档ID，还包含词语在文档中的位置和词频信息，包含这些文档信息的结构叫作Posting List。对于一个规模很大的文档集合来说，可能包含几十万甚至上百万的词语集合，能否快速定位某个词语，直接影响搜索时的响应速度。因此需要一种高效的数据结构对映射关系中的词语集合进行索引，这种结构叫作Term Index。上述3种结构结合在一起就构成了ES的倒排索引结构，逻辑关系如图所示。

本例中的倒排索引结构如图所示。

Elasticsearch倒排索引（一）简介

1. ES与倒排索引

2. 倒排索引简介

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Elasticsearch倒排索引（一）简介

1. ES与倒排索引

2. 倒排索引简介

热门文章

最新文章

相关课程

相关电子书