【Elasticsearch专栏 02】深入探索：Elasticsearch为什么使用倒排索引而不是正排索引

2024-02-22 170

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 倒排索引在搜索引擎中更受欢迎，因为它直接关联文档内容，支持全文搜索和模糊搜索，提高查询效率。其紧凑的结构减少了存储空间，并方便支持多种查询操作。相比之下，正排索引在搜索效率、存储和灵活性方面存在局限。

为什么使用倒排索引而不是正排索引？

Elasticsearch选择使用倒排索引而不是正排索引，主要是基于倒排索引在处理全文搜索和大规模数据集时的优势。下面将详细解释为什么Elasticsearch更倾向于使用倒排索引，并提供一些简化的代码片段来说明这两种索引结构的基本差异。

1.正排索引（Forward Index）

正排索引是一种将文档映射到其包含的单词的索引结构。每个文档都有一个与之关联的单词列表，列表中的单词按照在文档中出现的顺序进行排列。正排索引可以快速找到文档中包含的单词，但对于查找包含特定单词的所有文档则不是很高效。

例如，假设有两个文档：

Document 1: "The quick brown fox jumps over the lazy dog"  
Document 2: "Quick foxes jump over lazy dogs in summer"

一个简化的正排索引可能如下所示：

Document 1 -> [the, quick, brown, fox, jumps, over, the, lazy, dog]  
Document 2 -> [quick, foxes, jump, over, lazy, dogs, in, summer]

如果想要查找包含单词"quick"的所有文档，需要遍历整个索引，检查每个文档的单词列表，这在大规模数据集中是非常低效的。

2.倒排索引（Inverted Index）

倒排索引是一种将单词映射到包含该单词的文档的索引结构。每个单词都有一个与之关联的文档列表，列表中的文档按照某种排序标准（如相关性分数）进行排列。倒排索引可以高效地找到包含特定单词的所有文档，并支持复杂的查询操作，如短语查询、通配符查询和布尔查询等。

对于上面的文档示例，一个简化的倒排索引可能如下所示：

the    -> [Document 1]  
quick  -> [Document 1, Document 2]  
brown  -> [Document 1]  
fox    -> [Document 1]  
jumps  -> [Document 1]  
over   -> [Document 1, Document 2]  
lazy   -> [Document 1, Document 2]  
dog    -> [Document 1]  
foxes  -> [Document 2]  
jump   -> [Document 2]  
dogs   -> [Document 2]  
in     -> [Document 2]  
summer -> [Document 2]

现在，如果想要查找包含单词"quick"的所有文档，只需要查找与"quick"关联的文档列表即可，这是一个非常高效的操作。

3.小结

Elasticsearch选择使用倒排索引而不是正排索引，主要是基于倒排索引在处理搜索查询时的优势。

正排索引是一种基于文档的索引结构，它将文档中的每个词汇作为关键词进行排序和存储。当查询请求到来时，Elasticsearch会根据查询中的词汇在文档中的出现频率和位置信息，对文档进行排序和匹配。这种索引结构适用于全文搜索和基于关键词的搜索，因为它能够快速定位到包含查询关键词的文档。

然而，正排索引在处理基于短语或句子的搜索时可能效果不佳，因为它无法有效地将多个相关的词汇组合在一起进行匹配。此外，随着索引值的增大，一个节点能存储的数据量会大大减少，导致B+树（一种常见的正排索引结构）变得更深，每次查询数据所需的IO次数也会增多，从而影响查询效率。

相比之下，倒排索引是一种基于词汇的索引结构，它将文档中的词汇作为索引项进行存储，并将每个词汇与其对应的文档集合进行关联。当查询请求到来时，Elasticsearch会根据查询中的词汇在倒排索引中查找与之匹配的文档集合，并进行排序和匹配。这种索引结构能够更好地处理基于短语或句子的搜索需求，因为它能够将与查询相关的多个词汇组合在一起进行匹配，从而提高了搜索的准确性和性能。

此外，倒排索引还通过使用分词器对文本进行分词，将文本切分成更小的词汇单元，并构建词汇到文档的映射关系。这种处理方式使得Elasticsearch能够更灵活地处理各种文本数据，并支持更复杂的查询操作。

因此，综合考虑倒排索引在处理搜索查询时的优势和正排索引的局限性，Elasticsearch选择使用倒排索引作为其主要的索引结构。同时，在实际应用中，Elasticsearch也会结合使用正排索引等其他索引结构，以提高搜索性能和准确性。

【Elasticsearch专栏 02】深入探索：Elasticsearch为什么使用倒排索引而不是正排索引

为什么使用倒排索引而不是正排索引？

1.正排索引（Forward Index）

2.倒排索引（Inverted Index）

3.小结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Elasticsearch专栏 02】深入探索：Elasticsearch为什么使用倒排索引而不是正排索引

为什么使用倒排索引而不是正排索引？

1.正排索引（Forward Index）

2.倒排索引（Inverted Index）

3.小结

热门文章

最新文章

相关课程

相关电子书