【Elasticsearch专栏 02】深入探索:Elasticsearch为什么使用倒排索引而不是正排索引

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 倒排索引在搜索引擎中更受欢迎,因为它直接关联文档内容,支持全文搜索和模糊搜索,提高查询效率。其紧凑的结构减少了存储空间,并方便支持多种查询操作。相比之下,正排索引在搜索效率、存储和灵活性方面存在局限。

为什么使用倒排索引而不是正排索引?

Elasticsearch选择使用倒排索引而不是正排索引,主要是基于倒排索引在处理全文搜索和大规模数据集时的优势。下面将详细解释为什么Elasticsearch更倾向于使用倒排索引,并提供一些简化的代码片段来说明这两种索引结构的基本差异。

1.正排索引(Forward Index)

正排索引是一种将文档映射到其包含的单词的索引结构。每个文档都有一个与之关联的单词列表,列表中的单词按照在文档中出现的顺序进行排列。正排索引可以快速找到文档中包含的单词,但对于查找包含特定单词的所有文档则不是很高效。

例如,假设有两个文档:

Document 1: "The quick brown fox jumps over the lazy dog"  
Document 2: "Quick foxes jump over lazy dogs in summer"

一个简化的正排索引可能如下所示:

Document 1 -> [the, quick, brown, fox, jumps, over, the, lazy, dog]  
Document 2 -> [quick, foxes, jump, over, lazy, dogs, in, summer]

如果想要查找包含单词"quick"的所有文档,需要遍历整个索引,检查每个文档的单词列表,这在大规模数据集中是非常低效的。

2.倒排索引(Inverted Index)

倒排索引是一种将单词映射到包含该单词的文档的索引结构。每个单词都有一个与之关联的文档列表,列表中的文档按照某种排序标准(如相关性分数)进行排列。倒排索引可以高效地找到包含特定单词的所有文档,并支持复杂的查询操作,如短语查询、通配符查询和布尔查询等。

对于上面的文档示例,一个简化的倒排索引可能如下所示:

the    -> [Document 1]  
quick  -> [Document 1, Document 2]  
brown  -> [Document 1]  
fox    -> [Document 1]  
jumps  -> [Document 1]  
over   -> [Document 1, Document 2]  
lazy   -> [Document 1, Document 2]  
dog    -> [Document 1]  
foxes  -> [Document 2]  
jump   -> [Document 2]  
dogs   -> [Document 2]  
in     -> [Document 2]  
summer -> [Document 2]

现在,如果想要查找包含单词"quick"的所有文档,只需要查找与"quick"关联的文档列表即可,这是一个非常高效的操作。

3.小结

Elasticsearch选择使用倒排索引而不是正排索引,主要是基于倒排索引在处理搜索查询时的优势。

正排索引是一种基于文档的索引结构,它将文档中的每个词汇作为关键词进行排序和存储。当查询请求到来时,Elasticsearch会根据查询中的词汇在文档中的出现频率和位置信息,对文档进行排序和匹配。这种索引结构适用于全文搜索和基于关键词的搜索,因为它能够快速定位到包含查询关键词的文档。

然而,正排索引在处理基于短语或句子的搜索时可能效果不佳,因为它无法有效地将多个相关的词汇组合在一起进行匹配。此外,随着索引值的增大,一个节点能存储的数据量会大大减少,导致B+树(一种常见的正排索引结构)变得更深,每次查询数据所需的IO次数也会增多,从而影响查询效率。

相比之下,倒排索引是一种基于词汇的索引结构,它将文档中的词汇作为索引项进行存储,并将每个词汇与其对应的文档集合进行关联。当查询请求到来时,Elasticsearch会根据查询中的词汇在倒排索引中查找与之匹配的文档集合,并进行排序和匹配。这种索引结构能够更好地处理基于短语或句子的搜索需求,因为它能够将与查询相关的多个词汇组合在一起进行匹配,从而提高了搜索的准确性和性能。

此外,倒排索引还通过使用分词器对文本进行分词,将文本切分成更小的词汇单元,并构建词汇到文档的映射关系。这种处理方式使得Elasticsearch能够更灵活地处理各种文本数据,并支持更复杂的查询操作。

因此,综合考虑倒排索引在处理搜索查询时的优势和正排索引的局限性,Elasticsearch选择使用倒排索引作为其主要的索引结构。同时,在实际应用中,Elasticsearch也会结合使用正排索引等其他索引结构,以提高搜索性能和准确性。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
4月前
|
API 网络架构 索引
Elasticsearch索引中数据的增删改查与并发控制
Elasticsearch索引中数据的增删改查与并发控制
|
4月前
|
存储 自然语言处理 数据库
使用Elasticsearch映射定义索引结构
使用Elasticsearch映射定义索引结构
|
2月前
|
存储 API 数据库
检索服务elasticsearch索引(Index)
【8月更文挑战第23天】
46 6
|
4月前
|
存储 JSON 监控
Elasticsearch索引监控全面解析
Elasticsearch索引监控全面解析
|
22天前
|
JSON 自然语言处理 数据库
ElasticSearch基础1——索引和文档。Kibana,RestClient操作索引和文档+黑马旅游ES库导入
概念、ik分词器、倒排索引、索引和文档的增删改查、RestClient对索引和文档的增删改查
ElasticSearch基础1——索引和文档。Kibana,RestClient操作索引和文档+黑马旅游ES库导入
|
1月前
|
存储 搜索推荐 数据建模
Elasticsearch 的数据建模与索引设计
【9月更文第3天】Elasticsearch 是一个基于 Lucene 的搜索引擎,广泛应用于全文检索、数据分析等领域。为了确保 Elasticsearch 的高效运行,合理的数据建模和索引设计至关重要。本文将探讨如何为不同的应用场景设计高效的索引结构,并分享一些数据建模的最佳实践。
54 2
|
2月前
|
存储 运维 搜索推荐
运维开发.索引引擎ElasticSearch.倒序索引的概念
运维开发.索引引擎ElasticSearch.倒序索引的概念
42 1
|
3月前
|
索引
Elasticsearch 查看磁盘占用 查看指定索引磁盘占用
【7月更文挑战第2天】Elasticsearch 查看磁盘占用 查看指定索引磁盘占用
|
2月前
|
JSON 自然语言处理 数据库
Elasticsearch从入门到项目部署 安装 分词器 索引库操作
这篇文章详细介绍了Elasticsearch的基本概念、倒排索引原理、安装部署、IK分词器的使用,以及如何在Elasticsearch中进行索引库的CRUD操作,旨在帮助读者从入门到项目部署全面掌握Elasticsearch的使用。
|
2月前
|
自然语言处理 Java 索引
ElasticSearch 实现分词全文检索 - Java SpringBoot ES 索引操作
ElasticSearch 实现分词全文检索 - Java SpringBoot ES 索引操作
34 0
下一篇
无影云桌面