倒排索引的数据结构：Term index、Term Dictionary、Posting List

2022-11-18 859

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 倒排索引的数据结构：Term index、Term Dictionary、Posting List

2、倒排索引的数据结构

倒排索引其实包含了三种数据，分别是

倒排表（Posting List）
词项字典（Term Dictionary）
词项索引（Term Index）

这几种文件分别存储了不同的数据

其中倒排表包含某个词项的所有id的数据存储了在.doc文件中；

词项字典包含了index field的所有经过normalization token filters处理之后的词项数据，最终存储在.tim文件中。

所谓normalization其实是一个如去重、时态统一、大小写统一、近义词处理等类似的相关操作；词项索引就是为了加速词项字典检索的一种数据结构，落地文件为.tip。.tip文件和.tim文件的数据结构如下图所示：

Lucene中通过FST Index信息来读取当前域在索引文件.tim的具体信息，而同一个索引所有域的FSTIndex都被连续的写入在同一个.tip文件中，所以就需要indexStartFP 来索引 FSTIndex。

FSTIndex底层是一个字节数组，存储了每个Block在.tim中的起始位置，如上图所示，Block f和Block g对应的Block分别被保存在了.tim文件的Block 0和Block 1的位置。

每个Block内部又保存了Block Header、Suffix和Stats信息以及Metadatas信息，其中Block Header中存储了当前Block中的Pending Block和Pending Term的总计数，也就是EntryCount，Sufix则是保存了当前Block后缀的个数以及分别是什么，如block b的SufixLength=2，为f、g。Stats则保存了当前Term的词频和文档频率，参见org.apache.lucene.index.TermsEnum.TermStats。

其中docFreq为包含当前Term的doc数量，totalTermFreq为当前term在所有文档中的当前字段中出现的总次数，但实际保存的是和docFreq的差值，这也是遵循通用最小化算法的法则表现。需要注意的是，两者均是指在同一个域内的计数。Metadatas这里不着重介绍。

关于倒排表的文件结构，我们仅需知道其内部存储了包含Term的id数组、词频、postion、payload、offset等信息，需要重点注意的是ES内部采用怎样的压缩算法。这一点在下一节内容展开来讲。

倒排索引的数据结构：Term index、Term Dictionary、Posting List

2、倒排索引的数据结构

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

倒排索引的数据结构：Term index、Term Dictionary、Posting List

2、倒排索引的数据结构

热门文章

最新文章

相关课程

相关电子书