[ElasticSearch]倒排索引

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表,以及对于每个单词在文档中的位置组成( An inverted index consists of a list of all the unique words that appear in any document, and for each word, a list of the documents in which it appears)。

Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速全文搜索。倒排索引由在文档中出现的唯一的单词列表,以及对于每个单词在文档中的位置组成( An inverted index consists of a list of all the unique words that appear in any document, and for each word, a list of the documents in which it appears)。

例如,我们有两个文档,每个文档都有一个content字段,内容如下:

 
 
  1. The quick brown fox jumped over the lazy dog
  2. Quick brown foxes leap over lazy dogs in summer

为了创建倒排索引,我们首先切分每个文档的content字段为单独的单词(我们把它们叫做词项(terms)或者词条(tokens)),把所有的唯一词项terms放入列表中并排序,并列出每个词项出现在哪些文档中,结果是这个样子的:


现在,如果我们想搜索"quick brown",我们只需要找到每个词在哪个文档中出现即可:


两个文档都匹配,但是第一个比第二个有更多的匹配项。 如果我们使用一个简单的相似度算法(similarity algorithm),只是计算匹配单词的数目,这样我们就可以说第一个文档比第二个匹配度更高——对于我们的查询具有更多相关性。

但是在我们的倒排索引中还有些问题:

(1)"Quick"和"quick"被认为是不同的单词,但是用户可能认为它们是相同的。

(2)"fox"和"foxes"很相似,就像"dog"和"dogs",它们都是同根词。

(3)"jumped"和"leap"不是同根词,但意思相似,它们是同义词。

上面的索引中,搜索"+Quick +fox"不会匹配任何文档(前缀+表示单词必须匹配到)。"Quick"和"fox"都在同一文档中才可以匹配查询,但是第一个文档中只包含fox",不包含"Quick"(虽然包含"quick"),而第二个文档中只包含"Quick",不包含"fox"(虽然包含" foxes")。用户可以合理地希望两个文档都能匹配查询,我们也可以做得更好。

如果我们将词为统一为标准格式,这样就可以找到不是确切匹配查询,但是足以相似从而可以关联的文档。例如:

(1)"Quick"可以转为小写成为"quick"。

(2)"foxes"可以被转为根形式"fox"。同理"dogs"可以被转为"dog"。

(3)"jumped"和"leap"同义就可以只索引为单个词"jump"



现在索引:


但我们还未成功。我们的搜索"+Quick +fox"依旧失败,因为"Quick"的确切值已经不在索引里,不过,如果我们使用相同的标准化规则处理查询字符串的content字段,查询将变成"+quick +fox",这样就可以匹配到两个文档。

这个标准化的过程叫做分词(analysis)。


参考:https://www.elastic.co/guide/en/elasticsearch/guide/current/inverted-index.html


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
6月前
|
存储 算法 搜索推荐
Elasticsearch 的倒排索引
Elasticsearch 的倒排索引
58 2
|
6月前
|
存储 缓存 自然语言处理
【Elasticsearch专栏 05】深入探索:Elasticsearch在处理非结构化数据时,倒排索引有何优势
在处理非结构化数据时,倒排索引的优势在于其高效的查询性能,能够迅速匹配文本中的关键词,实现全文搜索。此外,倒排索引支持复杂的查询操作,可扩展性强,且通过压缩技术优化存储空间。这些特点使倒排索引成为处理非结构化数据的理想选择。
124 1
|
6月前
|
存储 自然语言处理 搜索推荐
【Elasticsearch专栏 01】深入探索:Elasticsearch的正向索引和倒排索引是什么?
正向索引根据文档ID直接查找文档内容,适用于精确匹配场景;而倒排索引则基于文档内容构建,通过关键词快速定位相关文档,适用于全文搜索,显著提高查询效率,是搜索引擎的核心技术。
84 2
|
13天前
|
存储 自然语言处理 数据库
Elasticsearch倒排索引
【11月更文挑战第2天】
23 1
|
24天前
|
测试技术 API 开发工具
ElasticSearch核心概念:倒排索引
ElasticSearch核心概念:倒排索引
52 6
|
4月前
|
存储 缓存 自然语言处理
【Elasticsearch】Elasticsearch倒排索引详解
【Elasticsearch】Elasticsearch倒排索引详解
172 12
|
5月前
|
存储 JSON 自然语言处理
技术经验分享:Elasticsearch倒排索引结构
技术经验分享:Elasticsearch倒排索引结构
42 0
|
5月前
|
存储 自然语言处理 NoSQL
深入解析Elasticsearch的内部数据结构和机制:行存储、列存储与倒排索引之倒排索引(三)
深入解析Elasticsearch的内部数据结构和机制:行存储、列存储与倒排索引之倒排索引(三)
|
5月前
|
存储 自然语言处理 NoSQL
深入解析Elasticsearch的内部数据结构和机制:行存储、列存储与倒排索引之列存(二)
深入解析Elasticsearch的内部数据结构和机制:行存储、列存储与倒排索引之列存(二)
|
5月前
|
存储 JSON NoSQL
深入解析Elasticsearch的内部数据结构和机制:行存储、列存储与倒排索引之行存(一)
深入解析Elasticsearch的内部数据结构和机制:行存储、列存储与倒排索引之行存(一)
下一篇
无影云桌面