一个未经处理的数据库中,一般是以文档 ID 作为索引,以文档内容作为记录。
而 Inverted index 指的是将单词或记录作为索引,将文档 ID 作为记录,这样便可以方便地通过单词或记录查找到其所在的文档。所以说,倒排适合全文检索的情况。
倒排索引, 其实和我们人脑搜索信息的过程是类似的。
我们人脑对于信息和数据存在大脑里, 不会有编号的。 不会说拿出一个编号为10 的文章内容。
我们是通过一句话的关键字, 通过关键字找我们之前大脑里面和关键字有关系的内容,可能是一些小片段。 但关键字和这些小片段的联系是事先建立好的,在我们的大脑里。 而这些小片段我们可以把它们看作更丰富内容的标题。 通过这些标题,好像提示一样, 我们可以联想起更多的内容。
有 ID 什么事呢? 没有 ID.
Reference:
https://zhuanlan.zhihu.com/p/37638693