全文索引 排名计算问题

简介: 排名计算问题 计算排名的过程,取决于一系列因素。不同语言的断字符对文本进行的词汇切分也不同。例如,字符串“dog-house”可以被一种断字符断为“dog”和“house”而被另一种断字符断为“dog-house”。

排名计算问题

计算排名的过程,取决于一系列因素。不同语言的断字符对文本进行的词汇切分也不同。例如,字符串“dog-house”可以被一种断字符断为“dog”和“house”而被另一种断字符断为“dog-house”。这意味着匹配和排名将根据所指定语言而有所不同,因为不仅词不同,而且文档长度也不同。文档长度的差异可能会影响所有查询的排名。

诸如 IndexRowCount 之类的统计信息可能会大不相同。例如,如果一个目录的主索引有二十亿行,那么对一个新文档的索引将被编制为内存中的中间索引,而基于该内存中索引内的文档数对该文档的排名可能与主索引中的文档排名不同。因此,建议在完成产生大量要创建索引或重新创建索引的行的任意填充后,使用 ALTER FULLTEXT CATALOG ... REORGANIZE Transact-SQL 语句将这些索引合并为一个主索引。全文引擎也会根据参数(例如中间索引的数目和大小)自动合并索引。

MaxOccurrence 值被规范化到 32 个范围的其中一个内。这意味着,比方说,50 个词长的文档与 100 个词长的文档的处理方式相同。下面是用于规范化的表。由于这两个文档的长度位于相邻表值 32 与 128 之间的范围内,因此将认为它们具有相同的有效长度 128 (32 < docLength <= 128)。

复制代码
{ 16, 32, 128, 256, 512, 725, 1024, 1450, 2048, 2896, 4096, 5792, 8192, 11585, 
16384, 23170, 28000, 32768, 39554, 46340, 55938, 65536, 92681, 131072, 185363, 
262144, 370727, 524288, 741455, 1048576, 2097152, 4194304 };

CONTAINSTABLE 排名

排名使用以下算法:

复制代码
StatisticalWeight = Log2( ( 2 + IndexedRowCount ) / KeyRowCount )
Rank = min( MaxQueryRank, HitCount * 16 * StatisticalWeight / MaxOccurrence )

短语匹配项的排名方式与各个键类似,只不过要估计 KeyRowCount(包含该短语的行数),并且此值可能会比实际值大。

ISABOUT 排名

CONTAINSTABLE 使用 ISABOUT 选项支持查询加权词。按照传统信息检索系统的说法,ISABOUT 表示向量空间查询。所使用的默认排名算法为广为人知的公式 Jaccard。将根据查询中的每个词计算排名,然后按如下描述将这些排名相结合。

复制代码
ContainsRank = same formula used for CONTAINSTABLE ranking of a single term (above).
Weight = the weight specified in the query for each term. Default weight is 1.
WeightedSum = Σ[key=1 to n] ContainsRankKey * WeightKey
Rank =  ( MaxQueryRank * WeightedSum ) / ( ( Σ[key=1 to n] ContainsRankKey^2 ) 
      + ( Σ[key=1 to n] WeightKey^2 ) - ( WeightedSum ) )

FREETEXTTABLE 排名

排名基于 OKAPI BM25 排名公式计算。FREETEXTTABLE 查询将通过派生词(原始查询词的变形)向查询中添加词,这些词将被作为单独的、与派生出它们的词没有特殊联系的词来处理。同义词库功能派生出的同义词将被当作单独的、具有同等加权值的词来处理。查询中的每个词都会对排名产生影响。

复制代码
Rank = Σ[Terms in Query] w ( ( ( k1 + 1 ) tf ) / ( K + tf ) ) * ( ( k3 + 1 ) qtf / ( k3 + qtf ) ) )
Where: 
w is the Robertson-Sparck Jones weight. 
In simplified form, w is defined as: 
w = log10 ( ( ( r + 0.5 ) * ( N – R + r + 0.5 ) ) / ( ( R – r + 0.5 ) * ( n – r + 0.5 ) )
N is the number of indexed rows for the property being queried. 
n is the number of rows containing the word. 
K is ( k1 * ( ( 1 – b ) + ( b * dl / avdl ) ) ). 
dl is the property length, in word occurrences. 
avdl is the average length of the property being queried, in word occurrences. 
k1, b, and k3 are the constants 1.2, 0.75, and 8.0, respectively. 
tf is the frequency of the word in the queried property in a specific row. 
qtf is the frequency of the term in the query. 
目录
相关文章
|
6月前
|
搜索推荐 算法 数据库
正排索引 vs 倒排索引 - 搜索引擎具体原理
正排索引 vs 倒排索引 - 搜索引擎具体原理
162 4
|
自然语言处理 算法 Java
11Lucene相关度排序
11Lucene相关度排序
56 0
|
算法 数据挖掘
白话Elasticsearch46-深入聚合数据分析之Cardinality Aggs-cardinality去重算法以及每月销售品牌数量统计
白话Elasticsearch46-深入聚合数据分析之Cardinality Aggs-cardinality去重算法以及每月销售品牌数量统计
138 0
|
存储 缓存 NoSQL
TairSearch:加速多列索引查询
互联网及传统行业应用服务的关键数据一般存储在MySQL这类的关系型数据库中。如需缓解数据库访问压力,可引入Redis等缓存系统承担热数据的查询,以此提升查询效能。然而业务场景如果是在数据库上做随意多列组合索引查询或者like模糊匹配查询,使用普通的KV缓存系统并不能完全承载住,往往需要引入lua或者外部计算等额外的联合查询匹配过滤机制。TairSearch是一个实时全内存检索服务,其核心的倒排索引
312 1
TairSearch:加速多列索引查询
|
搜索推荐 关系型数据库 测试技术
PostgreSQL 全表 全字段 模糊查询的毫秒级高效实现 - 搜索引擎也颤抖了
标签 PostgreSQL , 分词 , 全文检索 , 全字段检索 , 任意字段检索 , 下拉框选择 , 搜索引擎 背景 在一些应用程序中,可能需要对表的所有字段进行检索,有些字段可能需要精准查询,有些字段可能需要模糊查询或全文检索。 比如一些前端页面下拉框的勾选和选择。 这种需求对于
14678 0
|
SQL 关系型数据库 数据库
普通索引和唯一索引,你该如何选择?
大家好前面我们大概了解了事务视图隔离的问题。今天介绍一下索引的选择性问题。通过索引的选择提高处理性能!
普通索引和唯一索引,你该如何选择?
|
算法 Java 网络架构
【转】Lucene4.0 模糊查询100倍提升的背后
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。
344 0
|
自然语言处理 搜索推荐 算法
搜索引擎相关性计算
计算相关性是排名过程中最重要的一步。相关性计算是搜索引擎算法中最令SEO感兴趣的部分。 影响相关性的主要因素包括以下几方面。 (1)关键词常用程度。经过分词后的多个关键词,对整个搜索字符串的意义贡献并不相同。越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。 (2)关键词位置及形式。就像在索引部分中提到的,页面关键词出现的格式和位置都被记录在索引库中。关键词出现在比较重要的位置,如标题标签、黑体、H1等,说明页面与关键词越相关。这一部分就是页面SEO所要解决的。
297 0
|
搜索推荐 算法 UED
快速排名效果真的那么好吗?原来还需要这样操作
今天小峰博客在这里继续和大家来说说关于快速排名,很多做seo人员或者需要seo的企业都会对于快速排名很感兴趣,原因就在于可以快速地帮企业解决关于他们的网站的产品可以让更多的人熟知,这样就可以快速的提升企业的转化情况,因为每一个企业都是不能等待一个网站长久的没有任何的排名,从而不能为公司带来大的价值,那么快速排名效果真的有那么好吗?其实快速排名如果想要达到比较好的效果也是需要有条件的,因为搜索引擎中的关键词排名算法是从多方面来计算得分的,当一个网站具备多方面维度优质了,才会提升网站关键词排名。
235 0
快速排名效果真的那么好吗?原来还需要这样操作
|
SQL 关系型数据库 数据库
PostgreSQL 设计优化case - 大宽表任意字段组合查询索引如何选择(btree, gin, rum) - (含单个索引列数超过32列的方法)
标签 PostgreSQL , adhoc查询 , 大宽表 , 任意字段组合查询 , 索引 , btree , gin , rum 背景 大宽表,任意字段组合查询,透视。是实时分析系统中的常见需求: 1、实时写入。
2676 0