全文搜索怎么给查询语句与文档相关性打分-阿里云开发者社区

全文搜索怎么给查询语句与文档相关性打分

2017-04-01 1067

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 朴素想法用户输入一个查询query，query由若干词（term）组成，文档也由若干词（term）组成。

朴素想法

用户输入一个查询query，query由若干词（term）组成，文档也由若干词（term）组成。那么怎么评判查询和文档的相关性的高低。

很朴素简单的想法就是文档中包含的term与查询query中包含的term，两者越多相同的则说明越相关。比如query为”animal cat”，文档一内容为”cat dog bird animal”，文档二内容为”cat dog bird tiger”，则认为query与文档二的相关性比文档一的高。

词权重

现在缺少词权重，比如一个文档中cat出现次数为2，而dog次数为1，那么cat的权重应该高一些。比如cat在10个文档出现和在1个文档出现也有不同的权重。

一般来说，可以由两方面来影响某文档某term的权重：
1. 该文档词频（term frequency）：该文档出现该term的次数，tf越大说明越重要。
2. 文档词频（document frequency）：包含该term的文档数，df越大说明越不重要，说明它更大众。

于是某个term的权重可定为：

$w_{t} = tf * log(\frac{totalDoc}{df})$

VSM

向量空间模型（VSM）是一个计算俩文本相似性的经典算法。

将文档和query中term的并集看成是n维空间，每个term是一维。
将文档中term的权重看成一个n维向量，不存在的term看成权重为0。
同样将query看成是n维空间，每个term是一维。
同样将query的term的权重看成一个n维向量，不存在的term看成权重为0。

文档权重向量和query权重向量之间的夹角越小则认为相关性越大。于是，

$sim(q,d) = \frac{q\cdot d}{\left \| q \right \| \times \left \| d \right \|}=\frac{\sum_{i=1}^{n} w_{i,q} w_{i,d}}{\sqrt{\sum_{i=1}^{n}w_{i,q}^2} \sqrt{\sum_{i=1}^{n}w_{i,d}^2}}$

干扰项

表单符号，一般标点符号没有价值，去掉。
停词，停词没有特别的意义，一般不能成为搜索的关键词，比如”the”,”that”,”this”等。

去掉这些干扰项可以让VSM降维，提升计算效率和准确度。

文档权重

对于某些文档可能相对重要点，有些文档没这么重要，这时需要额外的权重来表示。于是相关性得分，

$score(q,d) = \frac{\sum_{i=1}^{n} w_{i,q} w_{i,d}}{\sqrt{\sum_{i=1}^{n}w_{i,q}^2} \sqrt{\sum_{i=1}^{n}w_{i,d}^2}} \times boost$

比如文档一的权重设为1.1，文档二的权重设为1.0，则通过这个权重系数可以向整体分数表达出来。

标准化

前面计算词权重时存在一个问题，文档出现某term次数越多则说明它的权重越大，那么是不是可以说一个包含了1000个term的文档出现了2次cat，就比一个包含了10个term的文档出现了1次cat权重大？于是需要引入标准化来解决这个问题，

$w_{t} = tf * log(\frac{totalDoc}{df}) * \frac{1}{\sqrt{totalTerm}}$

通过标准化后减少了文档长度的影响。

========广告时间========

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了，有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================
欢迎关注：

这里写图片描述

全文搜索怎么给查询语句与文档相关性打分

朴素想法

词权重

VSM

干扰项

文档权重

标准化

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

全文搜索怎么给查询语句与文档相关性打分

朴素想法

词权重

VSM

干扰项

文档权重

标准化

热门文章

最新文章

相关电子书