热词
简单地理解热词就是某文档中出现频率高的且非无用的词语。
朴素的想法
文档由若干词(term)组成,那么很朴素的想法就可以认为文档中某个term出现的次数越多就越可能是高频热词。这样的统计策略就叫Term Frequency,即TF。
干扰项
- 标点符号,一般标点符号没有价值,去掉。
- 停词,停词没有特别的意义,一般也要去掉,比如“是”,“的”,”the”,”that”,”this”等。
词权重
现在可能还存在问题,假如某文档中多个term出现的次数相同,则不好判别他们之间哪个更重要。因为缺少词权重。此权重叫逆文档频率(IDF),某个term的权重可定为:
IDF=log(Tt)
其中,T为统计样本中总文档数,t为包含某term的文档数。
包含该term的文档数越大,说明越不重要。
TF-IDF
有了TF和IDF就可以通过他们一起决定Term的重要性。
- TF为某term在文档出现的次数。
- IDF则按照上面公式计算。
- 则TF-IDF为TF乘以IDF。
IDF统计样本
其实有几种方式来统计IDF。
* 自己收集样本库进行统计。
* 第三方统计好的IDF表。
* 借助百度或谷歌搜索引擎,这种方式不准确。随便取个m值假设为总文档,再搜索某个term得到n条结果,则认为n除以m即为IDF。
====广告时间,可直接跳过====
鄙人的新书《Tomcat内核设计剖析》已经在京东预售了,有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。
=========================
欢迎关注: