tf*idf
tf*idf,term frequency * inverse document frequency,词频 *逆向文档频率。
1.思想
TF-IDF是一种统计方法,用于评估某个词语在文档集合中的重要程度。
如果某个词语term在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词语具有很好的文档分类能力。
2.公式
tfij=termi在docj中的出现频次docj中的总词数,表示词语i在文档j中的频率。
idfi=lg(文档总数包含词语i的文档数),含有词语i的文档数越少,则此项得分最高。
tf∗idfi=idfi∗∑j文档数ntfij,得分越高表示词语i对文章的分类能力越强。
3.用途
文本分类中的特征提取。