TF-IDF 怎样将用单词权重的向量表示一个文档

简介: TF-IDF 怎样将用单词权重的向量表示一个文档

TF-IDF 是一种将一个文档表示为一个单词权重的向量的方法,它可以反映每个单词在文档中的重要性和区分度。TF-IDF 的计算公式如下:

image.png

image.png

例如,假设我们有以下三个文档:

• 文档 1:This is a good book.

• 文档 2:This is a bad book.

• 文档 3:This book is not good.

我们可以用 TF-IDF 来将每个文档表示为一个单词权重的向量,首先我们需要计算每个单词的 TF 和 IDF 值:

单词 TF(文档 1) TF(文档 2) TF(文档 3) IDF
this 1/5 1/5 1/5 log(3/3) = 0
is 1/5 1/5 1/5 log(3/3) = 0
a 1/5 1/5 0/5 log(3/2) = 0.176
good 1/5 0/5 1/5 log(3/2) = 0.176
bad 0/5 1/5 0/5 log(3/1) = 0.477
book 1/5 1/5 1/5 log(3/3) = 0
not 0/5 0/5 1/5 log(3/1) = 0.477

然后我们可以用 TF-IDF 公式来计算每个单词在每个文档中的权重,例如:

image.png

最后我们可以将每个文档表示为一个由单词权重组成的向量,例如:

• 文档 1:[0, 0, 0.035, 0.035, 0, 0, 0]

• 文档 2:[0, 0, 0.035, 0, 0.095, 0, 0]

• 文档 3:[0, 0, 0, -0.035, -0.095, -0.095]

这样,我们就可以用 TF-IDF 将一个文档表示为一个单词权重的向量

目录
相关文章
|
5月前
文档的词频-反向文档频率(TF-IDF)计算
文档的词频-反向文档频率(TF-IDF)计算
43 5
|
算法 数据挖掘 Linux
【文本分类】采用同义词的改进TF-IDF权重的文本分类
【文本分类】采用同义词的改进TF-IDF权重的文本分类
126 0
【文本分类】采用同义词的改进TF-IDF权重的文本分类
|
算法 Windows
【文本分类】基于类信息的TF-IDF权重分析与改进
【文本分类】基于类信息的TF-IDF权重分析与改进
357 0
【文本分类】基于类信息的TF-IDF权重分析与改进
|
机器学习/深度学习 自然语言处理 算法
【文本分类】基于改进TF-IDF特征的中文文本分类系统
【文本分类】基于改进TF-IDF特征的中文文本分类系统
250 0
【文本分类】基于改进TF-IDF特征的中文文本分类系统
|
PyTorch 算法框架/工具
pytorch 张量,去掉最后一个维度
可以使用 PyTorch 中的 .squeeze() 函数来去掉张量中大小为 1 的维度。如果要删除最后一个维度,可以指定参数 dim=-1,即对最后一个维度进行处理。下面是示例代码:
1324 0
TF-IDF及相似度计算
TF-IDF:衡量某个词对文章的重要性由TF和IDF组成 TF:词频(因素:某词在同一文章中出现次数) IDF:反文档频率(因素:某词是否在不同文章中出现) TF-IDF = TF*IDF TF :一个单词在一篇文章出现次数越多越重要 IDF: 每篇文章都出现的单词(如的,你,我,他) ,越不重要
397 0
TF-IDF及相似度计算
|
搜索推荐 索引
空间向量模型和tf-idf
空间向量模型和tf-idf
360 0
空间向量模型和tf-idf
|
机器学习/深度学习 自然语言处理 算法
词向量Word Embedding原理及生成方法
如何更深入地理解以及快速上手生成Word Embedding呢?本文对Word Embedding原理和生成方法进行了讲解。
1071 0
词向量Word Embedding原理及生成方法
|
自然语言处理 Python
python scikit-learn计算tf-idf词语权重
  Python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记 1 安装scikit-learn包 [python] view plain copy   sudo pip install scikit-learn   2 中文分词采用的jieba分词,安装jieba分词包
8560 0
|
机器学习/深度学习 算法 测试技术
特征工程(三):特征缩放,从词袋到 TF-IDF
字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。
3486 0