TF-IDF 怎样将用单词权重的向量表示一个文档

简介: TF-IDF 怎样将用单词权重的向量表示一个文档

TF-IDF 是一种将一个文档表示为一个单词权重的向量的方法,它可以反映每个单词在文档中的重要性和区分度。TF-IDF 的计算公式如下:

image.png

image.png

例如,假设我们有以下三个文档:

• 文档 1:This is a good book.

• 文档 2:This is a bad book.

• 文档 3:This book is not good.

我们可以用 TF-IDF 来将每个文档表示为一个单词权重的向量,首先我们需要计算每个单词的 TF 和 IDF 值:

单词 TF(文档 1) TF(文档 2) TF(文档 3) IDF
this 1/5 1/5 1/5 log(3/3) = 0
is 1/5 1/5 1/5 log(3/3) = 0
a 1/5 1/5 0/5 log(3/2) = 0.176
good 1/5 0/5 1/5 log(3/2) = 0.176
bad 0/5 1/5 0/5 log(3/1) = 0.477
book 1/5 1/5 1/5 log(3/3) = 0
not 0/5 0/5 1/5 log(3/1) = 0.477

然后我们可以用 TF-IDF 公式来计算每个单词在每个文档中的权重,例如:

image.png

最后我们可以将每个文档表示为一个由单词权重组成的向量,例如:

• 文档 1:[0, 0, 0.035, 0.035, 0, 0, 0]

• 文档 2:[0, 0, 0.035, 0, 0.095, 0, 0]

• 文档 3:[0, 0, 0, -0.035, -0.095, -0.095]

这样,我们就可以用 TF-IDF 将一个文档表示为一个单词权重的向量

目录
相关文章
|
3月前
|
人工智能 API 开发工具
通过Jina Embeddings模型将文本转换为向量
本文介绍如何通过Jina Embeddings v2模型将文本转换为向量,并入库至向量检索服务DashVector中进行向量检索。
|
PyTorch 算法框架/工具
pytorch 张量,去掉最后一个维度
可以使用 PyTorch 中的 .squeeze() 函数来去掉张量中大小为 1 的维度。如果要删除最后一个维度,可以指定参数 dim=-1,即对最后一个维度进行处理。下面是示例代码:
1016 0
|
算法 数据挖掘 Linux
【文本分类】采用同义词的改进TF-IDF权重的文本分类
【文本分类】采用同义词的改进TF-IDF权重的文本分类
【文本分类】采用同义词的改进TF-IDF权重的文本分类
|
算法 Windows
【文本分类】基于类信息的TF-IDF权重分析与改进
【文本分类】基于类信息的TF-IDF权重分析与改进
259 0
【文本分类】基于类信息的TF-IDF权重分析与改进
TF-IDF及相似度计算
TF-IDF:衡量某个词对文章的重要性由TF和IDF组成 TF:词频(因素:某词在同一文章中出现次数) IDF:反文档频率(因素:某词是否在不同文章中出现) TF-IDF = TF*IDF TF :一个单词在一篇文章出现次数越多越重要 IDF: 每篇文章都出现的单词(如的,你,我,他) ,越不重要
258 0
TF-IDF及相似度计算
|
搜索推荐 索引
空间向量模型和tf-idf
空间向量模型和tf-idf
294 0
空间向量模型和tf-idf
|
机器学习/深度学习 程序员
DL之RNN:基于TF利用RNN实现简单的序列数据类型(DIY序列数据集)的二分类(线性序列&随机序列)
DL之RNN:基于TF利用RNN实现简单的序列数据类型(DIY序列数据集)的二分类(线性序列&随机序列)
DL之RNN:基于TF利用RNN实现简单的序列数据类型(DIY序列数据集)的二分类(线性序列&随机序列)
|
机器学习/深度学习 算法 测试技术
特征工程(三):特征缩放,从词袋到 TF-IDF
字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。
3446 0
|
自然语言处理 算法 机器学习/深度学习
基于Doc2vec训练句子向量
目录 一.Doc2vec原理 二.代码实现 三.总结   一.Doc2vec原理 前文总结了Word2vec训练词向量的细节,讲解了一个词是如何通过word2vec模型训练出唯一的向量来表示的。
3467 0