备案控制台

开发者社区

开发者社区云计算文章正文

TF-IDF 怎样将用单词权重的向量表示一个文档

2023-12-20 27

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： TF-IDF 怎样将用单词权重的向量表示一个文档

TF-IDF 是一种将一个文档表示为一个单词权重的向量的方法，它可以反映每个单词在文档中的重要性和区分度。TF-IDF 的计算公式如下：

例如，假设我们有以下三个文档：

• 文档 1：This is a good book.

• 文档 2：This is a bad book.

• 文档 3：This book is not good.

我们可以用 TF-IDF 来将每个文档表示为一个单词权重的向量，首先我们需要计算每个单词的 TF 和 IDF 值：

单词	TF(文档 1)	TF(文档 2)	TF(文档 3)	IDF
this	1/5	1/5	1/5	log(3/3) = 0
is	1/5	1/5	1/5	log(3/3) = 0
a	1/5	1/5	0/5	log(3/2) = 0.176
good	1/5	0/5	1/5	log(3/2) = 0.176
bad	0/5	1/5	0/5	log(3/1) = 0.477
book	1/5	1/5	1/5	log(3/3) = 0
not	0/5	0/5	1/5	log(3/1) = 0.477

然后我们可以用 TF-IDF 公式来计算每个单词在每个文档中的权重，例如：

最后我们可以将每个文档表示为一个由单词权重组成的向量，例如：

• 文档 1：[0, 0, 0.035, 0.035, 0, 0, 0]

• 文档 2：[0, 0, 0.035, 0, 0.095, 0, 0]

• 文档 3：[0, 0, 0, -0.035, -0.095, -0.095]

这样，我们就可以用 TF-IDF 将一个文档表示为一个单词权重的向量

孙庚辛

目录

相关文章

向量检索服务DashVector

|

3月前

|

人工智能 API 开发工具

通过Jina Embeddings模型将文本转换为向量

本文介绍如何通过Jina Embeddings v2模型将文本转换为向量，并入库至向量检索服务DashVector中进行向量检索。

向量检索服务DashVector

91 7 7

是陈过过啊

|

PyTorch 算法框架/工具

pytorch 张量，去掉最后一个维度

可以使用 PyTorch 中的 .squeeze() 函数来去掉张量中大小为 1 的维度。如果要删除最后一个维度，可以指定参数 dim=-1，即对最后一个维度进行处理。下面是示例代码：

是陈过过啊

1016 0 0

征途黯然。

|

算法数据挖掘 Linux

【文本分类】采用同义词的改进TF-IDF权重的文本分类

【文本分类】采用同义词的改进TF-IDF权重的文本分类

征途黯然。

76 0 0

【文本分类】采用同义词的改进TF-IDF权重的文本分类

征途黯然。

|

算法 Windows

【文本分类】基于类信息的TF-IDF权重分析与改进

【文本分类】基于类信息的TF-IDF权重分析与改进

征途黯然。

259 0 0

【文本分类】基于类信息的TF-IDF权重分析与改进

GoAlaaa

TF-IDF及相似度计算

TF-IDF：衡量某个词对文章的重要性由TF和IDF组成 TF：词频(因素：某词在同一文章中出现次数) IDF：反文档频率(因素：某词是否在不同文章中出现) TF-IDF = TF*IDF TF ：一个单词在一篇文章出现次数越多越重要 IDF: 每篇文章都出现的单词(如的，你，我，他) ，越不重要

GoAlaaa

258 0 0

致Great_VIP

|

搜索推荐索引

空间向量模型和tf-idf

空间向量模型和tf-idf

致Great_VIP

294 0 0

一个处女座的程序猿

|

机器学习/深度学习程序员

DL之RNN：基于TF利用RNN实现简单的序列数据类型(DIY序列数据集)的二分类(线性序列&随机序列)

DL之RNN：基于TF利用RNN实现简单的序列数据类型(DIY序列数据集)的二分类(线性序列&随机序列)

一个处女座的程序猿

166 0 0

DL之RNN：基于TF利用RNN实现简单的序列数据类型(DIY序列数据集)的二分类(线性序列&随机序列)

技术小能手

|

机器学习/深度学习算法测试技术

特征工程(三):特征缩放,从词袋到 TF-IDF

字袋易于生成，但远非完美。假设我们平等的统计所有单词，有些不需要的词也会被强调。在第三章提过一个例子，Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中，“Eama”和“raven”都出现了3词，但是“the”的出现高达8次，“and”出现了次，另外“it”以及“was”也都出现了4词。

技术小能手

3446 0 0

磐石001

|

自然语言处理算法机器学习/深度学习

基于Doc2vec训练句子向量

目录一.Doc2vec原理二.代码实现三.总结一.Doc2vec原理前文总结了Word2vec训练词向量的细节，讲解了一个词是如何通过word2vec模型训练出唯一的向量来表示的。

磐石001

3467 0 0

泳泳啊泳泳

|

算法 C#

TF-IDF与余弦相似性的应用（三）：自动摘要

泳泳啊泳泳

1327 0 0

热门文章

最新文章

解决关于Windows Defender Antivirus Service自启造成运行python程序时，Windows的cpu和内存占用过高问题

订票系统不再瘫痪阿里云确认与12306合作

iOS - 手动下架的应用后快速恢复上架

du 和 df以及lsof

库克：苹果不是只做富人生意，还一直坚持让世界变得更好

WiGig无线标准正式开始提供验证最高可达8Gbps

IBM推出新的16位量子处理器

Android:随笔——对页面的View进行截图

shell MAC 地址校验

【系统优化】数据库系统load飙高问题解决思路

DataWorks产品使用合集之DataWorks中，如果一个虚拟节点被设置为冻结状态，那么它的所有子节点也将被冻结如何解决

DataWorks产品使用合集之DataWorks发布任务的方法如何解决

DataWorks产品使用合集之DataWorks中，配置DataHub数据源如何解决

Nacos 1.4.1核心功能组件及使用入门

DataWorks产品使用合集之在 DataWorks 中，有一个 MySQL 数据表，数据量非常大且数据会不断更新将这些数据同步到 DataWorks如何解决

基于直方图的图像阈值计算和分割算法FPGA实现,包含tb测试文件和MATLAB辅助验证

DataWorks产品使用合集之在DataWorks中，要实现MySQL数据源的增量同步如何解决

相关电子书

更多

WordRank embedding:"crowned"is

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考