TF-IDF 怎样将用单词权重的向量表示一个文档

简介: TF-IDF 怎样将用单词权重的向量表示一个文档

TF-IDF 是一种将一个文档表示为一个单词权重的向量的方法,它可以反映每个单词在文档中的重要性和区分度。TF-IDF 的计算公式如下:

image.png

image.png

例如,假设我们有以下三个文档:

• 文档 1:This is a good book.

• 文档 2:This is a bad book.

• 文档 3:This book is not good.

我们可以用 TF-IDF 来将每个文档表示为一个单词权重的向量,首先我们需要计算每个单词的 TF 和 IDF 值:

单词 TF(文档 1) TF(文档 2) TF(文档 3) IDF
this 1/5 1/5 1/5 log(3/3) = 0
is 1/5 1/5 1/5 log(3/3) = 0
a 1/5 1/5 0/5 log(3/2) = 0.176
good 1/5 0/5 1/5 log(3/2) = 0.176
bad 0/5 1/5 0/5 log(3/1) = 0.477
book 1/5 1/5 1/5 log(3/3) = 0
not 0/5 0/5 1/5 log(3/1) = 0.477

然后我们可以用 TF-IDF 公式来计算每个单词在每个文档中的权重,例如:

image.png

最后我们可以将每个文档表示为一个由单词权重组成的向量,例如:

• 文档 1:[0, 0, 0.035, 0.035, 0, 0, 0]

• 文档 2:[0, 0, 0.035, 0, 0.095, 0, 0]

• 文档 3:[0, 0, 0, -0.035, -0.095, -0.095]

这样,我们就可以用 TF-IDF 将一个文档表示为一个单词权重的向量

目录
相关文章
|
负载均衡 前端开发 算法
聊聊高并发应用中电商秒杀场景的方案实现
聊聊高并发应用中电商秒杀场景的方案实现
581 0
|
自然语言处理 IDE 开发工具
通义灵码编程智能体上线,支持Qwen3模型
通义灵码最全使用指南,一键收藏。
128768 31
通义灵码编程智能体上线,支持Qwen3模型
|
vr&ar 图形学 UED
电子沙盘VR模型大屏平板手机微信使用方案
数字孪生电子沙盘和VR模型被广泛应用在房地产等行业,为不同设备定制不同版本的模型是常见做法。然而,通过实时云渲染技术,可以将PC端的VR模型转化为网页版,使用户能够在平板或手机上流畅浏览详细信息,无需开发多个版本。这不仅提升了用户体验,还简化了模型提供商的工作流程,降低了成本。尤其在新楼盘发布时,可通过公众号或广告链接快速吸引潜在客户。成本主要取决于并发用户数及显卡性能要求,但该技术显著提高了跨设备访问的便利性。
226 1
|
存储 Oracle 关系型数据库
PACS源码,C#语言数字医学影像系统成品源码
**数字医学影像系统(RIS/PACS)**采用C#开发,基于C/S架构,配Oracle数据库,具备自主版权,适用于项目实施。系统包含分诊、超声、放射、内镜、病理等工作站,支持基本信息维护、报表查询和系统维护。功能亮点有:WorkList管理、影像采集传输、存储检索、图像处理、多序列浏览、流程控制、报告录入与审核、支持多种影像设备及高级影像处理。RIS与PACS数据库同步,并集成HIS、电子病历等系统接口。全面遵循DICOM3.0标准。
207 1
PACS源码,C#语言数字医学影像系统成品源码
|
11月前
|
机器学习/深度学习 安全 数据挖掘
Swift语言的应用场景非常广泛
Swift语言的应用场景非常广泛
357 4
|
缓存 JavaScript 安全
浅谈 Vue 3 的 Proxy 代理为什么使用了 Reflect
浅谈 Vue 3 的 Proxy 代理为什么使用了 Reflect
|
人工智能 自动驾驶 算法
本地生活技术雷达——生成式AI(Generative AI)在阿里本地生活的应用与思考
本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的,定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判,提出新技术布局建议,在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。 本篇尝试探讨 1)理解AI范式——从分析型(Analytical AI)到生成式(Generative AI)的拐点在2022年,其对人类社会以及商业模式的长期影响; 2)生成式AI(文生文、文生图、图生图等)在本地业务目前场景的应用和未来的方向。 欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞!
39945 8
|
设计模式 安全 Java
Java面试题:请列举三种常用的设计模式,并分别给出在Java中的应用场景?请分析Java内存管理中的主要问题,并提出相应的优化策略?请简述Java多线程编程中的常见问题,并给出解决方案
Java面试题:请列举三种常用的设计模式,并分别给出在Java中的应用场景?请分析Java内存管理中的主要问题,并提出相应的优化策略?请简述Java多线程编程中的常见问题,并给出解决方案
267 0
uniCloud 云对象
uniCloud 云对象
180 0
|
XML 监控 网络架构
技术心得记录:动环监控系统中B接口的实现
技术心得记录:动环监控系统中B接口的实现
368 0