TF-IDF

简介: TF为"词频",IDF为"逆文档频率",将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

TF为"词频",IDF为"逆文档频率",将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。
算法的细节如下:

第一步,计算词频。

img_3f5b4c6a64690051f3b1c73df0bd968f.png

考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。


img_a368e64ffaff669d968260dd987df25e.png

或者


img_8b64d770a386ce20150defb6ca78491e.png

第二步,计算逆文档频率。

这时,需要一个语料库(corpus),用来模拟语言的使用环境。


img_117549b2719e364e299fd285c0f303b1.png

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

第三步,计算TF-IDF。


img_3905fe940e951d0dbe9b81e19717aeb9.png

可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

需要注意的是,TF-IDF算法只是用来提取关键词的,后面我们需要根据余弦相似度来使用它。

算法如下,然后我知道我该咋做了:
(1)使用TF-IDF算法,找出两篇文章的关键词;

(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);

(3)生成两篇文章各自的词频向量;

(4)计算两个向量的余弦相似度,值越大就表示越相似。

以上内容整理自### 阮一峰的博客

目录
相关文章
|
20天前
|
人工智能 语音技术 流计算
一图掌握通义千问:模型生态与应用场景全览
通义千问(Qwen)系列提供全栈开源AI能力,涵盖语言、视觉、语音等多模态应用。旗舰模型Qwen3-Max性能领先,支持92种语言翻译与高精度语音识别,具备强大代码生成与图像处理能力,助力开发者与企业高效构建智能应用。
271 2
一图掌握通义千问:模型生态与应用场景全览
|
存储 Kubernetes Linux
helm 简介及基本使用
helm 简介及基本使用
3550 0
helm 简介及基本使用
|
24天前
|
人工智能 IDE Java
IntelliJ IDEA 2025.1 完整安装指南:激活 + 中文设置 + 全程丝滑 附安装包
IntelliJ IDEA 2025.1 发布,全面支持 Java 24、默认启用 Kotlin K2 模式,增强 Scala 3 支持。AI 助手免费使用,支持 GPT-4.1、Claude 3.7 等云模型,提升代码补全与多文件编辑能力。调试、终端架构及 Markdown 预览搜索等功能全面优化,开发体验更高效流畅。
356 3
IntelliJ IDEA 2025.1 完整安装指南:激活 + 中文设置 + 全程丝滑 附安装包
|
11月前
|
数据挖掘 BI
大模型时代下的智能数据分析
在大模型时代,智能数据分析成为企业提升效率的关键。2024年,市场逐渐回归应用本质,客户更关注模型如何落地日常业务。瓴羊Quick BI智能小Q助手接入通义千问大模型能力,提供对话式报表搭建、一键换肤美化、智能洞察归因等高效功能,助力企业数字化转型,引领数据消费新范式。
233 4
|
存储 安全 网络安全
蜜罐技术:如何跟踪攻击者的活动
【10月更文挑战第22天】蜜罐是一种用于网络安全的系统,通过模拟漏洞吸引攻击者,记录其行为以研究攻击手法。分为高交互和低交互两种类型,前者提供真实操作系统服务,后者仅模拟部分系统功能。蜜罐有助于收集恶意软件样本,分析攻击者行为,提高网络安全防御。
376 3
|
机器学习/深度学习 人工智能 算法
鱼类识别Python+深度学习人工智能+TensorFlow+卷积神经网络算法
鱼类识别Python+深度学习人工智能+TensorFlow+卷积神经网络算法
366 2
鱼类识别Python+深度学习人工智能+TensorFlow+卷积神经网络算法
|
存储 缓存 移动开发
详细介绍HTML5的离线储存(工作原理+使用场景+真实使用步骤)
详细介绍HTML5的离线储存(工作原理+使用场景+真实使用步骤)
|
存储
408计算机组成原理学习笔记——中央处理器(三)
408计算机组成原理学习笔记——中央处理器
568 1
408计算机组成原理学习笔记——中央处理器(三)
|
数据采集 运维 关系型数据库
1小时迁移500GB 的MySQL数据
NineData 提供的数据复制同时包含了数据迁移和数据同步的能力,在不影响业务的前提下,提供了高效、稳定、可运维的大数据量迁移能力。经实测,在源及目标实例同城情况下,500GB的MySQL数据的迁移,只需 1 个小时,平均迁移速度 142MB/s。
528 1
1小时迁移500GB 的MySQL数据
|
机器学习/深度学习 传感器 编解码
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等