如何对热词进行提取

简介: 热词简单地理解热词就是某文档中出现频率高的且非无用的词语。朴素的想法文档由若干词(term)组成,那么很朴素的想法就可以认为文档中某个term出现的次数越多就越可能是高频热词。

热词

简单地理解热词就是某文档中出现频率高的且非无用的词语。

朴素的想法

文档由若干词(term)组成,那么很朴素的想法就可以认为文档中某个term出现的次数越多就越可能是高频热词。这样的统计策略就叫Term Frequency,即TF。

干扰项

  • 标点符号,一般标点符号没有价值,去掉。
  • 停词,停词没有特别的意义,一般也要去掉,比如“是”,“的”,”the”,”that”,”this”等。

词权重

现在可能还存在问题,假如某文档中多个term出现的次数相同,则不好判别他们之间哪个更重要。因为缺少词权重。此权重叫逆文档频率(IDF),某个term的权重可定为:

IDF=log(Tt)

其中,T为统计样本中总文档数,t为包含某term的文档数。

包含该term的文档数越大,说明越不重要。

TF-IDF

有了TF和IDF就可以通过他们一起决定Term的重要性。

  • TF为某term在文档出现的次数。
  • IDF则按照上面公式计算。
  • 则TF-IDF为TF乘以IDF。

IDF统计样本

其实有几种方式来统计IDF。
* 自己收集样本库进行统计。
* 第三方统计好的IDF表。
* 借助百度或谷歌搜索引擎,这种方式不准确。随便取个m值假设为总文档,再搜索某个term得到n条结果,则认为n除以m即为IDF。

====广告时间,可直接跳过====

鄙人的新书《Tomcat内核设计剖析》已经在京东预售了,有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。

=========================

欢迎关注:

这里写图片描述

目录
相关文章
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
417 2
|
XML 弹性计算 网络协议
阿里云ECS+frpc/frps+RDP_CnC 实现内网穿透远程桌面,无公网家庭版Win10台式机变身远程工作站
本文是实操笔记,记录了通过自建内网穿透和解锁 Windows 10 Home 的远程桌面功能,将没有公网 IP 的家用台式机配置成远程工作站的大致过程。在此过程中我练习了简单的 Linux 系统操作,了解了一些实用的服务器工具软件(如文中提到的 frpc/frps 套件与 Windows 系统上的 WinSW 服务封装工具)。
2229 0
|
资源调度
一天掌握latex论文编辑,从标题作者,段落,数学公式,图片,图表,到参考文献全流程
一天掌握latex论文编辑,从标题作者,段落,数学公式,图片,图表,到参考文献全流程
1261 0
|
9月前
|
存储 人工智能 NoSQL
Tablestore深度解析:面向AI场景的结构化数据存储最佳实践
《Tablestore深度解析:面向AI场景的结构化数据存储最佳实践》由阿里云专家团队分享,涵盖Tablestore十年发展历程、AI时代多模态数据存储需求、VCU模式优化、向量检索发布及客户最佳实践等内容。Tablestore支持大规模在线数据存储,提供高性价比、高性能和高可用性,特别针对AI场景进行优化,满足结构化与非结构化数据的统一存储和高效检索需求。通过多元化索引和Serverless弹性VCU模式,助力企业实现低成本、灵活扩展的数据管理方案。
433 12
|
机器学习/深度学习 存储 自然语言处理
大语言模型参数真的必须要万亿以上吗?
本文探讨了大语言模型(LLMs)的发展及其在自然语言处理领域的应用。随着模型规模的不断增大,文章分析了参数规模与性能之间的关系,并展示了不同规模模型的优势与挑战。此外,文中还提供了代码示例,介绍了参数设置的方法。未来研究方向包括模型压缩和多模态学习,以进一步优化模型性能。总之,选择合适的模型规模对于平衡性能和效率至关重要。
|
12月前
|
存储 NoSQL 大数据
大数据中数据存储 (Data Storage)
【10月更文挑战第17天】
1433 2
|
编解码 语音技术
FunASR升级热词定制化问题之热词进行ASR推理如何配置
FunASR升级热词定制化问题之热词进行ASR推理如何配置
885 1
|
机器学习/深度学习 人工智能 算法
技术视界|多模态说话人开源项目3D-Speaker
技术视界|多模态说话人开源项目3D-Speaker
|
负载均衡 安全 Java
Spring Cloud:第五章:Zuul服务网关
Spring Cloud:第五章:Zuul服务网关
317 0
|
缓存 NoSQL Java
【Spring】Cache 缓存配置详解
【Spring】Cache 缓存配置详解
503 0