机器学习|TF-IDF算法(原理及代码实现)

简介: TFIDF算法的原理及其代码实现。

TF-IDF的概念

TF-IDF是Term Frequency -  Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。

TF策略我在之前的高频词提取文章中进行过使用,TF用来表示词频,也就是某个词在文章中出现的总次数,也就是:

TF=某个词在文章中出现的总次数

但是考虑到每篇文章的长短是不同的,所以我们可以把上述内容进行一个标准化:

TF=某个词在文章中出现的总次数/文章的总词数

IDF用来表示逆文档频率,所谓逆文档频率其实是用来反映一个词在所有文档中出现的频率,当一个词在很多文档中出现的时候,其所对应的IDF值也应该变低,当一个词在很少的文档中出现的时候,其所对应的IDF值就会变高,用一个式子来表述一下:

IDF=log(语料库中的文档总数/(包含该词的文档数+1))

在这里我们+1的目的是为了当没有词语在文档中时来避免分母为0。

现在我们知道了TF,IDF分别代表什么,那么我们也可以得到TF-IDF:

TF-IDF=TF*IDF

并且根据上述的性质我们可以得出:TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语料库中的出现次数成反比。

TF-IDF的实现

我们了解了TF-IDF代表什么之后,下面我们来用不同的方式来实现一下该算法。

一、使用gensim来计算TF-IDF

首先我们来设定一个语料库并进行分词处理:

# 建立一个语料库corpus= [
"what is the weather like today",
"what is for dinner tonight",
"this is a question worth pondering",
"it is a beautiful day today"]
# 进行分词words= []
foriincorpus:
words.append(i.split(" "))
print(words)

image.gif

得到的结果如下:

image.png

接下来我们来计算一下每个词语在当前文档中出现的次数:

# 给每一个词一个ID并统计每个词在当前文档中出现的次数dic=corpora.Dictionary(words)
new_corpus= [dic.doc2bow(text) fortextinwords]
print(new_corpus)
print(dic.token2id)

image.gif

得到的结果如下:

image.png

doc2bow函数主要用于让dic中的内用变为bow词袋模型,其中每个括号中的第一个数代表词的ID第二个数代表在当前文档中出现的次数。(可能例子选择的不佳,这里每个词出现的次数都为1)

token2id主要用于输出一种字典类型的数据,其数据格式为:{词,对应的单词id}

如果是id2token则为:{单词id,对应的词},这里用那种形式都可以。

然后我们要训练gensim模型并保存,并加以测试:

# 训练模型并保存tfidf=models.TfidfModel(new_corpus)
tfidf.save("my_model.tfidf")
# 载入模型tfidf=models.TfidfModel.load("my_model.tfidf")
# 使用训练好的模型计算TF-IDF值string="i like the weather today"string_bow=dic.doc2bow(string.lower().split())
string_tfidf=tfidf[string_bow]
print(string_tfidf)

image.gif

结果如下:

image.png

由结果我们可以看出训练出来的结果左边是词的ID右边是词的tfidf值,但是对于我们在训练模型时没有训练到的词,在结果中别没有显示出来。

二、sklearn来计算TF-IDF

sklearn使用起来要比gensim方便的多,主要用到了sklearn中的TfidfVectorizer:

fromsklearn.feature_extraction.textimportTfidfVectorizercorpus= [
"what is the weather like today",
"what is for dinner tonight",
"this is a question worth pondering",
"it is a beautiful day today"]
tfidf_vec=TfidfVectorizer()
# 利用fit_transform得到TF-IDF矩阵tfidf_matrix=tfidf_vec.fit_transform(corpus)
# 利用get_feature_names得到不重复的单词print(tfidf_vec.get_feature_names())
# 得到每个单词所对应的IDprint(tfidf_vec.vocabulary_)
# 输出TF-IDF矩阵print(tfidf_matrix)

image.gif

得到的部分参考结果如下:

image.png

三、用Python手动实现TF-IDF算法

上文中我们用了两种库函数来计算自定义语料库中每个单词的TF-IDF值,下面我们来手动实现一下TF-IDF:

importmathcorpus= [
"what is the weather like today",
"what is for dinner tonight",
"this is a question worth pondering",
"it is a beautiful day today"]
words= []
# 对corpus分词foriincorpus:
words.append(i.split())
# 如果有自定义的停用词典,我们可以用下列方法来分词并去掉停用词# f = ["is", "the"]# for i in corpus:#     all_words = i.split()#     new_words = []#     for j in all_words:#         if j not in f:#             new_words.append(j)#     words.append(new_words)# print(words)# 进行词频统计defCounter(word_list):
wordcount= []
foriinword_list:
count= {}
forjini:
ifnotcount.get(j):
count.update({j: 1})
elifcount.get(j):
count[j] +=1wordcount.append(count)
returnwordcountwordcount=Counter(words)
# 计算TF(word代表被计算的单词,word_list是被计算单词所在文档分词后的字典)deftf(word, word_list):
returnword_list.get(word) /sum(word_list.values())
# 统计含有该单词的句子数defcount_sentence(word, wordcount):
returnsum(1foriinwordcountifi.get(word))
# 计算IDFdefidf(word, wordcount):
returnmath.log(len(wordcount) / (count_sentence(word, wordcount) +1))
# 计算TF-IDFdeftfidf(word, word_list, wordcount):
returntf(word, word_list) *idf(word, wordcount)
p=1foriinwordcount:
print("part:{}".format(p))
p=p+1forj, kini.items():
print("word: {} ---- TF-IDF:{}".format(j, tfidf(j, i, wordcount)))

image.gif

运行后的部分结果如下:

image.png

总结

TF-IDF主要用于文章中关键词的提取工作,也可用于查找相似文章、对文章进行摘要提取、特征选择(重要特征的提取)工作。

TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)

相关文章
|
6天前
|
算法
分享一些提高二叉树遍历算法效率的代码示例
这只是简单的示例代码,实际应用中可能还需要根据具体需求进行更多的优化和处理。你可以根据自己的需求对代码进行修改和扩展。
|
4天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
18 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
17天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
18 3
|
16天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
13天前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的决策树算法
【10月更文挑战第29天】本文将深入浅出地介绍决策树算法,一种在机器学习中广泛使用的分类和回归方法。我们将从基础概念出发,逐步深入到算法的实际应用,最后通过一个代码示例来直观展示如何利用决策树解决实际问题。无论你是机器学习的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和指导。
|
22天前
|
缓存 分布式计算 监控
优化算法和代码需要注意什么
【10月更文挑战第20天】优化算法和代码需要注意什么
16 0
|
24天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
9天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
10天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
11天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。

热门文章

最新文章