利用sklearn计算词频

简介: python机器学习库sklearn提供了文本数据处理的函数,其中可以借助计算tfidf的函数计算词频,具体代码如下# encoding=utf-8# python 3.

python机器学习库sklearn提供了文本数据处理的函数,其中可以借助计算tfidf的函数计算词频,具体代码如下

# encoding=utf-8
# python 3.5
# 计算词频示例
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["我 来到 北京 清华大学",
        "他 来到 了 网易 杭研 大厦",
        "小明 硕士 毕业 与 中国 科学院",
        "我 爱 北京 天安门"]

# token_pattern指定统计词频的模式, 不指定, 默认如英文, 不统计单字
vectorizer = CountVectorizer(token_pattern='\\b\\w+\\b')
# norm=None对词频结果不归一化
# use_idf=False, 因为使用的是计算tfidf的函数, 所以要忽略idf的计算
transformer = TfidfTransformer(norm=None, use_idf=False)
tf = transformer.fit_transform(vectorizer.fit_transform(corpus))
word = vectorizer.get_feature_names()
weight = tf.toarray()

for i in range(len(weight)):
    for j in range(len(word)):
        print(word[j], ':', weight[i][j], end=' ', sep='')

    print()
结果如图



目录
相关文章
|
6月前
|
机器学习/深度学习 存储 算法
sklearn应用线性回归算法
sklearn应用线性回归算法
79 0
|
6月前
Sklearn库中的决策树模型有哪些主要参数?
Sklearn的决策树模型参数包括:criterion(默认"gini")用于特征选择,splitter(默认"best")决定划分点,max_depth限制树的最大深度,min_samples_split设置内部节点划分的最小样本数,min_samples_leaf定义叶子节点最少样本数,max_features(默认"auto")控制搜索最优划分时的特征数量,random_state设定随机数种子,max_leaf_nodes限制最大叶子节点数,以及min_impurity_decrease阻止不纯度减少不足的节点划分。
80 0
一、线性回归的两种实现方式:(二)sklearn实现
一、线性回归的两种实现方式:(二)sklearn实现
|
机器学习/深度学习 移动开发 资源调度
机器学习算法(二): 基于鸢尾花数据集的朴素贝叶斯(Naive Bayes)预测分类
机器学习算法(二): 基于鸢尾花数据集的朴素贝叶斯(Naive Bayes)预测分类
|
6月前
|
机器学习/深度学习 自然语言处理 算法
使用sklearn+jieba完成一个文档分类器
使用sklearn+jieba完成一个文档分类器
|
自然语言处理 算法 数据可视化
基于 sklearn 的鸢尾花分类
基于 sklearn 的鸢尾花分类
263 0
基于 sklearn 的鸢尾花分类
|
机器学习/深度学习 人工智能 算法
基于sklearn决策树算法对鸢尾花数据进行分类
基于sklearn决策树算法对鸢尾花数据进行分类
367 0
基于sklearn决策树算法对鸢尾花数据进行分类
|
机器学习/深度学习 并行计算 算法
基于sklearn随机森林算法对鸢尾花数据进行分类
基于sklearn随机森林算法对鸢尾花数据进行分类
575 0
基于sklearn随机森林算法对鸢尾花数据进行分类
sklearn.preprocessing.PolynomialFeatures多项式特征
sklearn.preprocessing.PolynomialFeatures多项式特征
103 0
TF-IDF及相似度计算
TF-IDF:衡量某个词对文章的重要性由TF和IDF组成 TF:词频(因素:某词在同一文章中出现次数) IDF:反文档频率(因素:某词是否在不同文章中出现) TF-IDF = TF*IDF TF :一个单词在一篇文章出现次数越多越重要 IDF: 每篇文章都出现的单词(如的,你,我,他) ,越不重要
411 0
TF-IDF及相似度计算