备案控制台

开发者社区开发与运维文章正文

利用sklearn计算词频

2016-12-12 1730

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python机器学习库sklearn提供了文本数据处理的函数，其中可以借助计算tfidf的函数计算词频，具体代码如下# encoding=utf-8# python 3.

python机器学习库sklearn提供了文本数据处理的函数，其中可以借助计算tfidf的函数计算词频，具体代码如下

# encoding=utf-8
# python 3.5
# 计算词频示例
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["我 来到 北京 清华大学",
        "他 来到 了 网易 杭研 大厦",
        "小明 硕士 毕业 与 中国 科学院",
        "我 爱 北京 天安门"]

# token_pattern指定统计词频的模式, 不指定, 默认如英文, 不统计单字
vectorizer = CountVectorizer(token_pattern='\\b\\w+\\b')
# norm=None对词频结果不归一化
# use_idf=False, 因为使用的是计算tfidf的函数, 所以要忽略idf的计算
transformer = TfidfTransformer(norm=None, use_idf=False)
tf = transformer.fit_transform(vectorizer.fit_transform(corpus))
word = vectorizer.get_feature_names()
weight = tf.toarray()

for i in range(len(weight)):
    for j in range(len(word)):
        print(word[j], ':', weight[i][j], end=' ', sep='')

    print()

结果如图

文章标签：

Python

fjie

目录

相关文章

张继群

|

1月前

|

机器学习/深度学习存储算法

sklearn应用线性回归算法

sklearn应用线性回归算法

张继群

35 0 0

东方睿赢

|

1月前

Sklearn库中的决策树模型有哪些主要参数？

Sklearn的决策树模型参数包括：criterion（默认"gini"）用于特征选择，splitter（默认"best"）决定划分点，max_depth限制树的最大深度，min_samples_split设置内部节点划分的最小样本数，min_samples_leaf定义叶子节点最少样本数，max_features（默认"auto"）控制搜索最优划分时的特征数量，random_state设定随机数种子，max_leaf_nodes限制最大叶子节点数，以及min_impurity_decrease阻止不纯度减少不足的节点划分。

东方睿赢

33 0 0

逻辑峰

|

1月前

|

算法

sklearn算法

逻辑峰

26 0 0

拓端数据部落

|

1月前

|

数据可视化 API 算法框架/工具

Python用T-SNE非线性降维技术拟合和可视化高维数据iris鸢尾花、MNIST 数据

Python用T-SNE非线性降维技术拟合和可视化高维数据iris鸢尾花、MNIST 数据

拓端数据部落

44 0 0

星辰同学wwq

|

10月前

|

API

一、线性回归的两种实现方式：（二）sklearn实现

一、线性回归的两种实现方式：（二）sklearn实现

星辰同学wwq

65 0 0

萝卜大杂烩

|

1月前

|

机器学习/深度学习自然语言处理算法

使用sklearn+jieba完成一个文档分类器

使用sklearn+jieba完成一个文档分类器

萝卜大杂烩

29 0 0

山河亦问安

|

机器学习/深度学习数据可视化

随机森林和KNN分类结果可视化（Sklearn)

随机森林和KNN分类结果可视化（Sklearn)

山河亦问安

207 0 0

livingbody

|

自然语言处理算法数据可视化

基于 sklearn 的鸢尾花分类

基于 sklearn 的鸢尾花分类

livingbody

211 0 0

基于 sklearn 的鸢尾花分类

艾派森_

|

机器学习/深度学习人工智能算法

基于sklearn决策树算法对鸢尾花数据进行分类

基于sklearn决策树算法对鸢尾花数据进行分类

艾派森_

312 0 0

基于sklearn决策树算法对鸢尾花数据进行分类

艾派森_

|

机器学习/深度学习并行计算算法

基于sklearn随机森林算法对鸢尾花数据进行分类

基于sklearn随机森林算法对鸢尾花数据进行分类

艾派森_

494 0 0

基于sklearn随机森林算法对鸢尾花数据进行分类

热门文章

最新文章

微服务（Microservice）那点事

Hadoop数据迁移MaxCompute最佳实践

(十) Spring Cloud构建分布式微服务架构 - SSO单点登录之OAuth2.0登录认证(1)

文件或目录的权限与属性

How to safely shut down a loading UIWebView in viewWillDisappear?

谷歌 Project Zero 公布 Windows 10 漏洞

一个好用的短连接服务，mark备用

自动更新Chromium

一篇值得思考的职业教育之路！

算法金 | K-均值、层次、DBSCAN聚类方法解析

m基于深度学习的卫星遥感图像轮船检测系统matlab仿真,带GUI操作界面

ELK与Fluentd的结合

基于GA遗传优化的混合发电系统优化配置算法matlab仿真

【题解】—— LeetCode一周小结25

《手把手教你》系列基础篇（八十一）-java+ selenium自动化测试-框架设计基础-TestNG如何暂停执行一些case（详解教程）

基于布谷鸟搜索的多目标优化matlab仿真

JavaScript小数四舍五入的代码

MaxCompute产品使用问题之整库实时需要申请什么东西

MaxCompute产品使用问题之创建了oss外表，格式指定的parquet，然后执行的写入，发现不是标准parquet的格式，该怎么办

相关课程

更多

【算法实战】11. K-Means（K-均值）聚类算法

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）