备案控制台

开发者社区大数据与机器学习文章正文

jieba分词及词云图的制作

2023-10-16 238 发布于湖北

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

实时计算 Flink 版，5000CU*H 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

简介： 欢迎关注我的微信公众号：Python学习杂记

jieba是比较常用python的分词库，这里简单介绍它的基本用法。

最基础的用法导入jieba库，对句子进行简单的分词。

import jieba
cut1 = jieba.cut("我来自湖北武汉，我现在在上海工作。", cut_all=True)
[i for i in cut1]

查看各词出现频次

从网上下载一篇文章，分析该文章词频结构。这里用了collections包，直接统计词频。

from collections import Counter
cut2=open('baogao.txt').read()
words = jieba.cut(cut2)     # 使用精简模式对文本进行分词
counts = []     # 获取其中的词
for word in words:
    if len(word)>=4:
        counts.append(word)    
Counter(counts).most_common(20)#查看排前20的词

制作词云图

from wordcloud import WordCloud
import matplotlib.pyplot as plt
stop_words=['的','得']#停用词，以后可以增加
# 使用WordCloud生成词云
word_cloud = WordCloud(font_path="simsun.ttc",  # 设置词云字体
                       background_color="white", # 词云图的背景颜色
                       stopwords=stop_words,# 去掉的停词
                      collocations=False) #，去掉词云中的重复词，如果不填false，后面的词云图可能出现重复词。
text_cut = ' '.join(counts)
word_cloud.generate(text_cut)
plt.subplots(figsize=(12,8))
plt.imshow(word_cloud)
plt.axis("off")

也可以用PIL包，把词云图制作成自己需要展示的图片形状，也很简单，导入PIL包，画图设置相应的背景即可。

文章标签：

自然语言处理

Python

derek武汉

+关注

62文章 3问答

目录

打赏

0

1

2

3

32

相关文章

艾派森_

|

11月前

|

机器学习/深度学习自然语言处理算法

文本分析-使用jieba库进行中文分词和去除停用词（附案例实战）

文本分析-使用jieba库进行中文分词和去除停用词（附案例实战）

艾派森_

4444 0 0

愿天堂没有BUG（公众号同名）

|

10月前

|

数据采集自然语言处理搜索推荐

python【包含数据预处理】基于词频生成词云图

背景目的有一篇中文文章，或者一本小说。想要根据词频来生成词云图。

愿天堂没有BUG（公众号同名）

111 1 1

技术混子

|

7月前

|

机器学习/深度学习自然语言处理算法

使用Python实现简单的文本情感分析

【9月更文挑战第13天】本文将介绍如何使用Python编程语言进行基础的文本情感分析。我们将通过一个简单的例子，展示如何利用自然语言处理库nltk和机器学习库sklearn来实现对文本数据的情感倾向性判断。文章旨在为初学者提供一个入门级的指导，帮助他们理解并实践文本情感分析的基本步骤和方法。

技术混子

103 6 6

艾派森_

|

11月前

|

机器学习/深度学习自然语言处理数据可视化

用Python分析文本数据的词频并词云图可视化

用Python分析文本数据的词频并词云图可视化

艾派森_

249 0 0

wusp1994

|

10月前

|

数据采集自然语言处理搜索推荐

python 【包含数据预处理】基于词频生成词云图

这段文本是关于如何使用Python基于词频生成词云图的教程。内容包括：1) 中文分词的必要性，因中文无明显单词边界及语言单位特性；2) 文本预处理步骤，如移除特殊符号、网址、日期等；3) 使用`data_process`函数清除无用字符；4) `getText`函数读取并处理文本为句子数组；5) 使用jieba分词库进行分词和词频统计；6) 示例代码展示了从分词到生成词云的完整流程，最后展示生成的词云图。整个过程旨在从中文文本中提取关键词并可视化。

wusp1994

468 5 5

python 【包含数据预处理】基于词频生成词云图

拓端数据部落

|

11月前

|

自然语言处理数据可视化大数据

R语言《红楼梦》文本挖掘：词频统计、词云可视化及前后对比分析

R语言《红楼梦》文本挖掘：词频统计、词云可视化及前后对比分析

拓端数据部落

163 0 1

R语言《红楼梦》文本挖掘：词频统计、词云可视化及前后对比分析

漫走云雾

|

11月前

|

数据采集机器学习/深度学习人工智能

Python实现文本情感分析

Python实现文本情感分析

漫走云雾

118 1 1

程序三两行

|

11月前

|

自然语言处理 Python

python实现分词器

python实现分词器

程序三两行

126 0 0

zdb呀

|

机器学习/深度学习自然语言处理算法

Python数据分析（4）：jieba分词详解

Python数据分析（4）：jieba分词详解

zdb呀

1194 0 0

Python数据分析（4）：jieba分词详解

清风Python

|

存储自然语言处理搜索推荐

使用jieba分析小说太古神王中，男主更爱谁？去文章中找答案吧！

很多时候，我们会去统计一片文章中的高频词汇，以此来作为文章的关键词条，那么词频分析在python中，该用什么模块做？jieba！第一次听到这个词就乐了，一个“结巴”，帮助我们统计词频...但仔细了解这个模块后，你会发现它的强大。怎么证明？来看看github。

清风Python

274 0 0

大数据与机器学习

+关注

热门文章

最新文章

阿里云开源离线同步工具DataX3.0介绍

ajax请求总是不成功？浏览器的同源策略和跨域问题详解

数据仓库介绍与实时数仓案例

美柚：最懂女性App背后的混合云架构与大数据服务

空格App亿元A轮融资背后：云上多场景技术架构实践与经验

【玩转数据系列六】文本分析算法实现新闻自动分类

实时计算 Flink SQL 核心功能解密

如何使用Kafka Connect实现同步RDS binlog数据

如何有效降低大数据平台安全风险

凑单算法——基于Graph Embedding的bundle mining

基于GA遗传算法的斜拉桥静载试验车辆最优布载matlab仿真

Ray Flow Insight：让分布式系统调试不再"黑盒"

Flink Shuffle 技术演进之路

Java HttpClient 多线程爬虫优化方案

标签噪声下的模型评估：如何准确评估AI模型的真实性能，提高模型性能测量的可信度

阿里云 AI 搜索开放平台新发布：增加 QwQ 模型

大数据& AI 产品月刊【2025年3月】

百观科技基于阿里云 EMR 的数据湖实践分享

1688API系列：1688商品列表数据接口指南

智能戒指：小小指环，大大未来

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

基于ECS搭建云上博客