【小白的实战】Python构建中文词云图

简介: 还记得之前我们构建英文词云图的实战吗?通过三期的涉及了自定义调参、形状等……几乎是可以自定义出自己的心仪词云了。但关键问题是什么?——咱们是中国人,我们要做中文的词云!

还记得之前我们构建英文词云图的实战吗?通过三期的涉及了自定义调参、形状等……

几乎是可以自定义出自己的心仪词云了。

但关键问题是什么?——咱们是中国人,我们要做中文的词云!


实战开始


一、中文分词依赖下载


wordcloud本质是对一个个用空格分开的字符串进行频数统计,

这点对于英语来说很好理解,毕竟一个个词都是分开的。

但是中文全部连在一起就像这样子如果有人讲话不带标点你甚至一个空格都找不到他就一句话给你说完了……

这时候我们就需要一个中文分词利器来帮助我们解决问题——

他就是大名鼎鼎的jieba库

还是我们的jupyter开发环境。直接pip install jieba下载依赖包

image.png

尝试一下import看看我们的依赖是否都安装完毕:

image.png

没有反应就是好反应,import顺利,说明依赖包正常运行。


二、打开文件


我们这次选用的是480多万字的当红网络小说,用来考验这个词云的统计能力。

我们用老方法打开文件

w=open(r"C:\Users\asus\Downloads\吞噬星空.txt","r")
txt=w.read()
w.close()

image.png

居然报错了

我们查看报错提示,发现是有文字无法解码。对于这种情况我们往往采用更高级的解码表来解决问题。

上网一搜“gb18030”似乎可以符合条件。我们在打开文件那里增加一个参数encoding="gb18030即可。尝试再次运行——

image.png

此时问题得到了解决。


三、jieba库分词


这个第三方库给中文分词非常简单,一个函数就能解决问题。

a=jieba.lcut(txt)
txt=" ".join(a)
复制代码

分词完毕之后生成的是一个列表,我们需要再把它变成空格隔开的字符串以应对问题,就像英文那样。我们这里采用的是python的join函数,把前面的字符串添加到每个列表元素之间,并最终形成大字符串。明显,480万字的小说分词耗了很多时间。不过最终结果是好的。


四、正常操作词云生成词云图。


这里不赘述了。方法和英文的一样。生成wordcloud对象之后传入文字,最终to_file生成图片文件。

f=wordcloud.WordCloud(font_path="msyh.ttc",width=1500,max_words=150,height=700,background_color="white")
f.generate(txt)
f.to_file("C:/Users/asus/Desktop/吞噬星空词云.png")


image.png

image.png


五、结束语与成果分析


image.png

来到桌面观察战果,发现果然是被中文常用语霸占的词云图啊。

虽然我们仍然可以从中读出主要信息:如金角巨兽出现非常多,甚至大于主角罗峰;这部小说是宇宙玄幻题材的……

但是要做出一个好的中文词云,还有挺长的路要走呀……

首先,你总得完善stopwords语料库,把中文常见词屏蔽,如“那”“是”等吧。这将是不小的工作量。

期待有一天我可以发现解决办法,再分享给大家呀~

相关文章
|
1月前
|
SQL 关系型数据库 数据库
Python SQLAlchemy模块:从入门到实战的数据库操作指南
免费提供Python+PyCharm编程环境,结合SQLAlchemy ORM框架详解数据库开发。涵盖连接配置、模型定义、CRUD操作、事务控制及Alembic迁移工具,以电商订单系统为例,深入讲解高并发场景下的性能优化与最佳实践,助你高效构建数据驱动应用。
278 7
|
1月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
1月前
|
存储 数据采集 监控
Python文件操作全攻略:从基础到高级实战
本文系统讲解Python文件操作核心技巧,涵盖基础读写、指针控制、异常处理及大文件分块处理等实战场景。结合日志分析、CSV清洗等案例,助你高效掌握文本与二进制文件处理,提升程序健壮性与开发效率。(238字)
269 1
|
1月前
|
Java 调度 数据库
Python threading模块:多线程编程的实战指南
本文深入讲解Python多线程编程,涵盖threading模块的核心用法:线程创建、生命周期、同步机制(锁、信号量、条件变量)、线程通信(队列)、守护线程与线程池应用。结合实战案例,如多线程下载器,帮助开发者提升程序并发性能,适用于I/O密集型任务处理。
227 0
|
1月前
|
机器学习/深度学习 监控 数据挖掘
Python 高效清理 Excel 空白行列:从原理到实战
本文介绍如何使用Python的openpyxl库自动清理Excel中的空白行列。通过代码实现高效识别并删除无数据的行与列,解决文件臃肿、读取错误等问题,提升数据处理效率与准确性,适用于各类批量Excel清理任务。
344 0
|
2月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
275 102
|
2月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
299 104
|
2月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
251 103
|
2月前
|
机器学习/深度学习 人工智能 数据挖掘
Python:现代编程的首选语言
Python:现代编程的首选语言
191 82
|
1月前
|
Python
Python编程:运算符详解
本文全面详解Python各类运算符,涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则,结合实例代码与运行结果,助你深入掌握Python运算符的使用方法与应用场景。
171 3

推荐镜像

更多