还记得之前我们构建英文词云图的实战吗?通过三期的涉及了自定义调参、形状等……
几乎是可以自定义出自己的心仪词云了。
但关键问题是什么?——咱们是中国人,我们要做中文的词云!
实战开始
一、中文分词依赖下载
wordcloud本质是对一个个用空格分开的字符串进行频数统计,
这点对于英语来说很好理解,毕竟一个个词都是分开的。
但是中文全部连在一起就像这样子如果有人讲话不带标点你甚至一个空格都找不到他就一句话给你说完了……
这时候我们就需要一个中文分词利器来帮助我们解决问题——
他就是大名鼎鼎的jieba库
还是我们的jupyter开发环境。直接pip install jieba
下载依赖包
尝试一下import看看我们的依赖是否都安装完毕:
没有反应就是好反应,import顺利,说明依赖包正常运行。
二、打开文件
我们这次选用的是480多万字的当红网络小说,用来考验这个词云的统计能力。
我们用老方法打开文件
w=open(r"C:\Users\asus\Downloads\吞噬星空.txt","r") txt=w.read() w.close()
居然报错了
我们查看报错提示,发现是有文字无法解码。对于这种情况我们往往采用更高级的解码表来解决问题。
上网一搜“gb18030”似乎可以符合条件。我们在打开文件那里增加一个参数encoding="gb18030
即可。尝试再次运行——
此时问题得到了解决。
三、jieba库分词
这个第三方库给中文分词非常简单,一个函数就能解决问题。
a=jieba.lcut(txt) txt=" ".join(a) 复制代码
分词完毕之后生成的是一个列表,我们需要再把它变成空格隔开的字符串以应对问题,就像英文那样。我们这里采用的是python的join函数,把前面的字符串添加到每个列表元素之间,并最终形成大字符串。明显,480万字的小说分词耗了很多时间。不过最终结果是好的。
四、正常操作词云生成词云图。
这里不赘述了。方法和英文的一样。生成wordcloud对象之后传入文字,最终to_file生成图片文件。
f=wordcloud.WordCloud(font_path="msyh.ttc",width=1500,max_words=150,height=700,background_color="white") f.generate(txt) f.to_file("C:/Users/asus/Desktop/吞噬星空词云.png")
五、结束语与成果分析
来到桌面观察战果,发现果然是被中文常用语霸占的词云图啊。
虽然我们仍然可以从中读出主要信息:如金角巨兽出现非常多,甚至大于主角罗峰;这部小说是宇宙玄幻题材的……
但是要做出一个好的中文词云,还有挺长的路要走呀……
首先,你总得完善stopwords语料库,把中文常见词屏蔽,如“那”“是”等吧。这将是不小的工作量。
期待有一天我可以发现解决办法,再分享给大家呀~