【小白必看】Python词云生成器详细解析及代码实现

简介: 【小白必看】Python词云生成器详细解析及代码实现

前言

本文介绍了如何使用Python编写代码来生成词云图。在生成词云图之前,我们需要导入一些必需的库,包括numpy、wordcloud、PIL、matplotlib.pyplot和openpyxl。其中,numpy用于数据处理,wordcloud用于生成词云,PIL用于图像处理,matplotlib.pyplot用于在笔记本中显示图片,openpyxl用于读取词频Excel文件。此外,还需要准备一个背景图片作为词云的背景。

我们通过读取存放词频Excel文件的文件夹路径,获取文件夹下的所有文件,并将文件名与路径拼接起来,存放在一个列表中。然后,我们使用PIL库中的Image.open()函数读取背景图片,并将其转换为numpy.array格式。

使用循环依次处理每个词频Excel文件。首先,使用load_workbook()函数加载词频Excel文件,并通过wb.active获取活动工作表。然后,初始化一个空的字典wordFreq,用于存储每个单词及其对应的频率。通过遍历活动工作表中的行,获取单词和频率,并将它们存储到wordFreq字典中。

定义了词云的样式,并根据wordFreq字典生成词云图。生成的词云图将保存在指定文件夹下,并在notebook中显示出来。

导入所需库

import numpy as np  # numpy数据处理库
import wordcloud  # 词云库
from PIL import Image  # 图像处理库,用于读取背景图片
import matplotlib.pyplot as plt  # 图像展示库,以便在notebook中显示图片
from openpyxl import load_workbook  # 读取词频Excel文件
import os  # 获取词频Excel文件路径
  • numpy:用于处理数据的库。
  • wordcloud:用于生成词云的库。
  • PIL:用于图像处理的库,这里主要用于读取背景图片。
  • matplotlib.pyplot:用于在notebook中显示图片。
  • openpyxl:用于读取词频Excel文件的库。
  • os:用于获取词频Excel文件的路径。

将存好的Excel词频表读取成字典

path = '词频'  # 文件所在文件夹
files = [path + "/" + i for i in os.listdir(path)]  # 获取文件夹下的文件名,并拼接完整路径
maskImage = np.array(Image.open('background.png'))  # 定义词频背景图
  • path:存放Excel词频表的文件夹的路径。
  • files:使用列表解析式获取文件夹下的所有文件名,并将文件名与路径拼接起来,存放在files列表中。
  • maskImage:使用PIL库中的Image.open()函数读取一张背景图片,并将其转换为numpy.array格式。

循环处理每个词频Excel文件

for file in files:
    wb = load_workbook(file)  # 加载词频Excel文件
    ws = wb.active  # 获取活动工作表
    wordFreq = {}  # 存储单词和对应的频率的字典
    for i in range(2, ws.max_row + 1):
        word = ws["A" + str(i)].value  # 获取单词
        freq = ws["B" + str(i)].value  # 获取频率
        wordFreq[word] = freq  # 将单词和频率存储到字典中
  • 遍历files列表中的每个文件名,用load_workbook()函数加载词频Excel文件。
  • 使用wb.active获取活动工作表。
  • 初始化一个空的字典wordFreq,用于存储每个单词及其对应的频率。
  • 遍历活动工作表中的行(从第2行到最后一行),通过ws["A" + str(i)].valuews["B" + str(i)].value分别获取单词和频率,并将它们存储到wordFreq字典中。

定义词云样式和生成词云图

wc = wordcloud.WordCloud(
    font_path='../PingFangBold.ttf',  # 设置字体
    mask=maskImage,  # 设置背景图
    max_words=500,  # 最多显示词数
    max_font_size=100  # 字号最大值
)
wc.generate_from_frequencies(wordFreq)  # 根据字典生成词云图
wc.to_file("词云图/{}.png".format(file.split("/")[1][:4]))  # 将词云图保存到指定文件夹
plt.imshow(wc)  # 显示词云图
plt.axis('off')  # 关闭坐标轴
plt.show()  # 显示图像
  • 创建一个词云对象wc,通过传入参数设置词云的样式,包括字体、背景图、最多显示词数和字号最大值等。
  • 使用generate_from_frequencies()方法根据字典wordFreq生成词云图。
  • 使用to_file()方法将词云图保存到指定文件夹下,文件名以原始文件名的前四个字符命名。
  • 使用plt.imshow()显示词云图。
  • 使用plt.axis('off')关闭坐标轴。
  • 使用plt.show()显示图像。

完整代码

import numpy as np # numpy数据处理库
import wordcloud # 词云库
from PIL import Image # 图像处理库,用于读取背景图片
import matplotlib.pyplot as plt # 图像展示库,以便在notebook中显示图片
from openpyxl import load_workbook #读取词频Excel文件
import os #获取词频Excel文件路径
#将存好的Excel词频表读取成字典
path='词频'  #文件所在文件夹
files = [path+"/"+i for i in os.listdir(path)] #获取文件夹下的文件名,并拼接完整路径
maskImage = np.array(Image.open('background.png')) # 定义词频背景图
for file in files:
    #将词频Excel文件读取为字典
    wb = load_workbook(file)
    ws = wb.active
    wordFreq = {}
    for i in range(2,ws.max_row+1):
        word = ws["A"+str(i)].value
        freq = ws["B"+str(i)].value
        wordFreq[word] = freq
    #定义词云样式
    wc = wordcloud.WordCloud(
        font_path='../PingFangBold.ttf', # 设置字体
        mask= maskImage, # 设置背景图
        max_words=500, # 最多显示词数
        max_font_size=100) # 字号最大值
    #生成词云图
    wc.generate_from_frequencies(wordFreq) # 从字典生成词云
    #保存图片到指定文件夹
    wc.to_file("词云图/{}.png".format(file.split("/")[1][:4]))
    #在notebook中显示词云图
    plt.imshow(wc) # 显示词云
    plt.axis('off') # 关闭坐标轴
    plt.show() # 显示图像

运行效果截图

知识点

font_path:字体路径。字体存在的目录,在想要的字体上点右键,选择“属性”可查看其名称,然后连同路径复制,赋给font_path即可。比如本例使用的黑体。需要注意的是,若是中文词云,需要选中文字体。

width,height:画布的宽度和高度,单位为像素。若没设置mask值,才会使用此默认值400*200。

margin:词间距。

ranks_only:文档未说明。

prefer_horizontal:词语横排显示的概率(默认为90%,则竖排显示概率为10%)

mask:用于设定绘制模板,需要是一个nd-array(多维数组),所以在用Image.open()读取图片后,需要用np.array转换成数组。另外mask参数有设定的话,画布的大小会由词频背景图的大小决定。这个经常使用,因为我们更倾向于自定义模板。

scale:比例尺,用于放大画布的尺寸。一般使用默认值。

color_func:颜色函数,一般不用。

max_words:词云图中最多显示词的字数,设定一个值,可让那些出现次数极少的词不显示出来。

min_font_size:字号最小值。

stopwords:设置不想显示的词。

random_state:文档未说明。

background_color:词云图背景色,默认为黑色。可根据需要调整。

max_font_size:字号最大值。

font_step:字体的步长,一般使用默认。大于1的时候可提升运算速度,但匹配较差。

mode:当设置为"RGBA" 且background_color设置为"None"时可产生透明背景。

relative_scaling:词频对字体大小的影响度,一般使用默认。

regexp:正则表达式分割输入的字符。一般是先处理好才给到wordcloud,所以基本不用。

collocations:是否包含两个词的搭配,若使用了generate_from_frequencies方法则忽略此参数。一般不用。

colormap:每个词对应的颜色,若设置了color_func则忽略此参数。

normalize_plurals:是否移除英文复数单词末尾的s,比如可将wordwords视同为一个词,并将词频算到word头上。如果使用了generate_from_frequencies方法则忽略此参数。

contour_width:如果mask有设置,且contour_width>0,将会绘制mask轮廓。

contour_colormask轮廓的颜色,默认为黑色。

repeat:当词不足以满足设定的max_words时,是否重复词或短语以使词云图上的词数量达到max_words

include_numbers:是否将数字作为词。

min_word_length:设置一个词包含的最少字母数量。

collocation_threshold:界定英文中的bigrams,对于中文不适用。

结束语

本文介绍了如何使用Python编写代码来生成词云图。首先导入所需的库,然后通过循环处理每个词频Excel文件,将它们读取成字典。接下来定义词云的样式并生成词云图。最后将生成的词云图保存到指定文件夹,并在notebook中显示出来。通过本文的学习,我们可以轻松地使用Python生成词云图,从而更好地分析文本数据中的词频信息。

资源

代码中所涉及的资源 可以在文章顶部下载 , 已上传

相关文章
|
4月前
|
XML JSON 数据处理
超越JSON:Python结构化数据处理模块全解析
本文深入解析Python中12个核心数据处理模块,涵盖csv、pandas、pickle、shelve、struct、configparser、xml、numpy、array、sqlite3和msgpack,覆盖表格处理、序列化、配置管理、科学计算等六大场景,结合真实案例与决策树,助你高效应对各类数据挑战。(238字)
380 0
|
4月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
5月前
|
JSON 缓存 开发者
淘宝商品详情接口(item_get)企业级全解析:参数配置、签名机制与 Python 代码实战
本文详解淘宝开放平台taobao.item_get接口对接全流程,涵盖参数配置、MD5签名生成、Python企业级代码实现及高频问题排查,提供可落地的实战方案,助你高效稳定获取商品数据。
|
5月前
|
存储 大数据 Unix
Python生成器 vs 迭代器:从内存到代码的深度解析
在Python中,处理大数据或无限序列时,迭代器与生成器可避免内存溢出。迭代器通过`__iter__`和`__next__`手动实现,控制灵活;生成器用`yield`自动实现,代码简洁、内存高效。生成器适合大文件读取、惰性计算等场景,是性能优化的关键工具。
316 2
|
5月前
|
机器学习/深度学习 文字识别 Java
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
1460 0
|
5月前
|
机器学习/深度学习 JSON Java
Java调用Python的5种实用方案:从简单到进阶的全场景解析
在机器学习与大数据融合背景下,Java与Python协同开发成为企业常见需求。本文通过真实案例解析5种主流调用方案,涵盖脚本调用到微服务架构,助力开发者根据业务场景选择最优方案,提升开发效率与系统性能。
1352 0
机器学习/深度学习 算法 自动驾驶
1041 0
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
220 2
|
数据采集 机器学习/深度学习 数据处理
Python编程之魔法:从基础到进阶的代码实践
在编程的世界里,Python以其简洁和易读性而闻名。本文将通过一系列精选的代码示例,引导你从Python的基础语法出发,逐步探索更深层次的应用,包括数据处理、网络爬虫、自动化脚本以及机器学习模型的构建。每个例子都将是一次新的发现,带你领略Python编程的魅力。无论你是初学者还是希望提升技能的开发者,这些示例都将是你的宝贵财富。让我们开始这段Python编程之旅,一起揭开它的魔法面纱。
|
大数据 Python
Python 高级编程:深入探索高级代码实践
本文深入探讨了Python的四大高级特性:装饰器、生成器、上下文管理器及并发与并行编程。通过装饰器,我们能够在不改动原函数的基础上增添功能;生成器允许按需生成值,优化处理大数据;上下文管理器确保资源被妥善管理和释放;多线程等技术则助力高效完成并发任务。本文通过具体代码实例详细解析这些特性的应用方法,帮助读者提升Python编程水平。
637 5

热门文章

最新文章

推荐镜像

更多