前言
本文主要介绍通过python实现数据聚类、脚本开发、办公自动化。词频数据渲染词云图导出HTML。
一、业务逻辑
- 读取voc数据采集的数据
- 批处理,使用jieba进行分词,去除停用词
- 词频数据渲染词云图
- 将可视化结果保存到HTML文件中
二、具体产出
三、执行脚本
python wordCloud.py
四、关键代码
from pyecharts.charts import WordCloud
from pyecharts import options as opts
# 假设我们有以下词频数据
word_freq = {
'Python': 1000,
'词云': 800,
'生成': 600,
'教程': 400,
'pyecharts': 200,
'数据可视化': 300,
'图表': 250,
'Python2': 1000,
'词云2': 800,
'生成2': 600,
'教程2': 400,
'pyecharts2': 200,
'数据可视化2': 300,
'图表2': 250,
'Python3': 1000,
'词云3': 800,
'生成3': 600,
'教程3': 400,
'pyecharts3': 200,
'数据可视化3': 300,
'图表3': 250
}
# 创建词云图实例
wc = WordCloud()
# 将词频数据转换为pyecharts所需的格式,即二维数组
data_pair = [list(item) for item in word_freq.items()]
# 添加词频数据到词云图
wc.add("小王子词云", data_pair, word_size_range=[20, 100], shape="cardioid")
# 设置全局配置项,包括标题和提示信息
wc.set_global_opts(
title_opts=opts.TitleOpts(title="小王子词云"),
tooltip_opts=opts.TooltipOpts(is_show=True),
)
# 渲染并导出词云图到HTML文件
wc.render("wordCloud.html")