​「Python大数据」词频数据渲染词云图导出HTML

简介: 使用Python,本文展示数据聚类和办公自动化,焦点在于通过jieba分词处理VOC数据,构建词云图并以HTML保存。`wordCloud.py`脚本中,借助pyecharts生成词云,如图所示,关键词如"Python"、"词云"等。示例代码创建了词云图实例,添加词频数据,并输出到"wordCloud.html"。

前言

本文主要介绍通过python实现数据聚类、脚本开发、办公自动化。词频数据渲染词云图导出HTML。

一、业务逻辑

  • 读取voc数据采集的数据
  • 批处理,使用jieba进行分词,去除停用词
  • 词频数据渲染词云图
  • 将可视化结果保存到HTML文件中

二、具体产出

在这里插入图片描述

三、执行脚本

python wordCloud.py

四、关键代码

from pyecharts.charts import WordCloud
from pyecharts import options as opts

# 假设我们有以下词频数据
word_freq = {
    'Python': 1000,
    '词云': 800,
    '生成': 600,
    '教程': 400,
    'pyecharts': 200,
    '数据可视化': 300,
    '图表': 250,
    'Python2': 1000,
    '词云2': 800,
    '生成2': 600,
    '教程2': 400,
    'pyecharts2': 200,
    '数据可视化2': 300,
    '图表2': 250,
    'Python3': 1000,
    '词云3': 800,
    '生成3': 600,
    '教程3': 400,
    'pyecharts3': 200,
    '数据可视化3': 300,
    '图表3': 250
}

# 创建词云图实例
wc = WordCloud()

# 将词频数据转换为pyecharts所需的格式,即二维数组
data_pair = [list(item) for item in word_freq.items()]

# 添加词频数据到词云图
wc.add("小王子词云", data_pair, word_size_range=[20, 100], shape="cardioid")

# 设置全局配置项,包括标题和提示信息
wc.set_global_opts(
    title_opts=opts.TitleOpts(title="小王子词云"),
    tooltip_opts=opts.TooltipOpts(is_show=True),
)

# 渲染并导出词云图到HTML文件
wc.render("wordCloud.html")
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
9月前
|
数据采集 Web App开发 JavaScript
Python爬虫解析动态网页:从渲染到数据提取
Python爬虫解析动态网页:从渲染到数据提取
|
10月前
|
数据采集 Web App开发 JavaScript
Python爬虫如何获取JavaScript动态渲染后的网页内容?
Python爬虫如何获取JavaScript动态渲染后的网页内容?
|
11月前
|
API
Postman 可以将文档导出为 HTML/Markdown 吗?
Postman 没有提供直接将你的文档导出为 HTML 或 Markdown 的途径。太糟糕了
|
数据采集 前端开发 API
SurfGen爬虫:解析HTML与提取关键数据
SurfGen爬虫:解析HTML与提取关键数据
|
数据采集 前端开发 数据挖掘
利用 html_table 函数轻松获取网页中的表格数据
本文介绍了如何使用 R 语言中的 `html_table` 函数结合代理 IP 技术,轻松提取网页表格数据并规避反爬机制。通过设置代理和请求头,示例代码展示了如何从 58 同城采集租房信息并保存为 CSV 文件。该方法适用于需要频繁采集数据的场景,确保数据采集的高效和稳定性。
512 2
利用 html_table 函数轻松获取网页中的表格数据
|
Java BI API
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
这篇文章介绍了如何在Spring Boot项目中整合iTextPDF库来导出PDF文件,包括写入大文本和HTML代码,并分析了几种常用的Java PDF导出工具。
4002 0
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
|
JavaScript API 开发工具
<大厂实战场景> ~ Flutter&鸿蒙next 解析后端返回的 HTML 数据详解
本文介绍了如何在 Flutter 中解析后端返回的 HTML 数据。首先解释了 HTML 解析的概念,然后详细介绍了使用 `http` 和 `html` 库的步骤,包括添加依赖、获取 HTML 数据、解析 HTML 内容和在 Flutter UI 中显示解析结果。通过具体的代码示例,展示了如何从 URL 获取 HTML 并提取特定信息,如链接列表。希望本文能帮助你在 Flutter 应用中更好地处理 HTML 数据。
505 1
|
自然语言处理 数据可视化 Python
利用Python爬取百度百科词条并生成词云图
本文介绍如何使用Python爬取百度百科词条内容并生成词云图,涉及`requests`、`BeautifulSoup`、`jieba`、`wordcloud`等库的使用,从环境准备、数据爬取、中文分词到词云图生成,详细展示了整个流程。
609 0
|
XML Web App开发 数据格式
HTML 页面显示 XML 数据
10月更文挑战第2天
|
机器学习/深度学习 JSON JavaScript
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
714 0

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 推荐镜像

    更多