Python | 数据挖掘,WordCloud词云配置过程及词频分析

简介: 一. 安装WordCloud 在使用WordCloud词云之前,需要使用pip安装相应的包。 pip install WordCloud pip install jieba 其中WordCloud是词云,jieba是结巴分词工具。
一. 安装WordCloud
在使用WordCloud词云之前,需要使用pip安装相应的包。
  pip install WordCloud     

  pip install jieba
其中WordCloud是词云,jieba是结巴分词工具。
问题:在安装WordCloud过程中,你可能遇到的第一个错误如下。
error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27
7a9d07709c743bdcdf9154a0afff67378812f753
解决方法也很简单,下载VCForPython27安装(Microsoft Visual C++ Compiler for Python 2.7)。但是在微软下载总是没响应。
这是最大的问题,下面我自己提供一个CSDN的地址供大家下载。下载完成,可以进行安装响应的库函数。
资源地址:
http://download.csdn.net/detail/eastmount/9788218
baeaea04beee93f162c18c7a07a26443e11c86b5
安装完成之后,可以正常运行代码啦。
二. 简单词云代码
下面这部分代码参考老曹的,希望对你有所帮助。
老曹说:什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。
代码如下:
a6344de52204fc7e72a0dfa70c0e3ae96f3ed24c
这是中文编码问题,下面讲解解决方法。
三. 中文编码错误及解决
在WordCloud安装的目录下找到WordCloud.py文件,对源码进行修改。
ca2cd87bdd8ad59870289ca618e682ebf02ec399
注意,此时运行代码还是报错,因为需要在同一个目录下放置msyh.ttf字体文件供程序调用,如下图所示,这是原来的字体DroidSansMono.ttf。
6ec36bc9060dc7863bab7672a3f205a016faf68f
也可以采用下面的代码:
 wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)
四. 照片背景的词云代码
下面进一步深入,假设存在一个图 "sss3.png",核心代码如下:
6c1682a0c4e2686d9985dc68e9590897bf2f50d7
原文发布时间为:2018-09-18
本文作者: 上海小胖
本文来自云栖社区合作伙伴“ Python专栏”,了解相关信息可以关注“ Python专栏”。

相关文章
|
22小时前
|
存储 API Python
python之代理ip的配置与调试
python之代理ip的配置与调试
|
1天前
|
机器学习/深度学习 Python 数据处理
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
12 0
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
|
1天前
|
存储 机器学习/深度学习 数据可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
39 6
|
1天前
|
机器学习/深度学习 算法 数据可视化
python用支持向量机回归(SVR)模型分析用电量预测电力消费
python用支持向量机回归(SVR)模型分析用电量预测电力消费
24 7
机器学习/深度学习 算法 Python
13 0
|
2天前
|
机器学习/深度学习 数据采集 供应链
从数据到决策:scikit-learn在业务分析中的应用
【4月更文挑战第17天】本文探讨了scikit-learn在业务分析中的应用,包括数据预处理、分类、回归和聚类模型的构建,以及模型评估与优化。通过使用scikit-learn,企业能有效处理数据、预测趋势、客户细分并制定决策,从而提升经营效率和市场策略。随着机器学习的发展,scikit-learn在业务分析领域的潜力将持续释放,创造更多价值。
|
2天前
|
算法 数据可视化 Python
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
10 0
|
2天前
|
机器学习/深度学习 数据采集 数据可视化
Python数据处理与分析
【4月更文挑战第13天】Python在数据处理与分析中扮演重要角色,常用库包括Pandas(数据处理)、NumPy(数值计算)、Matplotlib和Seaborn(数据可视化)、SciPy(科学计算)、StatsModels(统计建模)及Scikit-learn(机器学习)。数据处理流程涉及数据加载、清洗、探索、特征工程、模型选择、评估与优化,以及结果展示。选择哪个库取决于具体需求和数据类型。
13 1
|
2天前
|
BI 开发者 数据格式
Python代码填充数据到word模板中
【4月更文挑战第16天】
|
3天前
|
数据可视化 算法 API
Python数据可视化-seaborn Iris鸢尾花数据
Python数据可视化-seaborn Iris鸢尾花数据