jieba分词及词云图的制作

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 欢迎关注我的微信公众号:Python学习杂记

jieba是比较常用python的分词库,这里简单介绍它的基本用法。

  • 最基础的用法导入jieba库,对句子进行简单的分词。
import jieba
cut1 = jieba.cut("我来自湖北武汉,我现在在上海工作。", cut_all=True)
[i for i in cut1]

  • 查看各词出现频次

从网上下载一篇文章,分析该文章词频结构。这里用了collections包,直接统计词频。

from collections import Counter
cut2=open('baogao.txt').read()
words = jieba.cut(cut2)     # 使用精简模式对文本进行分词
counts = []     # 获取其中的词
for word in words:
    if len(word)>=4:
        counts.append(word)    
Counter(counts).most_common(20)#查看排前20的词

  • 制作词云图
from wordcloud import WordCloud
import matplotlib.pyplot as plt
stop_words=['的','得']#停用词,以后可以增加
# 使用WordCloud生成词云
word_cloud = WordCloud(font_path="simsun.ttc",  # 设置词云字体
                       background_color="white", # 词云图的背景颜色
                       stopwords=stop_words,# 去掉的停词
                      collocations=False) #,去掉词云中的重复词,如果不填false,后面的词云图可能出现重复词。
text_cut = ' '.join(counts)
word_cloud.generate(text_cut)
plt.subplots(figsize=(12,8))
plt.imshow(word_cloud)
plt.axis("off")

 

也可以用PIL包,把词云图制作成自己需要展示的图片形状,也很简单,导入PIL包,画图设置相应的背景即可。

目录
相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 算法
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
3728 0
|
7月前
|
数据采集 自然语言处理 搜索推荐
python【包含数据预处理】基于词频生成词云图
背景目的 有一篇中文文章,或者一本小说。想要根据词频来生成词云图。
|
2月前
|
自然语言处理 数据可视化 Python
利用Python爬取百度百科词条并生成词云图
本文介绍如何使用Python爬取百度百科词条内容并生成词云图,涉及`requests`、`BeautifulSoup`、`jieba`、`wordcloud`等库的使用,从环境准备、数据爬取、中文分词到词云图生成,详细展示了整个流程。
83 0
|
4月前
|
机器学习/深度学习 自然语言处理 搜索推荐
一文掌握jieba分词器的常见用法,附带案例
该文章全面介绍了jieba分词器的使用方法,包括安装步骤、不同分词模式的使用,以及如何通过实例代码进行文本分词处理。
299 0
|
4月前
|
大数据
用wordcloud搞词云,大数据词云,自定义图像
用wordcloud搞词云,大数据词云,自定义图像
|
5月前
|
自然语言处理 搜索推荐 数据可视化
如何使用python实现一个优雅的词云?(超详细)
如何使用python实现一个优雅的词云?(超详细)
129 2
|
7月前
|
数据采集 自然语言处理 搜索推荐
python 【包含数据预处理】基于词频生成词云图
这段文本是关于如何使用Python基于词频生成词云图的教程。内容包括:1) 中文分词的必要性,因中文无明显单词边界及语言单位特性;2) 文本预处理步骤,如移除特殊符号、网址、日期等;3) 使用`data_process`函数清除无用字符;4) `getText`函数读取并处理文本为句子数组;5) 使用jieba分词库进行分词和词频统计;6) 示例代码展示了从分词到生成词云的完整流程,最后展示生成的词云图。整个过程旨在从中文文本中提取关键词并可视化。
285 5
python 【包含数据预处理】基于词频生成词云图
|
8月前
|
机器学习/深度学习 自然语言处理 数据可视化
用Python分析文本数据的词频并词云图可视化
用Python分析文本数据的词频并词云图可视化
212 0
|
7月前
|
数据采集 自然语言处理 数据可视化
拿来及用的Python词云图代码 | wordcloud生成词云详解
词云也叫文字云,是一种可视化的结果呈现,常用在爬虫数据分析中,原理就是统计文本中高频出现的词,过滤掉某些干扰词,将结果生成一张图片,直观的获取数据的重点信息。今天,我们就来学习一下Python生成词云的常用库wordcloud。
|
7月前
|
自然语言处理 监控 数据可视化
艺术与文本的交织:基于Python的jieba和wordcloud库实现华丽词云
艺术与文本的交织:基于Python的jieba和wordcloud库实现华丽词云
102 0