jieba分词及词云图的制作

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 欢迎关注我的微信公众号:Python学习杂记

jieba是比较常用python的分词库,这里简单介绍它的基本用法。

  • 最基础的用法导入jieba库,对句子进行简单的分词。
import jieba
cut1 = jieba.cut("我来自湖北武汉,我现在在上海工作。", cut_all=True)
[i for i in cut1]

  • 查看各词出现频次

从网上下载一篇文章,分析该文章词频结构。这里用了collections包,直接统计词频。

from collections import Counter
cut2=open('baogao.txt').read()
words = jieba.cut(cut2)     # 使用精简模式对文本进行分词
counts = []     # 获取其中的词
for word in words:
    if len(word)>=4:
        counts.append(word)    
Counter(counts).most_common(20)#查看排前20的词

  • 制作词云图
from wordcloud import WordCloud
import matplotlib.pyplot as plt
stop_words=['的','得']#停用词,以后可以增加
# 使用WordCloud生成词云
word_cloud = WordCloud(font_path="simsun.ttc",  # 设置词云字体
                       background_color="white", # 词云图的背景颜色
                       stopwords=stop_words,# 去掉的停词
                      collocations=False) #,去掉词云中的重复词,如果不填false,后面的词云图可能出现重复词。
text_cut = ' '.join(counts)
word_cloud.generate(text_cut)
plt.subplots(figsize=(12,8))
plt.imshow(word_cloud)
plt.axis("off")

 

也可以用PIL包,把词云图制作成自己需要展示的图片形状,也很简单,导入PIL包,画图设置相应的背景即可。

目录
打赏
0
1
2
3
32
分享
相关文章
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
4444 0
python【包含数据预处理】基于词频生成词云图
背景目的 有一篇中文文章,或者一本小说。想要根据词频来生成词云图。
使用Python实现简单的文本情感分析
【9月更文挑战第13天】本文将介绍如何使用Python编程语言进行基础的文本情感分析。我们将通过一个简单的例子,展示如何利用自然语言处理库nltk和机器学习库sklearn来实现对文本数据的情感倾向性判断。文章旨在为初学者提供一个入门级的指导,帮助他们理解并实践文本情感分析的基本步骤和方法。
103 6
python 【包含数据预处理】基于词频生成词云图
这段文本是关于如何使用Python基于词频生成词云图的教程。内容包括:1) 中文分词的必要性,因中文无明显单词边界及语言单位特性;2) 文本预处理步骤,如移除特殊符号、网址、日期等;3) 使用`data_process`函数清除无用字符;4) `getText`函数读取并处理文本为句子数组;5) 使用jieba分词库进行分词和词频统计;6) 示例代码展示了从分词到生成词云的完整流程,最后展示生成的词云图。整个过程旨在从中文文本中提取关键词并可视化。
468 5
python 【包含数据预处理】基于词频生成词云图
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
使用jieba分析小说太古神王中,男主更爱谁?去文章中找答案吧!
很多时候,我们会去统计一片文章中的高频词汇,以此来作为文章的关键词条,那么词频分析在python中,该用什么模块做?jieba! 第一次听到这个词就乐了,一个“结巴”,帮助我们统计词频...但仔细了解这个模块后,你会发现它的强大。怎么证明?来看看github。
274 0