jieba分词及词云图的制作

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 欢迎关注我的微信公众号:Python学习杂记

jieba是比较常用python的分词库,这里简单介绍它的基本用法。

  • 最基础的用法导入jieba库,对句子进行简单的分词。
import jieba
cut1 = jieba.cut("我来自湖北武汉,我现在在上海工作。", cut_all=True)
[i for i in cut1]

  • 查看各词出现频次

从网上下载一篇文章,分析该文章词频结构。这里用了collections包,直接统计词频。

from collections import Counter
cut2=open('baogao.txt').read()
words = jieba.cut(cut2)     # 使用精简模式对文本进行分词
counts = []     # 获取其中的词
for word in words:
    if len(word)>=4:
        counts.append(word)    
Counter(counts).most_common(20)#查看排前20的词

  • 制作词云图
from wordcloud import WordCloud
import matplotlib.pyplot as plt
stop_words=['的','得']#停用词,以后可以增加
# 使用WordCloud生成词云
word_cloud = WordCloud(font_path="simsun.ttc",  # 设置词云字体
                       background_color="white", # 词云图的背景颜色
                       stopwords=stop_words,# 去掉的停词
                      collocations=False) #,去掉词云中的重复词,如果不填false,后面的词云图可能出现重复词。
text_cut = ' '.join(counts)
word_cloud.generate(text_cut)
plt.subplots(figsize=(12,8))
plt.imshow(word_cloud)
plt.axis("off")

 

也可以用PIL包,把词云图制作成自己需要展示的图片形状,也很简单,导入PIL包,画图设置相应的背景即可。

目录
相关文章
|
6月前
|
机器学习/深度学习 人工智能 数据库
Mureka V6:10语种AI音乐工厂!昆仑万维「声场黑科技」颠覆作曲
昆仑万维推出的Mureka V6 AI音乐创作基座模型,支持10种语言歌词生成和纯音乐创作,通过自研ICL技术实现声场优化,覆盖爵士/电子/流行等多元风格,为音乐爱好者和专业创作者提供高效工具。
342 11
|
自然语言处理 监控 数据可视化
艺术与文本的交织:基于Python的jieba和wordcloud库实现华丽词云
艺术与文本的交织:基于Python的jieba和wordcloud库实现华丽词云
206 0
|
安全 网络协议 5G
5G的核心协议有哪些?
【8月更文挑战第31天】
1072 0
|
Go
【golang】Go 判断字符串是否包含指定字符
【golang】Go 判断字符串是否包含指定字符
257 1
|
11月前
|
JavaScript 前端开发 测试技术
精通Selenium:从基础到高级的网页自动化测试策略
【10月更文挑战第6天】随着Web应用变得越来越复杂,手动进行功能和兼容性测试变得既耗时又容易出错。自动化测试因此成为了现代软件开发不可或缺的一部分。Selenium是一个强大的工具集,它支持多种编程语言(包括Python),允许开发者编写脚本来模拟用户与Web页面的交互。本文将带领读者从Selenium的基础知识出发,逐步深入到高级的应用场景,通过丰富的代码示例来展示如何高效地进行网页自动化测试。
1756 5
|
存储 Linux
CentOS7挂载NTFS格式的硬盘
CentOS7挂载NTFS格式的硬盘
347 0
|
JSON JavaScript 前端开发
如何在Python中解析JSON响应?
【2月更文挑战第26天】【2月更文挑战第92篇】如何在Python中解析JSON响应?
334 0
|
编解码 文字识别
印刷文字识别操作报错合集之在尝试将PDF文件转换为图片时出现了问题,具体的错误代码是415,该怎么处理
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
存储 数据挖掘 数据处理
Python与Excel的交互:读写Excel文件和处理数据
Python与Excel的交互:读写Excel文件和处理数据
481 0
|
数据采集 运维 监控
游戏日志分析2:全方位数据采集
在上一篇文章中,我们介绍了日志数据对游戏的重要性,这一篇我们来讨论下如何高效地实施全方位无死角的日志采集。
6565 0