使用python读取word统计词频并生成词云

简介: 使用python读取word统计词频并生成词云

1、准备

需要用到python-docx,jieba和wordcloud模块,先install

pip3 install jieba
pip install wordcloud

2、开始代码

(1)导入需要用到的模块

import re
import jieba
import docx
from wordcloud import WordCloud
import matplotlib.pyplot as plt

(2)读取word文档的文本内容

此模块主要使用到了python-docx,官方文档地址:

注意是import docx 而不是python-docx,我们主要处理获取了表格中的文本信息和正常段落中的文本信息。

#输入参数path为word文档所在路径
def readFile(path):
    file=docx.Document(path)
    # 读取每一段的内容
    article = ' '
    for para in file.paragraphs:
        if para != '/n':
            article = article + '' + para.text
    # file.paragraphs只能读取到文档中正常段落中的文本信息,却无法读取到文档中表格里的内容,所以我们还需要继续将表格中的内容也读取出来进行合并
    # 获取文档中表格信息
    tables = file.tables  # 获取文档中所有表格对象的列表
    for i in range(len(tables)):
        table0 = tables[i]  # 获取表格对象
        # 获取一个表格的所有单元格
        cells = table0._cells
        # 获取单元格内所有文字信息
        cells_string = [cell.text.replace('\n', ' ').replace('\r', ' ') for cell in cells]
        # print(cells_string)
        for i in range(len(cells_string)):
            article = article + cells_string[i].strip()
    return article

(3)使用jieba进行分词

结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式

精确模式:试图将句子最精确地切开,适合文本分析;

全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

def wordFrequency(a):
    # print(article)
    # print(len(article))
    # 全模式 cut_all=True
    # seq_list=jieba.cut(article,cut_all=True)
    # print(seq_list) #<generator object Tokenizer.cut at 0x0000026EB6F0CD58>
    # print('全模式',list(seq_list))
    # 精确模式 (默认模式) cut_all =False
    # seq_list=jieba.cut(article,cut_all=False)
    # print('精确模式',list(seq_list))
    # 搜索引擎模式 cut_for_search
    seq_list = jieba.cut_for_search(article, )
    # print('搜索引擎模式',list(seq_list))
    #通过符号将字符串分割开
    articleSplit = re.split(" |,|\.|,|。|;|;|、|:|:|:", article)
    sep_list = " ".join(articleSplit)  # 转为字符串
    # print(sep_list)
    articleSplit = seq_list
    d = {}
    #需要忽略的符号集合
    fuhao = [',', '.', ' ', ':', ':', ',', '。', '[', ']', ';', ';', '(', ')', '(', ')', '!', '!']
    #统计词频
    for key in articleSplit:
        if key in d.keys():
            d[key] = d[key] + 1
        else:
            if (len(key.strip()) == 0 or key in fuhao):
                continue
            d[key] = 1
    wordlist = ''
    for key in d:
        # print(key,d[key])
        wordlist = wordlist + ' ' + key
    # print(wordlist)
    #根据词频进行排序
    sort_words = sorted(d.items(), key=lambda x: x[1], reverse=True)
    print(sort_words)
    return wordlist

(4)词云绘制

def wordcloudGenerate(wordlist):
    wc = WordCloud(background_color='white',max_words=2000,width=800,height=600,relative_scaling=1,
                       max_font_size=80,random_state=40,font_path="simhei.ttf")
    # 生成词云
    wc.generate(wordlist)
    # 在只设置mask的情况下,你将会得到一个拥有图片形状的词云
    plt.rcParams['savefig.dpi'] = 300  # 图片像素
    plt.rcParams['figure.dpi'] = 300  # 分辨率
    plt.imshow(wc, interpolation='bilinear')
    plt.axis("off")
    plt.show()

(5)运行程序

#获取文档对象
path = "D:\\Users\\ASUS-BOOK\\Desktop\\蜀道难.docx"
article = readFile(path)
wordlist = wordFrequency(article)
wordcloudGenerate(wordlist)

(6)效果图

目录
相关文章
|
1月前
|
XML 关系型数据库 MySQL
python将word(doc或docx)的内容导入mysql数据库
用python先把doc文件转换成docx文件(这一步也可以不要后续会说明),然后读取docx的文件并另存为htm格式的文件(上一步可以直接把doc文件另存为htm),python根据bs4获取p标签里的内容,如果段落中有图片则保存图片。(图片在word文档中的位置可以很好的还原到生成的数据库内容) 我见网上有把docx压缩后解压获取图片的,然后根据在根据xml来读取图片的位置,我觉得比较繁琐。用docx模块读取段落的时候还需要是不是判断段落中有分页等,然而转成htm之后就不用判断那么多直接判断段落里的样式或者图片等就可以了。
27 1
|
2月前
|
XML 存储 数据处理
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
python绘制热力图-数据处理-VOC数据类别标签分布及数量统计(附代码)
56 0
|
2月前
|
机器学习/深度学习 自然语言处理 数据可视化
用Python分析文本数据的词频并词云图可视化
用Python分析文本数据的词频并词云图可视化
74 0
|
11天前
|
BI 开发者 数据格式
Python代码填充数据到word模板中
【4月更文挑战第16天】
|
16天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
20天前
|
测试技术 Python
288统计出现最多次的字母(PYTHON)
288统计出现最多次的字母(PYTHON)
|
1月前
|
Python
Python教程:如何向Word中添加表格
Microsoft Word是一种流行的文档处理软件,广泛用于创建各种类型的文档,包括报告、简历、手册等。Python提供了许多库来处理Microsoft Word文档,其中包括`python-docx`,它使我们能够轻松地创建、修改和操作Word文档。本文将介绍如何使用Python的`python-docx`库向Word文档中添加表格。
20 0
|
1月前
|
存储 数据管理 Serverless
Python实现:教你轻松统计文件夹下文件个数
Python实现:教你轻松统计文件夹下文件个数
27 0
|
1月前
|
XML 存储 算法
使用Python的zipfile模块巧解Word批量生成问题
使用Python的zipfile模块巧解Word批量生成问题
20 0
|
1月前
|
安全 API 数据安全/隐私保护
使用Python操纵Word自动编写离职报告
使用Python操纵Word自动编写离职报告
24 0