使用python读取word统计词频并生成词云

简介: 使用python读取word统计词频并生成词云

1、准备

需要用到python-docx,jieba和wordcloud模块,先install

pip3 install jieba
pip install wordcloud

2、开始代码

(1)导入需要用到的模块

import re
import jieba
import docx
from wordcloud import WordCloud
import matplotlib.pyplot as plt

(2)读取word文档的文本内容

此模块主要使用到了python-docx,官方文档地址:

注意是import docx 而不是python-docx,我们主要处理获取了表格中的文本信息和正常段落中的文本信息。

#输入参数path为word文档所在路径
def readFile(path):
    file=docx.Document(path)
    # 读取每一段的内容
    article = ' '
    for para in file.paragraphs:
        if para != '/n':
            article = article + '' + para.text
    # file.paragraphs只能读取到文档中正常段落中的文本信息,却无法读取到文档中表格里的内容,所以我们还需要继续将表格中的内容也读取出来进行合并
    # 获取文档中表格信息
    tables = file.tables  # 获取文档中所有表格对象的列表
    for i in range(len(tables)):
        table0 = tables[i]  # 获取表格对象
        # 获取一个表格的所有单元格
        cells = table0._cells
        # 获取单元格内所有文字信息
        cells_string = [cell.text.replace('\n', ' ').replace('\r', ' ') for cell in cells]
        # print(cells_string)
        for i in range(len(cells_string)):
            article = article + cells_string[i].strip()
    return article

(3)使用jieba进行分词

结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式

精确模式:试图将句子最精确地切开,适合文本分析;

全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

def wordFrequency(a):
    # print(article)
    # print(len(article))
    # 全模式 cut_all=True
    # seq_list=jieba.cut(article,cut_all=True)
    # print(seq_list) #<generator object Tokenizer.cut at 0x0000026EB6F0CD58>
    # print('全模式',list(seq_list))
    # 精确模式 (默认模式) cut_all =False
    # seq_list=jieba.cut(article,cut_all=False)
    # print('精确模式',list(seq_list))
    # 搜索引擎模式 cut_for_search
    seq_list = jieba.cut_for_search(article, )
    # print('搜索引擎模式',list(seq_list))
    #通过符号将字符串分割开
    articleSplit = re.split(" |,|\.|,|。|;|;|、|:|:|:", article)
    sep_list = " ".join(articleSplit)  # 转为字符串
    # print(sep_list)
    articleSplit = seq_list
    d = {}
    #需要忽略的符号集合
    fuhao = [',', '.', ' ', ':', ':', ',', '。', '[', ']', ';', ';', '(', ')', '(', ')', '!', '!']
    #统计词频
    for key in articleSplit:
        if key in d.keys():
            d[key] = d[key] + 1
        else:
            if (len(key.strip()) == 0 or key in fuhao):
                continue
            d[key] = 1
    wordlist = ''
    for key in d:
        # print(key,d[key])
        wordlist = wordlist + ' ' + key
    # print(wordlist)
    #根据词频进行排序
    sort_words = sorted(d.items(), key=lambda x: x[1], reverse=True)
    print(sort_words)
    return wordlist

(4)词云绘制

def wordcloudGenerate(wordlist):
    wc = WordCloud(background_color='white',max_words=2000,width=800,height=600,relative_scaling=1,
                       max_font_size=80,random_state=40,font_path="simhei.ttf")
    # 生成词云
    wc.generate(wordlist)
    # 在只设置mask的情况下,你将会得到一个拥有图片形状的词云
    plt.rcParams['savefig.dpi'] = 300  # 图片像素
    plt.rcParams['figure.dpi'] = 300  # 分辨率
    plt.imshow(wc, interpolation='bilinear')
    plt.axis("off")
    plt.show()

(5)运行程序

#获取文档对象
path = "D:\\Users\\ASUS-BOOK\\Desktop\\蜀道难.docx"
article = readFile(path)
wordlist = wordFrequency(article)
wordcloudGenerate(wordlist)

(6)效果图

目录
相关文章
|
3月前
|
数据可视化 数据挖掘 Python
Seaborn 库创建吸引人的统计图表
【10月更文挑战第11天】本文介绍了如何使用 Seaborn 库创建多种统计图表,包括散点图、箱线图、直方图、线性回归图、热力图等。通过具体示例和代码,展示了 Seaborn 在数据可视化中的强大功能和灵活性,帮助读者更好地理解和应用这一工具。
50 3
|
3月前
|
自然语言处理 Python Windows
python知识点100篇系列(23)- 使用stylecloud生成词云
【10月更文挑战第10天】`stylecloud` 是 `wordcloud` 的优化版,支持使用 Font Awesome 图标自定义词云形状,操作更简便。本文介绍如何安装 `jieba` 和 `stylecloud` 库,并使用它们生成中文词云。通过 `jieba` 进行分词,再利用 `stylecloud` 的 `gen_stylecloud` 方法生成具有特定形状和颜色的词云图像。
python知识点100篇系列(23)- 使用stylecloud生成词云
|
3月前
|
JSON 数据格式 Python
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数
这篇文章介绍了一个Python脚本,用于统计TXT或JSON文件中特定单词的出现次数。它包含两个函数,分别处理文本和JSON文件,并通过命令行参数接收文件路径、目标单词和文件格式。文章还提供了代码逻辑的解释和示例用法。
56 0
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数
|
3月前
|
人工智能 开发者 Python
python读取word文档 | AI应用开发
在RAG系统中,构建知识库时需读取多种外部文档,其中Word文档较为常见。本文介绍如何使用`python-docx`库读取Word文档(.docx格式)中的标题、段落、表格和图片等内容。首先通过`pip install python-docx`安装库,然后利用提供的接口提取所需信息。尽管该库功能强大,但在识别标题样式时需自定义逻辑,并且仅提供图片的URI而非直接加载。示例代码展示了读取文本、识别标题、读取表格及获取图片URI的方法。【10月更文挑战第2天】
113 2
|
3月前
|
自然语言处理 计算机视觉 Python
用 Python 创建词云
用 Python 创建词云
42 2
|
3月前
|
数据可视化 Serverless Python
Python小事例—质地不均匀的硬币的概率统计
Python小事例—质地不均匀的硬币的概率统计
70 0
|
3月前
|
IDE 开发工具 Python
Python自动化操作word--批量替换word文档中的文字
Python自动化操作word--批量替换word文档中的文字
222 0
|
5月前
|
Linux Python Windows
Python PDF文件转Word格式,只需要3秒(附打包)
Python PDF文件转Word格式,只需要3秒(附打包)
111 3
Python PDF文件转Word格式,只需要3秒(附打包)
|
5月前
|
XML 存储 数据格式
使用Python的zipfile模块巧解Word批量生成问题
通过以上步骤,我们得到了填充了特定数据的 Word 文档。这个过程可以通过循环对多个数据集重复执行,从而实现批量生成多个 Word 文档的目标。
47 5
|
5月前
|
自然语言处理 搜索推荐 数据可视化
如何使用python实现一个优雅的词云?(超详细)
如何使用python实现一个优雅的词云?(超详细)
122 2