用Python分析文本数据的词频并词云图可视化

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 用Python分析文本数据的词频并词云图可视化

一、Python分析文本数据的优点


  1. 广泛的库和工具支持:Python拥有丰富的文本分析库,如NLTK(自然语言工具包)、spaCy、TextBlob、Gensim等,这些库提供了各种文本处理和分析功能,使得文本分析任务更容易实现。


  1. 易于学习和使用:Python是一门容易学习的编程语言,因此即使是初学者也可以快速上手文本分析任务。Python的简洁语法和清晰的代码结构有助于更好地理解和维护分析代码。


  1. 社区支持:Python拥有庞大的开发者社区,这意味着可以轻松找到答案、解决问题,并获得有关文本分析的支持和建议。


  1. 跨平台性:Python是一种跨平台的编程语言,可以在Windows、Linux和Mac等操作系统上运行,因此非常适合各种不同环境中的文本分析。


  1. 数据处理能力:Python拥有强大的数据处理和操作库,如NumPy和Pandas,这些库使得数据清洗、转换和分析变得更加容易。


  1. 可视化能力:Python中的库,如Matplotlib、Seaborn和Plotly,可以用于生成各种数据可视化,帮助用户更好地理解和展示文本数据的分析结果。


  1. 机器学习和深度学习支持:Python在机器学习和深度学习方面表现出色,因此可以使用各种机器学习和深度学习模型来进行文本分类、情感分析、命名实体识别等任务。


  1. 开源和免费:Python是一种开源的编程语言,可以免费使用,这意味着无需额外费用就可以进行文本分析。


  1. 丰富的文档和教程:有大量的在线文档、教程和示例代码可用于帮助用户学习和实践文本分析。


二、Python分析文本常用的第三方库


  1. NLTK(Natural Language Toolkit):NLTK是一款广泛用于自然语言处理的库,提供了文本分词、词性标注、命名实体识别、语法分析等功能,以及大量的语料库和数据集。


  1. spaCy:spaCy是一个高度优化的自然语言处理库,具有出色的性能和功能,支持分词、命名实体识别、词性标注等任务,并支持多语言。


  1. TextBlob:TextBlob是一个简单而易于使用的库,用于执行各种文本分析任务,包括情感分析、文本分类、词性标注等。


  1. Gensim:Gensim是一个用于主题建模和文本向量化的库,特别适用于处理大型文本语料库和文本文档集合。


  1. Scikit-learn:虽然Scikit-learn主要用于机器学习,但它也提供了文本特征提取、文本分类和聚类等文本分析的工具和算法。


  1. Word2Vec:Word2Vec是一个用于词嵌入(word embedding)的库,可以将词汇转换为向量表示,以便进行文本分析和自然语言处理任务。


  1. Pattern:Pattern是一个用于文本挖掘和自然语言处理的库,支持词性标注、情感分析、信息提取等任务。


  1. Spacy-transformers:这是spaCy的一个扩展库,使其能够使用预训练的Transformer模型(如BERT、GPT-2)进行文本分析。


  1. TfidfVectorizer:TfidfVectorizer是Scikit-learn的一部分,用于将文本数据转换为TF-IDF(Term Frequency-Inverse Document Frequency)特征表示,常用于文本分类和信息检索。


  1. NLTK和TextBlob的情感分析模块:这些库提供了用于情感分析的功能,可用于判断文本的情感倾向,如积极、消极或中性。


  1. Matplotlib、Seaborn和Plotly:这些库用于可视化文本数据分析结果,可以生成各种图表和图形,帮助更好地理解文本数据。


三、词频分析


       上次批量提取了上市公司主要业务信息,要分析这些文本数据,就需要做文本词频分析。由于中文不同于英文,词是由一个一个汉字组成的,而英文的词与词之间本身就有空格,所以中文的分词需要单独的库才能够实现,常用的是`jieba`。若没安装,直接运行`cmd`,然后输入`pip install jieba`安装即可。然后导入`jieba`库。我们以“华特气体”公司的主要业务进行分词,分词前如下图所示。通过`open`打开华特气体文本文件,使用读模式`r`,为避免编码错误,指定编码类型为`utf-8`。读取出来是一个大字符串,将这个大字符串存入`txt`。然后调用`jieba`进行分词。`lcut`的意思是切分词后再转换成列表("l"即表示`list`的首字母)。将切分后的词存入列表`words`。

import jieba
txt = open("华特气体.txt", "r", encoding="utf-8").read()
words = jieba.lcut(txt)
words

 


结果如上,可见基本是按照我们的汉字使用习惯来区分词的,不能组成词的字则是按单独一个字符串存放的。然后我们就需要将词和对应出现的次数统计出来。先新建一个字典`wordsDict`用于储存词及其出现的次数。对于单个的字或字符不是我们想要的,所以加了一个`if`语句将其排除在外。`continue`的作用是,`if`后面的条件满足时,让程序回到`for`循环,而不执行`continue`下面的语句。也就是列表中的元素只有一个字符的时候,就马上跳到下一个而不执行任何操作。只有当元素不止一个字符的时候,才执行`else`语句,即将词及其出现的次数加入字典。此处用`setdefault`给词的出现初始值设置为0,每重复出现一次,自动加1。然后我们根据此出现的次数,降序排序,并查看前20个词的情况。

wordsDict = {} #新建字典用于储存词及词频
for word in words:
    if len(word) == 1: #单个的字符不作为词放入字典
        continue
    else:
        wordsDict.setdefault(word, 0) #设置词的初始出现次数为0
        wordsDict[word] +=1 #对于重复出现的词,每出现一次,次数增加1
wordsDict_seq = sorted(wordsDict.items(),key=lambda x:x[1], reverse=True) #按字典的值降序排序
wordsDict_seq[:15] 

 


可以看到,有些词并不是我们想要的,比如“公司”、“行业”、“000”。因此需要把这些意义不大的词删除。先定义一个储存要排除的词的列表`stopWords`,将想排除的词放进去,一般是放出现次数较多,但意义不大的词,可根据实际需要调整。然后遍历这个字典,在检查这些词是否在目标字典`wordsDict`中,如果在,就将字典中这个词对应的数据删除。  

stopWords = ["公司","行业","000","用于","情况","方面","一种","要求","对于","进行","一般","212","实现","处理","通过","投入","随着"]
for word in stopWords:
    if word in wordsDict:
        del wordsDict[word] #删除对应的词
wordsDict_seq = sorted(wordsDict.items(),key=lambda x:x[1], reverse=True) #按字典的值降序排序
wordsDict_seq[:15] 


然后将筛选后的数据转换成DataFrame,并增加列名“词”和“次数”,然后导出为Excel文件。

df = pd.DataFrame(wordsDict_seq,columns=['词','次数'])
df.to_excel("华特气体-词频.xlsx",index = False) #存为Excel时去掉index索引列
df.head(10)


以上,搞定了一个文件的词频收集,那批量操作呢?请看下面分解。

import os
path='主要业务'  #文件所在文件夹
files = [path+"\\"+i for i in os.listdir(path)] #获取文件夹下的文件名,并拼接完整路径
files


以上,先获取到所有待分析文件的路径。然后逐个进行分析。稍微修改一下上面的程序,很快分析完成。结果如下。

import jieba
import pandas as pd
for file in files:
    txt = open(file, "r", encoding="utf-8").read()
    words = jieba.lcut(txt)
    wordsDict = {} #新建字典用于储存词及词频
    for word in words:
        if len(word) == 1: #单个的字符不作为词放入字典
            continue
        else:
            wordsDict.setdefault(word, 0) #设置词的初始出现次数为0
            wordsDict[word] +=1 #对于重复出现的词,每出现一次,次数增加1
    stopWords = ["2019","不断","持续","主要","企业","产品","业务","公司","行业","000","用于","情况","方面","一种","要求","对于","进行","一般","212","实现","处理","通过","投入","随着"]
    for word in stopWords:
        if word in wordsDict:
            del wordsDict[word] #删除对应的词
    wordsDict_seq = sorted(wordsDict.items(),key=lambda x:x[1], reverse=True) #按字典的值降序排序
    df = pd.DataFrame(wordsDict_seq,columns=['词','次数'])
    df.to_excel("词频//{}.xlsx".format(file.split("\\")[1][:-4]),index = False) #存为Excel时去掉index索引列


四、词云图分析


       如果要将上面做好的词频分析可视化,“词云图”是一个很好的选择。它的原理是,将词频高的词显示得相对更大一些。而且可以自定义背景图,让词云显示成个性化的形状。今天我们就来将上次获取的10家上市公司的“主要业务”词频文件批量生成词云图,这样一看词云图就大致了解这家公司的主要业务是什么了,放在PPT里展示也显得高大上。首先,我们导入需要用到库。若显示导入不成功,则需要用`pip install + 库名`进行安装。

import numpy as np # numpy数据处理库
import wordcloud # 词云库
from PIL import Image # 图像处理库,用于读取背景图片
import matplotlib.pyplot as plt # 图像展示库,以便在notebook中显示图片
from openpyxl import load_workbook #读取词频Excel文件
import os #获取词频Excel文件路径

然后获取所有的Excel词频表路径,以便后续逐一读取,并传入词云库生成词云图。再定义词频背景图,`np.array(Image.open())`打开图片后转为数组,存入`maskImage`变量。需要注意词频背景图中想要的形状的背景需要是白色的,不然无法得到想要的词云图形状。比如如下背景图片,左边的图片因为猴子的背景不是白色,做出的词云图会占满整个图片,即是一个矩形的词云图;右边的图片中,猴子的背景是白色的,做出的词云图看起来就是一只猴子的形状。


然后用`for`循环遍历所有待处理的Excel文件,逐个打开,提取其中的词和词频,存入字典`wordFreq`。然后通过`wordcloud.WordCloud()`定义词云样式。这个函数有很多参数,具体如下。我们只需要关注常用的几个即可,其它可作为了解。

wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9, mask=None, scale=1, color_func=None, max_words=200, min_font_size=4, stopwords=None, random_state=None, background_color='black', max_font_size=None, font_step=1, mode='RGB', relative_scaling='auto', regexp=None, collocations=True, colormap=None, normalize_plurals=True, contour_width=0, contour_color='black', repeat=False, 'include_numbers=False', 'min_word_length=0', 'collocation_threshold=30')


`font_path`:字体路径。字体存在`C:\Windows\Fonts`目录,在想要的字体上点右键,选择“属性”可查看其名称,然后连同路径复制,赋给font_path即可。比如本例使用的黑体。需要注意的是,若是中文词云,需要选中文字体。

`width,height`:画布的宽度和高度,单位为像素。若没设置`mask`值,才会使用此默认值400*200。
`margin`:词间距。
`ranks_only`:文档未说明。
`prefer_horizontal`:词语横排显示的概率(默认为90%,则竖排显示概率为10%)
`mask`:用于设定绘制模板,需要是一个`nd-array`(多维数组),所以在用`Image.open()`读取图片后,需要用`np.array`转换成数组。另外`mask`参数有设定的话,画布的大小会由词频背景图的大小决定。这个经常使用,因为我们更倾向于自定义模板。
`scale`:比例尺,用于放大画布的尺寸。一般使用默认值。
`color_func`:颜色函数,一般不用。
`max_words`:词云图中最多显示词的字数,设定一个值,可让那些出现次数极少的词不显示出来。
`min_font_size`:字号最小值。
`stopwords`:设置不想显示的词。
`random_state`:文档未说明。
`background_color`:词云图背景色,默认为黑色。可根据需要调整。
`max_font_size`:字号最大值。
`font_step`:字体的步长,一般使用默认。大于1的时候可提升运算速度,但匹配较差。
`mode`:当设置为"RGBA" 且`background_color`设置为"None"时可产生透明背景。
`relative_scaling`:词频对字体大小的影响度,一般使用默认。
`regexp`:正则表达式分割输入的字符。一般是先处理好才给到wordcloud,所以基本不用。
`collocations`:是否包含两个词的搭配,若使用了`generate_from_frequencies`方法则忽略此参数。一般不用。
`colormap`:每个词对应的颜色,若设置了`color_func`则忽略此参数。
`normalize_plurals`:是否移除英文复数单词末尾的s ,比如可将word和words视同为一个词,并将词频算到word头上。如果使用了`generate_from_frequencies`方法则忽略此参数。
`contour_width`:如果`mask`有设置,且`contour_width`>0,将会绘制`mask`轮廓。
`contour_color`:`mask`轮廓的颜色,默认为黑色。
`repeat`:当词不足以满足设定的`max_words`时,是否重复词或短语以使词云图上的词数量达到`max_words`
`include_numbers`:是否将数字作为词。
`min_word_length`:设置一个词包含的最少字母数量。
`collocation_threshold`:界定英文中的`bigrams`,对于中文不适用。

  此例中,我们调用`wordcloud`时,设定了字体为“黑体”,使用了背景图为绘图模板,设置了最多显示词数为500,字号最大为100。然后使用`generate_from_frequencies()`从已有词频数据的字典中生成词云图。然后将词云图按公司名保存到指定路径(“词云图”文件夹)。最后用`plt.imshow()`在notebook中显示词云图。结果如下。

#将存好的Excel词频表读取成字典
path='词频'  #文件所在文件夹
files = [path+"\\"+i for i in os.listdir(path)] #获取文件夹下的文件名,并拼接完整路径
maskImage = np.array(Image.open('background.png')) # 定义词频背景图
for file in files:
    #将词频Excel文件读取为字典
    wb = load_workbook(file)
    ws = wb.active
    wordFreq = {}
    for i in range(2,ws.max_row+1):
        word = ws["A"+str(i)].value
        freq = ws["B"+str(i)].value
        wordFreq[word] = freq    
    #定义词云样式
    wc = wordcloud.WordCloud(
        font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体
        mask= maskImage, # 设置背景图
        max_words=500, # 最多显示词数
        max_font_size=100) # 字号最大值
    #生成词云图
    wc.generate_from_frequencies(wordFreq) # 从字典生成词云
    #保存图片到指定文件夹
    wc.to_file("词云图\\{}.png".format(file.split("\\")[1][:4]))
    #在notebook中显示词云图
    plt.imshow(wc) # 显示词云
    plt.axis('off') # 关闭坐标轴
    plt.show() # 显示图像
目录
相关文章
|
10天前
|
机器学习/深度学习 自然语言处理 API
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程。通过简单的代码示例,展示如何将文本转换为自然流畅的语音,适用于有声阅读、智能客服等场景。
50 3
|
9天前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
18 1
|
10天前
|
JSON 数据格式 索引
Python中序列化/反序列化JSON格式的数据
【11月更文挑战第4天】本文介绍了 Python 中使用 `json` 模块进行序列化和反序列化的操作。序列化是指将 Python 对象(如字典、列表)转换为 JSON 字符串,主要使用 `json.dumps` 方法。示例包括基本的字典和列表序列化,以及自定义类的序列化。反序列化则是将 JSON 字符串转换回 Python 对象,使用 `json.loads` 方法。文中还提供了具体的代码示例,展示了如何处理不同类型的 Python 对象。
|
10天前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
22天前
|
数据可视化 算法 JavaScript
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式
本文探讨了如何利用图论分析时间序列数据的平稳性和连通性。通过将时间序列数据转换为图结构,计算片段间的相似性,并构建连通图,可以揭示数据中的隐藏模式。文章介绍了平稳性的概念,提出了基于图的平稳性度量,并展示了图分区在可视化平稳性中的应用。此外,还模拟了不同平稳性和非平稳性程度的信号,分析了图度量的变化,为时间序列数据分析提供了新视角。
50 0
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式
|
9天前
|
索引 Python
SciPy 空间数据1
SciPy 通过 `scipy.spatial` 模块处理空间数据,如判断点是否在边界内、计算最近点等。三角测量是通过测量角度来确定目标距离的方法。多边形的三角测量可将其分解为多个三角形,用于计算面积。Delaunay 三角剖分是一种常用方法,可以对一系列点进行三角剖分。示例代码展示了如何使用 `Delaunay()` 函数创建三角形并绘制。
18 0
|
6月前
|
机器学习/深度学习 存储 数据可视化
数据分享|Python在Scikit-Learn可视化随机森林中的决策树分析房价数据
数据分享|Python在Scikit-Learn可视化随机森林中的决策树分析房价数据
|
6月前
|
传感器 数据可视化 BI
python研究汽车传感器数据统计可视化分析
python研究汽车传感器数据统计可视化分析
|
6月前
|
自然语言处理 数据可视化 数据挖掘
数据代码分享|Python对全球Covid-19疫情失业数据相关性、可视化分析
数据代码分享|Python对全球Covid-19疫情失业数据相关性、可视化分析
|
6月前
|
数据可视化 数据处理 索引
Python用GARCH对ADBL股票价格时间序列趋势滚动预测、损失、可视化分析
Python用GARCH对ADBL股票价格时间序列趋势滚动预测、损失、可视化分析