Python大数据:jieba分词,词频统计

简介: 实验目的学习如何读取一个文件学习如何使用DataFrame学习jieba中文分词组件及停用词处理原理了解Jupyter Notebook概念中文分词在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫就叫做分词。

实验目的

  1. 学习如何读取一个文件
  2. 学习如何使用DataFrame
  3. 学习jieba中文分词组件及停用词处理原理
  4. 了解Jupyter Notebook

概念

中文分词

在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫就叫做分词。由于中文句子不像英文那样天然自带分隔,并且存在各种各样的词组,从而使中文分词具有一定的难度。

不过,中文分词并不追求完美,而是通过关键字识别技术,抽取句子中最关键的部分,从而达到理解句子的目的。

工具

Jupyter Notebook

Jupyter Notebook是一个交互式的笔记本工具,重点有两点
- “交互式” 让你随时随时运行并暂存结果,
- “笔记本” 记录你的研究过程

想象一下,在这之前你是如何使用Python的?

  • 用一切可能的文本编辑工具编写代码
  • 然后运行python xxx.py调试
  • 当你写了一个9W条数据的处理程序之后,跑到一半报个错,又得重头开始
  • 画图基本靠脑补

有了JN之后,你可以:

  • 直接在网页上编写代码
  • 按Shift + Enter立即执行当前Cell的代码段
  • Cell执行后的变量仍然生存,可以在下一个Cell继续使用,所以,我用第一个Cell加载9W条数据,第二个Cell开始预处理,第三个Cell进行运算等等
  • 直接在网页上画出图片,即时调整参数Shift+Enter预览,麻麻再也不用担心我写错代码,美滋滋 ~~~

jieba

jieba模块安装请参见官方说明

jieba 是一个python实现的中文分词组件,在中文分词界非常出名,支持简、繁体中文,高级用户还可以加入自定义词典以提高分词的准确率。

它支持三种分词模式

  • 精确模式:试图将句子最精确地切开,适合文本分析;
  • 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

另外它还自带有关键词摘取算法。

  • 基于 TF-IDF 算法的关键词抽取
  • 基于 TextRank 算法的关键词抽取

pandas

pandas 是基于NumPy 的大数据处理工具,基本数据结构有(二维表)DataFrame,(一维数组)Series。

本次实验中,我们主要使用pandas的DataFrame,加载、保存csv数据源,处理数组进行去重、统计。

数据

实验数据为百度随意打开的新闻,请读者自行按下表格式准备

id title content
1 文章标题 文章内容
2 文章标题 文章内容
3 文章标题 文章内容
img_54aec3ab3d173d1cb594a3ab0fcfcdf8.png
本文使用的数据截图

思路(伪代码)

  1. 读取数据源
  2. 加载停用词库
  3. 循环对每一篇文章进行分词
    • 普通分词,需要手工进行停用词过滤
    • TF-IDF关键词抽取,需要使用停用词库
    • textrank关键词抽取,只取指定词性的关键词
  4. 对结果进行词频统计
  5. 输出结果到csv文件

实验代码

第一行将代码标记为utf-8编码,避免出现处理非ascii字符时的错误

# -*- coding: UTF-8 -*-

载入需要用到的模块,as是给模块取个别名,输入的时候不用输那么长的单词。

嗯,反正你别问我为什么不给jieba取别名

import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs

默认情况下,pd显示的文本长度为50,超出部分显示为省略号,我们修改一下,以方便观察数据(文章内容)

#设置pd的显示长度
pd.set_option('max_colwidth',500)

读取我们的实验数据,将所有列设置为string,编码指定utf-8,第一行为列头

#载入数据
rows=pd.read_csv('datas1.csv', header=0,encoding='utf-8',dtype=str)

我们直接在下一个Cell中输入变量rows,观察载入的结果

img_6e85a060711fd6a0accaf6b001262b53.png
加载后的数据

对于普通分词,我们需要将停用词载入到一个数组中,在分词后逐一比较关键词是否为停用词

stopwords = [line.strip() for line in codecs.open('stoped.txt', 'r', 'utf-8').readlines()] 

对于TF-IDF,我们只需要告诉组件停用词库,它将自己载入词库并使用它

#载入停用词
jieba.analyse.set_stop_words('stoped.txt')

接下来我们就要对所有文章进行分词了,先声明一个数组,用于保存分词后的关键字,此数组每行保存一个关键字对象。

关键字对象有两个属性:

  • word: 关键字本身
  • count : 永远为1,用于后面统计词频
# 保存全局分词,用于词频统计
segments = []

普通分词及停用词判断

for index, row in rows.iterrows():
    content = row[2]
    #TextRank 关键词抽取,只获取固定词性
    words = jieba.cut(content)
    splitedStr = ''
    for word in words:
        #停用词判断,如果当前的关键词不在停用词库中才进行记录
        if word not in stopwords:
            # 记录全局分词
            segments.append({'word':word, 'count':1})
            splitedStr += word + ' '

Text Rank 关键词抽取

for index, row in rows.iterrows():
    content = row[2]
    #TextRank 关键词抽取,只获取固定词性
    words = jieba.analyse.textrank(content, topK=20,withWeight=False,allowPOS=('ns', 'n', 'vn', 'v'))
    splitedStr = ''
    for word in words:
        # 记录全局分词
        segments.append({'word':word, 'count':1})
        splitedStr += word + ' '

观察分词后的关键字,发现全是utf-8编码后的文字,暂时不管,我们先将这个数组转换为DataFrame对象,调用groupby方法和sum方法进行统计汇总。

# 将结果数组转为df序列
dfSg = pd.DataFrame(segments)

# 词频统计
dfWord = dfSg.groupby('word')['count'].sum()

输出结果

#导出csv
dfWord.to_csv('keywords.csv',encoding='utf-8')
img_87094c36e1fa858dd3906fd7d5ebd0c1.png
导出的数据结果

完整代码

# -*- coding: UTF-8 -*-
import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs

#设置pd的显示长度
pd.set_option('max_colwidth',500)

#载入数据
rows=pd.read_csv('datas1.csv', header=0,encoding='utf-8',dtype=str)

segments = []
for index, row in rows.iterrows():
    content = row[2]
    #TextRank 关键词抽取,只获取固定词性
    words = jieba.analyse.textrank(content, topK=50,withWeight=False,allowPOS=('ns', 'n', 'vn', 'v'))
    splitedStr = ''
    for word in words:
        # 记录全局分词
        segments.append({'word':word, 'count':1})
        splitedStr += word + ' '
dfSg = pd.DataFrame(segments)

# 词频统计
dfWord = dfSg.groupby('word')['count'].sum()
#导出csv
dfWord.to_csv('keywords.csv',encoding='utf-8')

总结

分词算法

本次实验,我们学习了如何使用jieba模块进行中文分词与关键字提取,结果各有千秋:

  • 普通分词:需要手工过滤停用词、无意义词、电话号码、符号等,但能较为全面的保留所有关键字。
  • TF-IDF:停用词过滤有限,也需要手工处理部分数字、符号;它通过词频抽取关键字,对同一篇文章的词频统计不具有统计意义,多用于宏观上的观测。
  • Text Rank: 大概效果同TF-IDF,通过限定词性过滤无关字符,能得到较为工整的关键字结果。

结论

总之,我们应根据我们的目标去选择适当的分词方法。

  • 对某一篇文章进行关键字Map,我们选择普通分词,并自行过滤关键词,或添加自定义词库。
  • 对采集的一批样本进行关键字分析,我们可以选择TF-IDF,对所有的关键字进行词频统计,并绘制出关键字云图。
  • 如果我们要分析一批样本中用户的分类,用户的行为,用户的目的,我们可以选择TextRank抽取指定词性的关键字进行统计分析。

引用

jieba 开源仓库 https://github.com/fxsjy/jieba

下期预告

Python大数据:商品评论的情感倾向分析

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
8天前
|
数据可视化 大数据 数据处理
大数据处理时的python和R语言
【5月更文挑战第5天】本文讨论了在语言Python 和R中数据处理时的框架,比如Python中的 OpenCV, Matplotlib, NumPy, Pandas, 和Seaborn。
15 1
大数据处理时的python和R语言
|
8天前
|
数据可视化 大数据 Python
python大数据分析处理
python大数据分析处理
16 0
|
8天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
160 6
|
8天前
|
机器学习/深度学习 自然语言处理 Python
python分词列表转化成词向量
python分词列表转化成词向量
21 1
|
8天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之我需要在MaxCompute客户端添加Python第三方包,我该怎么操作
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
缓存 大数据 Python
python利用代理IP分析大数据
python利用代理IP分析大数据
|
8天前
|
数据采集 数据可视化 算法
Python在大数据分析中的力量:Pandas、NumPy与SciPy
【4月更文挑战第8天】Pandas、NumPy和SciPy是Python数据分析的核心,构成其在大数据领域的重要地位。Pandas提供高效的数据操作,包括DataFrame和Series结构,以及数据清洗和预处理工具。NumPy专注于数组计算,提供高性能的ndarray和数学函数。SciPy则包含专业算法,适用于科学与工程计算。这三者协同工作,覆盖数据分析的全过程,形成强大的Python生态系统。随着社区的不断创新和新库的涌现,如Dask和CuDF,Python在大数据分析领域的潜力将持续增长。
54 0
|
自然语言处理 Python
Python:jieba中文分词的使用笔记
Python:jieba中文分词的使用笔记
156 0
|
1天前
|
C语言 Python
专为编程小白设计的Python零基础入门教程,GitHub星标破W
市面上大多数技术类的书籍都着重于一步步的构建系统的知识体系,并不是说这样就是不对的,但这样按部就班的学习注定了需要花费大量的时间用来掌握“基础知识”,或死记硬背,或慢慢理解。 然而世界不会迁就你,而是在步步紧逼的告诉你要赶紧学完,赶紧找工作,赶紧挣钱,这才是你生活的基础。 今天给小伙伴们带来了一份《编程小白的第一步Python书》,这本书是专为零基础小白设计的,不会告诉“先学C语言,会更好理解Python”这种狗屁道理。而是先带你掌握搭建项目所用到的最少得知识,再真实的项目搭建中实践自己的所学,逐渐的完善知识体系