利用jieba库进行词频统计

简介: 利用jieba库进行词频统计

0 引言

在读一篇文章和读一本经典名著时,我们常常想统计出来每个词汇出现的次数及该词汇的出现频率,其实我们可以利用Python中的第三方库jieba库来实现。

1 问题

通过对一篇文章和一本书中的词频统计,我们可以知道什么事物或是谁在该文章或该著作作者用了更多的文笔来提到和描述它,

2 方法

  1. encoding=’ANSI’:将打开的文本格式设为ANSI形式
  2. read(size):方法从文件当前位置起读取size个字节,若无参数size,则表示读取至文件结束为止,它范围为字符串对象。
  3. items = list(counts.items):将counts中的元素存入items表格中。
  4. key = lambda x:x[1]:等价于 def func(x):
    return x[1]
  5. reverse = True:表反转排序不写reverse = True 就是列表升序排列,括号里面加上reverse =True 就是降序排列!
  6. {0:<10}{1:>5}:<表示左对齐,>表示右对齐,数字表示宽度,<10表示左对齐,并占10个位置,>5表示右对齐,占5个位置。

3实验结果与讨论

通过实验、实践等证明提出的方法是有效的,是能够解决开头提出的问题。

代码清单 1

import jieba
txt = open("三国演义.txt", "r", encoding='ANSI').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
word, count = items[i]
print ("{0:<10}{1:>5}".format(word, count))

4 结语

使用jieba库对一段文本进行词频的统计是一件非常有意思的事,我们只需要使用这第三方库,就可以在不阅读文本的情况下,得到该文本的高频率词汇。但jieba库的作用远远不止于此,它更多的作用等着我们去挖掘。

目录
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 算法
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
1786 0
|
自然语言处理 算法 大数据
Python大数据:jieba分词,词频统计
实验目的 学习如何读取一个文件 学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理 了解Jupyter Notebook 概念 中文分词 在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫就叫做分词。
9042 0
|
10月前
|
自然语言处理
pkuseg 和 jieba 分词对比测试,结果出乎意料...
pkuseg 和 jieba 分词对比测试,结果出乎意料...
|
11月前
|
自然语言处理 算法
Jieba进行词频统计与关键词提取
Jieba进行词频统计与关键词提取
|
自然语言处理 搜索推荐
jieba分词有哪些模式,分别详细介绍
jieba分词有哪些模式,分别详细介绍
912 0
|
机器学习/深度学习 自然语言处理 Python
|
人工智能 自然语言处理 搜索推荐
Python 中文分词:jieba库的使用
Python基础入门jieba库的使用。如何安装,常用函数方法。老人与海、水浒传词频统计案例。
291 0
Python 中文分词:jieba库的使用
|
自然语言处理 Python
Python:jieba中文分词的使用笔记
Python:jieba中文分词的使用笔记
128 0
|
自然语言处理 Python 开发工具
[日常]Beyond的歌里最多是"唏嘘"吗? - Python分词+词频
用结巴分词分析Beyond歌词, 得出词频统计.
1120 0