使用jieba分析小说太古神王中,男主更爱谁?去文章中找答案吧!

简介: 很多时候,我们会去统计一片文章中的高频词汇,以此来作为文章的关键词条,那么词频分析在python中,该用什么模块做?jieba!第一次听到这个词就乐了,一个“结巴”,帮助我们统计词频...但仔细了解这个模块后,你会发现它的强大。怎么证明?来看看github。

文本分析


很多时候,我们会去统计一片文章中的高频词汇,以此来作为文章的关键词条,那么词频分析在python中,该用什么模块做?jieba


第一次听到这个词就乐了,一个“结巴”,帮助我们统计词频...但仔细了解这个模块后,你会发现它的强大。怎么证明?来看看github。

网络异常,图片无法展示
|

jieba github


19K的star,5000+fork你就知道它多受欢迎了!让我们先来学学jieba


jieba介绍


jieba的github上readme写的非常详细,如果大家喜欢可以去仔细学习:jieba gihub地址。这里挑我们代码需要用到的地方讲解下...

安装: pip install jieba

以下内容引用自jieba github

“结巴”中文分词:做最好的 Python 中文分词组件


分词

  • jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型
  • jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
  • 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8
  • jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用
  • jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
  • jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

代码示例
# encoding=utf-8
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
输出:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
【精确模式】: 我/ 来到/ 北京/ 清华大学
【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

设置解析词语

add_word(word, freq=None, tag=None) 添加词语

比如上面的实力,我们想将中国科学院作为一个整体让jieba分析,那么我们可以jieba.add_word('中国科学院')

jieba.load_userdict(file_name) 用户可以自定义分词字典

如果我们有成套的字典来提升词语识别,可以创建一个文本,将这些词语存储在文本中。具体格式如下:

词语、词频(可省略)、词性(可省略)

创新办 3 i

云计算 5

凱特琳 nz

台中


关键字抽取

刚才看到分词,不管我们是使用哪种方式,最终获得的都是迭代器或者的表,那我们如果想无脑输出词频权重较高的top多少次,如何做?

使用import jieba.analyse

import jieba.analyse
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件

但这种统计过于无脑,更多的情况下,还是要我们自己来配置....


分析什么?


说过了如何分词,获取词频。可我们没有数据,到底该分析什么?分析python书籍未免太过逗比,所以嘛还是分析点有意思的东西吧!前几天看新闻中国的玄幻小说,在老外的眼里简直就是至宝,什么掉下悬崖捡宝、穿越远古修仙、犀利哥重生附身,在我们看来俗到掉渣的剧情,老外看到都觉得是神来之笔!那么今天我们就来分析一部修仙小说吧...个人比较喜欢净无痕的书,绝世武神、太古神王到如今的伏天氏。但最近感觉写的越来越水。所以今天我们就来分析太古神王这部小说吧,貌似它已经拍成电视剧了。

网络异常,图片无法展示
|

小说下载


那分析什么内容呢,太古神王里面有两个女主叶倾城、长青青儿。那么秦问天到底更爱谁?让我们看看她俩的出场频率吧...


代码实现


只统计主角和两个女主,有些太过无趣,所以咱们多统计点词汇给50个吧...看看会有哪些:

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/24 2:23
# @Software : PyCharm
# @version  :Python 3.7.3
# @File     : DearestGirl.py
import jieba
class DearestGirl:
    ROLES = "秦问天 倾城 青儿"
    def __init__(self):
        self.result = dict()
    def add_key_word(self):
        for user in self.ROLES.split():
            jieba.add_word(user)
    def cut_word(self):
        data = open("太古神王全本.txt", encoding='utf-8').read()
        jieba_cut = jieba.cut(data)
        for word in jieba_cut:
            if word not in self.ROLES.split():
                continue
            else:
                self.result[word] = self.result.get(word, 0) + 1
    def sort_words(self):
        print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))
if __name__ == '__main__':
    main = DearestGirl()
    main.add_key_word()
    main.cut_word()
    main.sort_words()
output:
[('秦问天', 35182), ('倾城', 2085), ('青儿', 2028)]

这就懵逼了,这俩女主居然词频这相近,可再看看男主的词频...有一个问题呼之欲出,这部小说是一部男主自恋的小说,他最爱的是自己!通篇都是他...哈哈。

那么这样就完了?不行不行,既然词频都出来了,顺带生成一下词云呗...


wordcloud


今天上班苗妹子还问到了关于这个模块,当然得用用了...

最终代码如下:

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/24 2:23
# @Software : PyCharm
# @version  :Python 3.7.3
# @File     : DearestGirl.py
import jieba
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS
import numpy as np
from PIL import Image
class DearestGirl:
    ROLES = "秦问天 倾城 青儿"
    def __init__(self):
        self.result = dict()
    def add_key_word(self):
        for user in self.ROLES.split():
            jieba.add_word(user)
    def cut_word(self):
        data = open("太古神王全本.txt", encoding='utf-8').read()
        jieba_cut = jieba.cut(data)
        for word in jieba_cut:
            if word not in self.ROLES.split():
                continue
            else:
                self.result[word] = self.result.get(word, 0) + 1
    def sort_words(self):
        print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))
    def word_cloud(self):
        mask = np.array(Image.open('bk.png'))
        wc = WordCloud(
            font_path='C:/Windows/Fonts/simhei.ttf',  # 设置字体格式
            mask=mask,
            max_words=200,
            max_font_size=100
        )
        wc.generate_from_frequencies(self.result)
        image_colors = ImageColorGenerator(mask)
        wc.recolor(color_func=image_colors)
        wc.to_file('result.jpg')
if __name__ == '__main__':
    main = DearestGirl()
    main.add_key_word()
    main.cut_word()
    main.sort_words()

网络异常,图片无法展示
|

词云


The End


OK,今天的内容就到这里




相关文章
|
6月前
word常识整理
word常识整理
|
6月前
|
机器学习/深度学习 自然语言处理 算法
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
3290 0
|
6月前
|
机器学习/深度学习 自然语言处理 数据可视化
基于Python+词云图+情感分析对某东上完美日记的用户评论分析
基于Python+词云图+情感分析对某东上完美日记的用户评论分析
343 0
基于Python+词云图+情感分析对某东上完美日记的用户评论分析
|
6月前
|
自然语言处理 数据可视化 大数据
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
|
6月前
|
数据采集 存储 数据处理
使用Python爬取豆瓣电影影评:从数据收集到情感分析
本文演示如何使用Python爬虫获取豆瓣电影《肖申克的救赎》的影评数据并进行情感分析。首先,安装requests、BeautifulSoup、pandas和TextBlob库。接着,编写爬虫抓取评论的用户名、评分和内容,存储为DataFrame。然后,利用TextBlob进行情感分析,得到情感分数。此方法有助于分析用户对电影的反馈。
|
6月前
|
数据可视化 算法 数据挖掘
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
|
6月前
|
自然语言处理 数据可视化 算法
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
|
数据采集 自然语言处理 小程序
【每周一坑】统计英文小说词频
然而,只有我们依旧无趣地在此刻发干货文,提醒着你有没有写新的代码?有没有了解新的语法?硬生生给你五彩斑斓的周末生活蒙上一层阴影。每每想到这,我就觉得,这档子事儿还真是……
python小玩意——词频展示和统计
python小玩意——词频展示和统计
python小玩意——词频展示和统计