python数据分析之基情的择天记

简介: 人一生都可能无法逆天改命,但你却是要去奋斗一把本文章主要通过最简单的共线性关系,利用gephi工具绘制择天记的人物关系图。准备工作在网上下载《择天记》小说以及创建小说人物的txt。

人一生都可能无法逆天改命,但你却是要去奋斗一把

本文章主要通过最简单的共线性关系,利用gephi工具绘制择天记的人物关系图。

准备工作

  • 在网上下载《择天记》小说以及创建小说人物的txt。


    005LTY7cgy1fhsoqiqz84j30tl0hxt9v.jpg
  • jieba库
  • 需要下载gephi软件
    注意:安装路径不能有中文字;需要安装java环境,不然无法使用gephi。

定义数据结构

import jieba
names = {}
relationships = {}
linenames = []
all_names = []

names用于存入小说人物和出场次数;relationships保存人物关系的有向边,该字典的键为有向边的起点,值为一个字典edge,edge的键是有向边的终点,值是有向边的权值,代表两个人物之间联系的紧密程度;linenames存入每行小说出现的人物;all_names是小说所有人物。

添加人名到jieba词库中

jieba库分词可能并不能把小说的人物都切开,我们需要把这些人名添加到词库中,以便成功分词。

f1 = open('names.txt',encoding='utf-8')
for line in f1.readlines():
    all_names.append(line.strip().strip('\ufeff'))
for name in all_names:
    jieba.add_word(name)

统计出场人数

f2 = open('择天记.txt',encoding='utf-8')
for line in f2.readlines():
    seg_list = jieba.cut(line)
    linenames.append([])
    for i in seg_list:
        if i in all_names:
            linenames[-1].append(i)
            if names.get(i) is None:
                names[i] = 0
                relationships[i] = {}
            names[i] +=1
005LTY7cgy1fhsp3e3d0mj30zk0k0acb.jpg

通过图可以看出,陈长生作为主角,出场最多,而他的好基友是排第二的,而他的女票徐有容却是排到第五,这与一些玄幻小说不一样,注定了这是一部基情的小说。

人物关系及写入文件

for line in linenames:
    for name1 in line:
        for name2 in line:
            if name1 == name2:
                continue
            if relationships[name1].get(name2) is None:
                relationships[name1][name2]=1
            else:
                relationships[name1][name2] += 1

import codecs
with codecs.open('tian_node.txt','w','utf-8') as f:
    f.write("Id Label Weight\r\n")
    for name, times in names.items():
        f.write(name + ' ' + name + ' ' + str(times) + '\r\n')
        
with codecs.open('tian_edge.txt', 'w', "utf-8") as f:
    f.write("Source Target Weight\r\n")
    for name, edges in relationships.items():
        for v, w in edges.items():
            if w > 3:
                f.write(name + ' ' + v + " " + str(w) + "\r\n")
005LTY7cgy1fhsp81udg8j30g40fhmy8.jpg

005LTY7cgy1fhsp88os4gj30fg0dswfe.jpg

绘制人物关系图

最后利用gephi绘制人物关系图。


005LTY7cgy1fhsp95jzclj32bc2bckhc.jpg
相关文章
|
20小时前
|
存储 机器学习/深度学习 数据可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
Python面板时间序列数据预测:格兰杰因果关系检验Granger causality test药品销售实例与可视化
11 6
|
1天前
|
机器学习/深度学习 数据采集 供应链
从数据到决策:scikit-learn在业务分析中的应用
【4月更文挑战第17天】本文探讨了scikit-learn在业务分析中的应用,包括数据预处理、分类、回归和聚类模型的构建,以及模型评估与优化。通过使用scikit-learn,企业能有效处理数据、预测趋势、客户细分并制定决策,从而提升经营效率和市场策略。随着机器学习的发展,scikit-learn在业务分析领域的潜力将持续释放,创造更多价值。
|
1天前
|
算法 数据可视化 Python
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
|
1天前
|
BI 开发者 数据格式
Python代码填充数据到word模板中
【4月更文挑战第16天】
|
1天前
|
数据可视化 算法 API
Python数据可视化-seaborn Iris鸢尾花数据
Python数据可视化-seaborn Iris鸢尾花数据
|
2天前
|
程序员 索引 Python
06-python数据容器-set(集合)入门基础操作
06-python数据容器-set(集合)入门基础操作
|
2天前
|
索引 容器
06-python数据容器-list列表定义/list的10个常用操作/列表的遍历/使用列表取出偶数
06-python数据容器-list列表定义/list的10个常用操作/列表的遍历/使用列表取出偶数
|
2天前
|
Python 数据挖掘 存储
Python 数据分析(PYDA)第三版(七)(4)
Python 数据分析(PYDA)第三版(七)
|
Python Shell 存储
Python 数据分析(PYDA)第三版(七)(3)
Python 数据分析(PYDA)第三版(七)
Python 数据分析(PYDA)第三版(七)(3)
|
机器学习/深度学习 数据可视化 Python
Python 数据分析(PYDA)第三版(六)(2)
Python 数据分析(PYDA)第三版(六)