python文本数据分析作业分享案例

简介: python文本数据分析作业分享案例

作业需求:


分析两本类型不同的现代小说的词性分布,如武侠或侦探小说等.用一个类读入整本小说。用自然语言处理工具。初始化过程分析内容。分解词语并获取词性(如动词.形容词等).类对象取索引返回词和词性两项主要信息在调用类对象的函数中,实现词性的统计。用饼状图可视化个主要词性频率,对比两本小说的饼状


8ed6928f97f4deab2d3d5ff72072412c.jpg

编辑

全部代码:


import jieba
import jieba.posseg
import matplotlib.pyplot as plt
import matplotlib
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']  # 字体更改
matplotlib.rcParams.update({'font.size': 15})  # 字体大小
fig = plt.figure(figsize=(8, 8), dpi=80)
word_type = ["a", "d", "n", "p", "r", "u", "v", "y"]
word_type_chin = ["形容词", "副词", "名词", "介词", "代词", "助词", "动词", "语气词"]
class Text():
    def init(self):
        with open("yitian.txt", mode="r", encoding="utf8") as txt1:
            a = txt1.read()
        with open("baiyexing.txt", mode="r", encoding="gbk") as txt2:
            b = txt2.read()
        self.txt = [a, b]
        self.output = [[], []]
        self.flag = [[], []]
        self.word = [[], []]
        self.identify(self)
        return self.output[0], self.output[1]
    def identify(self):
        for x in range(0, 2):
            self.txt[x] = jieba.posseg.cut(self.txt[x])
            for text in self.txt[x]:
                self.output[x].append([text.word, text.flag])
                self.flag[x].append(text.flag)
            for t in range(0, 8):
                print(f"{word_type_chin[t]}: {self.flag[x].count(word_type[t])}")
                self.word[x].append(self.flag[x].count(word_type[t]))
    def pie(self):
        for x in range(0, 2):
            fig.add_subplot(1, 2, x + 1)
            plt.pie(self.word[x],
                    labels=word_type_chin,  # 设置饼图标签
                    # radius=1.2,
                    autopct="%d%%",
                    )
            if x == 0:
                text_type = "武侠"
            elif x == 1:
                text_type = "侦探"
            plt.title(f"{text_type}小说的词性分布")
        fig.show()
text_1, text_2 = Text.init(Text)
print(f"武侠小说:\n{text_1}")
print(f"\n侦探小说:\n{text_2}")
Text.pie(Text)
input("   >>> ENTER以继续 <<<   ")

b654cd1fdd5a9d8b7ea986765cd29d57.png


编辑

数据+代码:

https://download.csdn.net/download/qq_38735017/87354408

相关文章
|
9月前
|
数据采集 数据可视化 数据挖掘
Python数据分析实战:Pandas处理结构化数据的核心技巧
在数据驱动时代,结构化数据是分析决策的基础。Python的Pandas库凭借其高效的数据结构和丰富的功能,成为处理结构化数据的利器。本文通过真实场景和代码示例,讲解Pandas的核心操作,包括数据加载、清洗、转换、分析与性能优化,帮助你从数据中提取有价值的洞察,提升数据处理效率。
434 3
|
8月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
8月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
9月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
10月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
9月前
|
设计模式 缓存 运维
Python装饰器实战场景解析:从原理到应用的10个经典案例
Python装饰器是函数式编程的精华,通过10个实战场景,从日志记录、权限验证到插件系统,全面解析其应用。掌握装饰器,让代码更优雅、灵活,提升开发效率。
610 0
|
11月前
|
数据采集 存储 NoSQL
Python爬虫案例:Scrapy+XPath解析当当网网页结构
Python爬虫案例:Scrapy+XPath解析当当网网页结构
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
1189 4
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
421 2

推荐镜像

更多