【大数据实训】基于当当网图书信息的数据分析与可视化(八)

简介: 【大数据实训】基于当当网图书信息的数据分析与可视化(八)

基于当当网图书信息的数据分析与可视化

一、实验环境

(1)Linux: Ubuntu 16.04

(2)Python: 3.5

(3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3

(6)可视化工具:Echarts

(7)开发工具:Visual Studio Code

二、小组成员及分工

(1)成员:林海滢,王惠玲,陈嘉怡,郭诗念

(2)分工:xxx负责xxxx部分,xxx负责xxxx部分,xxx负责xxxx部分。

三、数据采集

3.1数据集说明

爬取网站:http://search.dangdang.com/?key=java,是当当网的java图书的信息网站。数据文件:java_books.xlsx。其中包含了1661条与java图书信息有关的数据。

数据格式为:

图 3. 1 采集数据格式

数据中包含的内容如下:

(1)book_name: 图书的标题

(2)introduction:图书的简介

(3)author: 图书的作者

(4)price: 图书的价格(元/本)

(5)press: 图书出版社

(6)comment: 图书的评论

3.2.爬取数据集以及将其保存到本地D盘文件中的流程

(1)选取所需要爬取的页面进行遍历爬取

(2)通过正则表达式抓取所需要的数据

(3)将爬取出的数据转化为dataframe格式并保存为xlsx文件存放在D盘

四、数据清洗与预处理

4.1预处理中提取的数据

图 4.1 数据处理前的数据格式及存在问题的特征列

4.2 清洗预处理后的数据格式

图 4.2 数据处理后的数据格式及特征列

4.3 清洗与预处理的流程

(1)首先检查数据的结构以及是否有数据缺失。

(2)发现book_name特征列的数据格式不对,于是处理转换为了整数类型。

(3)发现price特征列的数据格式不对,于是处理转换为了浮点类型。

(4)内容简介列数据清洗 删除异常值。

(5)保存清洗与预处理后的数据集。

五、spark数据分析

5.1 数据分析目标

(1)图书的售价分布情况(观察图书价格大体集中在哪个分段得出图书价格趋势)

(2)部分图书出版社的出书数量统计

(3)图书的作者出书(观察哪个作者出的书最多)

(4)图书的评论分布情况(观察图书评论大体集中在哪个分段得出图书评论趋势)

(5)图书的部分作者数量统计

(6)分析价格的最大值、最小值、均值、方差和中位数

六、数据可视化

本实验的可视化基于mutplotlib实现。

6.1.可视化环境

利用和anaconda里面的jubiter和vscode进行可视化操作,最后的代码结构如下。

6.2 图表展示与结论分析

(1)图书的售价分布情况(观察图书价格大体集中在哪个分段得出图书价格趋势)

图6.2.1图书的售价分布情况

分析结论:通过这个柱状图可以看出图书售卖价格集中在2060这里。说明了大多数人购书倾向于中端价格。比如2040这里,售价比较便宜图书的销量就会多。而6080这里的价格上升了购买的人就相对少了,销量也随之减少。我们也可以从中得出2060的销量有1841,而20一下和60以上的销量有1159。所以大胆推测出我国中层收入人数是低高层收入人数的1.6倍左右。

(2)部分图书出版社的出书数量统计

图6.2.2部分图书出版社的出书数量统计

(3)图书的作者出书(观察哪个作者出的书最多)

(4)图书的评论分布情况(观察图书评论大体集中在哪个分段得出图书评论趋势)

图6.2.4图书的评论分布情况

分析结论:通过这个图我们可以看出92%的图书评论都是在0~100之间。也就是说92%的人不爱对图书做出评论,其余少部分人会对图书做出评论。所以我们可以大胆推测现在大多数人都不爱对看过的书发布之间的看法。

(5)图书的部分作者数量统计进行数据可视化图表分析

图6.2.5部分作者数量统计

分析结论:通过这个图我们可以看出我们找出来的部分作者54%左右的作者写的书都在65本以下(这就与第五部分的数据分析相对应),也侧面说明了这个数据里面50%左右的作者写的java的书不多即50%以下的作者可能不是专门做java这个领域的,可能还包括别的领域,大多数关于java的图书都是专攻这个专业的组织和作者写的。

(5)分析价格的最大值、最小值、均值、方差和中位数

图6.2.6分析价格的最大值、最小值、均值、方差和中位数

分析结论:通过这个图我们可以看出图书价格的中位数和均值在55块钱左右,方差在50左右,证明了图书的价格波动不是很大,从最大值、最小值中可以看出最便宜的图书是10元左右,最贵的图书是120元左右,所以表明了买一本java图书总体的均价为55元左右。

代码部分:略


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
数据可视化 数据挖掘 Python
python数据分析和可视化【3】体检数据分析和小费数据分析
python数据分析和可视化【3】体检数据分析和小费数据分析
44 0
|
1月前
|
数据可视化 数据挖掘 Python
python数据分析和可视化【1】
python数据分析和可视化【1】
41 0
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析与可视化
【2月更文挑战第25天】 在当今数据驱动的时代,能够有效地分析和可视化数据变得至关重要。本文将深入探讨如何运用Python语言及其强大的库,包括Pandas、NumPy、Matplotlib和Seaborn,来执行数据处理、分析以及生成直观的图表。我们将通过一个实际案例,从原始数据集的加载开始,逐步展示如何清洗、处理数据,并最终通过可视化手段洞察数据背后的故事。
|
1月前
|
数据可视化 数据挖掘 BI
python数据分析和可视化【2】鸢尾花数据分析
python数据分析和可视化【2】鸢尾花数据分析
35 0
|
9天前
|
数据采集 数据可视化 数据挖掘
SciPy在数据分析中的应用:从数据清洗到可视化
【4月更文挑战第17天】# SciPy在数据分析中的应用:从数据清洗到可视化。文章探讨了SciPy在数据清洗(使用NumPy处理缺失值和异常值)、数据分析(描述性统计和模型拟合)以及数据可视化(结合Matplotlib和Seaborn进行图表绘制)中的作用。SciPy与其他Python库结合,为完整的数据分析流程提供了强大支持。
|
15天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
19天前
|
人工智能 数据可视化 数据挖掘
【python】Python国内GDP经济总量数据分析可视化(源码+报告)【独一无二】
【python】Python国内GDP经济总量数据分析可视化(源码+报告)【独一无二】
|
19天前
|
机器学习/深度学习 数据可视化 数据挖掘
【python】双十一美妆数据分析可视化 [聚类分析/线性回归/支持向量机](代码+报告)【独一无二】
【python】双十一美妆数据分析可视化 [聚类分析/线性回归/支持向量机](代码+报告)【独一无二】
|
19天前
|
机器学习/深度学习 数据可视化 数据挖掘
利用Python进行数据分析与可视化:从入门到精通
本文将介绍如何使用Python语言进行数据分析与可视化,从基础概念到高级技巧一应俱全。通过学习本文,读者将掌握Python在数据处理、分析和可视化方面的核心技能,为实际项目应用打下坚实基础。
|
24天前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】