基于校园卡消费数据的数据分析与处理

简介: 基于校园卡消费数据的数据分析与处理

完整代码:https://download.csdn.net/download/pythonyanyan/87392574


任务 1 数据导入与预处理


任务 1.1 探查数据质量并进行缺失值和异常值处理

数据结构总览

查看数据集项数,发现数据集 data1.csv,有 4341 项,5 列;数据集 data2.csv,有 519367 项,14 列;数据集 data3.csv,有 43156 项,6 列


检查重复值

通过去重操作发现三个数据集均无重复项

数据内容总览

查看数据信息 info(),发现 data1 和 data3 中均无缺失值 ,data2 中 termSerNo、conOperNo 存在较大量的缺失值,因为这两项数据对后续分析无影响故直接过滤

数据分布总览


通过对数据 Describe,查看数据的均值,最大值,最小值以及方差等数据特征,观察到 data1


和 data3 中的特征值均较为合理,data2 中的 Money、FundMoney、Surplus 以及 CardCount,均存在和样本群体偏离程度较大的数据,会影响后序模型的性能


消费金额和消费次数

观察消费金额和消费次数的散点图,发现数据中具有一定数量的离群点,将其过滤



4e4edd77b0d86f44b94102689c9e55bd.jpg


观察 CardCount 特征的分布情况

通过 distplot 和 kdeplot 绘制柱状图观察 CardCount 特征的分布情况,属于长尾类型的分布,这说明了有很多消费次数过多且超出正常范围。

fe3bb748e6a9b7c52d9b3a4269f4ccc6.jpg


任务 2 食堂就餐行为分析

**任务 2.1 **

绘制各食堂就餐人次的占比饼图,分析学生早中晚餐的就餐地点,是否有显著差别


0f80d33af8f8307a00a0883007c69242.jpg


图 1


30b5455bb60e9d89ea3750e29c486c3f.jpg

图 2,图 3,图 4


根据图 1,综合早、午、晚三餐学生的就餐地点来看,34.44% 的学生更偏爱去第二食堂,26.16%的学生偏爱去第五食堂,第一、三、四食堂在学生的偏爱程度中属于一般水平,而只有 0.46%的学生在教师食堂就餐。


根据图 2,图 3,图 4 三图分析,学生对食堂的偏爱程度前三的食堂是:


  • 早餐:第二食堂 > 第五食堂 > 第一食堂
  • 午餐:第二食堂 > 第五食堂 > 第四食堂
  • 晚餐:第二食堂 > 第五食堂 > 第四食堂


而学生用餐次数少的食堂(以用餐次数是否超过 10% 为分界点)分别有:

  • 早餐:第四食堂、第三食堂、教师食堂
  • 午餐:教师食堂
  • 晚餐:教师食堂


综上,学生午晚两餐的用餐地点与综合三餐用餐地点分析比较,不存在显著差别;而学生的早餐用餐地点,选择第三、四食堂的占极少数,与综合三餐用餐地点有较为显著的差别。

任务 2.2

通过食堂刷卡记录,分别绘制工作日和非工作日食堂就餐时间曲线图,分析食堂早中晚餐的就餐峰值


6a9b52cc8d44ffe25e1c37d94cc838e3.jpg


从上图可以看出,工作日的就餐峰值均高于非工作日。工作日食堂早餐的就餐峰值为 60000 次,非工作日为 15000 次;工作日食堂午餐的就餐峰值为 90000 次,非工作日为 30000 次;工作日食堂晚餐的就餐峰值为 17000 次,非工作日为 41000 次。


出现该现象的主要原因在于工作日学生需要外出上课,直接前往食堂就餐的可能性更高,而非工作日学生由于直接在宿舍点外卖或者外出游玩就餐等原因导致前往食堂就餐的人数大幅减少。因此工作日食堂就餐峰值高于非工作日就餐峰值。


任务 2.3

根据上述分析的结果,为食堂的运营提供建议。


学校方面,应该根据学生的喜好程度合理安排食堂的场地、资金分配等资源,由 2.1 可知,大部分学生偏爱去第二食堂和第五食堂,因此学校应给予第二食堂和第五食堂资源倾斜。


食堂方面,受偏爱的第二食堂和第五食堂应该进行菜品创新,形成顾客粘性。并且因为就餐学生多,食堂更应该合理安排食堂内的排队位置,提高排队效率。而就餐学生数偏少的第一、三、四食堂应该找出自身原因,采取例如提高食堂环境质量、增加菜品种类或提出促销活动等方法吸引学生群体。


此外,每个食堂在就餐峰值(分别为 7 点、11 点、17 点左右)应加大食堂人手,合理安排排队场所,提高排队效率,避免打饭效率低下,并且应在这三个高峰时间段内增加菜品供应量,避免供不应求。而在非高峰期,食堂可以适当减少菜品供应和食堂工作人员数量,从而减少食堂无用的运营成本。


任务 3 学生消费行为分析

**任务 3.1 **

根据学生的整体校园消费数据,计算,并选择 3 个专业,分析不同专业间不同性别学生群体的消费特点。


本月人均刷卡频次和人均消费额

根据程序计算结果得出:本月人均消费频次为:72.74118014361537 次本月人均消费额为:288.7773899469248 元

考虑数据合理性,得出:本月人均消费频次越为:73 次;本月人均消费额 288.8 元


选择 3 个专业,分析不同专业间不同性别学生群体的消费特点

根据程序运行结果得出学生消费总额、消费次数总数、校园卡中余额的数据特征图



36b3a764767e7b7bb4cc2a8cf50ade04.jpg

de2f079ba2dbbed35816d644a18ce4b4.jpg

06b59fff6ba2420985022d5f37b9134e.jpg


根据程序运行结果得出学生消费总额、消费次数总数、校园卡中余额的柱状图


13a1675a300e2e25baa50f8a78a7a4f5.jpg

4ef88341676580f3f7b88d50a0a18517.jpg

75e0a1dc6c3aed6cbc5e754ec0cb1a46.jpg


从上图和上表可以得到不同专业的学生,计算机应用专业学生消费最频繁,国际金融专业学生单次消费金额最高,艺术设计专业学生卡内盈余最低。而不同专业的学生卡内盈余相差不大。出现该差异的可能原因在于计算机应用专业需要运用到电脑等电子设备,导致购买频繁。国际金融专业消费金额高可能是其运用专业知识赚钱所需。艺术设计专业学生卡内盈余最低可能是由于其日常在服装等上面的开销较大。


此外,我们可以得到不同专业间不同性别学生群体的消费特点。


首先是国际金融专业的学生。该专业女生消费频繁,男生单次消费金额高,卡内盈余金额近似。其次是艺术设计专业的学生。该专业女生消费频繁,男生单次消费金额高。男生卡内盈余金额高于女生。最后是计算机应用专业的学生。该专业男生消费频繁、单次消费金额高,并且男生盈余金额高于女生。


通过分析,出现性别上消费特点差异主要是由于男女性格原因。女生更偏好高频低费用的购买,享受消费的过程,因此消费次数多,每次都只是购买小额商品。而男生更偏好于低频高费用的购买,消费目的性强,虽不经常消费,但每次总是会消费较大额度。


**任务 3.2 **

根据学生的整体校园消费行为,选择合适的特征,构建聚类模型,分析每一类学生群体的消费特点。

3.2.1 概述

为了将学生的整体校园消费行为进行分类,选择了当月消费总金额,消费次数,卡内存款作为特征进行聚类,采用的聚类算法为 k-means 算法(k-均值聚类算法)

3.2.2 -means 算法简介


k-means 算法(k-均值聚类算法)是一种基本的已知聚类类别数的划分算法。它是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。它可以处理大数据集,且高效。它的输入自然是数据集和类别数。聚类结果是划分为 k 类的 k 个数据集。


3.2.3 过程

将学生的整体校园消费行为分为 4 类,因此将 k-means 算法中的 k 值取为 4,运用公式 data = 1.0*(data - data.mean())/data.std() 进行数据标准化,采用欧式距离作为度量,并画出每一项特征对应的数据直方图如下


09f4b35a6167fa4ea065773a9820bf55.jpg

3.2.4 聚类结果分析


  • 根据学生在 4 月份的消费金额、卡内盈余与消费次数,我们将学生分成了四类群体,分别命名为 0,1,2,3.
  • 学生群体 0 的消费特点为:该群体属于中等消费水平,有较高的消费潜力,这类学生群体应有较为良好的储蓄意识,属于滞后消费。


  • 学生群体 1 的消费特点为:该群体属于高消费水平,但消费潜力较弱,这类学生群体的消费能力较高。
  • 学生群体 2 的消费特点为:该群体属于低消费水平,且消费潜力较弱,这类学生群体的消费能力较弱。
  • 学生群体 3 的消费特点为:该群体属于中等消费水平,消费潜力较弱,这类学生群体的储蓄意识较于学生群体 0 更弱。


任务 3.3


通过对低消费学生群体的行为进行分析,探讨是否存在某些特征,能为学校助学金评定提供参考。


b198b6a4eb1f9c7cd49d1008e2e889cf.jpg



根据分类所得的贫困生情况,我们首先针对贫困生的性别进行分析。由上图可看出,在已知的贫困生人数之中,超过半数的贫困生为女性。


886ddd5ddaaa7b6ae8915498ce4d9b6c.jpg

根据分类所得的贫困生情况,对贫困生所在专业类别进行分析归纳。可发现,专业为理工科的学生中,贫困人口占比大;经管商科的学生中,贫困人口的占比数相较于理工科的会更少。而专业为艺术设计类的学生,贫困人口数量最少。


9768d3dc1f7306fa850b8da3c08f4e3e.png

e75871379eaa1eda9675cdf745d9740b.png

从上图可以看出贫困生的单次消费金额主要在 51-100 元之间,消费次数主要在 501-750 元之间,卡内盈余主要在 100-200 元之间。和其他类别学生相比,我们可以看出贫困生的消费次数、消费金额和卡内盈余均较低。


从上述分析我们可以看出,贫困人口有较大概率集中在性别为女,专业为理工科,日常消费次数、消费金额以及卡内盈余都较低的学生当中。因此,学校在评定奖助学金的过程中,可以根据学生的性别、专业和日常消费情况对学生的贫困背景进行一个初步的估计,为后面对学生群体贫困背景的详细调查,提供一个简单的基础。

相关文章
|
2月前
|
数据挖掘 PyTorch TensorFlow
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
某A保险公司的 数据图表和数据分析
某A保险公司的 数据图表和数据分析
60 0
某A保险公司的 数据图表和数据分析
|
3月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
449 54
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
50 0
|
2月前
|
机器学习/深度学习 数据挖掘 TensorFlow
🔍揭秘Python数据分析奥秘,TensorFlow助力解锁数据背后的亿万商机
【9月更文挑战第11天】在信息爆炸的时代,数据如沉睡的宝藏,等待发掘。Python以简洁的语法和丰富的库生态成为数据分析的首选,而TensorFlow则为深度学习赋能,助你洞察数据核心,解锁商机。通过Pandas库,我们可以轻松处理结构化数据,进行统计分析和可视化;TensorFlow则能构建复杂的神经网络模型,捕捉非线性关系,提升预测准确性。两者的结合,让你在商业竞争中脱颖而出,把握市场脉搏,释放数据的无限价值。以下是使用Pandas进行简单数据分析的示例:
45 5
|
3月前
|
存储 数据挖掘 数据处理
DataFrame探索之旅:如何一眼洞察数据本质,提升你的数据分析能力?
【8月更文挑战第22天】本文通过电商用户订单数据的案例,展示了如何使用Python的pandas库查看DataFrame信息。首先导入数据并使用`head()`, `columns`, `shape`, `describe()`, 和 `dtypes` 方法来快速概览数据的基本特征。接着,通过对数据进行分组操作计算每位顾客的平均订单金额,以此展示初步数据分析的过程。掌握这些技能对于高效的数据分析至关重要。
41 2
|
3月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
96 2
|
2月前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
65 0
|
3月前
|
SQL 数据挖掘 Serverless
SQL 窗口函数简直太厉害啦!复杂数据分析的超强利器,带你轻松攻克数据难题,快来一探究竟!
【8月更文挑战第31天】在数据驱动时代,高效处理和分析大量数据至关重要。SQL窗口函数可对一组行操作并返回结果集,无需分组即可保留原始行信息。本文将介绍窗口函数的分类、应用场景及最佳实践,助您掌握这一强大工具。例如,在销售数据分析中,可使用窗口函数计算累计销售额和移动平均销售额,更好地理解业务趋势。
66 0
|
3月前
|
SQL 数据可视化 数据挖掘
SQL 在数据分析中简直太牛啦!从数据提取到可视化,带你领略强大数据库语言的神奇魅力!
【8月更文挑战第31天】在数据驱动时代,SQL(Structured Query Language)作为强大的数据库查询语言,在数据分析中扮演着关键角色。它不仅能够高效准确地提取所需数据,还能通过丰富的函数和操作符对数据进行清洗与转换,确保其适用于进一步分析。借助 SQL 的聚合、分组及排序功能,用户可以从多角度深入分析数据,为企业决策提供有力支持。尽管 SQL 本身不支持数据可视化,但其查询结果可轻松导出至 Excel、Python、R 等工具中进行可视化处理,帮助用户更直观地理解数据。掌握 SQL 可显著提升数据分析效率,助力挖掘数据价值。
73 0
下一篇
无影云桌面