数据挖掘导论——可视化分析实验

简介: 数据挖掘导论——可视化分析实验

商店客流量数据可视化

数据来源

商店数据来自天池口碑商家客流量预测比赛,这里只筛选了一部分数据。“shop_payNum_new.csv”的数据各个字段的含义如下表所示:858e36e6af5c416aab972b614a889ecd.png

实验要求:

参考案例一从以下任务中任选5个绘制不同图形的任务:

绘制所有便利店的10月的客流量折线图

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)
data = data_total.iloc[data_total.index.month == 10]
data_id = data.groupby('shop_id')
for key in data_id.groups.keys():
    data_id.get_group(key).plot(y=['pay_num'], title='customer flow of shop '+str(key))
plt.show()

【分析】

首先使用pandas.read_csv获取全部商铺数据。由于需要筛选10月的客流量折线图,则用iloc完成数据筛选,并利用shop_id进行groupby分组以获取各个商店的id键。对于每个键,依次用get_group获取对应商店的数据,并利用plot进行绘图。


【运行】

由于实际运行绘图比较多,故只展示一部分。

51cd3130791342b5ae41fb058af4db20.png

6c641f9d9263430db72ce9c4c59a1721.png


绘制每类商家10月份的日平均客流量折线图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)
data = data_total.iloc[data_total.index.month == 10]
data_id = data.groupby('cate_2_name')
for keys in data_id.groups.keys():
    data_id.get_group(keys).groupby(data_id.get_group(keys).index.day).mean().plot(y=['pay_num'], kind='line', title=keys)
plt.show()

【分析】

首先使用pandas.read_csv获取全部商铺数据。由于需要筛选每类商家10月份的日平均客流量折线图。使用iloc对数据进行过滤,筛选出每个商家10月份的数据。利用groupby对销售数据进行分组并获取每组的键值。利用循环遍历每个键,再获取日期并对日期取平均值,最后利用plot生成折线图。


【运行】

部分结果展示如下

03dad2daab504c328967e8872cef20ad.png

daf0f2f6fd5b48a3b0e36c47520d7a40.png

选择一个商家,统计每月的总客流量,绘制柱状图

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)
data_14 = data_total[data_total['shop_id'] == 14]
data_14_id = data_14.groupby(data_14.index.month).sum()
data_14_id.plot(kind='bar', y=['pay_num'], title='total custom of shop-14')
plt.xlabel('month')
plt.show()

【分析】

首先使用pandas.read_csv获取全部商铺数据。由于需要筛选单个商家各个月份的总客流量。首先对数据进行过滤筛选,筛选出shop_id为14的数据。利用groupby结合sum函数进行分组求和,最后设置kind为柱状图并生成绘图即可。

【运行】c6e044de614e4cb5b609fa4c47eae338.png


选择一个商家,统计某个月中,周一到周日的每天平均客流量,并绘制柱状图。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import time
data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)
data_14 = data_total[(data_total['shop_id'] == 14) & (data_total.index.month == 1)]
data_14_id = data_14.groupby(data_14.index.strftime('%w'))
data_14_id.mean().plot(y=['pay_num'], kind='bar', title='Average custom of shop 14 in January')
plt.xlabel('day')
plt.show()

【分析】

首先使用pandas.read_csv获取全部商铺数据。由于需要筛选单个商家单个月份的平均客流量。首先对数据进行过滤筛选,筛选出shop_id为14,且在1月份的数据。利用groupby结合strftime函数利用日期进行分组求平均值,最后直接绘图为柱状图即可。


【运行】

fc5e2ca2b458415594ecbb7cc0c00a7f.png

选择一个商家,绘制客流量直方图

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)
data_14 = data_total[data_total['shop_id'] == 14]
data_14.plot(kind='hist', y=['pay_num'], title='shop-14-block')
plt.show()

【分析】

首先使用pandas.read_csv读取全部商铺数据,然后根据shop_id,对所有数据进行筛选。筛选出对应店铺的数据后直接使用plot进行绘图,并选择样式为’hist’柱状图即可。

【运行】5d3b3042a6be4c308bba806395d31ff8.png

选择一个商家,绘制客流量密度图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)
data_14 = data_total[data_total['shop_id'] == 14]
data_14.plot(kind='kde', y=['pay_num'], title='shop-14-density')
plt.show()

【分析】

首先使用pandas.read_csv读取全部商铺数据,然后根据shop_id,对所有数据进行筛选。筛选出对应店铺的数据后直接使用plot进行绘图,并选择样式为’kde’密度分布图即可。

【运行】950f20f5dd324992889357a92c2e16fb.png


统计某个月各个类别商店总客流量占该月总客流量的比例,绘制饼图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)
data_month1 = data_total[data_total.index.month == 1]
data_month1_rate = data_month1.groupby('cate_2_name').sum() / data_month1['pay_num'].sum()
data_month1_rate['pay_num'].plot(kind='pie', autopct='%.2f')
plt.ylabel('')
plt.title('January')
plt.show()

【分析】

首先使用pandas.read_csv读取全部商铺数据,然后根据1月,对所有数据进行筛选。然后使用groupby和sum对各个类别客流量进行分组求和,使用sum对全部客流量进行求和。两结果做比的结果即为所占比例。最后根据所占比例作饼状图即可。

【运行】afbe9666f97d44d8ae6a6588c100234b.png


皮马印第安人糖尿病数据可视化

数据来源:http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes。“pima.csv”数据前9个字段的含义:

(1)Number of times pregnant

(2)Plasma glucose concentration a 2 hours in an oral glucosetolerancetest

(3)Diastolic blood pressure (mm Hg)

(4)Triceps skin fold thickness (mm)

(5)2-Hour serum insulin (mu U/ml)

(6)Body mass index (weight in kg/(height in m)^2)

(7)Diabetes pedigree function

(8)Age (years)

(9)Class variable (0 or 1)

实验要求:

参考案例二完成以下任务:

任选两个字段绘制散点图。

【代码】

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
close_px_all = pd.read_csv('dataset/pima.csv', parse_dates=True, index_col=None, header=None)  
close_px_all.columns = ['Number of times pregnant',  
                        'Plasma glucose concentration a 2 hours in an oral glucosetolerancetest',  
                        'Diastolic blood pressure (mm Hg)', 'Triceps skin fold thickness (mm)',  
                        '2-Hour serum insulin (mu U/ml)', 'Body mass index', 'Diabetes pedigree function',  
                        'Age (years)', 'Class variable']  
# print(close_px_all.head())  
# # 任选两个字段绘制散点图  
pregnant_age = close_px_all[['Number of times pregnant', 'Age (years)', 'Class variable']]  
ax = pregnant_age[pregnant_age['Class variable'] == 0].plot(kind='scatter', y='Number of times pregnant', c='red',  
                                                            x='Age (years)', title='Number of times pregnant-Age',  
                                                            ax=None)  
pregnant_age[pregnant_age['Class variable'] == 1].plot(kind='scatter', y='Number of times pregnant', c='blue',  
                                                       x='Age (years)', title='Number of times pregnant-Age', ax=ax)  
plt.show()  

【分析】

首先通过pandas.read_csv读入数据,然后给各个列命名,方便处理。由于要展示Number of times pregnant与Age的关系通过筛选数据仅保留这两列即可。然后使用plot对数据进行可视化绘图,选择kind为’scatter’并规定横纵坐标即可。


【运行】

29535fd2ff824ee2aace0a63f10352f9.png

使用全部或者部分特征绘制散布图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
close_px_all = pd.read_csv('dataset/pima.csv', parse_dates=True, index_col=None, header=None)
close_px_all.columns = ['Number of times pregnant',
                        'Plasma glucose concentration a 2 hours in an oral glucosetolerancetest',
                        'Diastolic blood pressure (mm Hg)', 'Triceps skin fold thickness (mm)',
                        '2-Hour serum insulin (mu U/ml)', 'Body mass index', 'Diabetes pedigree function',
                        'Age (years)', 'Class variable']
# 使用全部或者部分特征绘制散布图
color = {1: 'red', 0: 'blue'}
pd.plotting.scatter_matrix(close_px_all.iloc[:, [0, 3, 4]], figsize=(9, 9), diagonal='kde', s=40, alpha=0.6,
                           c=close_px_all['Class variable'].apply(lambda x: color[x]))
plt.show()

【分析】

选取了Number of times pregnant,Triceps skin fold thickness和2-Hour serum insulin对class variable进行特征分析绘制散布图。首先通过pandas.read_csv读入数据,然后给各个列命名,方便处理。利用scatter对第0列,第3列和第4列进行分析,并绘图显示散布图。


【运行】

dbaf6b8ab8d049bc888187bd63e9a77a.png

绘制调和曲线图。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
close_px_all = pd.read_csv('dataset/pima.csv', parse_dates=True, index_col=None, header=None)
close_px_all.columns = ['Number of times pregnant',
                        'Plasma glucose concentration a 2 hours in an oral glucosetolerancetest',
                        'Diastolic blood pressure (mm Hg)', 'Triceps skin fold thickness (mm)',
                        '2-Hour serum insulin (mu U/ml)', 'Body mass index', 'Diabetes pedigree function',
                        'Age (years)', 'Class variable']
# 绘制调和曲线图
pd.plotting.andrews_curves(close_px_all, 'Class variable', color=['red', 'blue'])
plt.show()

【分析】

首先通过pandas.read_csv读入数据,然后给各个列命名,方便处理。直接调用函数进行绘图即可。

【运行】61ec10f1fb4d405fb415aaa771b0d217.png

相关文章
|
2月前
|
移动开发 监控 数据可视化
通过C++实现对管理员工上网行为的数据挖掘与可视化
这篇文章介绍了如何使用C++进行员工上网行为的监控数据挖掘与可视化。首先,通过读取系统日志收集上网数据,然后进行数据分析,包括统计访问频率和识别异常行为。接着,利用数据可视化工具展示结果。最后,讨论了如何将监控数据自动提交到网站,以实现实时监控和问题响应。示例代码展示了使用Boost.Asio库创建HTTP客户端上传数据的基本过程。
118 2
|
2月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
263 0
|
2月前
|
SQL 数据可视化 算法
SQL Server聚类数据挖掘信用卡客户可视化分析
SQL Server聚类数据挖掘信用卡客户可视化分析
|
27天前
|
数据采集 数据可视化 数据挖掘
数据挖掘实战:使用Python进行数据分析与可视化
在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】
62 11
|
28天前
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘实战:Python在金融数据分析中的应用案例
Python在金融数据分析中扮演关键角色,用于预测市场趋势和风险管理。本文通过案例展示了使用Python库(如pandas、numpy、matplotlib等)进行数据获取、清洗、分析和建立预测模型,例如计算苹果公司(AAPL)股票的简单移动平均线,以展示基本流程。此示例为更复杂的金融建模奠定了基础。【6月更文挑战第13天】
168 3
|
27天前
|
机器学习/深度学习 数据采集 算法
数据科学基础:数据挖掘与分析的技术探讨
【6月更文挑战第15天】本文探讨数据科学中的数据挖掘与分析技术,阐述其基础理论,包括数据预处理、探索和模型建立,并介绍统计分析、机器学习、深度学习等方法。面对数据质量、算法选择等挑战,数据挖掘在智能决策、个性化服务、预测等方面展现广阔前景,将在跨领域融合中发挥更大作用,同时也需关注隐私安全与技术伦理。
|
2月前
|
数据采集 存储 算法
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
|
2月前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
2月前
|
SQL 数据可视化 算法
R语言公交地铁路线进出站数据挖掘网络图可视化
R语言公交地铁路线进出站数据挖掘网络图可视化

热门文章

最新文章