实战
数据分析说白了就是对数据进行筛选、处理的一个过程,之后将清洗的数据进行图形可视化进行展示;比如这样的;先上一张完整版的图。
素材准备:
1、excel表格文件一份
2、安装第三方库 pip install pandas
3、安装第三方库 pip install matplotlib
表格素材
第一步: 读取excel 数据
import pandas
read_xl = pandas.read_excel('lagouzp.xls')
print(read_xl)
可以顺利的看到表格中有198 行 x 11列 的数据,展示了出来。接下来进行数据的提取,选择要处理并用于展示图像的某列,进行提取。
这里采用城市+薪资。
第二步: 对数据 excel 进行处理
数据分析需要的数据种类是int类型,我们这里提取到的薪资数据明显是不符合要求的。让我们来处理一番。
# 1、需要被替换的值 2、 替换成什么样子
read_xl['薪资'] = read_xl['薪资'].str.replace('k','')
# 1530 薪资的区间 - 分割 - [15, 30]
read_xl['薪资'] = read_xl['薪资'].str.split('-')
# 最高薪资
read_xl['薪资'] = read_xl['薪资'].str[1]
print(read_xl['薪资'])
# 转换类型
read_xl['薪资'] = read_xl['薪资'].astype('int')
print(read_xl.dtypes)
经过我们的处理,数据已经符合我们的要求,接下来需要在对城市进行分组处理。
# 平均值 - 聚合 分组
city = read_xl.groupby(by='城市').mean()
name = city['薪资']
print(name)
第三步:筛选、清洗处理后的数据 - 数据分析- 绘制图像
from matplotlib import pyplot as plt
# 柱状图
plt.bar(x,y)
# 显示图像
plt.show()