👉博__主👈:米码收割机
👉技__能👈:C++/Python语言
👉公众号👈:测试开发自动化【获取源码+商业合作】
👉荣__誉👈:阿里云博客专家博主、51CTO技术博主
👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。
1. 任务描述
有的职业危害因素对人体血液等系统产生影响,在此针对一次职业人群体检的部分数据使用Python进行数据分析和可视化描述。
要求:
1.导入模块:pandas、numpy、matplotlib.pyplot;定义可以正常显示中文标签和负号;
2.获取数据,导入待处理数据testdata.xls,并显示前5行;
3.分析数据
- 查看data的数据类型、表结构、并统计各字段空缺的个数;
- 删除全为空的列及身份证号为空的数据;
- 将“开始从事某工作年份”规范为4位数字年份,如“2018”,并将列名修改为“参加工作时间”;
- 增加列“工龄”(体检年份-参加工作时间)和“年龄”(体检时间-出生年份)两列;
- 统计不同性别的白细胞计数均值,并画出柱状图;
- 统计不同年龄段的白细胞计数,并画出柱状图,年龄段划分为:小于等于30,31至40,41至50以及大于50四个段。
👇👇👇 关注公众号,回复 “体检数据分析” 获取源码👇👇👇
2. 功能展示
2.1 导入模块获取数据
2.2 分析数据类型数
👇👇👇 关注公众号,回复 “体检数据分析” 获取源码👇👇👇
2.3 分析数据表结构、并统计各字段空缺的个数
2.4 统计各字段空缺的个数
2.5 删除全为空的列及身份证号为空的数据
👇👇👇 关注公众号,回复 “体检数据分析” 获取源码👇👇👇
2.6 将列名修改为“参加工作时间”
2.7 增加列“工龄”和“年龄”
👇👇👇 关注公众号,回复 “体检数据分析” 获取源码👇👇👇
2.8 统计不同性别的白细胞计数均值柱状图
2.9 统计不同年龄段的白细胞计数柱状图
👇👇👇 关注公众号,回复 “体检数据分析” 获取源码👇👇👇
三、部分代码
import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 df = pd.read_excel("testdata.xls") data = df.head()#默认读取前5行的数据 print(df.info()) print(df.dtypes) print(df.shape) print(df.isnull().sum()) # 其余代码略.... # 👇👇👇 关注公众号,回复 “体检数据分析” 获取源码👇👇👇
👇👇👇 关注公众号,回复 “体检数据分析” 获取源码👇👇👇