Python对职业人群体检数据进行分析与可视化(附源码 超详细)

简介: Python对职业人群体检数据进行分析与可视化(附源码 超详细)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

职业人群体检数据分析

有的职业危害因素会对人体血液等系统产生影响。下面针对一次职业人群体检的部分数据进行分析

实现步骤如下

1:导入模块

2:获取数据

导入待处理数据testdata.xls并显示前五行

3:分析数据

首先查看数据类型 表结构 并统计各个字段空缺值的个数

接下来删除全为空的列以及身份证号为空的数据

删除全为空的列

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

函数作用:删除含有空值的行或列

axis:维度,axis=0表示index行,axis=1表示columns列,默认为0

how:"all"表示这一行或列中的元素全部缺失(为nan)才删除这一行或列,"any"表示这一行或列中只要有元素缺失,就删除这一行或列

thresh:一行或一列中至少出现了thresh个才删除。

subset:在某些列的子集中选择出现了缺失值的列删除,不在子集中的含有缺失值得列或行不会删除(有axis决定是行还是列)

inplace:刷选过缺失值得新数据是存为副本还是直接在原数据上进行修改

删除身份证号为空的数据

将“开始从事某工作年份”规范为4位数字年份,如“2018”,并将列名修改为“参加工作时间

增加列“工龄”(体检年份-参加工作时间)和“年龄”(体检时间-出生年份)两列

查看待处理是否有缺失值 然后删除所有缺失值

然后可以看到参加工作时间之一列的缺失值已经删除,同时也看到体检年份还有38个缺失值 也进行删除

身份证号,参加工作时间以及体检年份的数据类型都是object,需要进行类型转换,统一转化为int64类型,另外,体检年份这一列有很多异常数据,很多年份后都有年字,对体检年份数据进行时间提取

增加工龄和年龄这两列

统计不同性别的白细胞计数均值 并画出柱状图

统计不同年龄段的白细胞计数,并画出柱状图,年龄段划分为:小于或等于30岁,31-40岁,41-50岁以及大于50岁4个

经过上面这一系列工作,可以很清楚的看出数据的一些分布特征 有助于后续的解决方案

代码

部分代码如下 需要全部代码请点赞关注收藏后评论区留言私信~~~

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
%matplotlib inline
df = pd.read_excel("testdata.xls")#这个会直接默认读取到这个Excel的第一个表单
data =df.head()#默认读取前5行的数据
data
df.info()
df.dtypes
df.shape
df.isnull().sum()
df.dropnaaxis=1, how='all',inplace= True)#将全部项都是nan的列删除
df.head()
df.dropna(how='any',subset=['身份证号'],inplace= True)
df.isnul().sum()
df1 = df
df.shape
df.开始从事某工作年份 = df.开始从事某工作年份.str[0:4]
df.rename(columns={"开始从事某工作年份": "参加工作时间"},inplace=True)
df.head()
df.isnull().sum()
df1 = df.dropna(subset=['参加工作时间'],how='any')
df1.isnull().sum()
df1.isnull().sum()
df2 = df1.dropna(subset=['体检年份'],how='any')
# ()
df2.isnull().sum()
#参加工作时间转换为int64类型
#首将体检年份转换为str类型
data['体检年份'] = data.体检年份.astype('str')
#切片取前4位值之后再将体检年份转换为int64类型
data.体检年份 = data.体检年份.str[0:4].astype("int64")
#取身份证的第4位-第7位,并转换为int64类型
data["出生年份"] = data.身份证号.str[4:8].astype('int64')
d.head()
data.参加工作时间 = data.参加工作时间.astype('int64')
data['体检年份'] = data.体检年份.astype('str')
data.体检年份 = data.体检年份.str[0:4].astype("int64")
data["出生年份"] = data.身份证号.str[4:8].astype('int64')
data.head()
data = data.eval('工龄 = 体检年份-参加工作时间')
data = data.eval("年龄= 体检年份- 出生年份")
data.head()
import matplotlib
matplotlib.rcParams['font.size'] = 15
matplotlib.rcParams['font.family'] = 'SimHei'
# mean.plot(kind='bar') #series.plot(kind='bar')
mean.plot.bar()
plt.xticks(rotation=0)
plt.ylabel("白细胞均值")
data['年龄段'] = pd.cut(data.年龄, bins=[0,30,40,50, 100])
count = data.groupby('年龄段')['白细胞计数'].mean()
count
count.plot(kind = "bar")
plt.xticksotation=30)
plt.ylabel("白细胞计数均值")

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
20小时前
|
数据采集 数据可视化 数据处理
利用Python和Pandas库实现高效的数据处理与分析
在大数据和人工智能时代,数据处理与分析已成为不可或缺的一环。Python作为一门强大的编程语言,结合Pandas库,为数据科学家和开发者提供了高效、灵活的数据处理工具。本文将介绍Pandas库的基本功能、优势,并通过实际案例展示如何使用Pandas进行数据清洗、转换、聚合等操作,以及如何利用Pandas进行数据可视化,旨在帮助读者深入理解并掌握Pandas在数据处理与分析中的应用。
|
1天前
|
存储 数据可视化 算法
最新Python-Matplotlib可视化(9)——精通更多实用图形的绘制,2024年最新小米面试题库
最新Python-Matplotlib可视化(9)——精通更多实用图形的绘制,2024年最新小米面试题库
最新Python-Matplotlib可视化(9)——精通更多实用图形的绘制,2024年最新小米面试题库
|
1天前
|
存储 缓存 API
python源码解读_python代码解释
python源码解读_python代码解释
|
1天前
|
数据采集 数据可视化 Python
Python分析香港26281套在售二手房数据
Python分析香港26281套在售二手房数据
|
1天前
|
数据可视化 数据挖掘 Python
【Python DataFrame专栏】DataFrame的可视化探索:使用matplotlib和seaborn
【5月更文挑战第20天】本文介绍了使用Python的pandas、matplotlib和seaborn库进行数据可视化的步骤,包括创建示例数据集、绘制折线图、柱状图、散点图、热力图、箱线图、小提琴图和饼图。这些图表有助于直观理解数据分布、关系和趋势,适用于数据分析中的探索性研究。
【Python DataFrame专栏】DataFrame的可视化探索:使用matplotlib和seaborn
|
2天前
|
数据采集 存储 数据挖掘
Python DataFrame初学者指南:轻松上手构建数据表格
【5月更文挑战第19天】本文是针对初学者的Pandas DataFrame指南,介绍如何安装Pandas、创建DataFrame(从字典或CSV文件)、查看数据(`head()`, `info()`, `describe()`)、选择与操作数据(列、行、缺失值处理、数据类型转换、排序、分组聚合)以及保存DataFrame到CSV文件。通过学习这些基础,你将能轻松开始数据科学之旅。
|
2天前
|
数据挖掘 数据处理 Python
【Python DataFrame 专栏】Python DataFrame 入门指南:从零开始构建数据表格
【5月更文挑战第19天】本文介绍了Python数据分析中的核心概念——DataFrame,通过导入`pandas`库创建并操作DataFrame。示例展示了如何构建数据字典并转换为DataFrame,以及进行数据选择、添加修改列、计算统计量、筛选和排序等操作。DataFrame适用于处理各种规模的表格数据,是数据分析的得力工具。掌握其基础和应用是数据分析之旅的重要起点。
【Python DataFrame 专栏】Python DataFrame 入门指南:从零开始构建数据表格
|
2天前
|
机器学习/深度学习 数据处理 Python
如何利用Python实现高效的数据清理与预处理
数据清理和预处理是数据科学家和分析师工作中不可或缺的一环,而Python作为一门强大的编程语言,可以使这个过程变得更加高效和便捷。本文将介绍一些常见的数据清理和预处理技术,并演示如何使用Python来实现这些技术。
|
Linux C语言 开发者
源码安装Python学会有用还能装逼 | 解决各种坑
相信朋友们都看过这个零基础学习Python的开篇了
380 0
源码安装Python学会有用还能装逼 | 解决各种坑