体检数据分析
要求:
(1)读取testdata文件,利用agg函数统计数据中‘淋巴细胞计数’的和与均值、‘白细胞计数’的和与均值。
(2)统计不同性别人群的血小板计数
(3)同时输出淋巴细胞计数的均值、血小板计数的均值与标准差。
数据集:
代码:
import pandas as pd # 读取Excel文件 df = pd.read_excel('C:\\Users\86178\Downloads\\testdata.xls') # 统计‘淋巴细胞计数’的和与均值 lymphocyte_agg = df['淋巴细胞计数'].agg(['sum', 'mean']) # 统计‘白细胞计数’的和与均值 leukocyte_agg = df['白细胞计数'].agg(['sum', 'mean']) # 统计不同性别人群的血小板计数 platelet_by_gender = df.groupby('性别')['血小板计数'].sum() # 输出淋巴细胞计数的均值、血小板计数的均值与标准差 lymphocyte_mean = df['淋巴细胞计数'].mean() platelet_mean = df['血小板计数'].mean() platelet_std = df['血小板计数'].std() print("淋巴细胞计数的和与均值:") print(lymphocyte_agg) print("白细胞计数的和与均值:") print(leukocyte_agg) print("不同性别人群的血小板计数:") print(platelet_by_gender) print("淋巴细胞计数的均值:", lymphocyte_mean) print("血小板计数的均值:", platelet_mean) print("血小板计数的标准差:", platelet_std)
运行结果:
小费数据分析
要求:
(1)读取数据,并查看数据的描述信息。
(2)将列名修改为汉字,并显示前5行数据。
(3)分析男性顾客与女性顾客谁更慷慨。(将数据按照性别进行分组,查看分组后小费的情况)
(4)分析日期与小费之间的关系。(将数据按照星期分类,查看分类后的小费情况)
性别+抽烟的组合因素对慷慨度的影响。(将数据按照性别和是否抽烟进行分组,查看分组后小费的情况)
数据集:
代码:
import pandas as pd # 1. 读取xls数据并查看描述信息 data = pd.read_excel('C:\\Users\86178\Downloads\\tips.xls') print(data.describe()) # 2. 将列名修改为汉字并显示前5行数据 data.columns = ['总消费', '小费', '性别', '是否吸烟', '日期', '用餐时间', '大小'] print(data.head()) # 3. 分析男性顾客与女性顾客谁更慷慨 generosity_by_gender = data.groupby('性别')['小费'].mean() print(generosity_by_gender) # 4. 分析日期与小费之间的关系 tip_by_day = data.groupby('日期')['小费'].mean() print(tip_by_day) # 5. 性别+抽烟的组合因素对慷慨度的影响 generosity_by_gender_smoker = data.groupby(['性别', '是否吸烟'])['小费'].mean() print(generosity_by_gender_smoker)
运行结果: