python数据分析和可视化【3】体检数据分析和小费数据分析

简介: python数据分析和可视化【3】体检数据分析和小费数据分析

体检数据分析

要求:

(1)读取testdata文件,利用agg函数统计数据中‘淋巴细胞计数’的和与均值、‘白细胞计数’的和与均值。

(2)统计不同性别人群的血小板计数

(3)同时输出淋巴细胞计数的均值、血小板计数的均值与标准差

数据集

代码:

import pandas as pd
# 读取Excel文件
df = pd.read_excel('C:\\Users\86178\Downloads\\testdata.xls')
# 统计‘淋巴细胞计数’的和与均值
lymphocyte_agg = df['淋巴细胞计数'].agg(['sum', 'mean'])
# 统计‘白细胞计数’的和与均值
leukocyte_agg = df['白细胞计数'].agg(['sum', 'mean'])
# 统计不同性别人群的血小板计数
platelet_by_gender = df.groupby('性别')['血小板计数'].sum()
# 输出淋巴细胞计数的均值、血小板计数的均值与标准差
lymphocyte_mean = df['淋巴细胞计数'].mean()
platelet_mean = df['血小板计数'].mean()
platelet_std = df['血小板计数'].std()
print("淋巴细胞计数的和与均值:")
print(lymphocyte_agg)
print("白细胞计数的和与均值:")
print(leukocyte_agg)
print("不同性别人群的血小板计数:")
print(platelet_by_gender)
print("淋巴细胞计数的均值:", lymphocyte_mean)
print("血小板计数的均值:", platelet_mean)
print("血小板计数的标准差:", platelet_std)

运行结果:

小费数据分析

要求:

(1)读取数据,并查看数据的描述信息。

(2)将列名修改为汉字,并显示前5行数据。

(3)分析男性顾客与女性顾客谁更慷慨。(将数据按照性别进行分组,查看分组后小费的情况)

(4)分析日期与小费之间的关系。(将数据按照星期分类,查看分类后的小费情况)

性别+抽烟的组合因素对慷慨度的影响。(将数据按照性别和是否抽烟进行分组,查看分组后小费的情况)

数据集:

代码:

import pandas as pd
# 1. 读取xls数据并查看描述信息
data = pd.read_excel('C:\\Users\86178\Downloads\\tips.xls')
print(data.describe())
# 2. 将列名修改为汉字并显示前5行数据
data.columns = ['总消费', '小费', '性别', '是否吸烟', '日期', '用餐时间', '大小']
print(data.head())
# 3. 分析男性顾客与女性顾客谁更慷慨
generosity_by_gender = data.groupby('性别')['小费'].mean()
print(generosity_by_gender)
# 4. 分析日期与小费之间的关系
tip_by_day = data.groupby('日期')['小费'].mean()
print(tip_by_day)
# 5. 性别+抽烟的组合因素对慷慨度的影响
generosity_by_gender_smoker = data.groupby(['性别', '是否吸烟'])['小费'].mean()
print(generosity_by_gender_smoker)

运行结果:

目录
相关文章
|
6天前
|
存储 数据采集 数据挖掘
Python数据分析实验一:Python数据采集与存储
Python数据分析实验一:Python数据采集与存储
28 1
|
7天前
|
数据采集 SQL 数据挖掘
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
|
3天前
|
数据采集 机器学习/深度学习 数据可视化
使用Python进行数据分析
本文介绍了如何使用Python进行网络爬虫和数据分析。首先,网络爬虫通过库如`requests`和`BeautifulSoup`收集数据,而数据分析则依赖于`pandas`、`numpy`和`matplotlib`等库进行数据清洗、转换和可视化。文章还提到了处理动态网页和分页数据的策略,以及使用`Selenium`模拟浏览器行为。在数据分析部分,讨论了高级技术,如数据聚合、相关性分析和机器学习预测模型。最后,介绍了交互式可视化和地理空间数据可视化的工具,如`Plotly`、`Bokeh`、`geopandas`和`folium`。通过不断学习和实践,读者可以提升在网络爬虫和数据分析领域的技能。
|
3天前
|
机器学习/深度学习 数据可视化 数据挖掘
Python在数据分析中的强大应用
Python在数据分析中扮演关键角色,凭借其强大的功能和简洁的语法赢得了数据分析师的青睐。pandas库简化了数据处理和清洗,如读取多种格式文件、处理缺失值和重复值。数据可视化方面,matplotlib和seaborn能生成各类图表,帮助直观展示数据。此外,Python的scikit-learn用于机器学习和预测分析,支持线性回归等多种模型。面对复杂任务,Python结合Dask进行并行处理,或利用NLP库处理非结构化数据。通过集成和自动化,Python提高了数据分析效率,成为该领域的首选工具。
|
6天前
|
监控 并行计算 数据挖掘
python数据分析中遇到的问题
在Python数据分析项目中,面对数十GB的日志数据,遇到性能瓶颈和内存溢出问题。通过使用`pandas`的`read_csv(chunksize=)`分块读取、`joblib`实现并行处理、优化数据类型及利用`engine='c'`和`memory_map=True`减少内存占用,成功提升处理速度和效率。这次经历强调了预防性思考、持续学习、性能监控、代码优化和利用社区资源的重要性,促进了技术与思维方式的升级。
28 4
|
7天前
|
存储 数据可视化 算法
最新Python-Matplotlib可视化(9)——精通更多实用图形的绘制,2024年最新小米面试题库
最新Python-Matplotlib可视化(9)——精通更多实用图形的绘制,2024年最新小米面试题库
最新Python-Matplotlib可视化(9)——精通更多实用图形的绘制,2024年最新小米面试题库
|
7天前
|
SQL 数据可视化 数据挖掘
2024年8个Python高效数据分析的技巧。,2024年最新Python基础面试题2024
2024年8个Python高效数据分析的技巧。,2024年最新Python基础面试题2024
2024年8个Python高效数据分析的技巧。,2024年最新Python基础面试题2024
|
8天前
|
数据可视化 数据挖掘 Python
【Python DataFrame专栏】DataFrame的可视化探索:使用matplotlib和seaborn
【5月更文挑战第20天】本文介绍了使用Python的pandas、matplotlib和seaborn库进行数据可视化的步骤,包括创建示例数据集、绘制折线图、柱状图、散点图、热力图、箱线图、小提琴图和饼图。这些图表有助于直观理解数据分布、关系和趋势,适用于数据分析中的探索性研究。
【Python DataFrame专栏】DataFrame的可视化探索:使用matplotlib和seaborn
|
10天前
|
机器学习/深度学习 数据挖掘 Python
Python数据分析 | 泰坦尼克逻辑回归(下)
Python数据分析 | 泰坦尼克逻辑回归
14 1
|
10天前
|
机器学习/深度学习 数据挖掘 BI
Python数据分析 | 泰坦尼克逻辑回归(上)
Python数据分析 | 泰坦尼克逻辑回归
24 0