开发者学堂课程【Python 数据分析库 Pandas 快速入门:分组与聚合】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/607/detail/8866
分组与聚合
内容介绍:
一、什么是分组与聚合
二、如何在 pandas 进行分组与聚合:
三、案例:不同颜色不同笔的价格数据
四、星巴克零售店铺数据案例
l 什么是分组与聚合
分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况。
l 如何在 pandas 进行分组与聚合:
通过 Dataframe 和 Series 两种方法都可实现
l 案例:不同颜色不同笔的价格数据
分组与聚合:
通过 dataframe 实现:col =pd. DataFrame({'colo
r':
['white','red','green','red','green'],'object
进行分组,对颜色分组,price1 进行聚合# 用 dataframe 的方法进行分组
col.groupby(by="color")["pricel"].max()
通过 Series 实现:col["pricel"].groupby(col["color"]).max()
l 星巴克零售店铺数据案例
现在我们有一组关于全球星巴克店铺的统计数据,如果我想知道美国的星巴克数量和中国的哪个多,或者我想知道中国每个省份星巴克的数量的情况,那么应该怎么办?
数据来源:
https://www.kaggle.com/starbucks/store-locations/data
1 数据获取
从文件中读取星巴克店铺数据
#导入星巴克店的数据
starbucks =. pd. read_ csv ("directory. csv")
2进行分组聚合
# 按照国家分组,求出每个国家的星巴克零售店数量
count = starbucks. groupby ( [ 'Country']). count ()
画图显示结果
count['Brand'].plot(kind='bar',figsize=(20,8))plt.show ()
假设加入省市一起进行分组
# 设置多个索引,set_index()
starbucks.groupby(['Country','State/Province']).count
()