本期,我们使用Pandas对阿里天池中的电商购物用户行为数据分析,数据来源为:阿里天池电商购物用户行为分析数据_数据集-阿里云天池 (aliyun.com)文档说明为:电商购物用户行为分析数据 这份数据集是一个顾客购物信息的集合,记录了不同顾客在不同时间的购物行为。每一行代表一个单独的购物发票记录,数据集中包含了以下属性:
1. invoice_no: 发票号码,是每次交易的唯一标识符。2. customer_id: 顾客的ID,用于标识不同的顾客。3. gender: 顾客的性别,分为"Male"(男性)和"Female"(女性)。4. age: 顾客的年龄。5. category: 顾客购买的商品类别,如"Clothing"(服装)、"Shoes"(鞋子)、"Books"(书籍)、"Cosmetics"(化妆品)、"Toys"(玩具)、"Food & Beverage"(食品和饮料)、"Technology"(科技产品)、"Souvenir"(纪念品)等。6. quantity: 顾客购买的商品数量。7. price: 顾客为这次购物支付的总金额。8. payment_method: 顾客使用的支付方式,包括"Alipay"(支付宝)、"WeChat Pay"(微信支付)、"Card"(银行卡)。9. invoice_date: 发票日期,记录了交易发生的日期。
具体界面为:
文件不大,下载下来大概只有5.83M左右,用Pandas来看看?
一、导入数据
import pandas as pd df=pd.read_csv('customer_shopping_data.csv')df
共99457行数据,不到10万行数据。二、看看有没有重复用户?
df['customer_id'].unique
99457行,没有重复用户ID三、统计品类1. 统计商品类别数量
dfc=df.groupby('category').agg({'category':'count'})dfc
当然,这里也可以使用
a=df['category'].value_counts()a
画个饼图
import matplotlib.pyplot as pltplt.figure()plt.pie(dfp['price'], labels=dfp.index, autopct='%1.1f%%')plt.show()
数量排名前三的为:服装、化妆品、食品和饮料,果然衣食为大
2. 统计商品品类购买金额情况
df_cost=df.groupby('category').agg({'price':'sum'})df_cost.sort_values(by='price',ascending=False)
画个饼图:
销售金额前三名为:服装、鞋、科技产品,科技产品虽然种类卖的少,但架不住单个价值高啊 。
未完待续!