Pandas实战(1):电商购物用户行为数据分析

简介: Pandas实战(1):电商购物用户行为数据分析

本期,我们使用Pandas对阿里天池中的电商购物用户行为数据分析,数据来源为:阿里天池电商购物用户行为分析数据_数据集-阿里云天池 (aliyun.com)文档说明为:电商购物用户行为分析数据 这份数据集是一个顾客购物信息的集合,记录了不同顾客在不同时间的购物行为。每一行代表一个单独的购物发票记录,数据集中包含了以下属性:

1. invoice_no: 发票号码,是每次交易的唯一标识符。2. customer_id: 顾客的ID,用于标识不同的顾客。3. gender: 顾客的性别,分为"Male"(男性)和"Female"(女性)。4. age: 顾客的年龄。5. category: 顾客购买的商品类别,如"Clothing"(服装)、"Shoes"(鞋子)、"Books"(书籍)、"Cosmetics"(化妆品)、"Toys"(玩具)、"Food & Beverage"(食品和饮料)、"Technology"(科技产品)、"Souvenir"(纪念品)等。6. quantity: 顾客购买的商品数量。7. price: 顾客为这次购物支付的总金额。8. payment_method: 顾客使用的支付方式,包括"Alipay"(支付宝)、"WeChat Pay"(微信支付)、"Card"(银行卡)。9. invoice_date: 发票日期,记录了交易发生的日期。

具体界面为: 899ae96056c106483fe4c4dfb699c114.png


文件不大,下载下来大概只有5.83M左右,用Pandas来看看?

一、导入数据

import pandas as pd
df=pd.read_csv('customer_shopping_data.csv')df

a0d0d5f62b33adccbdfe7c16130d9ba0.png

共99457行数据,不到10万行数据。二、看看有没有重复用户?

df['customer_id'].unique


b3aeb6aa083686be31f2d3edd8bee6b1.png

99457行,没有重复用户ID三、统计品类1. 统计商品类别数量

dfc=df.groupby('category').agg({'category':'count'})dfc

                                                    3aa587dad3e1002e75e465778eaa2c83.png


当然,这里也可以使用

a=df['category'].value_counts()a


画个饼图

                                                      23e18dfca2185e9da80b7e79b2629ddc.png

import matplotlib.pyplot as pltplt.figure()plt.pie(dfp['price'], labels=dfp.index, autopct='%1.1f%%')plt.show()

c8bb1d6381cb5aad27df3c567629c17c.png

数量排名前三的为:服装、化妆品、食品和饮料,果然衣食为大

2. 统计商品品类购买金额情况

df_cost=df.groupby('category').agg({'price':'sum'})df_cost.sort_values(by='price',ascending=False)

400ac00014342a3cf2eb95b1606ca1ba.png

画个饼图:

2d3977ed4accc860f5824a5557639944.png

销售金额前三名为:服装、鞋、科技产品,科技产品虽然种类卖的少,但架不住单个价值高啊


未完待续!

相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
124 71
|
3月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
119 5
|
2月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
143 73
|
1月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
70 22
|
4月前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
284 0
|
29天前
|
存储 数据采集 数据挖掘
Pandas数据应用:用户行为分析
本文介绍了如何使用Pandas进行用户行为分析,涵盖从基础概念到实际应用的多个方面。首先简要介绍了Pandas的安装与基本功能,接着详细讲解了数据加载、初步探索及常见问题(如数据缺失、重复记录和时间戳格式不统一)的处理方法。随后探讨了用户活跃度和路径分析等模式挖掘技巧,并总结了常见报错及避免措施。通过掌握这些内容,读者可以更高效地进行用户行为分析,提升产品设计和用户体验。
100 8
|
2月前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
76 5
|
1月前
|
数据采集 SQL 数据挖掘
电商数据分析的方法
电商数据分析涵盖从业务需求理解到数据呈现的全流程。初学者应循序渐进,掌握数据清洗、转换等技能,Python是重要工具。社交媒体营销分析关注用户参与度和KOL影响。实战教程如《2019电商数据分析师实战项目》提供Excel、SQL及Tableau应用案例,帮助巩固理论知识。代码示例展示了如何使用Pandas和SQLAlchemy进行销售数据分析,计算转化率。 (注:联系方式和感谢语已省略以符合要求)
电商数据分析的方法
|
2月前
|
数据采集 监控 数据挖掘
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习