Polars实践(3):阿里天池——淘宝用户购物行为分析

简介: Polars实践(3):阿里天池——淘宝用户购物行为分析

本期继续使用Polars对阿里天池淘宝用户购物行为进行分析。一、时间戳列数据的清洗去除时间戳序列中不在2017-11-25至2017-12-03日期之间的数据,因为在导入数据后发现,还是有一些数据不在这个区间内的。比如:

df1['时间戳'].min()

运行结果为:-2134949234。负数???那我们筛选一下符合条件的数据。

# 使用filter()函数筛选出列'时间戳'中值在1511561733到1512293891之间的行df1 = df1.filter(pl.col("时间戳").is_between(1511561733, 1512293891))df1

2c31603c5d710957c7d256972c783843.png

与原始数据集(100150806行)相比,清洗后的数据集为93622867行,减少了6527939行。将df1中时间戳转换为datatime。详见Polars实践(1):阿里天池——淘宝用户购物行为分析,再看一下现在时间对了没有?


df1.select(pl.col("日期").unique())

be7284c88d085faacb4acd670511dcec.png

OK了

二、用户行为变化趋势分析

1. 用户访问量PV时间变化分析从数据集中筛选出所有pv行为的数据:


#pv数量pv1=df1.filter(pl.col('行为类型')=='pv')

1.1 按照天来进行聚合并排序:

pv_amount=pv1.group_by('日期').len().sort(by="日期",descending=False)pv_amount

03ef3c5049d0be8478c40083dd872dbd.png

用matplotlib作图看一下

import matplotlib.pyplot as pltfrom matplotlib.pyplot import rcParamsrcParams['font.sans-serif'] = ['SimHei']rcParams['axes.unicode_minus'] = False# 绘制折线图plt.figure(figsize=(10, 6))plt.plot(pv_amount['日期'], pv_amount['len'], marker='o')  # marker='o' 会在每个数据点上绘制一个圆圈plt.title('数据集每日的pv数量统计')plt.xlabel('日期')plt.ylabel('数量')plt.grid(True)plt.show()

3914e7ebe19d334dba023e7b2869a850.png

可以看到,12月2日,用户访问量最大,原因可能为2017/12/02当天淘宝开始为“双十二”活动进行预热,开启商品精选活动,因此吸引了更多的点击量。1.2 按照小时来进行聚合排序:

pv_amount_h=pv1.group_by('小时').len().sort(by="小时",descending=False)pv_amount_h

f190b811d174ebc935b943df741a16fe.png

matplotlib绘图(此处代码省略)如下:

eb0232f5d5485f68298e66141f7ee02d.png

可以看到,5:00-10:00及18:00-22:00两段时间是用户活跃度迅速增长的时段;9:00-18:00这个时间段的用户活跃度上下浮动,但基本保持着同一水平;9:00和22:00这两个时间段是用户活跃度的两个小高峰,原因可能是因为用户开始工作前睡前逛淘宝造成的。同理,我们可以制作出购买数量(buy)和收藏量(fav)的图形(此处省略相关代码)2. 购买量:

c766e37c0a619359bbb2c438d62de7ee.png

6ba5d9dc5ad68c4ac28d949d74b72924.png

3. 收藏量:

0b37a0306b9c02c9e6e22a4c374c9753.png

d2df4ccf02864d222858863c0faa14e1.png

综上,可以看到购买量、收藏量与前面的点击PV量的图形趋势是正相关的,结论也与点击PV量的结论一致。三、小结本期,我们对淘宝用户购物行为按照时间进行了分析并画出趋势图,从中我们可以得出一些结论用于指导后期改进。比如:1. 加强“双十二”预热活动的推广:既然2017/12/02当天的点击量因为“双十二”活动的预热而显著上升,建议继续加强这一时期的营销和推广力度,利用社交媒体、广告投放等多种渠道吸引更多用户关注和参与。2. 在每日活跃用户高峰期加强商品推广:在5:00-9:00和18:00-22:00这两个用户活跃度迅速增长的时段,可以增加广告投放和促销活动的频率,以吸引更多的用户。3. 优化早晚高峰体验:考虑到10:00和22:00这两个时间段是用户活跃度的小高峰,建议优化这两个时段的网站和应用的性能,确保用户能够流畅地浏览和购物。......未完待续!

相关文章
|
7月前
|
小程序 搜索推荐
如何提升私域用户活跃度?支付宝产品经理送上“三件套”
如何提升私域用户活跃度?支付宝产品经理送上“三件套”
105 0
|
3月前
|
数据挖掘 大数据 API
Polars实践(1):阿里天池——淘宝用户购物行为分析
Polars实践(1):阿里天池——淘宝用户购物行为分析
128 0
|
3月前
|
Python
Polars实践(2):阿里天池——淘宝用户购物行为分析
Polars实践(2):阿里天池——淘宝用户购物行为分析
71 0
|
3月前
|
存储 数据采集 数据挖掘
Polars实践(4):阿里天池——淘宝用户购物行为分析
Polars实践(4):阿里天池——淘宝用户购物行为分析
160 0
|
SQL 分布式计算 数据可视化
淘宝大数据分析案例
淘宝大数据分析案例
609 0
淘宝大数据分析案例
|
XML 数据采集 Web App开发
学习XPath助力爬取中秋各大电商平台数据
学习XPath助力爬取中秋各大电商平台数据
126 0
学习XPath助力爬取中秋各大电商平台数据
|
机器学习/深度学习 人工智能 自然语言处理
淘宝千人千面背后的秘密:搜索推荐广告三位一体的在线服务体系AI·OS
揭晓三位一体的在线服务体系AI·OS,及其技术架构演进,技术概况,云原生产品与实践。
淘宝千人千面背后的秘密:搜索推荐广告三位一体的在线服务体系AI·OS
|
存储 小程序 JavaScript
淘宝小程序还可以这么玩!私域互动实践总结
小程序创意互动项目,作为淘宝购物小程序全面提升消费体验和满足商家个性化运营的重点项目之一,从 2020 年 3 月底正式 KO 到今年双11,已经经历了多次迭代。在购物小程序技术、产品、运营团队同学的通力合作和共同努力下,初步实现了容器渲染层的替换、游戏引擎的谈判接入、多个引擎 IDE 的联动打通。小程序创意互动服务的旗舰店品牌 Zone、行业 3D 展示等业务也已有序铺开,项目本身的价值和意义开始逐渐展现。本文从一个较为全面的视角对淘宝小程序创意互动项目进行梳理和阶段性小结,介绍相关原理、能力、应用、现状与未来。
淘宝小程序还可以这么玩!私域互动实践总结
|
新零售 搜索推荐 算法
【云栖号案例 | 新零售】百货商场过时了?新光天地上云 打造未来购物体验
随着网购的崛起,新光天地通过数字引流、分流,提供个性化体验、刷脸支付,一键成会员,建立顾客标签、设计客流动线,提高商场整体收益。
【云栖号案例 | 新零售】百货商场过时了?新光天地上云 打造未来购物体验
|
分布式计算 搜索推荐 大数据
【智能推荐系列公开课讲义④】7天搭建电商个性化推荐场景和最佳实践
阿里巴巴搜索推荐产品团队带来系列公开课,聊聊怎样结合实际场景,嵌入智能推荐,搭建“千人千面”的分发体系,使产品价值最大化。每期20分钟,10课时,修炼推荐硬功夫。
2211 0
【智能推荐系列公开课讲义④】7天搭建电商个性化推荐场景和最佳实践
下一篇
DataWorks