百货商场用户画像描绘与价值分析(上)
3 统计分析
3.1 分析会员的年龄构成、男女比例等基本信息
处理男女比例这一列,女表示0,男表示1
可以将年龄划分为老年(1920-1950)、中年(1960-1990)、青年(1990-2010),再重新绘制一个饼图,
使用上述预处理后的数据集L,包含两个字段,分别是“年龄”和“性别”,先画出年龄的条形图
绘制各个年龄段的饼图
3.2 分析会员的总订单占比,总消费金额占比等消费情况
由于相同的单据号可能不是同一笔消费,以“消费产生的时间”为分组依据,我们可以知道有多少个不同的消费时间,即消费的订单数
3.3 分别以季度和天为单位,分析不同时间段会员的消费时间偏好
消费偏好:我偏向与消费的频次相当于消费的订单数,因为每笔消费订单其中所包含的消费商品和金额都是不太一样的,有的订单所消费的商品很少,但金额却很大,有的消费的商品很多,但金额却特别少。如果单纯以总金额来衡量的话,会员下次消费时间可能会很长,消费频次估计也会相对变小(因为这次所购买的商品已经足够用了)。所以我会偏向于认为一个用户消费频次(订单数)越多,就越能带来更多的价值,从另一方面上来讲,用户也不可能一直都是消费低端产品,消费频次越多用户的粘性也会相对比较大
将会员的消费数据另存为另一个数据集
自定义一个函数来计算2015-2018之间每个季度或月份的消费订单均数
前提假设:2015-2018年之间,消费者偏好在时间上不会发生太大的变化(均值),消费偏好----->以不同时间的订单数来衡量
自定义函数来绘制不同年份之间的的季度或天数的消费订单差异
函数说明
df: 为DataFrame的数据集
label_y: 为年份的字段标签
label_m: 为标签的一个列表
n_row: 图的行数
n_col: 图的列数
自定义函数来绘制不同年份之间的月份消费订单差异
函数说明:
df: 为DataFrame的数据集
label_y: 为年份的字段标签
label_m: 为月份的字段标签
再来分析下时间上的差差异——消费订单数
4 会员用户画像和特征字段创造
4.1 构建会员用户基本特征标签
说明积分这一列没有存在异常值
查看登记时间和消费产生的时间是否存在异常值,即大于2018-01-03
筛掉两列异常时间的数据
说明单个会员有多条消费记录数
可以先筛选每位会员,然后依据各个字段对进行运算,求出对应的LRFMP
自定义一个函数来实现两列数据时间相减
函数说明:
df: 为DataFrame形式,有列数据,第一列为“会员卡号”,第二列为被减的时间
end_time: 结束时间
开始登记的时间 和 最后一次消费的时间
调用函数
会员消费的总次数:
会员消费的总金额:
会员的积分总数:
创造一列特征字段“消费时间偏好”(凌晨、上午、中午、下午、晚上)
说明:
凌晨:0-5点
上午:6-10点
中午:11-13点
下午:14-17点
晚上:18-23点
会员消费的时间偏好,在多项记录中取众数
会员性别
开始构建对应的特征标签
百货商场用户画像描绘与价值分析(下)