百货商场用户画像描绘与价值分析(上)

简介: 百货商场用户画像描绘与价值分析

内容概述

本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。

数据说明

数据集分为两部分,.xlsx结尾的是会员信息表,.csv结尾的是销售流水表。其中,会员信息表共有将近19万条记录,销售流水表共有接近189万条记录。

两个表包含了如会员卡号,消费产生时间,性别,出生时间,商品编码,销售数量,商品售价,消费金额,商品名称,此次消费的会员积分,收银机号,单据号,柜组编码,柜组名称,等级时间等 15 个特征。

  • L(入会程度):3个月以下为新用户,4-12个月为中等用户,13个月以上为老用户
  • R(最近购买的时间)
  • F(消费频次):次数20次以上的为高频消费,6-19次为中频消费,5次以下为低频消费
  • M(消费金额):10万以上为高等消费,1万-10万为中等消费,1万以下为低等消费
  • P(消费积分):10万以上为高等积分用户,1万-10万为中等积分用户,1万以下为低等积分用户

实现目标

本项目主要围绕着“百货商店会员用户画像描绘与价值分析”内容进行,结合目前百货商场的数据情况,可以实现以下目标:

  1. 借助百货商场会员用户数据,对会员用户进行分群。
  2. 对不同的会员用户类别进行特征分析,比较不同类别会员用户的会员用户价值。
  3. 对不同价值的会员用户类别提供个性化服务,制定相应的营销策略。

技术点

  • 数据预处理(Pandas):包括去重去缺失值、异常值处理、变量重编码和时间序列数据处理方式等;
  • 数据可视化(Matplotlib):饼图、柱状图、折线图、雷达图和复合图等绘制方式等;
  • 特征创造和数据建模:从海量连续数据中创造出性别、消费偏好、入会程度、最近购买的时间、消费频次、消费金额、消费积分等类别数据,建模部分主要通过标准化和归一化数据来对比KMeans聚类的轮廓系数结果。

代码运行说明

注意:运行此文件后会生成一些中间数据集以及相关图片

主要内容

导入模块

1.项目背景

1.1 项目背景与挖掘目标

2.数据探索与预处理

2.1 结合业务对数据进行探索并进行预处理

会员信息表数据探索与预处理

从上面会员信息表进行分析可以看出,数据中会员卡号存在一些重复值,且会员入会登记时间都有缺失,需要去重去缺失值,因为性别比例缺失较少,所以用众数来填补性别上的缺失值

注意:这里存在部分会员登记时间小于出生时间,因为这列数据所占比例较少,可以直接进行删除 和下面有所不同

检验是否在“登记时间”这一字段上是否存在异常值,若存在异常值,则无法进行基础的运算操作,下面操作能正常执行,说明不存在异常值

查看处理后数据缺失值情况

注意:由于出生日期这一列的缺失值过多,且存在较多的异常值,不能贸然删除

所以下面这里另建了一个数据集L来保存“出生日期”和“性别”信息,方便下面对会员的性别和年龄信息进行统计

出生日期这列值出现较多的异常值,以一个正常人寿命为100年算起,我们假定会员年龄范围在1920-2020之间,将超过该范围的值当作异常值进行剔除

用于与销售流水表进行合并的数据只取[‘会员卡号’, ‘性别’, ‘登记时间’]这三列,将出生日期这列意义不大的进行删除(这列信息最有可能出错),并重置索引

销售流水表数据探索和预处理

销售数量全部大于0,销售金额也全部大于0,说明两者不会对后者特征创造时产生影响

查看是否存在缺失值

会员信息表和销售流水表这两张表唯一相关联的字段便是“会员卡号”

由于销售流水表中“会员卡号”有将近一半为缺失值,这类数据无法进行填充,且后续需要对会员消费记录进行统计分析和建模,故只能舍弃

可以看到,舍弃掉会员卡号缺失值之后,便只有柜组名称存在缺失,下面舍弃掉一些无意义的字段,仅保留对本项目有研究价值的字段信息

2.2 将会员信息表和销售流水表关联与合并

按照会员卡号将两张表里的信息进行合并,使用左连接合并,获得一个既包含会员信息,又包含非会员信息的数据

这里再次查看“消费金额”>0,“积分”>0,“销售数量”>0

这里可以看到,merge之后的数据异常值突然变多了,这里就需要对此进行预处理,筛选掉那些异常值,方便后续进行分析

创造一个特征字段,判断是否为会员,1表示为会员,0表示不为会员

百货商场用户画像描绘与价值分析(中)


相关文章
|
数据采集 机器学习/深度学习 人工智能
大数据分析案例-用RFM模型对客户价值分析(聚类)
大数据分析案例-用RFM模型对客户价值分析(聚类)
1361 0
大数据分析案例-用RFM模型对客户价值分析(聚类)
|
4月前
|
机器学习/深度学习 敏捷开发 人工智能
探索软件测试的多维视角:从基础到未来趋势
本文旨在通过通俗易懂的语言,为读者揭示软件测试领域的多个维度。我们将从软件测试的基础概念出发,逐步深入到测试的不同类型、面临的挑战,以及最新的测试技术和工具。文章还将探讨自动化测试的重要性和实现过程,以及如何利用敏捷测试来提高开发效率。最后,我们将展望软件测试的未来趋势,包括人工智能和机器学习在测试中的应用前景。文章的目标是为初学者提供入门指南,同时为有经验的测试工程师提供行业动态和未来发展方向的参考。
|
4月前
|
SQL 安全 测试技术
探索软件测试的多维视角
在软件开发生命周期中,测试阶段扮演着至关重要的角色。本文将通过一个实际的软件测试案例,深入探讨如何从不同的角度进行软件测试,以确保软件质量的提升。我们将分析测试过程中遇到的挑战和问题,并提出相应的解决策略,旨在帮助读者更好地理解软件测试的复杂性和重要性。
53 3
|
7月前
|
搜索推荐 数据可视化 数据挖掘
百货商场用户画像描绘与价值分析(下)
百货商场用户画像描绘与价值分析(下)
|
7月前
|
搜索推荐
百货商场用户画像描绘与价值分析(中)
百货商场用户画像描绘与价值分析(中)
|
7月前
|
数据可视化 数据挖掘
R语言多维度视角下白领人群健康体质检测数据关系可视化分析2
R语言多维度视角下白领人群健康体质检测数据关系可视化分析
|
7月前
|
数据可视化 数据挖掘
R语言多维度视角下白领人群健康体质检测数据关系可视化分析1
R语言多维度视角下白领人群健康体质检测数据关系可视化分析
|
机器学习/深度学习 数据采集 人工智能
『航班乘客满意度』场景数据分析建模与业务归因解释 ⛵
本文结合航空出行的场景,使用机器学习建模,详细分析了航班乘客满意度的影响因素:机上Wi-Fi服务、在线登机、机上娱乐质量、餐饮、座椅舒适度、机舱清洁度和腿部空间等。
453 0
『航班乘客满意度』场景数据分析建模与业务归因解释 ⛵
|
搜索推荐 算法 数据挖掘
如何做好用户画像?
用户画像是指我们产品或服务的核心用户具有代表性的一些共性特征。它是一个虚拟的用户,画出这些特征的目的有两个 1、指引我们更有效率地找到具有这部分共性的人。 2、快速的定位这些具有共性特征用户的需求。
317 0
如何做好用户画像?
|
机器学习/深度学习 分布式计算 算法
大数据建模、分析、挖掘技术应用
掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。