【干货】RFM分析与客户聚类

简介: 关注公众号“达摩院首座”,了解开发者最真实生活

我们咨询界的前辈杰弗里摩尔在上世纪就说过:“离开大数据分析的企业又聋又瞎,就像误入高速的麋鹿,在发展路上迷失了方向”。早在2005年,《市场研究杂志》(Journal of Marketing Research)就提出了RFM和CLV模型,其中RFM所代表的Recency(最近一次消费)、Frequency(消费频率)和Monetary(消费金额)至今仍被广泛认为是客户数据分析最好的指标。

在这之前,市场分析人员总是拍脑袋来创建客户分类,比如根据消费偏好,购买力等,但这会带来两个问题,首先是时效性问题,我们不清楚什么时候之前的分类结果需要刷新;其次是完整性问题,如果客户无法落入之前的任何一个分类中需要如何处理,重构数据模型的代价是巨大的。

尽管市场法则遵循二八定律,20%的核心客户可以不问缘由地为你的商品买单,但是对于RFM分类后的其他客户,就算他们目前没有贡献多大利润,为了避免他们快速成为竞争对手的核心客户,任何企业都会想办法争取一下。

1.png

根据RFM分类,针对不同的客群需要匹配不同的营销策略,譬如价格敏感用户,他们对商品打折更感兴趣,可以通过提高订单净值(AOV),例如买二送一来获取更大利益;再譬如潜在忠实用户,可以对其扩大品牌宣传,施以影响力来打动用户。

2.png

咱们既然是个技术公众号,那就必须要聊点干货,我们知道数据科学家60%-90%的时间在做数据清洗工作,因此在对于客户数据的学习建模也可以大致分为以下五个步骤:

  • 发现客户相关数据:包括行为数据和统计数据,有时候我们单看行为数据往往不能洞察客户的真实购买力(需要结合统计数据中的收入),融合这两类数据才能更好地分析出客户的特征。

3.jpg

  • 关联、过滤、转置并清洗数据:这就是前面说的数据科学家最头痛的一步,在一堆海量数据中提取特征,然后归一化以便之后的算法模型可以运算分析。
  • 数据汇总:将特种工程、归一化后的数据导入到数据开发环境。
  • 分析数据:建立匹配业务场景的数据模型,对历史数据进行学习,调整模型参数。
  • 行为观测:在现实环境中对模型持续优化。

完成上述五项工程后,我们最终获得了客户画像,这是一幅没有“画像”的画像,包括个人消费倾向、性格特点、兴趣爱好等等。这类评价大多是可量化的,例如外向型、消费冲动型都会用相应的分值表示。
4.png

以人们喜欢的借阅DVD为例,举这个例子是因为Github上有现成的样例数据库(https://github.com/priyank-purohit/PostGUI),样例包含了不同人群的类型偏好、单次借阅量和开销等信息。以下是这个样例数据库的ER图。
5.png
在配置环境变量阶段,我们加载两个通用的评分模型:CH评分和Silhouette评分。两者都是基于K邻域算法
6.png

然后针对上面所提到的归一化,我们需要将所有字符串类型的转换为数值型,例如区域需要将原来的主数据转换成元数据,比如将原先的居住城市(北京、上海、东京、伦敦等)转换为新的属性字段(“是否居住在北京?”,“是否居住在上海?”,“是否居住在东京?”,“是否居住在伦敦?”等),而用1和0表示目标用户是否住在此。

凭借对不同维度数据的加总统计,我们可以获得每个用户借阅量的信息。
7.png

以及每个用户最爱的DVD名和分类

8.png
结合单片的价格,以及对群体样本的统计分析,可以得出客户消费周期的价值总览。
9.png

红框圈出的部分就是为公司创造80%价值的核心/VIP客户,如何服务好这个人群,使其价值最大化无疑需要继续深度个性化,回到他们每个人的样本进行研究分析,而其他用户可能并不值得公司进行1对1服务,群组定制化就足够了。

群体统计有好多种分类算法,除了上面说到的K邻域算法外,还有聚合分群(Agglomerative Clustering)和聚类分群(Birch Clustering)。
10.png
基于上述分类,当有新样本入库时,我们可以为新样本分群的置信度进行打分,以Silhouette评分为例,我们可以看到这个分类算法对于新样本的类别划分的可行度并不高(Silhouette分数越高越可信),可能都处在现有群族的交界位置,因此我们可能需要重新考虑适用的分类算法。
11.png
最后,从实际操作上来讲,任何一个标签都需要赋予一个业务加权值。例如我们可能认为用户是否是本国居民对于他喜欢哪类DVD没有太大影响,相反用户有多少空闲时间会影响他对DVD的偏好。
12.png

最后的最后,客户对于营销方式可能也是有偏好的,比如有些客户喜欢图文推送,有些客户喜欢电话交流,这也是在后期具体操作的时候需要考量的因素。

相关文章
|
数据采集 机器学习/深度学习 人工智能
大数据分析案例-用RFM模型对客户价值分析(聚类)
大数据分析案例-用RFM模型对客户价值分析(聚类)
1215 0
大数据分析案例-用RFM模型对客户价值分析(聚类)
|
2月前
|
数据采集 算法 搜索推荐
Python基于RFM模型和K-Means聚类算法进行航空公司客户价值分析
Python基于RFM模型和K-Means聚类算法进行航空公司客户价值分析
|
4月前
|
机器学习/深度学习 数据可视化 算法
R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化
R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化
|
4月前
|
机器学习/深度学习 算法 Python
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
|
4月前
|
机器学习/深度学习 数据挖掘
R语言逻辑回归模型的移动通信客户流失预测与分析
R语言逻辑回归模型的移动通信客户流失预测与分析
|
4月前
|
机器学习/深度学习 供应链 算法
SPSS Modeler分析物流发货明细数据:K-MEANS(K均值)聚类和Apriori关联规则挖掘
SPSS Modeler分析物流发货明细数据:K-MEANS(K均值)聚类和Apriori关联规则挖掘
|
4月前
|
机器学习/深度学习 数据可视化
数据分享|R语言用RFM、决策树模型顾客购书行为的数据预测
数据分享|R语言用RFM、决策树模型顾客购书行为的数据预测
|
4月前
|
数据可视化 安全
游客森林公园游憩需求调查数据回归模型和可视化分析
游客森林公园游憩需求调查数据回归模型和可视化分析
|
4月前
|
数据可视化
SAS分类决策树预测贷款申请评分剪枝和结果可视化
SAS分类决策树预测贷款申请评分剪枝和结果可视化
|
4月前
电信公司churn数据客户流失k近邻(knn)模型预测分析
电信公司churn数据客户流失k近邻(knn)模型预测分析