Python实现聚类(Kmeans)分析客户分组

简介: Python实现聚类(Kmeans)分析客户分组

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png


1.问题定义

在日常银行、电商等公司中,随着时间的推移,都会积累一些客户的数据。在当前的大数据时代、人工智能时代,数据就是无比的财富。并且消费者需求显现出日益差异化和个性化的趋势。随着我国市场化程度的逐步深入,以及信息技术的不断渗透,对大数据的分析已是必然趋势。本案例就是使用机器学习聚类算法对客户进行分组,为销售人员进行精准营销提供帮助。

2.数据收集

本数据是模拟数据:

数据集:data.xcsv

在实际应用中,根据自己的数据进行替换即可。

特征:

Gender:性别

Age:年龄

Income:年收入

Spending:消费分数

3.数据预处理

1)原始数据描述

image.png

2)数据完整性、数据类型查看:

image.png

3)数据缺失值查看:

image.png

可以看到数据不存在缺失值。

4.探索性数据分析

1)特征变量年收入分析:

image.png

 

2)特征变量消费分数分析

image.png

3)相关性分析

image.png

说明:正值是正相关、负值时负相关,值越大变量之间的相关性越强。

5.聚类模型  

1)确定K值

通过手肘图法进行确定K值,手肘图如下:

image.png

通过手肘图上判断,肘部数字大概是3或4,我们选择4作为聚类个数。

 

2) 建立聚类模型,模型参数如下: 

 

编号

参数

1

n_clusters=4

2

init='k-means++'

 

其它参数根据具体数据,具体设置。 

 

3) 聚类算法结果输出

 

分群类别

第一类

第二类

第三类

第四类

样本个数

68

50

20

62

样本占比个数

34.00%

25.00%

10.00%

31.00%

聚类中心

Income

273933.0588

137054.8000

548719.4000

389187.8710

Spending

0.500147

0.494800

0.520000

0.504032

 

从上述表格可以看出,分群1占比34%,分群2占比25%,分群3占比10%,分群4占比31%

6.聚类可视化

1) 客户聚类结果图 

image.png

通过上图可以看到,黄色高亮得大点是聚类的质心,可以看到算法中的质心并不止一个。

 

2)聚类概率密度图

聚类群1的概率密度图:

image.png

聚类群2的概率密度图:

image.png

聚类群3的概率密度图:

image.png

聚类群4的概率密度图:

image.png

1) 分群1特点:年收入集中在30万,消费分数集中在0.50左右;

2) 分群2特点:年收入集中在10万~15万,消费分数集中在0.25和0.75

3)分群3特点:年收入集中在50万,消费分数集中在0.30和0.80

4)分群4特点:年收入集中在35万~40万万,消费分数集中在0.10和0.80

5)比对分析:分群3年收入高、分数高属于高价值人群;分群4年收入良好、消费分数综合良好,属于中等人群;分群1年收入一般、消费分数一般,属于一般人群;分群2年收入低、消费分数中等,属于价格较低的客户群体。

7.实际应用

根据数据聚类结果对客户的分组,在后面展开的营销活动中,我们可以采取差异化手段进行客户分类的精准营销,以提高消费成功率,使客户的整体消费感受更好。

聚类结果如下:

image.png

 

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1R2ux6m1nEIyGrQ1t3FU41A 
提取码:ysj5
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
7月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
8月前
|
缓存 监控 算法
唯品会item_search - 按关键字搜索 VIP 商品接口深度分析及 Python 实现
唯品会item_search接口支持通过关键词、分类、价格等条件检索商品,广泛应用于电商数据分析、竞品监控与市场调研。结合Python可实现搜索、分析、可视化及数据导出,助力精准决策。
|
7月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
7月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
8月前
|
缓存 监控 算法
苏宁item_get - 获得商品详情接口深度# 深度分析及 Python 实现
苏宁易购item_get接口可实时获取商品价格、库存、促销等详情,支持电商数据分析与竞品监控。需认证接入,遵守调用限制,适用于价格监控、销售分析等场景,助力精准营销决策。(238字)
|
8月前
|
监控 算法 数据安全/隐私保护
唯品会 item_get - 获得 VIP 商品详情接口深度分析及 Python 实现
唯品会item_get接口通过商品ID获取商品详情,支持价格、库存、促销等数据抓取,适用于电商分析、竞品监控与价格追踪,结合Python实现可高效完成数据获取、分析与可视化,助力精准营销决策。
|
8月前
|
JSON 缓存 供应链
电子元件 item_search - 按关键字搜索商品接口深度分析及 Python 实现
本文深入解析电子元件item_search接口的设计逻辑与Python实现,涵盖参数化筛选、技术指标匹配、供应链属性过滤及替代型号推荐等核心功能,助力高效精准的电子元器件搜索与采购决策。
|
8月前
|
缓存 供应链 芯片
电子元件类商品 item_get - 商品详情接口深度分析及 Python 实现
电子元件商品接口需精准返回型号参数、规格属性、认证及库存等专业数据,支持供应链管理与采购决策。本文详解其接口特性、数据结构与Python实现方案。

推荐镜像

更多