案例:电信用户分群精准画像

简介: 决策树应用于电商行业用户细分精准画像的案例 1、业务问题背景 某省电信运营商e8套餐(宽带+固话)升级e9(宽带+固话+手机)的主要业务目标为针对e8客户加装电信C网号码并购买手机,升级为e9融合套餐或e9自主套餐用户。即,通过电信的自身的宽带客户资源,进行精准电话营销,促使用户购买手机,从而提升电信在手机市场的占有率。 2、数据理解:e8升e9的数据理解

决策树应用于电商行业用户细分精准画像的案例

1、业务问题背景

某省电信运营商e8套餐(宽带+固话)升级e9(宽带+固话+手机)的主要业务目标为针对e8客户加装电信C网号码并购买手机,升级为e9融合套餐或e9自主套餐用户。即,通过电信的自身的宽带客户资源,进行精准电话营销,促使用户购买手机,从而提升电信在手机市场的占有率。

2、数据理解:e8升e9的数据理解
1.png

3、确定分析对象

本环节关键点:

缩小分析基础客户群范围,从表中238万宽带客户中筛选出24万符合业务目标的e8客户,作为数据挖掘的基础客户群

具体步骤:

常用的数据挖掘基础客户群筛选维度如下:
  • 客户群筛选,如宽带客户、手机客户、固话客户
  • 套餐大类筛选:如e8、e9、乐享
  • 特定业务规则筛选:如活动对客户网龄、套餐档位的限定
  • 互斥协议等筛选:根据活动规则,对已有互斥协议的客户进行筛选

分析对象筛选流程:

以e8升e9为例,根据前期业务和数据理解,本次挖掘的基本目标客户为e8用户,且在同账户下无C网手机。

具体数据样本选取路径如下:
2.png
注,具体操作方法:
  • e8客户筛选操作:选择客户“套餐类型”字段为“e8”的客户
  • e8客户无C网手机筛选过程:将所有e8客户的ACC_ID字段与“CDMA单月宽表”进行关联,能关联出C网号码的即视为同账户下有C网手机。形成241243数据样本。

4、变量筛选

以e8升e9案例中变量处理为例,具体筛选流程如下:
3.png

  • 通过对67个字段明显无关字段初步筛选后获得18个主要字段。
  • 此后,需根据字段理解对有明显相关性的变量进行筛选合并,如下面表格中的红色字段,宽带上行流量、宽带下行流量和宽带总流量三个字段存在明显的关联关系,因此根据业务需求可直接只选择宽带总流量进行分析即可。
  • 对于不确定是否有相关性的部分字段,可通过SPSS中“输出”模块中的“统计量”节点进行相关性判断。通常分析相关性结果大于0.666以上可基本判断相关性较强。例如:宽带使用流量字段与其他字段进行关联性分析,发现与宽带使用时长存在较强的相关性,因此这两个个字段可选择其中一个作为输入变量即可。
    15.png
  • 最终确定模型的10个主要输入变量。

5、决策树模型的建立

(1)选择模型输入变量

根据数据准备阶段字段筛选结果选择了9个字段作为模型输入变量。CHAID节点对应的目标变量和预测变量设置,见下截图。
4.png

(2)模型输出结果

运行CHAID决策树节点后,Modeler会根据样本数据和输入变量训练决策树模型。虽然输入了9个变量但是CHAID决策树节点训练的模型最终生成决策树所选择的变量只有5个,分别是宽带在网时长(PD_PROM_FEE)、固话通话时长(VO_MOU_FIX_AVG)、固话ARPU(MB_FIX_ARPU_AVG)、宽带在网时长(PD_BB_TENURE)、宽带流量(VO_BB_VOL)。可以看出,这5个变量在都是具有重要业务含义的字段,基本符合建模目标。
5.png
(3)决策树输出的初步结果

下图,是决策树模型输出的结果,树状结构末端的每个“叶子”,代表一个细分用户群体。这个决策树结果共有17个“叶子”节点。
6.png
6、模型调优

e8升级e9模型中,决策树模型验证调优流程如下:

初步结果判定:

决策树结果共有17个“叶子”节点,用户细分群体偏多,部分群体的规模小,占比不足5%,因此需要根据各叶子节点的特征,对决策树的“叶子”进行修剪合并。
7.png

比如,上图中的节点1(套餐档位<=68元的用户),这个节点中的类别“1”用户占比仅0.56%,较全样本的整体类别“1”占比0.786%较低,说明套餐档位<=68元的用户都是质量较差的部分,加装3G手机的可能性较低。从选取营销目标用户的角度,对这类用户不需要进行深入分析,因此可以把该节点下面的三层节点都剪裁合并。

模型的调整和优化—子模型的建立

如果认为决策树的某个子节点对应的决策树规则不符合业务逻辑,则可选择该决策树节点下的样本再建立一个子模型,从新选择新的变量。

比如,对上述决策树模型的结果,在套餐档位为80~98元且宽带在网时长13个月以上的样本分了四个子节点,但是这四个节点的类别“1”占比并没有递增或者递减的规律,这在业务逻辑上很难解释。因此可针对该条件(套餐档位为80~98元且宽带在网时长13个月以上)的样本数据,再单独建立一个决策树模型。
8.png
决策树子模型的建立可参见如下截图。首先,利用Modeler的样本选择节点,选择套餐档位为80~98元且宽带在网时长13个月以上的样本数据;然后,在决策树模型的节点选择输入变量时,不要选择宽带在网时长的字段,即调整输入变量;这样Modeler会根据新选择的样本和输入变量建立一个新的决策树模型(见下图)。这就建立了一个更具有业务解释性的决策树子模型。
9.png
7、模型结果解释

具体分群的数据结果如下:
10.png
根据三个主要判断分群有效的原则,选择提升倍数在1.3以上、客户群规模占比5%以上的群体作为主要目标客户,一共4个客户群。上述的群划分规则即建模变量。

通过决策树模型筛选出目标用户群后,需要进一步根据不同细分目标群体的消费行为特征来推测客户的主要业务需求。此时需要根据e8升e9的业务目标,选择主要的字段来刻画客户特征。通常对客户群各变量的均值来进行描述,具体如下:
11.png
因此,具体客户特征总结描述如下:
12.png

目录
相关文章
|
安全 Java 持续交付
Java本地远程服务器debug调试
Java本地远程服务器debug调试
727 0
|
9月前
|
存储 Kubernetes 异构计算
Qwen3 大模型在阿里云容器服务上的极简部署教程
通义千问 Qwen3 是 Qwen 系列最新推出的首个混合推理模型,其在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
SQL Java 关系型数据库
Java中的ORM框架——myBatis
Java中的ORM框架——myBatis
308 3
|
数据采集 监控 数据可视化
《数据质量评估方法大揭秘:精准衡量数据价值的关键》
在数字化时代,数据质量评估是确保数据价值的关键。常见方法包括准确性(与权威数据比对、内部逻辑校验)、完整性(统计缺失值、可视化分析)、一致性(数据格式检查、关联数据验证)、时效性(时间戳分析、业务场景判断)和可靠性(来源审查、稳定性分析)。其他方法如抽样评估、元数据评估和第三方评估也广泛应用。实际应用中需综合多种方法,结合业务场景制定评估指标,以确保数据质量,支持科学决策。
1330 18
|
人工智能 自然语言处理 IDE
💡通义灵码:让每个人都能成为软件开发的「超级个体」
通义灵码是阿里巴巴达摩院推出的大模型技术,支持多种编程语言和框架,具备强大的自然语言理解和生成能力。它能够自动生成代码、自动化测试、文档编写等,显著提升开发效率,降低技术门槛,让每个人都能轻松参与软件开发。通义灵码不仅支持多语言、多编辑器,还具备智能问答、代码优化等功能,为企业和开发者提供全方位的支持。通过通义灵码,开发者可以从繁琐的任务中解放出来,专注于创新和创意,推动软件开发进入新时代。
1053 4
💡通义灵码:让每个人都能成为软件开发的「超级个体」
|
存储 机器学习/深度学习 算法
【博士每天一篇文献-算法】连续学习算法之HNet:Continual learning with hypernetworks
本文提出了一种基于任务条件超网络(Hypernetworks)的持续学习模型,通过超网络生成目标网络权重并结合正则化技术减少灾难性遗忘,实现有效的任务顺序学习与长期记忆保持。
338 4
|
人工智能 云栖大会 云计算
2024云栖大会,来了。
免费领票,9.19-21,预见云智未来。
561 1
|
数据可视化 Java BI
重磅 - Github 上免费大屏来啦,教你快速搭建
JimuReport 积木报表的集成版本,已经提供了免费数据可视化设计工具。 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表和门户设计;目前支持多种图表类型:柱形图、折线图、散点图、饼图、环形图、面积图、漏斗图、进度图、仪表盘、雷达图、地图等等;
239 4
|
机器学习/深度学习 数据采集 算法
大数据分析案例-对电信客户流失分析预警预测
大数据分析案例-对电信客户流失分析预警预测
2352 0
大数据分析案例-对电信客户流失分析预警预测