开发者学堂课程【场景实践 - 机器学习PAI实现精细化营销:使用PAI实现精细化营销】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/521/detail/7049
使用PAI实现精细化营销
内容介绍:
一、背景介绍
二、具体步骤
三、数据理解
五、分群规划
六、模型处理
七、模型评估
八、结果分析案例
九、组内分析示例
十、思考与问题
十一、上机实验
一、背景介绍
ABC 是一家通信公司,临近国庆,市场部希望为其客户定制不同的数据流量产品,当前,基础的客户信息(入网时间、性别、年龄、归属分公司等)以及上半年的客户使用数据产品的消费信息都已经保存在企业数据仓库系统中,从这些基础数据中找到某种隐含信息,将客户分级分类,根据分类结果为客户制定特色数据产品提供支撑,市场部门根据细分模型进行精细化营销。
二、具体步骤
1.开通服务
2.数据预处理
虽然数据已经进行了一些必要的加工处理,但是在做模型设计的时候,还是可能需要进行一些加工,例如男女性别的转换,选择使用字符来进行表示还是用数字来进行表示,可能要将其运行到模型当中,数据的预处理往往是避免不了的。
3.机器学习
4.客户分群
进行结果分析,应用到活动中去。
三、数据理解
目前所获取的公司数据如下:
1.客户数据特征
客户的主要特征∶
入网时长
客户年龄分段
性别
归属公司
客户品牌
......实际中的信息会更多
2.客户消费特征
半年多的消费特征:
各月的消费信息(流量费)
半年来的使用时长
数据的使用量以及使用总量
四、数据因子分析
数据中包含的数据变量(属性),不需要都参与到建模中,这种模型运算,是一个反复迭代,不断计算的过程,每次处理完就需要进行评估,找到一个最好的结果,所以特征因子分析也是在学习中不可避免的。如果过多参与建模,势必会削弱主要业务属性的影响,并给理解分群带来困难;相反如果太少则可能遗漏一些重要属性关系,不能正确进行反映。因此特征因子分析对建立模型至关重要。
因为本次应用的属性比较少,简单的制作了特征分析,采用了两个特征的信息,一个是客户属性的分析,一个是业务使用量的分析。首先看性别品牌,地区以及年龄分层的信息,性别是两个比较明显的图形,品牌后面就几乎消失,所以数据样本的采取并不是很平均,区域也是集中在最中间两三个地区,所以品牌和区域分公司的熵比较小,说明分布倾斜,而年龄段分布比较均匀。接下来看一下增益比率,年龄段和性别的信息增益最小,表明不确定性比较低,而品牌的增益比率是最大的,特征比较明显。
五、分群规划
实验案例有用户数据业务的消费信息以及客户基本属性,合理规划分群数目便于方便管理;品牌的嫡最小,表明特征确定,这也符合通信行业的业务逻辑,模型设计时可以不作为变量。移动公司为例,通常会分为全球通、动感地带以及神州行等等,全球通更适合社会工作人群,动感地带往往面对的是学生群体的,神州行更适合一些非职业人员即消费能力一般的人群。使用全球通就默认消费能力更强一些,对于学生语音通话相对比较少,使用业务的流量数据会更多一些,这是一个比较粗的分类。这样的分类也是有一定的科学道理。按业务量处理分群,实验数据为9个月业务量总量最大78.45,平均23.18,实验可以分为9个群;入网大部分用户在一年以内(离散),可以不做特征处理;
品牌的分布是比较集中的,业务的分析也很简单,从图表中很容易看到最大的业务量和平均的业务量。在模型设计的时候,在k均值分群中分几个群以及分多少群是没有一个参考标准的,只能依靠个人的业务经验结合训练试验进行区分。检查哪一种分类效果更好哪一个模型就会比较合适。因为是九个月业务量,所以暂分为九个群,入网的大部分用户都是在一年以内,是比较离散的。
六、模型处理
采用K均值聚类组件分类,首先将年龄、性别、地域数字化(文本转换成数字),然后组合业务信息进行分类,聚类数设置为9,其他参数设为默认数值(具体操作过程中可以进行调整),通过利用PAI的组件直接将信息进行配置,查看输出结果(包括模型、统计结果、聚类结果)。
七、模型评估
采用聚类模型评估,评价聚类模型的优劣﹔系数 CH ( Calinski-Harabasz)是基于类内聚合度和类间分离度定义的聚类评价指标,数值越大表明划分越优。(注意:分类不同最优聚类数不同)
实验中的总记录数大约为2000,因为没有对比,实验中可以调整一下参数,看一下有何变化。
八、结果分析案例
模型完成以后要有结果分析报告得出相应的结论,告诉使用者分类代表的具体的特征。
分组1(编号0) ︰入网长、使用量少、消费低;属于低端一般客户
分组2(编号1) ︰入网长、消费低、时间长、流量少;低端节俭客户
分组3∶入网1年以上、消费低、时间很长、流量较少;低端高耗客户
分组4∶新入网、消费能力差、使用量和使用时长都少的客户;低端新客户
分组5∶低端不足一年的一般客户;
分组6∶新入网高消费客户;
分组7︰消费能力一般新入网普通客户,但年龄偏大低端客户;
分组8∶使用量、使用时长稳定的入网半年以上高消费客户;
分组9∶使用量、使用时长稳定的新入网高消费客户;
通过模型输出参数可以分析每一个因子的值的分组情况。
九、组内分析示例
分组1:总量134,从年龄与使用量观察主要数据分组中的占比,数据比较分散,较多占比的不超10%,年龄段处于21岁至35岁,月均使用1~2单位左右的用户,超47%为“CF 公司”男性;分组2︰总量541,从年龄与使用量观察主要数据分组中的占比,如图表,基本上年龄处于16岁至35岁,月均使用2~4.7单位左右的用户,在这些客户中超过32%的客户是属于“XF 公司”的男性﹔根据上述分析,可以按客户的不同分群特征订制定相应的产品。
十、思考与问题
模型主要以数据业务结合少数客户属性进行分群,且客户相关属性比例并不均衡,如果涉及的企业地域很广,比如内蒙和上海,这两个地域的区分就会非常明显,但是像北京市的各个分区,消费水平都很相似,他们的区分就不是很明显。所以一定要根据业务情况来看,如归属分公司(隐含这地域信息),部分地域数据量很少,客户品牌比例不均,因此未在模型中作为变量处理;如果数据再增加一些客户消费信息结合分群,品牌信息、分公司信息,分群可能会更合理。分群结果对于第3、5、6、8组数据少,需改进。
课后问题︰
1 )如果扣除客户属性,直接以消费记录作为因子是否聚类效果更好?
2)客户属性,如品牌自身就带有消费能力标志的属性,如果加入到分群变量中是否会更合理,可以试验一下?
通过数据的分析、数据的特征分析、数据的预处理、模型预算、模型评估和处理分析报告,这就是完整的精细化营销数据分析处理的过程。这样就是如果再碰到类似场景,完全可以参考此过程来进行处理。
十一、上机实验
上机实验完成上述任务,三大部分︰预处理、机器学习模型、评估
实验中可以调整不同的参数,看结果有没有变化,分步特征是否明显也可以采用不同的参数,然后进行评估。