开发者学堂课程【场景实践 - 机器学习PAI实现精细化营销:精细化营销的实现技术】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/521/detail/7046
精细化营销的实现技术
内容介绍:
一、概念
二、常见技术
三、实现过程
四、大数据处理服务 MaxCompute
五、精细化营销的数据处理过程-数据挖掘
六、精细化营销数据处理技术-机器学习
七、精细化准营销算法-客户细分聚类模型
八、精细化准营销算法-K-Means
一、概念
精细化营销中客户细分主要是根据客户的属性、行为、需求、偏好以及价值等因素对客户进行分类,并提供有针对性的产品、服务和销售模式。现在是大数据时代都在根据这些海量数据进行挖掘数据处理分析,挖掘出里面的客户特征,根据客户的属性行为来找出客户,为客户进行画像,这些都是属于精细化营销的前提范畴。
二、常见技术
数据存储、处理载体即数据处理平台,常见如数据库\数据仓库\海量数据处理平台(如 MaxCompute )等;
数据加工处理技术:SQL、MR、脚本语言、机器学习、数据挖掘等;
常见的算法模型:
决策树、Logit 回归(事前处理)聚类分析、分类模型(事后处理)
三、实现过程
1.特征细分
2.价值区间细分
3.共同需求细分
4.细分聚类算法
5.评估
四、大数据处理服务 MaxCompute
大数据计算服务(MaxCompute,原 ODPS)由阿里云自主研发,提供针对 TB/PB 级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。
人工智能就是实验中继续学习所要用到的,因为继续学习的 PAI 是建立在 max compute 上面的。
五、精细化营销的数据处理过程-数据挖掘
数据挖掘(英语:Data mining,简称 DM)=机器学习+数据仓库,是对存储于数据仓库\数据平台中的大量数据、通过查询和抽取方式获得以前未知的有用信息、模式、规则的过程。数据挖掘是一个过程,而这个过程通过机器学习来实现。精细化营销数据处理过程就是机器学习过程、就是数据挖掘过程。
精细化营销是数据的处理过程,这个过程就是数据挖掘的过程。要从看似离散的、没有规律、没有共同特点的数据中把客户聚起来,其实就是一个数据挖掘的过程。数据过程=机器学习+数据仓库。对于存入平台的数据仓库,数据平台的大量数据通过查询抽取方式,获得以前未知的有用信息模式的过程,客户分群其实就是把这些没有共同信息、共同模式的客户找出来的过程。这个过程通过继续学习来实现。
这是一个以数据为中心的循序渐进的螺旋式的数据探索、处理过程;
这是各种分析方法、数据处理方法的集合;
这是一个海量数据的处理过程;
机器学习的目的最终目的是辅助获取知识;
六、精细化营销数据处理技术-机器学习
机器学习∶是一门多领域交叉学科。从范围上讲机器学习和数据挖掘是类似的,可以等同于数据挖掘。从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。
但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。实践角度上讲就是让机器去模拟人来分析数据、训练数据、处理数据,找出隐含的信息,基本上等同于数据挖掘。
精细化营销的数据模型构建可以通过阿里的机器学习平台 PAI 来实现,通常意义上讲直接采用各类算法成本高、门槛高,采用机器学习产品 PAI 简单、便捷。历史数据通过训练和计算找到模型预测未来。
七、精细化准营销算法-客户细分聚类模型
聚类分析( clustering )分析是将一组对象划分成簇(cluster),使簇内对象相似性尽量大,而簇间对象相似性尽量小。常见的五大类算法︰划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法
1.划分法
划分法( partitioning methods)∶给定一个由n个元组或记录组成的数据集,划分法将构造k个分组,分的组一定比集合的总数要小,否则就会一个分一组,就没有什么意义。每个分组代表一个聚类,k<=n。K个分组满足下列条件:(1)每个分组至少包含一个对象,(2)每个数据记录属于且仅属于一个分组。算法:k-means、k-medois、CLARANS。
2.层次法
( hierarchical methods ) :对给定的数据集进行层次分解,直到满足某种条件位置。具体可分为“自底向上”的凝聚法和”自顶向下“的分裂法两种法案。代表算法:BIRCH、CURE、CHAMFI FON。
3.密度法
( density-based methods ) :不是基于距离,而是基于密度。能克服基于距离的算只能发现“类圆形”聚类的缺点。代表算法:DBSCAN、OPTICS。
4.网格方法
( grid-based methods ) :首先将数据空间划分成有限个单元的网格结构,所有的处理都以单元为对象。优点处理速度很快。代表算法:STING、CLIQUE、Wave-Cluster。
5.模型方法
( model-based methods ) :给每个聚类假定一个模型,然后去寻找数据对给定模型进行最佳拟合。给定模型可能是数据点在空间中的密度分布函数或其他。
八、精细化准营销算法-K-Means
K-Means 即 K 均值聚类:属于划分聚类。其工作原理为根据初始化的聚类中心信息,计算每个样本到这些中心的距离,先预设一些中心点,其他周围的元素哪些距离中心点最近,可以判断每个样本均归属于某个类簇,更新聚簇中心信息,重新计算每个样本到新的聚类中心的距离,重新划分样本到新的聚类中心对应的类中,重复进行,直到满足终止条件,即各个元素到中心点的距离都不再变化。