开发者学堂课程【深入理解数据分析:高级数据分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/561/detail/7688
高级数据分析
一、预测分析
预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。
预测分析和假设情况分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率,以预测未来业绩并采取预防措施。这种级别的分析可以为规划流程提供各种信息,并对企业未来提供关键洞察。
二、什么是预测模型
什么是预测模型?
预测模型简单来讲是一个数学函数,它能够获悉一组输入数据变量(通常绑定到一个记录)与一个响应或目标变量之间的映射关系。
1.首先返回到历史数据中,搜索可用于构建一个模型来实现此目标的特性。
2.构建预测模型之后,我们需要进行验证。
3.为使预测模型可用于执行要进行作部署。
4.部署之后,我们可使用流失模型监视所有现有的客户活动。
三、线性回归
线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
线性回归模型经常用最小二乘逼近来拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差回归),或者在桥回归中最小化最小二乘损失函数的惩罚.相反,最小二乘逼近可以用来拟合那些非线性的模型.因此,尽管“最小二乘法”和“线性模型”是紧密相连的,但他们是不能划等号的。
四、线性回归的实际用途
1、如果目标是预测或者映射,线性回归可以用来对观测数据集的和 X 的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的 X 值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个 y 值。这是比方差分析进一步的作用,就是根据现在,预测未来。
2、给定一个变量y和一些变量 X1...Xp,这些变量有可能与 y 相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与 y 不相关的 j,并识别出哪些Xj的子集包含了关于 y 的元余信息。
五、逻辑回归
Logistic 回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型。
这一家族中的模型形式基本上都差不多,不同的就是因变量不同。
1)如果是连续的,就是多重线性回归;
2)如果是二项分布,就是 Logistic 回归;
3)如果是 Poisson 分布,就是 Poisson 回归;
4)如果是负二项分布,就是负二项回归。
Logistic 回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的 Logistic 回归。
六、逻辑回归的主要用途
1.寻找危险因素:
寻找某一疾病的危险因素等;
2.预测:
根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;
3.判别:
实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
七、利用逻辑回归预测客户的行为
1.逻辑回归的基本技术
2.以逻辑回归预测客户的行为
八、逻辑回归预测客户的行为
在1980年 Ohlson 第一个将逻辑回归方法引人财务危机预警领域,逻辑回归分析方法使财务机警得到了重大改进,克服了传统判别分析中的许多问题,包括变量属于正态分布的假设以及破产和非破产企业具有同一协方差矩阵的假设。
多元逻辑回归(Logistic)被引入财务风险预测研究之后,财务危机预测即简化为已知一公司具有某些财务特征,而计算其在一段时间内陷入财务危机的概率问题。
虽然许多研究在运用多元逻辑回归方法时都忽略了自变量之间的多重共线性问题,但这一不足并非Logistic分析本身的缺陷。该方法目前在判别分析研究领域仍然占有主流地位。
九、数据挖掘
1.决策树
(1)定义:决策树(Decision Tree)是以事例为基础的归纳学习算法,着眼于从一组无次序、无规则的事例中推导出决策的分类规则。
它在已知所有事例发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
在信息论里面,嫡是对不确定性的测量。如果某一变量的不确定性越大,那么它的嫡也就越大。
当信息嫡用于将数据集划分为不同子集时,如果所用子集的信息嫡总和越小,表明这些数据是否被划入对应子集的不确定性越小,下面引入信息熵的定义公式∶
(2)ID3决策树建立算法步骤:
a)决定分类属性;
b)对目前的数据表,建立一个节点 N
C)如果数据库中的数据都属于同一个类,N 就是树叶,在树叶上标出
所属的类
d)如果数据表中没有其他属性可以考虑,则 N 也是树叶,按照少数服
从多数的原则在树叶上标出所属类别
e)否则,根据 GAIN 值选出一个最佳属性作为节点 N 的测试属性
f)节点属性选定后,对于该属性中的每个值:从 N 生成一个分支,并
将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏,如果分支数据表非空,则运用以上算法从该节点建立子树。
2.关联分析
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。
关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。
3.聚类分析
聚类的目标是尽量将相似的研究对象聚集在同一个类别(群体),同时让相异的对象分布在不同群体。
目前,聚类分析在众多领域都得到了广泛的研究和成功的应用,常被用于模式识别、数据分析、图像处理、市场研究、客户分割、Web 文档分类等领域。
一个常见聚类算法就是 K-means 聚类。K-means 算法的思想如下∶
1.为每个聚类确定一个初始聚类中心,这样就有K个初始聚类中心
2.将样本集中的样本按照最小距离原则分配到最邻近聚类
3.使用每个聚类中的样本均值作为新的聚类中心。
4.重复第2,3步直到聚类中心不再变化。
5.结束,得到 K 个聚类
十、决策树在预测客户行为中的应用
1.数据预处理
a 数据清洗 b 相关分析(特征选择)c 数据转换
2.对分类方法进行评价
a 准确性 b 速度 c 鲁棒性 d 可伸缩性 e 易交互性
3.基于决策树的分类方法
a 基本算法(贪婪算法)
b 停止划分的条件
4.决策树算法的相关问题
通常采用剪枝的方式来克服 overfitting,剪枝有两种方法∶
a 先剪:
构造树的过程中进行修剪。不符合条件的分支则不建。
b 后剪
整个树生成之后进行修剪。