1.数据分析的基本类型:
这就不得不提到Gartner分析学价值扶梯模型了,这个模型从复杂度和价值两个维度,将数据分析分为描述性分析(Descriptive Analytics)、诊断性分析(Diagnostic Analytics)、预测性分析(Predictive Analytics)和规范性分析(Prescriptive Analytics)
描述性分析:主要关注的是过去,回答“已发生了什么?”,用来揭示客观现象。
诊断性分析:主要关注的是过去,回答“为什么发生?”,用来揭示数据之间的因果关系。
预测性分析:主要关注的是未来,回答“将要发生什么”,属于预测性分析。
规范性分析:主要关注的是模拟与优化,回答“我们如何使它发生”,用来给出最优行动建议,产生产业价值。
2.数据分析的实现方式:
主要有3种:机器学习、统计学、数据可视化
3.机器学习和统计学的区别:
3.1统计学
统计学包括两种:
也就是说统计学需要事先对处理对象的概率分布做出假定(比如正态分布),而机器学习不需要做事先假定。
统计学通过各种统计指标(比如R方、置信区间)来评估统计模型(比如线性回归模型)的拟合优度,而机器学习通过交叉验证或划分训练集和测试集的方法来评估算法的准确度。
统计学中的描述统计常用的指标有:
统计学中的推断统计(利用样本数据来推断总体特征)常用的理论有:
参数估计(点估计、区间估计)
假设检验(置信度)
3.2机器学习
基于机器学习的数据分析主要分为两个阶段:
- 建模阶段:基于已知数据集(x, y) 和 算法,学习出一个具体的分析模型
- 模型应用阶段:将新样本的特征(x new) 作为分析模型的输入,通过模型计算出对应的目标值(y predicted)
机器学习算法分为:
- 有监督学习:所有示例均有标签数据(包括最近邻、朴素贝叶斯、决策树、随机森林、线性回归、支持向量机、神经网络)
- 无监督学习:所有示例均无标签数据(k-means聚类、主成分分析、关联规则分析)
- 半监督学习:部分示例带有标签信息;部分示例不带标签信息(半监督分类方法、半监督回归方法、半监督聚类方法、半监督降维方法)