开发者学堂课程【机器学习实战:需求分析(下)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/530/detail/7130
需求分析(下)
内容介绍
一、数据收集
二、数据探查分析
三、算法选择
一、数据收集
(一)了解已知数据,筛选、确定、获取可以解答场景分析中提出的问题的数据。
(二)从以下问题角度去考虑数据收集:
1、目前可以得到哪些数据?
2、得到数据的成本是否可以接受?
3、回答问题至少需要哪些特征?OR现有数据特征哪些可能和问题相关?
4、是否有现成的目标值还是需要标注?
5、现有数据量是否合适?
6、现有数据是否具有代表性?
(三)以泰坦尼克为例
从以下问题角度去考虑数据收集:
1、11 个特征,1 个标签
2、已提供
3、PassageID、Name 无用
4、全部有标签,无需标注
5、仅有这么多,没有选择
二、数据探查分析
(一)数据探查,即探索性数据分析( EDA ),对数据进行的基本分析,可以从中挖出更具有含金量的信息,为进一步的研究指明方向
(二)种类:数据基本分析、统计量分析、数据分布分析、 相关性分析、周期性分析、数据对比分析
1、数据基本分析,即简单了解数据集的概况、对待分析的数据有一个基本认识。
从以下问题角度去了解数据集 (仍以泰坦尼克为例)
(1)数据量的大小
(2)数据缺失值
(3)数据明显错误
(4)数字段类型
(5)连续还是离散
(6)字段取值范围
是否包含结果标签(目标字段)
2、统计量分析即通过计算定量数据的常见统计指标,了解数据的状况。通常从集中趋势、离散趋势两个角度进行。
(1)集中趋势:用来描述一组数据向某一中心值靠拢集中的程度。主要包括以下测量值:
①平均数(最常用):算数平均数、几何平均数、调和平局数,加权
②众数:数据中出现最多的观测值
③中位数:是将一组数据按一定顺序排列后,处于中间位置上的变量值
④分位数:衡量数据位置的测定指标,主要包括上四分位数、下四分位数….…
(2)离散趋势:反应变量远离集中趋势测量值的程度。主要包括以下测量值:
①极差:一组数据最大值和最小值的差,容易受极端值影响
②四分位差:上四分位值与下四分位值的差,反应 50% 数据的离散程度
③方差与标准差:反应一个数据与本组数据平均值相比相差的数值
④变异系数:原始数据标准差与原始数据平均数的比,常用来比较两组不同数据的的离散程度
(3)统计量分析:生存预测
以数据集中的 fare (票价)为例,使用 PAI(阿里云提供的学习产品)中的统计分析组件进行计算。
可根据其画出分布图
3、数据分布分析:概率分布
(1)概率分布。用以表述随机变量取值的概率规律。随机变量可以通过一个固定的函数表达,具有一些
特定的特征,拥有一些固定的性质。 一旦某个数据集被验证符合某种概率分 布,则该数据集就具
有了此分布的各种性质,可以借助这些性质对该数据集进行研究。
(2)正态分布:如果一个指标并非受到某一个因素的决定作用,而是受到综合因素的影响,那么这个指标分布呈正态分布。
(3)正态分布的数值如果用统计图来表示的话,通常呈钟型,即两端的极端值个数很少,太大或者太小的数很少,大部分的数值都在平均值附近分布。
如图所示
4、数据分布分析:统计量
(1)通过计算数据集的统计量,或者通过直方图、茎叶图等图表,发现数据集的分分布特征,拟合数据集满足的分布,直接使用相关分布的特点进行数据处理、分析。
和分布相关的统计量,除了之前提到的集中中趋势、离散趋势的量之外,还有峰度和偏度
(2)峰度( Kurtosis )是描述总体中所有取值分分布形态陡缓程度的统计量。值大于 0,则比正态分布尖。
(3)偏度( skewness )是统计数据分布偏斜方向和程度的度量。值大于 0,则右侧长尾。
5、数据分布分析:直方图
(1)直方图( Histogram )是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。用直方图可以解析出数据的规则性,比较直观地看出其分布状态。
(2)以频率直方图为例,先计算极差,再确定组距,将数据分成多组,统计每组数据出现的频次,作图。
6、数据分布分析:分布拟合检验
(1)分布拟合是指数据集的分布是否和某个已知的概率分布一致。分布检验是指判到断一组数据是否满足某个概率分布。
(2)以正态分布为例,有有多种方法实现:
作图法:
①P-P 图、Q-Q 图
②直方图、茎叶图
③箱线图
计算法:
偏度和峰度
检验方法:
①Chi-Square 检验
②KS 检验
③Shapiro 检验
7、数据分布分析:生存预测
以数据集中的 fare (票价)为例,使用 PAI 中的统计分析组件进行计算。如同可看到明显不符合分布。
8、数据分布分析:离散型数据
离散型数据的分布分析,也称定性数据分布分析,一般进行占比分析,通过饼图或者条形图等来描述:
9、数据对比分析
对比分析是指把几个相互联系的指标示进行比较,从数量上展示和说明对比指标的大小。适合指标间的横向和纵向比较、时序比较等。
下图展示了不同年龄阶段,生存人数和死亡人数之间的对比:
10、相关性分析
相关性分析是分析多个连续变量之间相关程度的强弱。可以通过散点图来展示,也可以计算相关系数或者协方差系数来量化相关关系。相关系数为 -1 到 1,绝对值越接近 1 说明相关性越强,通常 0.8 以上认为是密切相关,系数取负值为负相关,取正值为正相关。
下图展示了 pclass 和 fare 之间的皮尔森系数,其结果为 -0.54,表示负相关且相关性不引强。
11、周期性分析
(1)研究某个变量随着时间变化而呈现出来的某种周期性的变化趋势。适合时序数据集,可以分析按照不同时间周期数据变化的情况。
通常周期性分析会有几个部分随机波动,按照时间变化趋势可分解为各种变化趋势。
(2)通过折线图可以看出存在周期性变化的趋势,需要结合具体的时序分析模型进一步分析得到更多结论。
三、算法选择
算法选择时要注意的问题:
1、了解算法的优点和缺点,判断是否能满足本例需求
①过拟合与拟合不足
②线性和非线性问题
③参数多少、结果是否稳定
④随机性
⑤前提条件
⑥计算复杂度
2、算法对数据的要求
①数据类型:连续值、离散值
②数据敏感:空值、异常值等
③数据量
④结果数据是否平衡
⑤满足算法前提假设条件