需求分析(下)| 学习笔记

简介: 快速学习需求分析(下)

开发者学堂课程【机器学习实战:需求分析(下)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/530/detail/7130


需求分析(下)

内容介绍

一、数据收集

二、数据探查分析

三、算法选择

 

一、数据收集

(一)了解已知数据,筛选、确定、获取可以解答场景分析中提出的问题的数据。

(二)从以下问题角度去考虑数据收集:

1、目前可以得到哪些数据?

2、得到数据的成本是否可以接受?

3、回答问题至少需要哪些特征?OR现有数据特征哪些可能和问题相关?

4、是否有现成的目标值还是需要标注?

5、现有数据量是否合适?

6、现有数据是否具有代表性?

(三)以泰坦尼克为例

从以下问题角度去考虑数据收集:

1、11 个特征,1 个标签

2、已提供

3、PassageID、Name 无用

4、全部有标签,无需标注

5、仅有这么多,没有选择

 

二、数据探查分析

(一)数据探查,即探索性数据分析( EDA ),对数据进行的基本分析,可以从中挖出更具有含金量的信息,为进一步的研究指明方向

(二)种类:数据基本分析、统计量分析、数据分布分析、 相关性分析、周期性分析、数据对比分析

image.png

1、数据基本分析,即简单了解数据集的概况、对待分析的数据有一个基本认识。

从以下问题角度去了解数据集 (仍以泰坦尼克为例)

(1)数据量的大小

(2)数据缺失值

(3)数据明显错误

(4)数字段类型

(5)连续还是离散

(6)字段取值范围

是否包含结果标签(目标字段)

2、统计量分析即通过计算定量数据的常见统计指标,了解数据的状况。通常从集中趋势、离散趋势两个角度进行。

(1)集中趋势:用来描述一组数据向某一中心值靠拢集中的程度。主要包括以下测量值:

①平均数(最常用):算数平均数、几何平均数、调和平局数,加权

②众数:数据中出现最多的观测值

③中位数:是将一组数据按一定顺序排列后,处于中间位置上的变量值

④分位数:衡量数据位置的测定指标,主要包括上四分位数、下四分位数….…

(2)离散趋势:反应变量远离集中趋势测量值的程度。主要包括以下测量值:

①极差:一组数据最大值和最小值的差,容易受极端值影响

②四分位差:上四分位值与下四分位值的差,反应 50% 数据的离散程度

③方差与标准差:反应一个数据与本组数据平均值相比相差的数值

④变异系数:原始数据标准差与原始数据平均数的比,常用来比较两组不同数据的的离散程度

(3)统计量分析:生存预测

以数据集中的 fare (票价)为例,使用 PAI(阿里云提供的学习产品)中的统计分析组件进行计算。

image.png

可根据其画出分布图

image.png

3、数据分布分析:概率分布

(1)概率分布。用以表述随机变量取值的概率规律。随机变量可以通过一个固定的函数表达,具有一些

特定的特征,拥有一些固定的性质。 一旦某个数据集被验证符合某种概率分 布,则该数据集就具

有了此分布的各种性质,可以借助这些性质对该数据集进行研究。

(2)正态分布:如果一个指标并非受到某一个因素的决定作用,而是受到综合因素的影响,那么这个指标分布呈正态分布。

(3)正态分布的数值如果用统计图来表示的话,通常呈钟型,即两端的极端值个数很少,太大或者太小的数很少,大部分的数值都在平均值附近分布。

如图所示

image.png

4、数据分布分析:统计量

(1)通过计算数据集的统计量,或者通过直方图、茎叶图等图表,发现数据集的分分布特征,拟合数据集满足的分布,直接使用相关分布的特点进行数据处理、分析。

和分布相关的统计量,除了之前提到的集中中趋势、离散趋势的量之外,还有峰度和偏度

(2)峰度( Kurtosis )是描述总体中所有取值分分布形态陡缓程度的统计量。值大于 0,则比正态分布尖。

(3)偏度( skewness )是统计数据分布偏斜方向和程度的度量。值大于 0,则右侧长尾。

image.png

5、数据分布分析:直方图

(1)直方图( Histogram )是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。用直方图可以解析出数据的规则性,比较直观地看出其分布状态。

(2)以频率直方图为例,先计算极差,再确定组距,将数据分成多组,统计每组数据出现的频次,作图。

image.png

6、数据分布分析:分布拟合检验

(1)分布拟合是指数据集的分布是否和某个已知的概率分布一致。分布检验是指判到断一组数据是否满足某个概率分布。

(2)以正态分布为例,有有多种方法实现:

作图法:

①P-P 图、Q-Q 图

②直方图、茎叶图

③箱线图

计算法:

偏度和峰度

检验方法:

①Chi-Square 检验

②KS 检验

③Shapiro 检验

image.png

7、数据分布分析:生存预测

以数据集中的 fare (票价)为例,使用 PAI 中的统计分析组件进行计算。如同可看到明显不符合分布。

image.png

8、数据分布分析:离散型数据

离散型数据的分布分析,也称定性数据分布分析,一般进行占比分析,通过饼图或者条形图等来描述:

image.png

9、数据对比分析

对比分析是指把几个相互联系的指标示进行比较,从数量上展示和说明对比指标的大小。适合指标间的横向和纵向比较、时序比较等。

下图展示了不同年龄阶段,生存人数和死亡人数之间的对比:

image.png

10、相关性分析

相关性分析是分析多个连续变量之间相关程度的强弱。可以通过散点图来展示,也可以计算相关系数或者协方差系数来量化相关关系。相关系数为 -1 到 1,绝对值越接近 1 说明相关性越强,通常 0.8 以上认为是密切相关,系数取负值为负相关,取正值为正相关。

下图展示了 pclass 和 fare 之间的皮尔森系数,其结果为 -0.54,表示负相关且相关性不引强。

11、周期性分析

(1)研究某个变量随着时间变化而呈现出来的某种周期性的变化趋势。适合时序数据集,可以分析按照不同时间周期数据变化的情况。

通常周期性分析会有几个部分随机波动,按照时间变化趋势可分解为各种变化趋势。

(2)通过折线图可以看出存在周期性变化的趋势,需要结合具体的时序分析模型进一步分析得到更多结论。

image.png

 

三、算法选择

算法选择时要注意的问题:

1、了解算法的优点和缺点,判断是否能满足本例需求

①过拟合与拟合不足

②线性和非线性问题

③参数多少、结果是否稳定

④随机性

⑤前提条件

⑥计算复杂度

2、算法对数据的要求

①数据类型:连续值、离散值

②数据敏感:空值、异常值等

③数据量

④结果数据是否平衡

⑤满足算法前提假设条件

相关文章
|
架构师
软件架构师的12项修炼——思维导图
脑图 图片2M多,加载比较慢 软件架构师的12项修炼 软件架构师的12项修炼——关系技能修炼(1)软件架构师的12项修炼——关系技能修炼(2) 个人介绍: 高广超:多年一线互联网研发与架构设计经验,擅长设计与落地高可用、高性能、可扩展的互联网架构。
2100 0
|
6月前
|
编解码 缓存 数据库
【软件设计师备考 专题 】编写内部设计文档:屏幕设计和数据库设计
【软件设计师备考 专题 】编写内部设计文档:屏幕设计和数据库设计
111 0
|
6月前
|
存储 监控 测试技术
第四章项目管理一般知识(选择4分)
第四章项目管理一般知识(选择4分)
|
算法 测试技术 数据安全/隐私保护
【软件工程期末复习】知识点+大题详解(E-R图、数据流图、N-S盒图、状态图、活动图、用例图....)(下)
【软件工程期末复习】知识点+大题详解(E-R图、数据流图、N-S盒图、状态图、活动图、用例图....)
2687 0
|
存储 机器学习/深度学习 供应链
【软件工程期末复习】知识点+大题详解(E-R图、数据流图、N-S盒图、状态图、活动图、用例图....)(上)
【软件工程期末复习】知识点+大题详解(E-R图、数据流图、N-S盒图、状态图、活动图、用例图....)
1905 0
|
架构师 Java 关系型数据库
电商网站需求分析和架构设计(一)|学习笔记
快速学习电商网站需求分析和架构设计(一)
274 0
电商网站需求分析和架构设计(一)|学习笔记
工作中需要牢记的基础知识点:直接在word粘贴的自己的笔记,后期转为文字细化
工作中需要牢记的基础知识点:直接在word粘贴的自己的笔记,后期转为文字细化
84 0
工作中需要牢记的基础知识点:直接在word粘贴的自己的笔记,后期转为文字细化
|
机器学习/深度学习 算法 数据挖掘
需求分析(上)| 学习笔记
快速学习需求分析(上)
需求分析(上)| 学习笔记
|
数据采集 消息中间件 监控
最终整体回顾总结(流程-ppt)|学习笔记
快速学习最终整体回顾总结(流程-ppt)
105 0
最终整体回顾总结(流程-ppt)|学习笔记
|
机器学习/深度学习 存储 DataWorks
实操10分钟实现一个简单的推荐架构(一)|学习笔记
快速学习实操10分钟实现一个简单的推荐架构(一)
135 0
实操10分钟实现一个简单的推荐架构(一)|学习笔记