图解数据分析 | 数据分析的数学基础

简介: 一文讲解数据分析所需要的数学知识!本文包括描述性统计量(集中趋势、离散程度和分布形态),相关性与线性回归、方差分析、概率论(概率事件、条件概率、排列组合、概率分布)、统计推断(抽样、假设检验)等。

ShowMeAI研究中心

作者:韩信子@ShowMeAI
教程地址http://www.showmeai.tech/tutorials/33
本文地址http://www.showmeai.tech/article-detail/136
声明:版权所有,转载请联系平台与作者并注明出处


一、一维:描述性统计

速查表

描述性统计量分为:集中趋势、离散程度(离中趋势)和分布形态。

1.1 集中趋势

数据的集中趋势,用于度量数据分布的中心位置。直观地说,测量一个属性值的大部分落在何处。描述数据集中趋势的统计量是:平均值、中位数、众数。

(1)平均值(Mean)

指一组数据的算术平均数,描述一组数据的平均水平,是集中趋势中波动最小、最可靠的指标,但是均值容易受到极端值(极小值或极大值)的影响。

(2)中位数(Median)

指当一组数据按照顺序排列后,位于中间位置的数,不受极端值的影响,对于定序型变量,中位数是最适合的表征集中趋势的指标。

(3)众数(Mode)

指一组数据中出现次数最多的观测值,不受极端值的影响,常用于描述定性数据的集中趋势。

1.2 离散程度

数据的离散趋势,用于描述数据的分散程度,描述离散趋势的统计量是:极差、四分位数极差(IQR)、标准差、离散系数。

(1)极差(Range)

又称全距,记作R,是一组数据中的最大观测值和最小观测值之差。一般情况下,极差越大,离散程度越大,其值容易受到极端值的影响。

(2)四分位数极差(Inter-Quartile Range, IQR)

又称内距,是上四分位数和下四分位数的差值,给出数据的中间一半所覆盖的范围。IQR是统计分散程度的一个度量,分散程度通过需要借助箱线图(Box Plot)来观察。通常把小于 $Q1-1.5*IQR$ 或者大于 $Q3+1.5*IQR$ 的数据点视作离群点。

(3)方差(Variance)

方差和标准差是度量数据离散程度时,最重要】最常用的指标。方差,是每个数据值与全体数据值的平均数之差的平方值的平均数,常用 $\sigma ^{2}$表示。

$$ \sigma^{2} = \frac{\sum \left ( X - \mu \right )^{2}}{N} ​​​​$$

(4)标准差(Standard Deviation)

又称均方差,常用 \sigma 表示,是方差的算术平方根。计算所有数值相对均值的偏离量,反映数据在均值附近的波动程度,比方差更方便直观。

$$\sigma = \sqrt{\frac{\sum \left ( X - \mu \right )^{2} }{N} } $$

(5)离散系数(Coefficient of Variation)

又称变异系数,为标准差 \sigma 与平均值 \mu 之比,用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度大;离散系数小,说明数据的离散程度也小。

$$C_{v} = \frac{\sigma}{\mu} $$

1.3 分布形态

(1)偏度(Skewness)

用来评估一组数据分布呈现的对称程度。

  • 当偏度系数=0时,分布是对称的
  • 当偏度系数>0时,分布呈正偏态(右偏)
  • 当偏度系数<0时,分布呈负偏态(左偏)

(2)峰度(Kurtosis)

用来评估一组数据的分布形状的高低程度的指标。

  • 当峰度系数=0时,是正态分布
  • 当峰度系数>0时,分布形态陡峭,数据分布更集中
  • 当峰度系数<0时,分布形态平缓,数据分布更分散

(3)其他数据分布图

分位数是观察数据分布的最简单有效的方法,但分位数只能用于观察单一属性的数据分布。散点图可以用来观察双变量的数据分布,聚类可以用来观察更多变量的数据分布。通过观察数据的分布,采用合理的指标,使数据的分析更全面,避免得出像平均工资这类偏离事实的的分析结果。

二、交叉维度

2.1 相关性和线性回归

更多详细讲解 图解AI数学基础 | 概率与统计

(1)相关系数

又称简单相关系数,常用 r 表示,反应两个变量之间的相关关系及相关方向。

(2)线性回归(Linear Regression)

线性回归是利用数理统计中回归分析,确定两种或两种以上变量间相互依赖的定量关系。

回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

2.2 方差分析

(1)单因素方差分析

一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。

(2)多因素有交互方差分析

一项实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系。

三、概率论

速查表

更多详细讲解 图解AI数学基础 | 概率与统计

3.1 概率事件

(1)独立事件

$$P\left ( A\cap B \right ) = P(A)P(B)$$

(2)对立事件

$$P(A) = 1 - P(B)$$

(3)互斥事件

$$P\left ( A\cap B \right ) = 0$$

(4)穷举事件

$$P\left ( A\cup B \right ) = 1$$

3.2 条件概率

(1)条件概率

$$P(A \mid B) = \frac{P(AB)}{P(B)}$$

(2)全概率公式

$$P(B) = P(AB) + P(\bar{A} B) = P(A)P(B \mid A) + P(\bar{A} )P(B \mid \bar{A} )$$

(3)贝叶斯定理

$$P(A \mid B) = \frac{ P(A)P(B \mid A) }{ P(A)P(B \mid A) + P(\bar{A})P(B \mid \bar{A}) } $$

3.3 排列组合

(1)排列

$$P_{n}^{N} = n! \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{ \left (N-n \right )! } $$

(2)组合

$$C_{n}^{N} = \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{n! \left (N-n \right )! } $$

3.4 概率分布

(1)连续型概率分布

正态分布:正态概率分布是连续型随机变量中最重要的分布,记为

$$x\sim N\left (\mu , \sigma^{2} \right) $$

经验法则:正态随机变量有69.3%的值在均值加减个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。

(2)离散型概率分布

  • 伯努利分布

进行一次实验,若成功则随机变量取值为1,若失败则取值为0,成功的概率为p失败的概率为1-p

  • 二项分布

n个独立的是/非实验中,成功次数的概率分布。n=1时,二项分布就是伯努利分布

  • 泊松分布

在连续时间或空间单位上发生随机事件次数的概率。记为$$$$

四、统计推断

更多详细讲解 图解AI数学基础 | 概率与统计

4.1 抽样

抽样:应该满足抽样的随机性原则。
抽样方法:简单随机抽样、分层抽样、整群抽样、系统抽样

4.2 置信区间

4.3 假设检验

资料与代码下载

本教程系列的代码可以在ShowMeAI对应的 github 中下载,可本地python环境运行。能访问Google的宝宝也可以直接借助google colab一键运行与交互操作学习哦!

本系列教程涉及的速查表可以在以下地址下载获取:

拓展参考资料

  • Pandas可视化教程
  • Seaborn官方教程

ShowMeAI相关文章推荐

ShowMeAI系列教程推荐

showmeai

目录
相关文章
|
前端开发 数据挖掘 Python
Python 教程之数据分析(6)—— 数据分析的数学运算
Python 教程之数据分析(6)—— 数据分析的数学运算
63 0
|
2月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
98 4
数据分析的 10 个最佳 Python 库
|
5月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
95 2
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
252 4
|
5月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
103 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
2月前
|
SQL 数据挖掘 Python
数据分析编程:SQL,Python or SPL?
数据分析编程用什么,SQL、python or SPL?话不多说,直接上代码,对比明显,明眼人一看就明了:本案例涵盖五个数据分析任务:1) 计算用户会话次数;2) 球员连续得分分析;3) 连续三天活跃用户数统计;4) 新用户次日留存率计算;5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
数据分析之旅:用Python探索世界
数据分析之旅:用Python探索世界
37 2
|
4月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
【9月更文挑战第2天】数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
71 5
|
5月前
|
供应链 数据可视化 数据挖掘
【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一
本文详细介绍了第十一届泰迪杯数据挖掘挑战赛B题的解决方案,涵盖了对产品订单数据的深入分析、多种因素对需求量影响的探讨,并建立了数学模型进行未来需求量的预测,同时提供了Python代码实现和结果可视化的方法。
160 3
【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一
|
5月前
|
机器学习/深度学习 数据采集 数据挖掘
【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题二
本文提供了第十一届泰迪杯数据挖掘挑战赛B题问题二的详细解题步骤,包括时间序列预测模型的建立、多元输入时间预测问题的分析、时间序列预测的建模步骤、改进模型的方法,以及使用Python进行SARIMA模型拟合和预测的具体实现过程。
122 1

热门文章

最新文章