备案控制台

开发者社区人工智能文章正文

正态分布在机器学习中为何如此重要？

2022-12-10 483

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 正态分布在机器学习中为何如此重要？

数学王子镇楼

从中心极限定理到正态分布

众所周知 ：一颗骰子每个面的概率相等

两个骰子面值之和的概率，是两个骰子独立事件的概率的和。比如，得到点数3的概率为：一颗1、一颗2的概率加上一颗2、一颗1的概率之和：

P(1)P(2)+P(2)P(1)=1/6×1/6+1/6×1/6=1/18

对所掷的点数求和并将数值在坐标轴上标记出来，当掷出次数增大到无限时，坐标轴上的散点就会呈现出“正态分布”的形式。

模拟 2000 次掷2颗骰子的结果，完美的正态分布

这就是概率统计中大名鼎鼎的中心极限定理：如果样本量足够大，则变量均值的采样分布将近似于正态分布，而与该变量在总体中的分布无关。根据中心极限定理，如果一个事物受到多种因素的影响，不管每个因素本身是什么分布，它们加总后，结果的平均值就是正态分布。

from：高数叔（gaoshudashu666）

正态分布是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。概率密度函数如下：

正态分布概率密度函数

正态分布只依赖于数据集的两个特征：样本的均值和方差，非常简单而又容易被解释和理解。在大多数自然事件中，当数据量大到一定程度时，数据往往都近似服从于正态分布。比如：男女身高、寿命、血压、考试成绩、测量误差等等。

在实际运用中，我们更关注数据集的期望和方差这些特征量。当我们求出了期望与方差，可以利用中心极限定理转换为正态分布。

正态分布在机器学习中为何如此重要

在机器学习和深度学习中，我们经常要对输入的数据做归一化或者在隐藏层使用Batch-Normlization（BN）操作，将数据范围缩放到[0,1]或者[-1, 1]之间，主要作用：可以加快神经网络训练速度，防止过拟合。然而无论做归一化还是BN处理，虽然将数据的均值变为0，方差变为1，但是数据的整体分布并不一定服从标准的正态分布（实际数据大部分时候都不会是），做归一化和BN时，我们求出来的均值和方差，并不能说明我们数据是服从正态分布的。

加快机器学习的学习速度

检查特征是否满足正态分布

判断特征是否符合正态分布可以使用直方图、KDE分布图、Q-Q 图等等。

直方图和KDE分布图可以比较直观的看出数据样本本身的分布特征，推荐seaborn中的distplot，它的主要功能是绘制单变量的直方图，且还可以在直方图的基础上加入kdeplot和rugplot的部分内容，是一个功能非常强大且实用的函数。

sns.distplot(a, bins=None, hist=True, 
kde=True, rug=False, fit=None, hist_kws=None, 
kde_kws=None, rug_kws=None, fit_kws=None, 
color=None, vertical=False, norm_hist=False, 
axlabel=None, label=None, ax=None)

QQ-图用于直观验证一组数据是否来自某个分布，或者验证某两组数据是否来自同一（族）分布。如果两个分布相似，则该Q-Q图趋近于落在y=x线上。如果两分布线性相关，则点在Q-Q图上趋近于落在一条直线上，但不一定在y=x线上。

fig = plt.figure()
ax = fig.add_subplot(111)
x = stats.loggamma.rvs(c=2.5, size=500)
stats.probplot(x, dist=stats.loggamma, sparams=(2.5,), plot=ax)
ax.set_title("Probplot for loggamma dist with shape parameter 2.5")

数据变化方法：Box-Cox

Box-Cox变换是是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性，可以明显地改善数据的正态性、对称性和方差相等性，对许多实际数据都行之有效。

from scipy import stats
from scipy.stats import norm, skew #for some statistics
#查看SalePrice的skewness
fig=plt.figure(figsize=(15,5))
#pic1
plt.subplot(1,2,1)
sns.distplot(trains['SalePrice'],fit=norm)
(mu,sigma)=norm.fit(trains['SalePrice'])
plt.legend(['$\mu=$ {:.2f} and $\sigma=$ {:.2f}'.format(mu,sigma)],loc='best')
plt.ylabel('Frequency')
plt.subplot(1,2,2)
res=stats.probplot(trains['SalePrice'],plot=plt)
plt.suptitle('Before')

#进行Box-Cox变换
trains.SalePrice,lambda_=stats.boxcox(trains.SalePrice)

然后再看一下变换后的分布情况和QQ图

效果很显著，以上，顺求三连。

文章标签：

机器学习/深度学习

Linux

玩机器学习的章北海-13621

目录

相关文章

爱吃糖的范同学

|

7月前

|

机器学习/深度学习 Python

【机器学习】正规方程

【1月更文挑战第23天】【机器学习】正规方程

爱吃糖的范同学

83 6 6

爱吃糖的范同学

|

7月前

|

机器学习/深度学习资源调度

【机器学习】高斯分布-概率密度函数

【1月更文挑战第23天】【机器学习】高斯分布-概率密度函数

爱吃糖的范同学

477 0 0

【机器学习】高斯分布-概率密度函数

爱吃糖的范同学

|

7月前

|

机器学习/深度学习

【机器学习】误差总似然

【1月更文挑战第23天】【机器学习】误差总似然

爱吃糖的范同学

90 1 1

爱吃糖的范同学

|

7月前

|

机器学习/深度学习

【机器学习】最大似然估计

【1月更文挑战第23天】【机器学习】最大似然估计

爱吃糖的范同学

61 1 1

爱吃糖的范同学

|

7月前

|

机器学习/深度学习

【机器学习】误差分析

【1月更文挑战第23天】【机器学习】误差分析

爱吃糖的范同学

140 1 1

爱吃糖的范同学

|

7月前

|

机器学习/深度学习算法数据可视化

【机器学习】多项式回归

【1月更文挑战第27天】【机器学习】多项式回归

爱吃糖的范同学

81 0 0

游客qf4jmczx4xu2y

|

1月前

|

机器学习/深度学习数据采集算法

探索机器学习中的线性回归

【10月更文挑战第25天】本文将深入浅出地介绍线性回归模型，一个在机器学习领域中广泛使用的预测工具。我们将从理论出发，逐步引入代码示例，展示如何利用Python和scikit-learn库实现一个简单的线性回归模型。文章不仅适合初学者理解线性回归的基础概念，同时也为有一定基础的读者提供实践指导。

游客qf4jmczx4xu2y

17 0 0

游客kgtb45zruuoms

|

7月前

|

机器学习/深度学习数据可视化数据处理

机器学习第3天：线性回归

机器学习第3天：线性回归

游客kgtb45zruuoms

48 0 0

极客李华

|

7月前

|

机器学习/深度学习供应链定位技术

机器学习中的线性回归

机器学习中的线性回归

极客李华

70 0 0

烂尾主教

|

机器学习/深度学习算法

【机器学习】线性回归

【机器学习】线性回归

烂尾主教

196 0 0

热门文章

最新文章

Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

Nginx的启动、停止与重启

Hive之数据倾斜的原因和解决方法

开发人员各级岗位胜任力模型

Node.js 中流操作实践

传奇龙版地图查看器

调整DC的网络对网络是否会有影响?

How to maintain Oracle10g Recyclebin?

你知道自己感染了恶意软件吗？

Groovy 快速入门

Python学习的自我理解和想法（9）

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

Megrez-3B-Omni：无问芯穹开源最强端侧全模态模型，支持理解图像、音频和文本三种模态数据

FreeScale：无需微调即可提升模型的图像生成能力，生成 8K 分辨率的高质量图像

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

《C 语言与统计假设检验：洞察人工智能模型性能差异》

《C 语言赋能：物联网环境下人工智能应用的能耗优化之道》

《C 语言助力神经网络剪枝：优化模型的卓越之道》

《C 语言复数运算：赋能人工智能信号处理新境界》

相关课程

更多

机器学习基础与回归算法

机器学习算法详解

机器学习算法

机器学习集成学习与模型融合

南瓜书《机器学习公式推导》

李宏毅2021《机器学习》

相关电子书

更多

纯干货|机器学习中梯度下降法的分类及对比分析

纯干货 | 机器学习中梯度下降法的分类及对比分析

弱监督机器学习范式

相关实验场景

更多

如何快速训练大模型

推荐系统入门之使用ALS算法实现打分预测

基于函数计算实现AI推理

下一篇

fs.oss.accessKeyId和fs.oss.accessKeySecret。