单变量和多变量高斯分布:可视化理解(上)

简介: 单变量和多变量高斯分布:可视化理解

640.png


高斯分布是统计中最重要的概率分布,在机器学习中也很重要。因为很多自然现象,比如人口的身高,血压,鞋子的尺码,教育指标,考试成绩,还有很多更重要的自然因素都遵循高斯分布。

我相信,你听说过这个词,在某种程度上也知道它。如果没有,也不要担心。这篇文章将会解释清楚。我在Coursera的Andrew Ng教授的机器学习课程中发现了一些令人惊叹的视觉效果。他知道如何将一个主题分解成小块,使它更容易解释。

他使用了一些可视化方法,让人们很容易理解高斯分布及其与相关参数(如均值、标准差和方差)的关系。

在这篇文章中,我从他的课程中截取了一些图像,并在这里用它来详细解释高斯分布。

高斯分布

高斯分布是正态分布的同义词。它们是一样的东西。假设,S是一组随机值,其概率分布如下图所示。

640.png

平均值mu是分布的中心,曲线的宽度是数据系列的标准差,表示为sigma。

这是一个钟形曲线。如果一个概率分布图像上面那样形成一个钟形曲线,并且该样本的均值和中位数相同,则该分布称为正态分布高斯分布

高斯分布由两个参数:

a.平均数

b.方差

所以,高斯密度在mu或均值处是最高的,离均值越远,高斯密度就越低。

这是高斯分布的公式:

640.png

方程左边是x的概率参数是和的平方。这是钟形曲线的公式其中平方称为方差。

高斯分布与平均值和标准差有什么关系

在这一节中,我将展示一些图片,让你们清楚地了解参数和与钟形曲线的关系。我将展示三幅图在这三幅图中mu固定在0处而sigma不同。

注意曲线的形状和范围是如何随不同的sigma变化的。

640.png

图1

这是一组随机数的概率分布mu = 0,而sigma = 1。

在这幅图中,mu是0,这意味着最大的概率密度是0,sigma是1。表示曲线的宽度是1

注意,曲线的高度大约是0.5,范围是-4到4(看x轴)。方差的平方是1。

640.png

图2

这是另一组随机数0,0.5。

因为mu是0,就像之前的图一样最大的概率密度是0,sigma是0.5。曲线的宽度是0.5。方差的平方变成0.25。

由于曲线的宽度是前一条曲线的一半,因此高度加倍。范围改变为-2到2 (x轴),这是前一张图片的一半。

640.png

图3

在这幅图中,sigma= 2 mu= 0。

将其与图1比较,其中sigma为1。这一次,高度变成了图1的一半,宽度随着变成两倍。

方差平方是4,比图1大4倍。x轴的范围是-8到8。

640.png

图4

此示例与前三个示例略有不同。

这里,我们把mu改为3 sigma = 0.5,如图2所示。因此,曲线的形状与图2完全相同,只是中心移动到了3。现在最大的密度是3。

上面的四条曲线用不同的参数改变形状但曲线的面积保持不变。

概率分布的一个重要性质是,曲线下的面积积分为1。

参数计算

假设我们有一系列数据。如何计算mu(均值)和标准差?

mu的计算很简单。这只是平均数。把所有数据的总和除以数据的总数。

640.png

这里,xi是数据集中的单个值,m是数据的总数。

方差公式为:

640.png

标准差就是方差的平方根。

多元高斯分布

假设有多组数据,我们需要多元高斯分布。假设我们有两组数据;x1和x2。

单独建模p(x1)和p(x2)对于理解两个数据集的组合效果可能不是一个好主意。在这种情况下,您可能希望将数据集和模型仅结合在一起建立p(x)。

这是计算多元高斯分布概率的公式,

640.png

多变量高斯分布的可视化表示

在本节中,我们将看到多元高斯分布的可视化表示,以及曲线的形状如何随mu、sigma以及变量之间的相关性而变化。

从标准正态分布开始

640.png

图5

该图表示多元高斯分布的概率分布,其中x1和x2的mu都为零。

请不要被这里的求和符号搞糊涂了。这是一个单位矩阵,其中对角线上的1是x1和x2的sigma。而非对角线上的零表示x1和x2之间的相关性。在这个例子中x1和x2是不相关的。

这里的图片很简单。在x1和x2方向上,当mu为0时,最大的概率密度为0。

中间的深红色区域是概率密度最高的区域。在浅红色、黄色、绿色和青色区域,概率密度继续降低。深蓝色区域是最低的。

目录
相关文章
|
4月前
|
机器学习/深度学习 数据处理 Python
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
本文探讨了统计学与机器学习中的二元投影技术,它基于二元正态分布,用于预测一个变量在给定另一变量值时的期望值。文章分为三部分:首先介绍了二元正态投影的基本公式及其在回归中的应用;接着通过直观解释和模拟展示了不同相关性下变量间的关系;最后运用投影公式推导出线性回归的参数估计,并通过实例说明其在预测房屋价格等场景中的应用。附录中详细推导了二元线性投影的过程。二元投影作为一种强大工具,在数据分析中帮助简化复杂问题并揭示数据背后的规律。
58 1
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
|
6月前
|
机器学习/深度学习 算法 数据可视化
[04-00]单变量线性回归问题
[04-00]单变量线性回归问题
|
7月前
|
机器学习/深度学习 大数据
stata如何处理结构方程模型(SEM)中具有缺失值的协变量
stata如何处理结构方程模型(SEM)中具有缺失值的协变量
|
7月前
stata对包含协变量的模型进行缺失值多重插补分析
stata对包含协变量的模型进行缺失值多重插补分析
|
7月前
R语言分析协变量之间的非线性关系
R语言分析协变量之间的非线性关系
|
7月前
R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用
R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用
|
数据挖掘
12 正态分布的定义
12 正态分布的定义
75 0
第4章 MATLAB编程基础——4.2 变量
第4章 MATLAB编程基础——4.2 变量
|
机器学习/深度学习 Linux Python
如何知道一个变量的分布是否为高斯分布?
如何知道一个变量的分布是否为高斯分布?
199 0
如何知道一个变量的分布是否为高斯分布?