单变量和多变量高斯分布:可视化理解(上)

简介: 单变量和多变量高斯分布:可视化理解

640.png


高斯分布是统计中最重要的概率分布,在机器学习中也很重要。因为很多自然现象,比如人口的身高,血压,鞋子的尺码,教育指标,考试成绩,还有很多更重要的自然因素都遵循高斯分布。

我相信,你听说过这个词,在某种程度上也知道它。如果没有,也不要担心。这篇文章将会解释清楚。我在Coursera的Andrew Ng教授的机器学习课程中发现了一些令人惊叹的视觉效果。他知道如何将一个主题分解成小块,使它更容易解释。

他使用了一些可视化方法,让人们很容易理解高斯分布及其与相关参数(如均值、标准差和方差)的关系。

在这篇文章中,我从他的课程中截取了一些图像,并在这里用它来详细解释高斯分布。

高斯分布

高斯分布是正态分布的同义词。它们是一样的东西。假设,S是一组随机值,其概率分布如下图所示。

640.png

平均值mu是分布的中心,曲线的宽度是数据系列的标准差,表示为sigma。

这是一个钟形曲线。如果一个概率分布图像上面那样形成一个钟形曲线,并且该样本的均值和中位数相同,则该分布称为正态分布高斯分布

高斯分布由两个参数:

a.平均数

b.方差

所以,高斯密度在mu或均值处是最高的,离均值越远,高斯密度就越低。

这是高斯分布的公式:

640.png

方程左边是x的概率参数是和的平方。这是钟形曲线的公式其中平方称为方差。

高斯分布与平均值和标准差有什么关系

在这一节中,我将展示一些图片,让你们清楚地了解参数和与钟形曲线的关系。我将展示三幅图在这三幅图中mu固定在0处而sigma不同。

注意曲线的形状和范围是如何随不同的sigma变化的。

640.png

图1

这是一组随机数的概率分布mu = 0,而sigma = 1。

在这幅图中,mu是0,这意味着最大的概率密度是0,sigma是1。表示曲线的宽度是1

注意,曲线的高度大约是0.5,范围是-4到4(看x轴)。方差的平方是1。

640.png

图2

这是另一组随机数0,0.5。

因为mu是0,就像之前的图一样最大的概率密度是0,sigma是0.5。曲线的宽度是0.5。方差的平方变成0.25。

由于曲线的宽度是前一条曲线的一半,因此高度加倍。范围改变为-2到2 (x轴),这是前一张图片的一半。

640.png

图3

在这幅图中,sigma= 2 mu= 0。

将其与图1比较,其中sigma为1。这一次,高度变成了图1的一半,宽度随着变成两倍。

方差平方是4,比图1大4倍。x轴的范围是-8到8。

640.png

图4

此示例与前三个示例略有不同。

这里,我们把mu改为3 sigma = 0.5,如图2所示。因此,曲线的形状与图2完全相同,只是中心移动到了3。现在最大的密度是3。

上面的四条曲线用不同的参数改变形状但曲线的面积保持不变。

概率分布的一个重要性质是,曲线下的面积积分为1。

参数计算

假设我们有一系列数据。如何计算mu(均值)和标准差?

mu的计算很简单。这只是平均数。把所有数据的总和除以数据的总数。

640.png

这里,xi是数据集中的单个值,m是数据的总数。

方差公式为:

640.png

标准差就是方差的平方根。

多元高斯分布

假设有多组数据,我们需要多元高斯分布。假设我们有两组数据;x1和x2。

单独建模p(x1)和p(x2)对于理解两个数据集的组合效果可能不是一个好主意。在这种情况下,您可能希望将数据集和模型仅结合在一起建立p(x)。

这是计算多元高斯分布概率的公式,

640.png

多变量高斯分布的可视化表示

在本节中,我们将看到多元高斯分布的可视化表示,以及曲线的形状如何随mu、sigma以及变量之间的相关性而变化。

从标准正态分布开始

640.png

图5

该图表示多元高斯分布的概率分布,其中x1和x2的mu都为零。

请不要被这里的求和符号搞糊涂了。这是一个单位矩阵,其中对角线上的1是x1和x2的sigma。而非对角线上的零表示x1和x2之间的相关性。在这个例子中x1和x2是不相关的。

这里的图片很简单。在x1和x2方向上,当mu为0时,最大的概率密度为0。

中间的深红色区域是概率密度最高的区域。在浅红色、黄色、绿色和青色区域,概率密度继续降低。深蓝色区域是最低的。

目录
相关文章
|
Linux
linux下搭建tftp服务器教程
在Linux中搭建TFTP服务器,需安装`tftp-server`(如`tftpd-hpa`)。步骤包括:更新软件包列表,安装`tftpd-hpa`,启动并设置开机自启,配置服务器(编辑`/etc/default/tftpd-hpa`),添加选项,然后重启服务。完成后,可用`tftp`命令进行文件传输。例如,从IP`192.168.1.100`下载`file.txt`: ``` tftp 192.168.1.100 <<EOF binary put file.txt quit EOF ```
688 4
|
虚拟化 芯片 iOS开发
M1/M2芯片Parallels Desktop 18安装使用教程
M1/M2芯片Parallels Desktop 18安装使用教程
1243 0
|
5月前
|
关系型数据库 MySQL 数据库
MySQL用户创建及权限分配的步骤
通过以上步骤可以有效地在 MySQL 中管理不同层次、不同范围内对于数据与结构进行精确控制。
245 20
|
2月前
|
编解码 人工智能 自然语言处理
牛B, 我去,新手小白也能使用InfiniteTalk搭建属于自己的数字人啦 ,真的太简单啦!!!
小华同学带你解锁AI高效工具!InfiniteTalk创新“稀疏帧配音”技术,实现口型、表情、身态协同演进,支持I2V/V2V双模式,确保长视频ID/背景稳定,流畅跨片段衔接,助力课程、宣传、电商等多场景降本增效。
770 6
|
7月前
|
机器学习/深度学习 数据采集 分布式计算
阿里云PAI AutoML实战:20分钟构建高精度电商销量预测模型
本文介绍了如何利用阿里云 PAI AutoML 平台,在20分钟内构建高精度的电商销量预测模型。内容涵盖项目背景、数据准备与预处理、模型训练与优化、部署应用及常见问题解决方案,助力企业实现数据驱动的精细化运营,提升市场竞争力。
1243 0
|
9月前
|
人工智能 API 开发工具
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
GitHub MCP Server是基于Model Context Protocol的服务器工具,提供与GitHub API的无缝集成,支持自动化处理问题、Pull Request和仓库管理等功能。
1907 2
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
|
存储 机器人 API
Nvidia Isaac Sim图形界面 入门教程 2024(3)
本文是Nvidia Isaac Sim图形界面的入门教程,介绍了Isaac Sim GUI的界面组件、基本操作、物体和视角调整方法,并通过实例演示了如何创建和变换物体、构造铰接式物体以及调整环境和视角。
3737 2
|
数据可视化 安全 Cloud Native
AntV 你的保姆级数据可视化解决方案
AntV 你的保姆级数据可视化解决方案
1601 0
|
存储 缓存 数据可视化
如何在 G6VP 可视化平台使用 GraphScope 引擎
如何在 G6VP 可视化平台使用 GraphScope 引擎
1154 0
如何在 G6VP 可视化平台使用 GraphScope 引擎